Datenjournalismus Auf der Jagd nach verborgenen Mustern

„Bounding Boxes“, die Max Gruber hier künstlerisch humorvoll dargestellt hat
Sieht so der von Künstlicher Intelligenz (KI) gestützte Journalismus aus? Jein: KI kann Objekte, Texte oder Ähnliches automatisch erkennen. Journalist*innen dient dieses Verfahren beispielsweise für die investigative Recherche. Typisch für die „Object recognition“ sind die sogenannten „Bounding Boxes“, die Max Gruber hier künstlerisch humorvoll dargestellt hat. | Foto (Detail): Max Gruber © Better Images of AI / Ceci n'est pas une banane / CC-BY 4.0

Künstliche Intelligenz (KI) spielt im Journalismus schon heute eine wichtige Rolle: Algorithmen finden Geschichten in großen Datensätzen und erzeugen automatisch Tausende Texte. Schon bald könnte KI zu einer kritischen Infrastruktur der Medienproduktion werden.

„Ich werde unermüdlich arbeiten, um Sie zu informieren“, gehörte zu den ersten Worten des Nachrichtensprechers, den China 2018 bei der eigenen World Internet Conference vorstellte. „Unermüdlich“ konnte man in diesem Fall wörtlich nehmen, denn bei dem Sprecher handelte es sich nicht um einen Menschen, sondern um eine Ansammlung durch Künstliche Intelligenz (KI) berechneter Video‑Frames und Audio‑Daten.

Was wie Science-Fiction klingt, wird nicht nur in China erprobt, auch in Europa arbeiten Medien und Unternehmen an automatisiertem Moderationspersonal. Zusammen mit dem Londoner Startup Synthesia entwickelte die Nachrichtenagentur Reuters den Prototyp eines KI‑Sportmoderators. Dieser liefere Spielzusammenfassungen, ohne dass ein Mensch Moderationstexte schreiben oder diese vor der Kamera präsentieren müsse.

Werden Journalist*innen also bald durch KI‑Algorithmen ersetzt? Wohl kaum. „Das Beste und Schlimmste, was man sich vorstellen kann, ist ein KI‑System, das Artikel schreibt“, sagte Abishek Prasad von der indischen HT Media Group Anfang Dezember 2021 auf einem Panel mit dem Titel Die Zukunft von KI im Journalismus beim JournalismAI‑Festival der London School of Economics and Political Science (LSE).
Diese Einschätzung teilen viele in der Branche. Die Arbeit von Medienschaffenden ist vielfältig und erfordert oft Empathie, Spontaneität und Kreativität – Fähigkeiten, über die KI‑Systeme in absehbarer Zukunft nicht oder nur in sehr eingeschränkter Weise verfügen werden. Trotzdem spielt KI im Journalismus eine immer größere Rolle. Anstatt Medienschaffende zu ersetzen, unterstützt und beschleunigt sie die Recherche, Produktion und Distribution von Medieninhalten, übernimmt gleichförmige, wiederkehrende Aufgaben und schafft so in Redaktionen Freiräume für Kreativität. Außerdem hat KI das Potenzial, die journalistische Arbeit mit Daten zu revolutionieren.

KI kann helfen, Berichtenswertes zu entdecken

Wer beim Wort „Datenjournalismus“ an die Auswertung kleinerer oder größerer Tabellen denkt, liegt in den meisten Fällen richtig. Eine der zeitintensivsten Aufgaben von Datenjournalist*innen besteht darin, Datensätze so zu strukturieren, dass sich darin erzählenswerte Zusammenhänge finden lassen. KI ergänzt diesen Workflow, erkennt Muster in Datenmengen und kann direkt aus den Daten Texte produzieren.

Große Nachrichtenagenturen wie Thomson Reuters, Bloomberg und AP lassen Algorithmen riesige Datensätze durchforsten auf der Suche nach allem, was berichtenswert erscheint: sich auffällig verändernde Aktienkurse, sonstige Marktbewegungen oder auch hervorstechende Social‑Media‑Kommentare. Bloomberg nutzt ein ganzes Potpourri von KI‑Werkzeugen zum automatisierten Schreiben von News‑Storys über Finanzthemen. Sogenannte Named‑Entity‑Recognition‑Algorithmen erkennen Personen, Unternehmen und Organisationen in Texten und automatische Sentiment‑Analysen liefern eine Einschätzung, wie positiv oder negativ eine Nachricht für ein Unternehmen sein könnte.

Solche KI‑Tools können Journalist*innen dabei helfen, den Überblick zu behalten und wichtige Ereignisse früh zu erkennen.

KI zeigt Überwachungsflüge, Solarzellen und fremde Tweets

KI‑Mustererkennung kann investigativ arbeitenden Journalist*innen auch dabei helfen, große und komplexe Datensätze anhand von Thesen auszuwerten: Buzzfeed News entdeckte mit KI die Flugroutinen geheimer US‑Überwachungsflugzeuge, La Nación Argentina zählte argentinische Solar‑Farmen in Satellitenbildern. Und The Atlantic programmierte einen Twitter‑Bot, der mithilfe von maschinellem Lernen und natürlicher Sprachverarbeitung abschätzte, welche Tweets Donald Trump selbst schrieb und welche seine Mitarbeiter*innen.

Besonders nützlich ist KI für Recherchen mit großen Bilddatensätzen: Reporter*innen des Bayerischen Rundfunks (BR), des Norddeutschen Rundfunks (NDR) und des Westdeutschen Rundfunks (WDR) nutzten eine Bilderkennungs‑KI, um Hasssymbole wie SS‑Runen und Hitlerbilder auf Facebook zu finden. Dem Recherche‑Team der Panama Papers half optische Zeichenerkennung (optical character recognition, OCR) in ähnlicher Weise bei der Umwandlung von eingescannten Ausweisen und Verträgen in maschinenlesbare Text‑Daten.

Sport, Börse, Crime – Algorithmen schreiben schon heute Tausende Texte

Dabei verändern KI‑Algorithmen nicht nur die Auswertung, sondern auch das Schreiben von Geschichten, die auf Daten basieren. „Wir haben die einzige automatisierte Nachrichtenagentur der Welt gegründet“, behauptet das britische Unternehmen RADAR auf der eigenen Webseite. Wer im Vereinigten Königreich Lokalnachrichten konsumiere, habe mit einiger Wahrscheinlichkeit bereits Artikel gelesen, die von der Unternehmens‑KI automatisch erstellt worden seien, denn man beliefere täglich Hunderte von Nachrichten‑Websites, Zeitungen und Radiostationen im ganzen Land. Nach eigenen Angaben schreiben sechs Mitarbeiter*innen jede Woche KI‑gestützt circa 3.000 Artikel. Das macht rechnerisch gut 70 Texte pro Tag und Person.

Um diese gewaltige Schlagzahl gewährleisten zu können, setzt RADAR auf Datenjournalismus, der sich regional herunterbrechen lässt. So werden aus wenigen Geschichten im Handumdrehen einige Hundert. 

„Humans-in-the-Loop“ sparen durch KI Zeit und Nerven

Das klappt nicht nur für Lokalnachrichten: Wir vom AI + Automation Lab des Bayerischen Rundfunks (BR) haben zusammen mit der Sportredaktion des BR und der Technischen Universität München ein System entwickelt, das Berichte für Basketball‑Vorrundenspiele erstellt. Die Anwendung erzeugt aus Ergebnisdaten, Spielplänen, Tabellenständen und den Wurfstatistiken der Spieler*innen automatisch Texte, die von den Sportredakteur*innen vor Veröffentlichung überprüft und, falls nötig, bearbeitet werden können. Dadurch sparen die Redakteur*innen Zeit und die redaktionelle Faktenprüfung durch Menschen ist weiterhin gewährleistet – und nötig.

Text‑Automatisierung dieser Art kann Menschen nicht ersetzen, denn sie funktioniert nur dort, wo regelmäßig vorhersehbare, klar strukturierte Daten anfallen: in der Wirtschaft, im Sport oder bei der Kriminalitätsberichterstattung.

Daten können zum Risiko werden

KI-Algorithmen unterstützen Journalist*innen bei ihrer Arbeit und schaffen Angebote, die es ohne sie nicht geben würde, doch die Systeme sind nicht risikofrei. Denn KI macht das, was alle Algorithmen tun: klassifizieren, sortieren, scoren. Dabei liegen die Systeme nicht immer richtig. Bei Recherchen ist das bisweilen unproblematisch, weil KI besonders dort zum Einsatz kommt, wo ein paar falsch klassifizierte Bilder, Tweets oder Dokumente verkraftbar sind und in der Einzelüberprüfung entdeckt werden können.

Die Gefahr lauert dort, wo Daten über Menschen ausgewertet werden. Die Paywall des Wall Street Journal (WSJ) nutzt Machine‑Learning‑Algorithmen, die Variablen wie die Besuchshäufigkeit, verwendete Geräte und konsumierte Inhalte erfassen, bewerten und daraus für Leser*innen eine Abo‑Wahrscheinlich berechnen. Diese Wahrscheinlichkeit beeinflusst die Anzahl kostenloser Texte, die jede*r Leser*in ansehen darf. Obwohl die Diskriminierungsgefahr wie in diesem Beispiel in den meisten Fällen überschaubar sein dürfte, nehmen viele Medien die eigenen KI‑Systeme besonders kritisch in den Blick: Der BR hat sich Ethik‑Richtlinien gegeben, anhand derer jede KI eingeschätzt werden soll. Zu den Bewertungskriterien gehören der verantwortliche Umgang mit Ressourcen, die sparsame Erhebung von Daten, deren sichere Speicherung und die redaktionelle Kontrolle über Systeme: „Auch bei automated journalism und Datenjournalismus liegt die publizistische Verantwortung bei den Redaktionen.“ Diese sollten automatisch generierte Medieninhalte kontrollieren und außerdem die Plausibilität von Datenstrukturen und Datenquellen kritisch prüfen.   

Manche KI-Modelle belasten die Umwelt

Auch die niederländische Schibsted‑Gruppe hat ein Framework zur Risikobewertung der eigenen KI‑Systeme entwickelt: FAST steht für Fairness, Accountability, Sustainability und Transparency, wobei mit „Sustainability“ soziale und auch ökologische Nachhaltigkeit gemeint ist. Daher überprüfe man neue KI‑Modelle auch auf deren CO2‑Bilanz. Diese Überlegung hat gute Gründe: Das Trainieren mancher KI‑Modelle verbraucht so viel Energie wie mehrere Autos während ihrer gesamten Betriebsdauer.

KI werde enorme Auswirkungen auf den Journalismus haben, sagte Agnes Stenbom, Data & AI Spezialistin bei Schibsted, im Dezember 2021 beim JournalismAI‑Festival: „Ich glaube, dass wir darüber als Infrastruktur sprechen werden.“ So ähnlich sei es auch nach der Erfindung der Elektrizität gewesen. Diese habe anfangs bei vielen Menschen diffuse Ängste ausgelöst. „Aber heute gehen wir in einen Raum und drücken einen Knopf, und wenn dieser Knopf nicht funktioniert, sind wir frustriert.“ Eine vergleichbare Art der Integration von KI in die alltägliche Arbeit von Journalist*innen sei wahrscheinlich.

Eigene KI-Teams werden zunehmend wichtiger

Woher diese Infrastruktur kommt, wird sich bald zeigen. Das chinesische Start‑up Xinhua Zhiyun experimentiert nicht nur mit KI‑Nachrichtensprecher*innen. Zum Repertoire gehören auch Roboter, die laut Aussage des Unternehmens völlig eigenständig kurze Videoclips filmen und schneiden. Außerdem habe eine andere KI des Unternehmens, das sogenannte Media Brain, allein bei der Fußballweltmeisterschaft 2018 über 37.000 Nachrichtenclips produziert, die millionenfach geklickt worden seien. Das zeigt, wie wichtig es ist, dass auch europäische Medien ihre eigenen KI‑Teams und Kompetenzen aufbauen – sowohl im Programmier- und Softwarebereich als auch in der journalistischen, ethischen und rechtlichen Bewertung von KI.