Expert*innen-Statements
„Die Zusammenarbeit von Menschen und Maschinen muss neu definiert werden“

Wenn immer es um Fairness oder ethisch relevante Entscheidungen geht, wird es für Künstliche Intelligenz (KI) schwierig. „Ein Algorithmus hat kein Taktgefühl“ (Heyne Verlag, 2019), so drückt Prof. Dr. Katharina Zweig es mit dem Titel ihres aktuellen SPIEGEL‑Bestsellers passend aus. Bei der Produktion schriftlicher Informationen birgt KI unfassbare Chancen. Ohne menschliche Reflexion birgt sie jedoch auch die Gefahr, Stereotype zu reproduzieren und – was die Auswahl von Begrifflichkeiten zum Beispiel in Bezug auf Geschlecht und Ethnizität angeht – diskriminierend zu wirken. Letztendlich erinnern Deep learning und KI sehr an die Erziehung eines Kindes: Was es nicht weiß, das muss man ihm beibringen. Die Daten, mit denen KI trainiert wird, sind dabei selbst mit Vorurteilen behaftet. Welche Arten von Bias lassen sich in Texten finden, die mithilfe von KI entstanden? Und welche Lösungsansätze gibt es, um Realitätsverzerrungen abzuschwächen oder gar zu vermeiden? Darüber haben wir mit fünf Expert*innen aus Großbritannien, Deutschland, den Niederlanden und der Schweiz gesprochen.
Von Stephanie Hesse
Prof. Dr. Mascha Kurpicz-Briki

Wenn KI über Menschen entscheidet und die Stereotype der Gesellschaft enthält oder gar verstärkt, kann es zu einer starken und systematischen Diskriminierung kommen, wenn solche Systeme eingesetzt werden.
Die Lösung ist sehr herausfordernd, einerseits auf Grund der schwierigen Definition von Fairness und andererseits aufgrund der technischen Umsetzung, die noch in der Forschung steckt. Daher ist es wichtig, sich dieser Problematik bewusst zu sein, und die richtigen Fragen zu stellen – sowohl bei der Wahl der Trainingsdaten als auch beim Einsatz der Software. Die Zusammenarbeit von Menschen und Maschinen muss neu definiert werden, und die KI soll eine Entscheidungshilfe sein, nicht aber den Menschen ersetzen. Wir reden in diesem Zusammenhang auch von Augmented Intelligence statt Artificial Intelligence.
Uli Köppen
Uli Köppen: Head of AI + Automation Lab | Co-Head of BR Data. Sie beschäftigt sich mit dem Einsatz Künstlicher Intelligenz im Datenjournalismus.
| © Lisa Hinder, BR
Algorithmen haben dabei das Potenzial, vorhandene Biases (Vorurteile, falsche Gewichtungen) durch sogenannte Skalierungseffekte zu verstärken. KI‑Sprachmodelle können zum Beispiel Bias verstärken, insbesondere wenn die genutzten Trainingstexte bereits solche Schieflagen enthalten. Wenn etwa gendergerechte Sprache selten benutzt wird, kann dieser Effekt durch Algorithmen bei der automatischen Textproduktion verstärkt werden. Einige Beispiele für Bias finden sich auch in der automatischen Übersetzung, wenn dort Geschlechterklischees, etwa die Übersetzung von „nurse“ als „Krankenschwester“, reproduziert werden.
Wichtig ist daher, dass sich jede Branche, die Algorithmen einsetzt, der Schwierigkeiten bewusst ist, die diese Technologie mit sich bringt. Der Bayerische Rundfunk (BR) hat sich daher eigene KI‑Richtlinien gegeben, an denen wir uns orientieren. Das bewahrt natürlich nicht vor Fehlern und blinden Flecken, erhöht aber das Problembewusstsein.
Wir im AI + Automation Lab, bei BR Data und BR Recherche betrachten beide Seiten der Medaille beim Einsatz dieser Technologie: Wir versuchen mit investigativer Berichterstattung zu Algorithmen eine Debatte zu bereichern, wo und wie wir als Gesellschaft KI einsetzen wollen und blicken auch kritisch auf diese Technologie.
Gleichzeitig setzen wir KI und Automatisierung ein, um unsere Kolleg*innen bei der Arbeit zu unterstützen und unseren User*innen den bestmöglichen Journalismus zu bieten. Dabei bietet der Einsatz von Algorithmen auch die Chance, dem Journalismus selbst den Spiegel vorzuhalten und auf mögliche Diskriminierung zu überprüfen. Etwa das Projekt Aijo der London School of Economics, bei dem Medien aus der gesamten Welt ihre eigenen Webauftritte auf Diversität untersucht und mit algorithmischer Hilfe festgestellt haben, dass etwa Frauen und People of Colour unterrepräsentiert sind in der Berichterstattung.
Automatisierung ist eine Methode – wo und wie man sie einsetzt, entscheidet darüber, ob sie beim Entdecken von Vorurteilen hilft oder Vorurteile unter Umständen sogar noch verstärkt.
Dr. Phil. Aljosha Burchardt

Die Systeme agieren, wenn man so will, rein syntaktisch. Sie haben keinen weiteren Zugang zur Welt als über die Daten. Vor allem fehlt ihnen die Möglichkeit der (korrigierenden) Meta‑Reflexion: Ein schwaches KI‑System kann sich nicht fragen: „Was tu ich hier eigentlich gerade?“
Entweder kann man durch geeignete Daten (beispielsweise synthetische) Bias weitgehend vermeiden oder man bedient sich des „Human‑In‑The‑Loop“, also der menschlichen Interaktion im Zuge der Datenvorbereitung. Irgendwann in der Zukunft haben wir vielleicht einmal hybride KI‑Systeme, bei denen man sinnvollen Zugriff auf ihr „Wissen“ hat.
Der Einsatz von KI kann uns helfen, die Welt inklusiver zu machen: Sie kann übersetzen, nicht nur zwischen verschiedenen Sprachen, sondern auch zum Beispiel in Leichte Sprache oder Gebärdensprache. KI kann Informationen zielgruppenspezifisch suchen und aufbereiten. Dadurch bieten sich viele Möglichleiten, Menschen in den (digitalen) Diskurs mitzunehmen, die heute außen vor sind.
Dr. Stefanie Ullmann

Niemand ist völlig frei von Bias und Vorurteilen. Werden diese aber nicht kritisch hinterfragt, sondern durch KI weiterverbreitet und sogar verstärkt, können sie die systematische Diskriminierung und Benachteiligung einzelner Menschen sowie Personengruppen zur Folge haben. Dies wird zu einem immer größeren Problem, wenn wir bedenken, dass die Nutzung von KI bereits die intimsten und persönlichsten Bereiche unseres Lebens durchdringt, sei es in Form von automatisierter Evaluierung von Bewerbungsunterlagen oder Prüfung der Kreditwürdigkeit. Eine ungleiche und falsche Darstellung unserer Gesellschaft in den Datensätzen wird unweigerlich konkrete ungerechte Entscheidungen für die Menschen zufolge haben, die sowieso bereits Ausgrenzung und Diskriminierung erfahren.
Lösungsansätze sind an verschiedenen Stellen möglich. In erster Linie müssen wir die Auswahl und Annotation von Trainingsdaten strenger kontrollieren. Wir müssen mehr Wert auf interdisziplinäre Arbeit und Diversität legen. Aber auch für bereits existierende Probleme, wie beispielsweise Hassrede im Internet, gibt es Lösungen. Meine Kolleginnen und ich haben beispielsweise eine App entwickelt, die verdächtige Nachrichten und Posts automatisch in Quarantäne verschiebt. Der/die Nutzer*in erhält eine Warnung und kann hierbei selbst entscheiden, ob er/sie eine potenziell bedenkliche Nachricht sehen will. Solche Anwendungen sind von Nutzer*innen unabhängig von der Plattform nutzbar.
Laura Hollink

Umstrittene Begriffe in Kulturerbe‑Sammlungen sind in zweierlei Hinsicht problematisch: Erstens ist es möglich, dass Besucher*innen sie als beleidigend erfahren. Diskriminierender Sprachgebrauch unterminiert die Rolle einer Kulturerbe‑Institution als vertrauenswürdige und inklusive Informationsquelle. Zweitens: Für verschiedene Anwendungen von Künstlicher Intelligenz (KI), beispielsweise die automatische Markierung oder Autovervollständigung einer Suchanfrage, werden Daten aus Sammlungen kultureller Erbgüter eingegeben. Werden beim Training eines Sprachmodells umstrittene Begriffe eingeführt, finden sich diese Begriffe auch im Output.
Abhängig von den Anforderungen und der Art der Sammlungen gehen Kulturerbe‑Einrichtungen mit problematischen Begriffen in ihren Kollektionen jeweils anders um. Manche Institutionen haben beschlossen, diese Begriffe nicht zu ändern, um eine authentische Darstellung der historischen Sichtweise zu gewährleisten. Andere Einrichtungen haben diese Begriffe mit Erklärungen versehen und in einigen Fällen durch andere ersetzt. KI kann diesen Prozess unterstützen, weil sie vorhersagt, welche Begriffe in hohem Maß politisch unkorrekt sind. Darin liegt die große Herausforderung, denn es ist subjektiv und vom Kontext abhängig, ob ein Begriff als umstritten aufgefasst wird. Wenn Kulturerbe‑Sammlungen für das Training von KI‑Systemen verwendet werden, ist daher zu berücksichtigen, dass die Daten von (historischen) Sichtweisen geprägt sind. Darauf müssen auch die Nutzer*innen des KI‑Systems ausdrücklich hingewiesen werden.
Das Projekt Culturally Aware AI hat einen ersten Schritt in diese Richtung getan und „ConConCor“, ein Korpus mit umstrittenen Begriffen und ihren Kontexten, angelegt. „ConConCor“ besteht aus 2.715 originalen Textausschnitten aus niederländischen historischen Zeitungen. Jeder Textausschnitt ist mit einer Annotation versehen, die darüber informiert, ob ein Zielbegriff in einem bestimmten Kontext umstritten ist. Mindestens sieben Annotator*innen, Expert*innen wie auch Crowd‑Annotator*innen haben jede Textstelle kommentiert. So wurde eine Tiefenanalyse möglich, die zeigte, inwiefern die Annotator*innen übereinstimmten. Obwohl die grundsätzliche Übereinstimmung niedrig war, waren sich die Annotator*innen bei vielen Textausschnitten einig. Wir haben „ConConCor“ als Trainingsset verwendet, um die Umstrittenheit von Begriffen vorherzusagen. Die ersten Versuche zeitigten vielversprechende Ergebnisse. Sie bestätigten, dass es sowohl von den Begriffen selbst als auch ihrem Kontext abhängt, ob sie umstritten sind. Die Erfassung von umstrittenen Begriffen sehen wir als ersten Schritt, um (historische) Perspektiven in Kulturerbe‑Sammlungen sichtbar zu machen.