Expert*innen-Statements „Die Zusammenarbeit von Menschen und Maschinen muss neu definiert werden“

Von links nach rechts: Prof. Dr. Mascha Kurpicz-Briki, Uli Köppen, Dr. Phil. Aljosha Burchardt, Dr. Stefanie Ullmann, Laura Hollink
Von links nach rechts: Prof. Dr. Mascha Kurpicz-Briki, Uli Köppen, Dr. Phil. Aljosha Burchardt, Dr. Stefanie Ullmann, Laura Hollink | Fotos (Detail): © privat, Uli Köppen: Lisa Hinder, BR

Wenn immer es um Fairness oder ethisch relevante Entscheidungen geht, wird es für Künstliche Intelligenz (KI) schwierig. „Ein Algorithmus hat kein Taktgefühl“ (Heyne Verlag, 2019), so drückt Prof. Dr. Katharina Zweig es mit dem Titel ihres aktuellen SPIEGEL‑Bestsellers passend aus. Bei der Produktion schriftlicher Informationen birgt KI unfassbare Chancen. Ohne menschliche Reflexion birgt sie jedoch auch die Gefahr, Stereotype zu reproduzieren und – was die Auswahl von Begrifflichkeiten zum Beispiel in Bezug auf Geschlecht und Ethnizität angeht – diskriminierend zu wirken. Letztendlich erinnern Deep learning und KI sehr an die Erziehung eines Kindes: Was es nicht weiß, das muss man ihm beibringen. Die Daten, mit denen KI trainiert wird, sind dabei selbst mit Vorurteilen behaftet. Welche Arten von Bias lassen sich in Texten finden, die mithilfe von KI entstanden? Und welche Lösungsansätze gibt es, um Realitätsverzerrungen abzuschwächen oder gar zu vermeiden? Darüber haben wir mit fünf Expert*innen aus Großbritannien, Deutschland, den Niederlanden und der Schweiz gesprochen.
 

Von Stephanie Hesse

Prof. Dr. Mascha Kurpicz-Briki

Prof. Dr. Mascha Kurpicz-Briki Prof. Dr. Mascha Kurpicz-Briki: Professorin für Data Engineering an der Berner Fachhochschule BFH. Zu ihren Fachgebieten zählen unter anderem die Bereiche Fairness and Diversity sowie AI for Social Good. | © privat Wenn wir von Künstlicher Intelligenz (KI) sprechen, sind oftmals Techniken des maschinellen Lernens gemeint, wobei die Software basierend auf Trainingsdaten lernt und dadurch selbst Entscheidungen treffen kann. Studien haben gezeigt, dass Sprachmodelle (zum Beispiel Wortvektoren, bei denen inhaltlich ähnliche Worte nahe beieinander sind), die auf große Textsammlungen trainiert wurden, Stereotype der Gesellschaft enthalten – einerseits auf Englisch, aber auch für europäische Sprachen wie Deutsch oder Französisch. Solche Sprachmodelle werden oftmals zur automatischen Verarbeitung von Texten verwendet oder als Grundlage zur Entwicklung von Software. Es konnte beispielsweise gezeigt werden, dass es Unterschiede zwischen Frauen und Männern gibt oder bei der Herkunft des Vornamens. Das wirkt sich dann potenziell auch auf die Entscheidungen der KI aus.

Wenn KI über Menschen entscheidet und die Stereotype der Gesellschaft enthält oder gar verstärkt, kann es zu einer starken und systematischen Diskriminierung kommen, wenn solche Systeme eingesetzt werden.

Die Lösung ist sehr herausfordernd, einerseits auf Grund der schwierigen Definition von Fairness und andererseits aufgrund der technischen Umsetzung, die noch in der Forschung steckt. Daher ist es wichtig, sich dieser Problematik bewusst zu sein, und die richtigen Fragen zu stellen – sowohl bei der Wahl der Trainingsdaten als auch beim Einsatz der Software. Die Zusammenarbeit von Menschen und Maschinen muss neu definiert werden, und die KI soll eine Entscheidungshilfe sein, nicht aber den Menschen ersetzen. Wir reden in diesem Zusammenhang auch von Augmented Intelligence statt Artificial Intelligence.

Uli Köppen

Uli Köppen Uli Köppen: Head of AI + Automation Lab | Co-Head of BR Data. Sie beschäftigt sich mit dem Einsatz Künstlicher Intelligenz im Datenjournalismus. | © Lisa Hinder, BR

Algorithmen im Journalismus sind längst angekommen. Methoden der künstlichen Intelligenz und der Automatisierung werden in nahezu allen Bereichen des News‑Zyklus genutzt – wenn auch derzeit noch nicht von jedem Medienhaus.

Algorithmen haben dabei das Potenzial, vorhandene Biases (Vorurteile, falsche Gewichtungen) durch sogenannte Skalierungseffekte zu verstärken. KI‑Sprachmodelle können zum Beispiel Bias verstärken, insbesondere wenn die genutzten Trainingstexte bereits solche Schieflagen enthalten. Wenn etwa gendergerechte Sprache selten benutzt wird, kann dieser Effekt durch Algorithmen bei der automatischen Textproduktion verstärkt werden. Einige Beispiele für Bias finden sich auch in der automatischen Übersetzung, wenn dort Geschlechterklischees, etwa die Übersetzung von „nurse“ als „Krankenschwester“, reproduziert werden.

Wichtig ist daher, dass sich jede Branche, die Algorithmen einsetzt, der Schwierigkeiten bewusst ist, die diese Technologie mit sich bringt. Der Bayerische Rundfunk (BR) hat sich daher eigene KI‑Richtlinien gegeben, an denen wir uns orientieren. Das bewahrt natürlich nicht vor Fehlern und blinden Flecken, erhöht aber das Problembewusstsein.

Wir im AI + Automation Lab, bei BR Data und BR Recherche betrachten beide Seiten der Medaille beim Einsatz dieser Technologie: Wir versuchen mit investigativer Berichterstattung zu Algorithmen eine Debatte zu bereichern, wo und wie wir als Gesellschaft KI einsetzen wollen und blicken auch kritisch auf diese Technologie.

Gleichzeitig setzen wir KI und Automatisierung ein, um unsere Kolleg*innen bei der Arbeit zu unterstützen und unseren User*innen den bestmöglichen Journalismus zu bieten. Dabei bietet der Einsatz von Algorithmen auch die Chance, dem Journalismus selbst den Spiegel vorzuhalten und auf mögliche Diskriminierung zu überprüfen. Etwa das Projekt Aijo der London School of Economics, bei dem Medien aus der gesamten Welt ihre eigenen Webauftritte auf Diversität untersucht und mit algorithmischer Hilfe festgestellt haben, dass etwa Frauen und People of Colour unterrepräsentiert sind in der Berichterstattung.

Automatisierung ist eine Methode – wo und wie man sie einsetzt, entscheidet darüber, ob sie beim Entdecken von Vorurteilen hilft oder Vorurteile unter Umständen sogar noch verstärkt.

Dr. Phil. Aljosha Burchardt

Dr. Phil. Aljosha Burchardt Dr. Phil. Aljosha Burchardt: Deutsches Forschungszentrum für Künstliche Intelligenz. Er beschäftigt sich unter anderem mit der Frage, wie Technologie der sozialen Inklusion dienen kann. | © privat Bias ist vielschichtig, KI kann „zufällig“ Bias produzieren, sehr viel wahrscheinlicher ist es allerdings, dass KI‑Systeme den menschlichen Bias, der in den Daten steckt, reproduzieren.
Die Systeme agieren, wenn man so will, rein syntaktisch. Sie haben keinen weiteren Zugang zur Welt als über die Daten. Vor allem fehlt ihnen die Möglichkeit der (korrigierenden) Meta‑Reflexion: Ein schwaches KI‑System kann sich nicht fragen: „Was tu ich hier eigentlich gerade?“
Entweder kann man durch geeignete Daten (beispielsweise synthetische) Bias weitgehend vermeiden oder man bedient sich des „Human‑In‑The‑Loop“, also der menschlichen Interaktion im Zuge der Datenvorbereitung. Irgendwann in der Zukunft haben wir vielleicht einmal hybride KI‑Systeme, bei denen man sinnvollen Zugriff auf ihr „Wissen“ hat.

Der Einsatz von KI kann uns helfen, die Welt inklusiver zu machen: Sie kann übersetzen, nicht nur zwischen verschiedenen Sprachen, sondern auch zum Beispiel in Leichte Sprache oder Gebärdensprache. KI kann Informationen zielgruppenspezifisch suchen und aufbereiten. Dadurch bieten sich viele Möglichleiten, Menschen in den (digitalen) Diskurs mitzunehmen, die heute außen vor sind.

Dr. Stefanie Ullmann

Dr. Stefanie Ullmann Dr. Stefanie Ullmann: Wissenschaftliche Mitarbeiterin des Projekts „Giving Voice to Digital Democracies“ (University of Cambridge), das an einer Quarantäne-App für Hassrede im Internet arbeitet. Diese App zeigt – ähnlich wie ein Spamfilter – eine Warnung an, bevor eine Nachricht mit potenziell „gefährlichem“ Inhalt gelesen wird. | © privat Um einen Algorithmus oder ein Sprachsystem erfolgreich zu trainieren, benötigt es große Datenmengen natürlicher Sprache. Diese werden zumeist mehr oder weniger blind aus dem Internet extrahiert. Die schiere Masse an Daten macht es praktisch unmöglich nachzuvollziehen, welche Inhalte sowie mögliche Bias sich in den Daten verstecken. Auch durch den sogenannten Annotationsprozess – also die Kennzeichnung von Daten vor ihrer Verarbeitung – können Bias entstehen: Bedingt durch die Komplexität menschlicher Sprache wird die Annotation von Daten noch immer primär manuell und von sogenannten Crowdworkern durchgeführt. Dabei handelt es sich meist um Solo‑Selbständige, die massenhaft Mikrojobs annehmen, zum Beispiel die Eingabe von Daten oder das Redigieren von kurzen Texten. Eine korrekte Annotation von Testdaten ist zum Beispiel im Bereich der automatisierten Erkennung von Hassrede von großer Bedeutung. Leider kommt es im Englischen immer wieder dazu, dass gängige Ausdrücke des afroamerikanischen Englisch inkorrekt als Hassrede deklariert werden. Dies liegt daran, dass Crowdworker, die diese Arbeit machen, selten bis nie afroamerikanischer Herkunft sind oder Erfahrungen mit dieser Sprachvariante haben. Letztlich können bestehende Bias auch durch den Trainingsprozess zusätzlich verstärkt werden. Sollte zum Beispiel in einem Datensatz das Thema Kochen häufig in direkter Verbindung mit Frauen vorkommen, ist es möglich, dass der Algorithmus dieses Ungleichgewicht nicht nur aufgreift, sondern so sehr verstärkt, dass eine Sprachanwendung ausschließlich Frauen und Kochen verbindet. Dadurch werden bereits bestehende Vorurteile und Stereotype intensiviert.

Niemand ist völlig frei von Bias und Vorurteilen. Werden diese aber nicht kritisch hinterfragt, sondern durch KI weiterverbreitet und sogar verstärkt, können sie die systematische Diskriminierung und Benachteiligung einzelner Menschen sowie Personengruppen zur Folge haben. Dies wird zu einem immer größeren Problem, wenn wir bedenken, dass die Nutzung von KI bereits die intimsten und persönlichsten Bereiche unseres Lebens durchdringt, sei es in Form von automatisierter Evaluierung von Bewerbungsunterlagen oder Prüfung der Kreditwürdigkeit. Eine ungleiche und falsche Darstellung unserer Gesellschaft in den Datensätzen wird unweigerlich konkrete ungerechte Entscheidungen für die Menschen zufolge haben, die sowieso bereits Ausgrenzung und Diskriminierung erfahren.

Lösungsansätze sind an verschiedenen Stellen möglich. In erster Linie müssen wir die Auswahl und Annotation von Trainingsdaten strenger kontrollieren. Wir müssen mehr Wert auf interdisziplinäre Arbeit und Diversität legen. Aber auch für bereits existierende Probleme, wie beispielsweise Hassrede im Internet, gibt es Lösungen. Meine Kolleginnen und ich haben beispielsweise eine App entwickelt, die verdächtige Nachrichten und Posts automatisch in Quarantäne verschiebt. Der/die Nutzer*in erhält eine Warnung und kann hierbei selbst entscheiden, ob er/sie eine potenziell bedenkliche Nachricht sehen will. Solche Anwendungen sind von Nutzer*innen unabhängig von der Plattform nutzbar.

Laura Hollink

Laura Hollink Laura Hollink: Leitung der Forschungsgruppe Human-Centered Data Analytics am Centrum voor Wiskunde & Informatica. Sie arbeitet über Künstliche Intelligenz im Kontext des Kulturerbes. | © privat In Institutionen für kulturelles Erbe befinden sich umfangreiche Sammlungen (historischer) kultureller Objekte und Dokumente aus verschiedenen Zeiträumen. Diese Sammlungen repräsentieren die kulturellen und sozialen Normen der Zeit, in der sie geschaffen, gesammelt und beschrieben wurden. Sowohl in den Objekten des Kulturerbes als auch in den Metadaten können Begriffe enthalten sein, die in der modernen Gesellschaft nicht mehr akzeptabel sind, beispielsweise der Begriff „Halbblut“ für jemanden mit gemischter Herkunft.

Umstrittene Begriffe in Kulturerbe‑Sammlungen sind in zweierlei Hinsicht problematisch: Erstens ist es möglich, dass Besucher*innen sie als beleidigend erfahren. Diskriminierender Sprachgebrauch unterminiert die Rolle einer Kulturerbe‑Institution als vertrauenswürdige und inklusive Informationsquelle. Zweitens: Für verschiedene Anwendungen von Künstlicher Intelligenz (KI), beispielsweise die automatische Markierung oder Autovervollständigung einer Suchanfrage, werden Daten aus Sammlungen kultureller Erbgüter eingegeben. Werden beim Training eines Sprachmodells umstrittene Begriffe eingeführt, finden sich diese Begriffe auch im Output.

Abhängig von den Anforderungen und der Art der Sammlungen gehen Kulturerbe‑Einrichtungen mit problematischen Begriffen in ihren Kollektionen jeweils anders um. Manche Institutionen haben beschlossen, diese Begriffe nicht zu ändern, um eine authentische Darstellung der historischen Sichtweise zu gewährleisten. Andere Einrichtungen haben diese Begriffe mit Erklärungen versehen und in einigen Fällen durch andere ersetzt. KI kann diesen Prozess unterstützen, weil sie vorhersagt, welche Begriffe in hohem Maß politisch unkorrekt sind. Darin liegt die große Herausforderung, denn es ist subjektiv und vom Kontext abhängig, ob ein Begriff als umstritten aufgefasst wird. Wenn Kulturerbe‑Sammlungen für das Training von KI‑Systemen verwendet werden, ist daher zu berücksichtigen, dass die Daten von (historischen) Sichtweisen geprägt sind. Darauf müssen auch die Nutzer*innen des KI‑Systems ausdrücklich hingewiesen werden.

Das Projekt Culturally Aware AI hat einen ersten Schritt in diese Richtung getan und „ConConCor“, ein Korpus mit umstrittenen Begriffen und ihren Kontexten, angelegt. „ConConCor“ besteht aus 2.715 originalen Textausschnitten aus niederländischen historischen Zeitungen. Jeder Textausschnitt ist mit einer Annotation versehen, die darüber informiert, ob ein Zielbegriff in einem bestimmten Kontext umstritten ist. Mindestens sieben Annotator*innen, Expert*innen wie auch Crowd‑Annotator*innen haben jede Textstelle kommentiert. So wurde eine Tiefenanalyse möglich, die zeigte, inwiefern die Annotator*innen übereinstimmten. Obwohl die grundsätzliche Übereinstimmung niedrig war, waren sich die Annotator*innen bei vielen Textausschnitten einig. Wir haben „ConConCor“ als Trainingsset verwendet, um die Umstrittenheit von Begriffen vorherzusagen. Die ersten Versuche zeitigten vielversprechende Ergebnisse. Sie bestätigten, dass es sowohl von den Begriffen selbst als auch ihrem Kontext abhängt, ob sie umstritten sind. Die Erfassung von umstrittenen Begriffen sehen wir als ersten Schritt, um (historische) Perspektiven in Kulturerbe‑Sammlungen sichtbar zu machen.