Start Software und Technologie Datenqualität bei Künstlicher Intelligenz — der Erfolgsfaktor

Datenqualität bei Künstlicher Intelligenz — der Erfolgsfaktor

Datenqualität bei Künstlicher Intelligenz ist entscheidend für präzise und faire Ergebnisse. Die Auswahl und Verarbeitung von Daten spielen eine zentrale Rolle, um Verzerrungen zu vermeiden und den Datenschutz sicherzustellen. Reinhard Heckel, Professor für Maschinelles Lernen an der TU München, erläutert, wie eine hohe Datenqualität den Erfolg von KI-Anwendungen beeinflusst.

Datenqualität bei Künstlicher Intelligenz
Quelle: ©Igor Omilaev | unsplash.com

Welche Rolle spielen Daten beim Trainieren von intelligenten IT-Systemen?

Systeme für Künstliche Intelligenz nutzen Daten als Trainingsbeispiele. Large Language Models wie ChatGPT können nur Fragen zu Themen beantworten, auf die sie trainiert worden sind. Die meisten Informationen, die allgemeine Sprachmodelle zum Training verwenden, sind frei zugängliche Daten aus dem Internet. Je mehr Informationen zu einer Frage vorliegen, desto besser sind die Ergebnisse. Liegen zum Beispiel für ein System, das Schüler bei Mathematikaufgaben helfen soll, viele Texte vor, die Zusammenhänge in der Mathematik beschreiben, ist das Training entsprechend gut. Im Moment wird bei der Auswahl der Daten sehr stark gefiltert. Aus der großen Masse werden nur die guten Informationen für das Training verwendet.

Wie lässt sich bei der Auswahl der Daten verhindern, dass die IT-Systeme rassistische oder sexistische Stereotypen, sogenannte Bias produzieren?

Es ist sehr schwer eine Methode zu entwickeln, die nicht auf klassische Stereotype zurückgreift und unvoreingenommen und fair agiert. Möchte man verhindern, dass es eine Verzerrung der Ergebnisse hinsichtlich der Hautfarbe gibt, ist das relativ einfach. Kommt aber neben der Hautfarbe auch noch das Geschlecht hinzu, können Situationen entstehen, bei denen es nicht mehr möglich ist, dass das Modell gleichzeitig völlig unvoreingenommen in Bezug auf die Hautfarbe und das Geschlecht agiert.
Die meisten Sprachmodelle versuchen deswegen zum Beispiel bei politischen Fragen eine ausgewogene Antwort zu geben und mehrere Perspektiven zu beleuchten. Beim Training auf Grundlage von Medieninhalten werden Medien bevorzugt, die den journalistischen Qualitätskriterien entsprechen. Außerdem wird beim Filtern von Daten darauf geachtet, dass keine Worte vorkommen, die beispielsweise rassistisch oder sexistisch sind.


Anzeige | Trovarit-Academy

KI-WebinarWebinarreihe „KI konkret“ – Praxisnahe Use Cases

In vielen Unternehmen herrscht immer noch große Unsicherheit bei der Frage, ob und wie KI nutzbringend für die eigenen Prozesse eingesetzt werden kann.

Die Webinarreihe „KI konkret“ stellt in mehreren Terminen Use Cases vor, bei denen reale Herausforderungen in unterschiedlichen Unternehmensbereichen durch den Einsatz von KI gelöst werden konnten.

Zu den Aufzeichnungen der Webinar-Reihe KI konkret


In einigen Sprachen gibt es sehr viele Inhalte im Internet, bei anderen deutlich weniger. Wie wirkt sich das auf die Qualität der Ergebnisse aus?

Die Verfügbarkeit von Daten in verschiedenen Sprachen beeinflusst die Datenqualität bei Künstlicher Intelligenz erheblich. Der größte Teil der Daten im Internet ist auf Englisch. Dadurch funktionieren Large Language Models in Englisch am besten. Aber auch für die deutsche Sprache gibt es sehr viele Inhalte. Bei Sprachen hingegen, die nicht so bekannt sind und für die nicht so viele Texte existieren, gibt es weniger Trainingsdaten und die Modelle funktionieren dadurch schlechter.
Wie gut Sprachmodelle in bestimmten Sprachen eingesetzt werden können, lässt sich ganz einfach beobachten, wenn man den sogenannten Skalierungsgesetzen folgt. Dabei wird getestet, ob ein Sprachmodell in der Lage ist, das nächste Wort vorherzusagen. Je mehr Trainingsdaten vorliegen, desto besser fällt das Ergebnis aus. Es wird vorhersagbar besser, und dieser Zusammenhang lässt sich gut durch eine mathematische Gleichung abbilden.

Wie genau muss eine Künstliche Intelligenz in der Praxis sein?

Das hängt sehr vom jeweiligen Anwendungsbereich ab. Bei Fotos beispielsweise, die mithilfe von intelligenten Algorithmen nachbearbeitet werden, kommt es nicht darauf an, ob am Ende jedes Haar an der richtigen Stelle ist. Es reicht oft, wenn ein Bild am Ende gut aussieht. Auch bei Large Language Models ist es zunächst wichtig, dass die Fragen gut beantwortet werden. Ob Details fehlen oder unstimmig sind, spielt nicht immer eine Rolle. In medizinischen Bildverarbeitungen ist es allerdings enorm wichtig, dass wirklich jedes Detail von einem erzeugten Bild stimmt. Nutze ich intelligente Systeme für Diagnosen, müssen diese absolut richtig sein.

Der Datenschutz wird bei Künstlicher Intelligenz oft kritisiert. Wie lässt sich sicherstellen, dass persönliche Daten insbesondere im medizinischen Kontext geschützt werden?

Bei den meisten medizinischen Anwendungen werden anonymisierte Daten von Patientinnen und Patienten verwendet. Die eigentliche Gefahr besteht nun darin, dass es Situationen gibt, in denen man aus den Daten doch Rückschlüsse ziehen kann. Zum Beispiel lässt sich anhand von Daten aus der Magnetresonanztomographie oder der Computertomographie oft das Alter oder das Geschlecht zurückverfolgen. Es stecken also einige eigentlich anonymisierte Informationen in den Daten. Hier ist es wichtig, die Patientinnen und Patienten ausreichend aufzuklären.

Welche weiteren Schwierigkeiten gibt es beim Training intelligenter Systeme für die Medizin?

Die Sammlung von Daten, die unterschiedliche Situationen und Szenarien abbilden, ist eine wesentliche Herausforderung für die Datenqualität bei Künstlicher Intelligenz. Künstliche Intelligenz funktioniert am besten, wenn die Situationen, auf die sie angewendet wird, denen der Trainingsdaten ähnlich sind. Allerdings unterscheiden sich die Daten von Krankhaus zu Krankenhaus zum Beispiel im Hinblick auf die Patientenzusammensetzung oder die Apparaturen, die Daten generieren. Um das Problem zu lösen, gibt es zwei Möglichkeiten: Entweder es gelingt uns die Algorithmen zu verbessern oder wir müssen unsere Daten so optimieren, dass sie auch besser auf andere Situationen angewendet werden können. Jf


Im Interview

Quelle: ©Technischen Universität München

Prof. Reinhard Heckel forscht an der Technischen Universität München über Maschinelles Lernen. Er entwickelt theoretische Grundlagen und Algorithmen  für Deep Learning. Ein Fokus liegt dabei auf der medizinischen Bildverarbeitung. Darüber hinaus entwickelt er Varianten der DNA-Datenspeicherung. Außerdem ist er Mitglied des Munich Data Science Institutes und des Munich Center for Machine Learning.