Unternehmen reden viel über die Auswirkungen von Künstlicher Intelligenz und Machine Learning, aber wenig über die Qualität der Apps. Die wiederum hängt in erster Linie vom Dateninput ab. Der IT-Dienstleister Aparavi erklärt den Erfolgshebel der Datenqualität.
Der Hype um generative Künstliche Intelligenz konzentriert sich in erster Linie auf Ethik und Sicherheit. Das greift viel zu kurz. Beide Aspekte drehen sich um Probleme der richtigen Anwendung von Künstlicher Intelligenz und Machine Learning, unterschlagen dabei aber die alles entscheidende Frage der Qualität der Anwendung. Diese wiederum hängt in erster Linie von der Qualität der Daten ab, mit denen die Algorithmen trainiert werden. Genau daran hapert es allerdings viel zu oft.
Üblicherweise sind bis zu 80 Prozent der dafür in Frage kommenden Daten unstrukturiert. Dort verstecken sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern eben auch wichtige, hochwertige Informationen. Daher ist es sinnvoll und notwendig, diese Datenbestände vorab zu klassifizieren, zu bereinigen und zu strukturieren. Aparavi, Anbieter von Lösungen zur Verwaltung unstrukturierter Daten, erklärt, wie wichtig eine saubere Datenbasis für Künstliche Intelligenz ist.
1. Schlechter Input – schlechter Output
Die Qualität des Outputs hängt bei Künstlicher Intelligenz von der Qualität des Inputs ab. Je besser die Trainingsdaten gepflegt sind, desto höher ist der Anwendungsnutzen. Ideal sind transparente, klassifizierte, strukturierte und priorisierte Daten (und auch Metadaten!), frei von Dubletten.
2. Ausgefilterte Risiken – weniger Fallstricke
In jedem Datenbestand lauern kritische Informationen, die aus diversen rechtlichen Gründen nicht verwendet werden dürfen. Das können beispielsweise personenbezogene Daten oder Inhalte sein, die vor dem Stichtag einer Änderung rechtlich relevante Vorgaben datieren. Diese müssen unbedingt vorab herausgefiltert werden, um Verfälschungen, Risiken und Strafzahlungen zu vermeiden.
3. Synthetische Daten versus echte Daten
Wie groß die Unzufriedenheit der Data Scientists mit dem Datenmaterial oft ist, zeigt sich an der wachsenden Nutzung synthetischer Daten. Das Problem dabei: Mit Originaldaten lassen sich Algorithmen und Anwendungen oft schneller und effizienter entwickeln.
Anzeige | Trovarit-Academy
Webinarreihe „KI konkret“ – Praxisnahe Use Cases
In vielen Unternehmen herrscht immer noch große Unsicherheit bei der Frage, ob und wie KI nutzbringend für die eigenen Prozesse eingesetzt werden kann.
Die Webinarreihe „KI konkret“ stellt in mehreren Terminen Use Cases vor, bei denen reale Herausforderungen in unterschiedlichen Unternehmensbereichen durch den Einsatz von KI gelöst werden konnten.
Zu den Aufzeichnungen der Webinar-Reihe KI konkret
4. Lange Entwicklungszeiten – hohe Kosten
Das Entwickeln intelligenter Anwendungen ist ein iterativer Prozess mit hohem Ressourcenbedarf – und damit ein teures Geschäft. Je schlechter der Dateninput ist, desto länger dauert die Entwicklung. Ein sauberer Datenbestand, der auf die relevanten, sinnvollen Daten kondensiert ist, beschleunigt die Anwendungsentwicklung und reduziert die Kosten und verkürzt die Time-to-Market. Das kann über Erfolg oder Misserfolg entscheiden.
„Gut gepflegte Daten spielen bei der Entwicklung von Machine-Learning-Apps eine enorm wichtige Rolle“, erklärt Adrian Knapp, CEO bei Aparavi. „Der erste Schritt muss daher sein, die wirklich relevanten Informationen herauszufiltern und zu strukturieren, die Datenqualität zu steigern und so das perfekte Futter für das Training der Algorithmen zu liefern. Oft entscheidet sich bereits an dieser Stelle, ob eine intelligente Anwendung erfolgreich wird.“ Jürgen Frisch