Künstliche Intelligenz ist auf Daten angewiesen, um Resultate zu liefern. Unternehmen sollten daher zunächst eine verlässliche Datenbasis aufbauen und damit ihre Data Readiness verbessern, bevor sie ein Projekt mit einem großen Sprachmodell in Erwägung ziehen.
ChatGPT hat eine Welle der Begeisterung für generative Künstliche Intelligenz und für Large Language Models ausgelöst. Fast täglich entstehen neue Produkte und Angebote in diesem Bereich. Unternehmen setzen zunehmend auf große Sprachmodelle, um sich wettbewerbs- und zukunftsfähig aufzustellen.
Viele Führungskräfte vernachlässigen dabei allerdings eine wichtige Komponente: die sogenannte Data Readiness. Dies zeigt eine Studie von Cognizant, die unter Geschäfts- und Technologieentscheidern großer Unternehmen in den USA und Großbritannien durchgeführt wurde. Demnach haben fast zwei Drittel (74 Prozent) der befragten Führungskräfte noch keine Vorstellung davon, wie sie ihre Daten integrieren und generative Künstliche Intelligenz über ihre Legacy-Anwendungen und Multi-Cloud-Umgebungen hinweg verwalten sollen.
Daten sind das Futter für Künstliche Intelligenz
Künstliche Intelligenz begleitet uns schon seit einigen Jahren. Neu an der generativen Künstlichen Intelligenz ist, dass sie Dinge wie Texte, Bilder, Audio, Video oder auch Softwarecode erzeugen kann. Im vergangenen Jahr verblüfften Modelle wie ChatGPT oder Dall-E die Welt, indem sie nahezu fehlerfreie Texte schrieben, flüssige Gespräche führten und visuelle Kunstwerke produzierten. Zukunftsforscher und Wirtschaftsexperten sagten damals einen tiefgreifenden Einfluss dieser Technologie auf die Zukunft der Arbeit voraus: Kreative Aufgaben, die heute Menschen ausführen, sollte generative Künstliche Intelligenz schon bald kostengünstiger und effizienter erledigen.
Einige Monate später hat sich das Bild gewandelt: Große Sprachmodelle sind weitaus stärker auf menschliche Eingaben und Überwachung angewiesen als ursprünglich angenommen. Auch in Unternehmen setzt sich zunehmend die Erkenntnis durch, dass es beim Einsatz von generativer Künstlicher Intelligenz keineswegs ausreicht, eine Lizenz zu erwerben, ein Modell zu bauen und dann den „Start”-Knopf zu drücken.
Um das Potenzial auszuschöpfen, benötigt die Künstliche Intelligenz Zugang zu den proprietären Datensätzen, die jedes Unternehmen einzigartig machen. In der Umfrage benannten 72 Prozent der Befragten interne Datensätze als Voraussetzung für einen effizienten Betrieb von analytischen Modellen, gefolgt von validierten Datensätzen (45 Prozent) oder Datensätzen von Dritten (43 Prozent).
ChatGPT&Co nutzen zwei Arten von Modellen
Zwei Hauptansätze haben sich bisher für die Integration von Künstlicher Intelligenz mit proprietären Unternehmensdaten herauskristallisiert. Beide haben ihre eigenen Vor- und Nachteile:
1. Benutzerdefinierte große Sprachmodelle
Bei diesem Ansatz wird entweder ein Foundational Model oder ein universelles großes Sprachmodell verwendet. Die Künstliche Intelligenz Modelle werden angepasst und mit eigenen Daten trainiert („Fine-Tuning“), um anwendungsspezifische Große Sprachmodelle und/oder intelligente Werkzeuge zu erstellen. Der Prozess des Fine-Tunings – insbesondere bei Techniken wie „Reinforcement Learning from Human Feedback“ erfordert menschlichen Input und kann daher zeit- und ressourcenintensiv ausfallen. Auch nach der Fertigstellung müssen die neuen Werkzeuge ständig überwacht, verbessert und gewartet werden. „Human in the loop“ lautet das Stichwort. Für Unternehmen mit speziellen Nischenanforderungen und den Ressourcen für eine längerfristige Investition ist daher die Feinabstimmung des Foundational Model mit eigenen Daten eine aufwändige Voraussetzung für den Projekterfolg.
2. Standard- Sprachmodelle mit Retrieval Augmented Generation
Eine vergleichsweise schnelle und kostengünstige Lösung besteht darin, ein bestehendes großes Sprachmodell zu verwenden und es mit proprietären Daten anzureichern. In diesem Fall behält das Modell seine generischen Kernprozesse bei, ergänzt aber seine Ausgabe mit Informationen, die es spontan aus proprietären Datenbanken abruft. Diese Variante gestaltet sich nicht nur schnell und kostengünstig, sondern auch flexibler als ein benutzerdefiniertes großes Sprachmodell. Änderungen in den Daten spiegeln sich in Echtzeit in den Ergebnissen wider, ohne dass das gesamte Modell neu trainiert werden muss. Auch hier gilt allerdings, dass die Qualität und Zugänglichkeit der Daten, mit denen das Modell arbeitet, seine Gesamtfunktionalität und die Qualität des Ergebnisses begrenzen.
Anzeige | Trovarit-Academy
Webinarreihe „KI konkret“ – Praxisnahe Use Cases
In vielen Unternehmen herrscht immer noch große Unsicherheit bei der Frage, ob und wie KI nutzbringend für die eigenen Prozesse eingesetzt werden kann.
Die Webinarreihe „KI konkret“ stellt in mehreren Terminen Use Cases vor, bei denen reale Herausforderungen in unterschiedlichen Unternehmensbereichen durch den Einsatz von KI gelöst werden konnten.
Zu den Aufzeichnungen der Webinar-Reihe KI konkret
Eine Architektur für den flexiblen Dateneinsatz
Unabhängig davon, welchen Ansatz ein Unternehmen für seine Strategie der generativen Künstlichen Intelligenz wählt, sind die Erfolgsaussichten eines Projekts eng mit der Qualität der bestehenden Datenarchitektur in den folgenden Schlüsselbereichen verknüpft:
1. Katalogisierung und Metadaten
Daten allein ergeben keinen Sinn – auch nicht für das weit verzweigte neuronale Netz eines großen Sprachmodells. Die erste Säule der Data Readiness ist daher die Organisation der Daten in einem zentralen Repository mit umfassenden Metadaten. Die Metadaten wiederum beschreiben Quelle, Struktur, Inhalt und im Idealfall auch die Bedeutung. Die Sprachmodelle sollen also bald als Agent für menschliche Nutzer fungieren und Antworten und Ergebnisse auf Anfragen und Anweisungen in natürlicher Sprache liefern. Dazu benötigen sie nicht nur Zugriff auf alle relevanten Daten, sondern auch Informationen, die den Daten Kontext und Bedeutung verleihen. Ohne ein exzellentes Metadatenmanagement wird es für ein Sprachmodell schwierig, wenn nicht gar unmöglich sein, effizient zu arbeiten.
2. Zuverlässigkeit
Die Daten, die für das Training eines Modells der generativen Künstlichen Intelligenz zum Einsatz kommen, müssen korrekt sein. Vor dem Einsatz generativer Künstlicher Intelligenz sollten Unternehmen prüfen, wie viel Vertrauen Führungskräfte und Mitarbeiter in bestehende Analysen, Berichte und/oder Dashboards haben. Lautet die Antwort „nicht viel”, sollte das Management erst diese Probleme lösen, bevor das Unternehmen in das Training von Sprachmodellen auf der Grundlage von Daten minderer Qualität investiert.
3. Datensicherheit und Datenschutz
Die Bedeutung der Datensicherheit ist für die meisten modernen Unternehmen kein Geheimnis. Im Zeitalter der aufkommenden generativen Künstlichen Intelligenz könnten Angreifer sämtliche Schwachstellen in den bestehenden Abwehrmechanismen schnell und ohne großen Aufwand aufdecken. Das Verhalten von Sprachmodellen lässt sich bislang nicht exakt vorhersehen. Daher ist es schwierig, im Voraus zu wissen, wie böswillige Akteure ein solches Modell möglicherweise so austricksen, dass es geschützte Daten über ein Unternehmen oder seine Kunden preisgibt. Besonders problematisch ist das, wenn ein Standard-Sprachmodell zum Einsatz kommt, das mit Retrieval Augmented Generation erweitert wurde. Da das Modell häufig mit geschützten Daten interagiert, erhöhen sich die Risiken einer möglichen Verletzung. Obwohl derartige Bedrohungen bisher nur zu einem geringen Teil bekannt sind, sollten Unternehmen sicherstellen, dass sie den Schutz ihrer sensiblen Daten auch in die Ära der generativen Künstlichen Intelligenz mitnehmen.
4. Geschwindigkeit und Flexibilität
Um das Potenzial der Künstlichen Intelligenz voll ausschöpfen zu können, benötigen Unternehmen nicht nur Datenpipelines, die das Rohmaterial für die Sprachmodelle liefern, sondern sie müssen auch darauf vorbereitet sein, die neu entstehenden Datenströme zu empfangen und zu speichern. Die dafür nötige IT-Architektur muss im Voraus entwickelt werden und flexibel genug sein, um einen Informationsfluss zu bewältigen, der in den kommenden Jahren möglicherweise exponentiell ansteigt. Data Warehouses oder sogar relationale Datenbanken können nur eine begrenzte Datenmenge kostengünstig speichern und verarbeiten. Es kann sich daher lohnen, moderne Data-Warehouse-Architekturen und skalierbare Cloud-Objektspeichersysteme zu erforschen.
5. „Replay“-Fähigkeit
Je schneller die Technologie voranschreitet, desto häufiger wird es notwendig, auf die Vergangenheit zurückzugreifen. Die Fähigkeit, frühere Versionen eines Datensatzes wiederherzustellen oder „abzuspielen“, ist für das Training, die Abstimmung und das Testen von Sprachmodellen unerlässlich. Selbst für Unternehmen, die mit einem bereits trainierten, abgestimmten und getesteten Sprachmodell arbeiten, ist die Fähigkeit zur Wiederherstellung ihrer bestehenden Datensysteme ein wichtiger Indikator für die Data Readiness.
Diese Beobachtungen gelten für alle hier genannten Metriken. Unternehmen, die nicht über gut gepflegte Daten und die dazu passende Architektur verfügen, erleiden einen Wettbewerbsnachteil, sobald sich generative Künstliche Intelligenz durchsetzt. Sie sollten daher in den Aufbau einer soliden Datenbasis und damit in eine Verbesserung ihrer Data Readiness investieren, bevor sie ihr erstes Sprachmodell auch nur in Erwägung ziehen. Umgekehrt sind Unternehmen, die ihre Daten bereits heute im Griff haben, sehr gut aufgestellt, um nicht nur von den Vorteilen der generativen Künstlichen Intelligenz zu profitieren, sondern mit hoher Wahrscheinlichkeit auch von den nächsten großen Entwicklungen. jf
Der Autor
Gregor Bieler ist Head of Central Europe beim IT-Dienstleister Cognizant.