Große Sprachmodelle überzeugen durch ihre vielseitigen Einsatzmöglichkeiten. In produktionsnahen Szenarien stoßen sie jedoch häufig an ihre Grenzen. Kleine Sprachmodelle setzen genau hier an – und bringen Künstliche Intelligenz dorthin, wo sie bislang nicht praktikabel war. Sechs Fragen verdeutlichen die Unterschiede zwischen beiden Modellarten.

Small Language Models in der Fertigung: Künstliche Intelligenz soll sich wirtschaftlich rechnen, regulatorisch absichern lassen und in vorhandene IT-Strukturen einfügen – das erwartet die Industrie. Standardlösungen auf Basis öffentlich trainierter Large Language Models bringen in der Fertigung nur begrenzten Mehrwert. Sie sind schließlich nicht auf den Bedarf der Produktionsbetriebe zugeschnitten – etwa das Auswerten von Maschinendaten, das Optimieren von Produktionsparametern oder das Assistieren bei Wartung und Instandhaltung. Zudem bieten ihre Ergebnisse nur wenig Potenzial zur Differenzierung.
Small Language Models sind deshalb oft die bessere Wahl, wie der IT-Dienstleister NTT DATA anhand von sechs Fragen erörtert.
1. Worin unterscheiden sich kleine und große Sprachmodelle?
Small Language Models sind deutlich kompakter aufgebaut als Large Language Models. Sie umfassen typischerweise zwischen 100 Millionen und zehn Milliarden Parameter. Zum Vergleich: GPT-4 verfügt je nach Architektur über mehrere hundert Milliarden Parameter. Als Parameter bezeichnet man interne Variablen wie Gewichtungen und Verzerrungen, die ein Modell während des Trainings erlernt. Der reduzierte Umfang eines Sprachmodells hat konkrete Auswirkungen auf die Laufzeitumgebung, die Inferenzgeschwindigkeit und den Speicherbedarf: Kleine Sprachmodelle benötigen weniger Rechenleistung, verbrauchen weniger Energie und lassen sich schneller trainieren. Diese Effizienz geht dabei nicht zu Lasten der Leistung. So erreicht das Modell Phi-2 von Microsoft mit gerade einmal 2,7 Milliarden Parametern beim Commonsense-Reasoning Ergebnisse, die mit zehnmal so großen Modellen vergleichbar sind. Das Mini-Reasoning-Modell Phi-4 mit 3,8 Milliarden Parametern erzielt bei mathematischen Problemlösungen sogar bessere Resultate als viele der großen Modelle.
2. Wie profitieren Unternehmen von Small Language Models in der Fertigung?
In der industriellen Praxis punkten Small Language Models vor allem durch ihre schnelle Anpassbarkeit. Anders als bei großen Modellen, deren Feintuning Wochen dauern kann und eine teure Recheninfrastruktur erfordert, lassen sich die kleinen Sprachmodelle in wenigen Stunden Rechenzeit auf spezifische Anforderungen trainieren. Diese hohe Flexibilität erlaubt es, Künstliche Intelligenz gezielt auf den jeweiligen Produktionskontext zuzuschneiden. Beispiele sind das Erkennen von Musterabweichungen, das Interpretieren von Wartungstexten oder das Erfassen domänenspezifischer Fachsprache, wie sie im Shopfloor üblich ist. Zusätzliche Effizienzgewinne entstehen durch parametereffiziente Anpassungstechniken wie die sogenannte Low-Rank Adaptation (LoRA). Dabei wird das zugrunde liegende Modell nicht komplett verändert, sondern modular erweitert. So lassen sich neue Aufgabenbereiche integrieren oder bestehende Funktionen nachschärfen, ohne das gesamte Modell neu trainieren zu müssen.
Neben der technischen Flexibilität wirkt sich der reduzierte Ressourcenbedarf auch auf die Kosten aus. Der vergleichsweise geringe GPU-Einsatz (Grapic Processing Units), der niedrige Energieverbrauch und den Wegfall teurer Cloud-Kapazitäten senkt die Betriebs- und Infrastrukturkosten. Aufgrund ihres geringen Ressourcenbedarfs lassen sich kleine Sprechmodelle auch dort betreiben, wo große Sprachmodelle scheitern: lokal auf Edge Devices oder in abgeschotteten Umgebungen der Operational Technology. Da kleine Sprachmodelle schnelle Antwortzeiten ohne Umweg über die Cloud ermöglichen, reduzieren sich zudem Abhängigkeiten und Sicherheitsrisiken.
Anzeige | Fachartikel, erschienen im IT-Matchmaker®.guide Industrie 4.0 Lösungen
|
|||||||||||||
3. Welche technischen Voraussetzungen müssen erfüllt sein?
Der Ressourcenbedarf von Small Language Models ist so gering, dass bereits handelsübliche Server oder Industrie-PCs dafür ausreichen. Viele dieser Modelle basieren auf Open-Source-Technologien und unterstützen gängige Frameworks. Das erhöht die Flexibilität und erleichtert die Anbindung an bestehende Systeme wie MES (Manufacturing Execution Solution), ERP (Enterprise Resource Planning) oder SCADA (Supervisory Control and Data Acquisition). Auch das Anpassen an domänenspezifische Fachbegriffe oder individuelle Workflows ist mit überschaubarem Aufwand möglich. Moderne Inferenz-Frameworks wie beispielsweise NVIDIA Dynamo sorgen mit ihren Scheduling-Algorithmen dafür, dass mehrere kompakte Modelle gleichzeitig und effizient auf der vorhandenen Hardware laufen. Standardisierte Schnittstellen und Automatisierung vereinfachen das Ausrollen und Aktualisieren der Modelle.
4. Wie lassen sich die Grenzen kleiner Modelle umgehen?
Small Language Models in der Fertigung bieten hohe Effizienz und Kontrolle – allerdings auf Kosten der Generalisierung und der semantischen Tiefe. Komplexe Inferenzketten, mehrdeutige Anfragen oder kreative Textgenerierung überschreiten schnell ihre Kapazitäten. Auch bei mehrsprachiger Verarbeitung oder logischem Schlussfolgern sind größere Modelle überlegen. Viele Unternehmen begegnen diesen Grenzen mit hybriden Architekturen, in denen unterschiedliche Modellgrößen nicht gegeneinander, sondern arbeitsteilig laufen. Ein Ansatz ist das SLM-first-Prinzip: Kleinere Modelle übernehmen zunächst die Bearbeitung aller Aufgaben, die sich klar strukturieren, spezialisieren oder automatisieren lassen – etwa das Extrahieren technischer Informationen, die Beantwortung wiederkehrender Anfragen oder die Umwandlung von Formaten. Nur wenn die Small Language Models an inhaltliche oder logische Grenzen stoßen, kommt ein Large Language Model als Fallback-System zum Zug. Zum Beispiel für mehrdeutige Fragestellungen, komplexe Planungsszenarien oder kontextreiche Dialoge. Ein intelligentes Routing leitet Anfragen dynamisch an das am besten geeignete Modell weiter. Dieses gestufte Vorgehen schont die Rechenressourcen. Zudem bleiben die Antworten nachvollziehbar, und die Systeme lassen sich zielgerichtet optimieren. Zum Beispiel durch das Finetuning der kleinen Modelle oder durch gezielte Prompt-Strategien einem großen Sprachmodell.
5. Woher bekommen kleine Modelle ihre Daten?
Small Language Models sind keine völlig eigenständige Modellklasse. Meist entstehen sie durch die gezielte Reduktion großer Sprachmodelle. Die Basis bleibt dabei stets ein künstliches neuronales Netzwerk mit Transformer-Architektur, das für Aufgaben der natürlichen Sprachverarbeitung trainiert wurde. Die Umwandlung eines Large Language Models in eine schlankere Variante erfolgt durch eine Kombination technischer Verfahren, die das ursprüngliche Netzwerk komprimieren, vereinfachen oder durch ein gezieltes Redesign ersetzen. Ein gängiger Ansatz ist die Wissensdestillation (Knowledge Distillation): Ein großes Modell dient als Referenz, während ein kleineres Modell darauf trainiert wird, dessen Vorhersagen nachzuahmen. Statt auf Rohdaten zu lernen, orientiert sich das Small Language Model also direkt am Verhalten des größeren Modells. Das verbessert die Trainingseffizienz und die Qualität der Ergebnisse.
Neben den klassischen Verfahren gewinnen auch neue Architekturansätze wie Attention-Mechanismen an Bedeutung. Wie immer bei Künstlicher Intelligenz sind die Feinabstimmung mit maßgeschneiderten Datensätzen und die kontinuierlichen Verbesserungen wichtig. Hier kommt das Prinzip des Data-Flywheel für Künstliche Intelligenz ins Spiel: Dieses Schwungrad schafft eine Schleife, dank der sich die Modelle durch die Integration von institutionellem Wissen und Nutzer-Feedback kontinuierlich verbessern. Während die Künstliche Intelligenz Ergebnisse generiert, sammelt sie Feedback und neue Daten, die dann zur Verfeinerung und Verbesserung des Modells zum Einsatz kommen. Mithilfe von Techniken wie Domain Adaptive Pretraining und Supervised Fine-Tuning lässt sich ein Small Language Model um domänenspezifisches Wissen und aufgabenspezifische Fähigkeiten erweitern.
6. Welche Rolle spielen kleine Sprachmodelle bei IT-Agenten?
Intelligente IT-Agenten sind darauf ausgelegt, unterschiedliche Aufgaben zu übernehmen und eigenständig Entscheidungen zu treffen. Sie profitieren von einem hybriden Architekturansatz: Large Language Models übernehmen übergeordnete Funktionen wie Kontextverständnis oder strategische Planung, während spezialisierte Small Language Models operative Aufgaben abarbeiten. Dieses Vorgehen erinnert an das Microservices-Paradigma in der Softwareentwicklung: Statt einen monolithischen Codeblock zu pflegen, zerlegen Programmierer eine Anwendung in unabhängige, klar abgegrenzte Dienste. Jeder Service – oder in diesem Fall jedes Modell – ist auf eine spezifische Funktion optimiert und lässt sich unabhängig anpassen, austauschen oder erweitern. So entsteht eine IT-Architektur, die anpassbar, skalierbar und fehlertolerant ist. Ein zusätzlicher Vorteil: Die IT-Agenten erzeugen bei ihrer Arbeit fortlaufend aufgabenspezifische Nutzungsdaten, die sich gut dafür eignen, Small Language Models weiterzuentwickeln. Da diese Daten reale Arbeitsabläufe, domänenspezifische Begriffe und unternehmensspezifische Entscheidungslogiken widerspiegeln, sind sie oft wertvoller als generische Trainingsdaten. Durch gezieltes Finetuning entstehen mit der Zeit Expertenmodelle, die nicht nur Aufgaben mit zunehmender Präzision und Fachkenntnis bewältigen.
„Small Language Models in der Fertigung eröffnen neue Wege, Künstliche Intelligenz gezielt, sicher und ressourcenschonend einzusetzen“, sagt Oliver Köth, Chief Technology Officer beim IT-Dienstleister NTT DATA DACH. „Gerade in der Fertigung sind es in der Regel nicht die größten Modelle, sondern die am besten trainierten, die den Unterschied machen. Wir sehen bereits heute, wie Unternehmen ihre Produktionsdaten mit speziell trainierten Modellen lokal auswerten, wie Wartungsteams sich über sprachgesteuerte Assistenzsysteme unterstützen lassen oder wie technische Dokumente automatisch klassifiziert werden – direkt am Ort des Geschehens.“ Ein wichtiger Vorteil dabei: „Mit kleinen Sprachmodellen lässt sich Künstliche Intelligenz ohne komplexe Cloud-Setups, ohne Datenrisiken, aber mit hoher Effizienz in den industriellen Alltag integrieren.“ Jürgen Frisch


