Big Data suggeriert das Prinzip Masse ist wichtiger als Klasse. Ein Missverständnis, das eine Fehlinterpretation geradezu herausfordert. Warum auch bei steigenden Datenmengen die Qualität wichtig bleibt und was mit „Quantity over Quality“ im maschinellen Lernen gemeint ist, zeigt Dr. Michael Kläs aus der Abteilung Data Engineering am Fraunhofer IESE auf.
DAS ARGUMENT für Masse statt Klasse lautet: „Bei Big Data haben wir so viele Daten, dass es auf deren Qualität nicht unbedingt ankommt. Die Masse an Daten mittelt die Probleme schon wieder raus.“ Wenn Sie das auch denken, dann erliegen Sie dem gleichen Missverständnis wie viele Entscheidungsträger, die von diesem Prinzip zum ersten Mal hören. Dies liegt daran, dass „Quantity over Quality“ eine Fehlinterpretation geradezu herausfordert und damit Big-Data-Initiativen in die Irre führen kann.
Repräsentative Daten bilden die Grundlage valider Analyseergebnisse
Der Fragestellung angemessene und repräsentative Daten waren, sind und bleiben die Grundlage valider Analyseergebnisse. Fehlerhafte Daten führen im besten Fall zu einem Rauschen, das die Ergebnisqualität bis hin zu einem Punkt reduziert, an dem die Ergebnisse selbst unbrauchbar werden. Sie können aber auch zu völlig fehlerhaften Schlussfolgerungen und damit auch Entscheidungen führen, was deutlich schlimmer ist.
Fehler durch höhere Datenmengen herauszurechnen funktioniert nur, wenn die Fehlerursache zu einem zufälligen Rauschen in den Daten führt, wobei die hierzu benötigte Datenmenge im Allgemeinen nicht linear, sondern quadratisch mit dem Fehler steigt. In der Praxis haben wir es häufig aber nicht mit zufälligen Störungen, sondern mit systematischen Fehlern zu tun, bei denen auch große Datenmengen nicht helfen. Solche Fehler können beispielsweise durch eine unklare Grundgesamtheit, eine nicht repräsentative Stichprobe, fehlerbehaftete Datenerfassung oder ungeeignete Skalen auftreten.
Gut aufzeigen lässt sich das an einem Beispiel aus dem Buch „We are Big Data: The Future of the Information Society“, das dort dazu dient, das Prinzip „Quantity over Quality“ zu belegen. Die Autoren behaupten, dass man, um die durchschnittliche Größe der Schüler in einer Klasse genauer zu bestimmen, einfach die Anzahl der vermessenen Schüler erhöht und somit den Messfehler senkt, ohne dass man sich um das Messverfahren oder die verwendeten Messinstrumente kümmern müsste.
So ganz stimmt das leider nicht: Nehmen wir an, wir haben eine fehlerhafte Messlatte, auf der ein Meter nur 95cm hat, oder wir lesen anstelle von Zentimetern die ebenfalls vorhandene Inch-Skala ab. Dann hilft es auch nicht, die Anzahl der vermessenen Schüler zu erhöhen – das Ergebnis bleibt fehlerhaft. Auch wenn wir die Schüler nicht zufällig auswählen, sondern beispielsweise systematisch Schülerinnen bevorzugen, würde selbst eine erhöhte Menge von Messungen keine besseren Ergebnisse liefern.
Ein Haufen Abfall wird erst einmal nicht dadurch nützlicher, dass er besonders groß ist.
Hier bleibt es beim bekannten „Garbage In, Garbage Out“: Ein Haufen Abfall wird erst einmal nicht dadurch nützlicher, dass er besonders groß ist. In der neuen Datenwelt sollten Projektverantwortliche daher auch den Nutzen so genannter Data Lakes kritisch hinterfragen, in die der gesamte Datenabfall gepumpt wird. Insbesondere sollten diese das dann tun, wenn die Befüllung eines solchen Datensees „DIE“ Big-Data-Strategie im Unternehmen darstellt.
Veranstaltungshinweis des VDMA
Anforderungsmanagement zur Steuerung von IT-Projekten
Die Auswahl und der Einführungsprozess von Informationstechnologie im Unternehmen sind hochkomplexe Projekte. Worauf kaufmännische Leiter und Controlling-Mitarbeiter achten müssen, vermittelt der praxisnahe Erfahrungsaustausch am 07.09.2017 bei der Kompressorenbau Bannewitz GmbH. Veranstaltungsinfos und Anmeldungsformular
Was bedeutet nun aber „Quantity over Quality“? Gemeint ist in Fachkreisen gewöhnlich, dass bei hinreichender Quantität der Daten auch „einfache“ Modelle ohne komplexes Hintergrundwissen und komplizierte händische Optimierung, also mit geringerer „Qualität“, komplexe Sachverhalte erfassen und hinreichend gute Ergebnisse liefern können.
Ein Beispiel, das dieses Verständnis stützt und häufig zitiert wird, sind die Durchbrüche bei Google durch die Nutzung von neuronalen Netzen und Deep Learning. Bei Übersetzungen zwischen unterschiedlichen Sprachen liefern solche statistische Verfahren bei ausreichenden Datenmengen deutlich bessere Ergebnisse als klassische Ansätze der maschinellen Übersetzung, die auf komplexen Sprachmodellen und Annotationen beruhen. Die Übersetzungen werden dabei unabhängig von Optimierungen an der Lernmethode umso besser, je mehr übersetzte Texte zur Verfügung stehen, auf denen das Modell trainiert werden kann.
In solchen Fällen macht es durchaus Sinn, anstelle Aufwand in die weitere Optimierung der Lernmethode zu investieren, erst einmal möglichst viele Datenquellen mit Übersetzungen zu erschließen. Aber auch hier gilt der Grundsatz nicht uneingeschränkt. Vielmehr zeigt er seine Gültigkeit insbesondere bei Problemstellungen mit hoher Varianz und vielen möglichen Variablen, wie sie bei der Sprach- oder Bildanalyse auftreten.
So bleibt es leider bei der Wunschvorstellung, dass Big Data uns das lästige Problem der Datenqualität abnimmt. In der Realität werden wir uns mit dieser sowohl in der Praxis als auch in der Forschung rund um „Smart Data“, zum Beispiel im PRO-OPT-Projekt, weiter beschäftigen müssen. In der Publikation: Quality Evaluation for Big Data / A Scalable Assessment Approach and First Evaluation Results hat das Fraunhofer IESE seine Thesen, Herangehensweisen und Lösungsszenarien zum Thema Datenqualiät zusammengefasst. Dr. Michael Kläs /hei
Anzeige
Trovarit: Unsere Kompetenz im Datenmanagement
Im Competence Center „Datenmanagement“ unterstützt die Trovarit AG Unternehmen in den Belangen „Informationsaufbereitung“ und „Informationsfluss“