Wollen Unternehmen Kundeninteraktionen in Online- und Offline-Kanälen untersuchen, brauchen sie eine Datenanalyse. Eine Lösung dafür ist ein Data Lake. Ohne Metadaten und Governance wird daraus schnell ein Datensumpf, warnt der Analytik-Spezialist DoubleCloud.
Der Begriff ‚Data Lake‘ ist unter Data Scientists weit verbreitet. Ein Data Lake ermöglicht es den Unternehmen, die Gesamtheit ihrer Daten auf effiziente und effektive Weise zu speichern, abzurufen und zu nutzen. Data Lakes sind ein leistungsfähiges Werkzeug für Datenanalysten und Entwickler, das es ihnen ermöglicht, enorme Mengen an multiformatierten, unstrukturierten Daten zu speichern und dabei die Notwendigkeit von Silos zu vermeiden.
Passen allerdings die Data Scientists nicht auf, kann aus einem Data Lake (See) sehr schnell ein Data Swamp (Sumpf) werden. Ein Sumpf ist schwer zu durchqueren, und es ist nicht möglich, etwas Sinnvolles damit anzufangen. Auf einem Sumpf ist noch nie etwas Dauerhaftes gebaut worden. Stefan Käser, Solution Architect bei DoubleCloud, beschreibt das Verhältnis zwischen Data Lake und Data Swamp aus Sicht eines Praktikers. Er gibt Tipps, wie Unternehmen verhindern, dass sich ihr „Datensee“ in einen „Datensumpf“ verwandelt. Und wie sie andererseits einen bereits vorhandenen Sumpf in einen See transformieren.
Vom Marketing-Gag zum Analyse-Standard
Data Lakes gibt es schon seit ein paar Jahren. Obwohl sie mittlerweile zum Standard gehören, wurden sie zu Beginn ihrer Entwicklung vielerorts als Marketing-Gag abgetan. Das Problem war, dass der Begriff Data Lake damals in keinem Standardlexikon für Datenspeicherung oder -architektur auftauchte, was bedeutete, dass der Begriff unterschiedliche Bedeutungen haben konnte. Inzwischen hat sich der Begriff soweit standardisiert, dass es eine klare Definition gibt. Data Lakes speichern enorme Mengen an unstrukturierten (und oft auch strukturierten), rohen oder definierten Daten in einem nativen Format ohne Schema für die Speicherung und ermöglichen gleichzeitig den On-Demand-Zugriff auf diese Daten.
Ein Data Swamp ist immer noch ein Data Lake, nur ein schlecht konzipierter, mit wenig bis gar keiner unterstützenden Dokumentation, der selten, wenn überhaupt, gewartet wird. Das unvorteilhafte Design, die fehlende Dokumentation und der fehlende Support erschweren das Abrufen von Daten erheblich, machen es mitunter sogar unmöglich, zumindest in einem angemessenen Zeitrahmen. Können die Daten nicht korrekt abgerufen werden, lassen sie sich auch nicht analysieren. Dann wiederum zahlen Unternehmen Geld für das Speichern nutzloser Daten.
Strukturierte und unstrukturierte Daten im Team
Data Lakes haben eine Vielzahl von Funktionen. Sie können als Repository für eine zufällige Auswahl an Daten (Audiodateien, Videodateien, Dokumente, Protokolldateien usw.) dienen und sicherstellen, dass diese in einer für Audits konformen Weise gespeichert werden. Data Scientists und Ingenieure in einem Unternehmen können sie nutzen, um gleichzeitig auf strukturierte und unstrukturierte Daten zuzugreifen, um neue Analysemodelle zu testen. Sie können auch zur Integration von Daten aus operativen und transaktionalen Systemen verwendet werden. Während die meisten Nutzer von Business-Intelligence-Tools mit einem Data Warehouse zufrieden sind, werden Data Lakes eher von Wirtschaftsprüfern, spezialisierten Analysten oder von den erwähnten Datenwissenschaftlern genutzt.
Anzeige
Zertifikatskurs „Enterprise Data Manager“ – Wissensvermittlung auf höchstem Niveau
Der Kurs „Enterprise Data Manager“ wurde vom FIR an der RWTH Aachen in Zusammenarbeit mit dem Institut für Wirtschaftsinformatik (IWI) der Hochschule Heilbronn, der Trovarit AG und dem Steinbeis-Beratungszentrum Electronic Business (EB) entwickelt. Er vermittelt Unternehmen die fachlichen Grundlagen sowie die erforderlichen Werkzeuge, damit sie ihre bestehende Datenlandschaft analysieren und bewerten, die Datenqualität erhöhen und ein zielgerichtetes Datenmanagement in ihrem Unternehmen aufbauen können.
- Präsenzmodul I: 12.11.-14.11.2024 | Aachen
- Präsenzmodul II: 26.11.-28.11.2024 | Aachen
Mehr Infos & Anmeldung
Ein Data Warehouse ist straff organisiert
Data Warehouses sind viel straffer organisiert als Data Lakes. Data Warehouses sind eine ausgereifte und etablierte Technologie, die mit einer Vielzahl von Architekturen und Dokumentationen ausgestattet ist, auf die sich alle einigen können. Die darin untergebrachten Daten sind bereinigt und strukturiert. Das ermöglicht eine einfache Analyse. Das Speichern großer Datenmengen mit einer so straffen Verwaltung kann allerdings teuer sein.
Data Lakes hingegen sind eine relativ junge Technologie, die noch unter einer sich entwickelnden standardisierten Architektur leidet – oder auch davon profitiert. Data Lakes dienen der Speicherung von unverarbeiteten Rohdaten in jedem beliebigen Format, das heißt strukturiert oder unstrukturiert, Text, Audio, Protokolle oder Bilder. Data Lakes bieten eine viel größere Flexibilität als Data Warehouses, da keine Datenverarbeitung erforderlich ist, bevor die Daten abgerufen werden. Dementsprechend ist die Speicherung der Daten in einem Data Lake viel kostengünstiger als in einem Data Warehouse.
Beide Speichervarianten ergänzen sich
Ein Data Warehouse und ein Data Lake ergänzen sich im Idealfall gegenseitig. Ein Data Lake weist dabei die nachgenannten sechs Vorteile auf:
- Einfachere Datenerfassung: Data Lakes machen die Datenerfassung und -eingabe zu einem viel einfacheren Prozess. Strukturierte und unstrukturierte Daten können zu geringeren Kosten gespeichert und nur dann verarbeitet werden, wenn sie benötigt werden.
- Gute ETL-Unterstützung (Extraktion, Transformation, Laden): Data Lakes eignen sich hervorragend für Extraktion, Transformation, Laden, da sie Echtzeit-Datenströme mit hoher Geschwindigkeit unterstützen. Das ermöglicht eine mehrfache Nutzung der konvergierenden Daten.
- Schnelle Datenaufbereitung: Mit einem Data Lake müssen sich Datenteams nicht bei verschiedenen Quellen anmelden, um auf Daten zuzugreifen und sie aufzubereiten, sondern sie sind alle vorhanden und können im Lake durchsucht werden. Durch diese Funktionalität wird die Datenaufbereitung erheblich beschleunigt, so dass sich die Teams schneller mit wichtigen Aufgaben befassen können.
- Hohe Skalierbarkeit: Data Lakes sind in der Lage, ein verteiltes Ablagesystem zu verwenden. Daher sind sie von Anfang an überaus skalierbar.
- Zusammenarbeit statt Datensilos: Da sich alle Informationen an einem Ort befinden, beseitigt ein Data Lake die Datensilos im gesamten Unternehmen. Das wiederum ermöglicht einen freien Informationsfluss innerhalb des Unternehmens.
Ohne Metadaten droht ein Datensumpf
Eines der ersten und größten Anzeichen dafür, dass ein Data Lake sich in Richtung Data Swamp entwickelt, sind fehlende Metadaten. Diese Informationen beschreiben die vorhandenen Daten zu. In einem Data Lake sollten sie als Tagging-System zum Einsatz kommen, um eine Suchfunktionalität abzubilden. Sie können auch kennzeichnen, woher die Daten stammen oder wann sie eingegangen sind. Ist dies alles der Fall, liegt wahrscheinlich ein Data Lake vor, anderenfalls sieht es eher nach einem Data Swamp aus. Data Lakes eignen sich gut zum Ablegen von Daten, wenn Unternehmen noch nicht genau wissen, was sie damit tun sollen, wenn sie sie nicht umwandeln und in ein Data Warehouse einspeisen möchten oder wenn sie noch nicht genau wissen, wie sie in ihre allgemeine Geschäftsstrategie passen.
Governance ordnet den Datenbestand
Das bedeutet nicht, dass ein Data Lake dazu da ist, jedes einzelne Jota an Daten zu erfassen, das ein Unternehmen auch nur im Entferntesten berührt. Einer der schnellsten Wege, einen Data Lake in einen Data Swamp zu verwandeln, besteht darin, ihn mit irrelevanten Daten zu füllen. Es ist wichtig zu wissen, welche Art von Daten Unternehmen erfassen wollen und vor allem, warum. Wenn die Verantwortlichen das wissen, können sie einige Parameter festlegen, um nur Daten zu erfassen und zu speichern, die von Nutzen sind. Data Governance ist für den Umgang mit allen Arten von Daten, ob strukturiert oder unstrukturiert, von entscheidender Bedeutung. Wie werden sie behandelt, wo werden sie gespeichert, wer kann sie sehen, wer kann sie verschieben, wie lange werden sie gespeichert?
Gibt es keine Data Governance für den Data Lake, liegt wahrscheinlich ein Data Swamp vor – oder die Gefahr besteht, dass aus dem See ein Sumpf wird. Das Fehlen einer (guten) Data Governance führt oft dazu, dass Data Lakes als Auffangbecken für alles Mögliche behandelt werden. Sie werden aufgebläht und unhandlich, und das, bevor sich Unternehmen überhaupt mit der Frage befassen, welche Daten von wem und wie lange gespeichert werden sollen. Ein Data Swamp kann in der Tat problematisch sein, wenn ein Unternehmen plötzlich einem Audit unterzogen wird. Auch die Automatisierung ist wichtig, um zu verhindern, dass sich ein neuer Data Lake in einen Data Swamp verwandelt. Wenn Unternehmen ihre Automatisierung richtig einrichten, lässt sich ein Großteil der oben genannten Aufgaben ohne manuelle Eingriffe erledigen.
Automatisierung reduziert manuelle Arbeit
Ist der Data Lake nur unzureichend automatisiert, müssen sämtliche Pflegeaktionen manuell erledigt werden. Da die Datenpflege oftmals keine hohe Priorität genießt, könnte ein Data Lake schnell in einem Data Swamp enden, bevor Unternehmen es merken. Abschließend ist es wichtig zu erkennen, dass niemand die Absicht hat, einen Datensumpf zu schaffen, aber es passiert einfach manchmal. Einer der wichtigsten Schritte, um dies zu vermeiden, ist eine solide Datenbereinigungsstrategie. Enthält ein Data Lake veraltete, ungenaue, falsche oder doppelte Daten, wird ihm niemand vertrauen oder ihn nutzen. Nichts verwandelt einen See schneller in einen Sumpf als unsaubere Daten. jf
Der Autor
Stefan Käser ist Solution Architect bei DoubleCloud.