Start Ratgeber Moderne Pipelines für das Daten-Streaming

Moderne Pipelines für das Daten-Streaming

Mit einem Realtime-Daten-Streaming erhalten Unternehmen Echtzeit-Einblicke in ihr Business. Althergebrachte Punkt-zu-Punkt-Verbindungen reichen dafür nicht aus, argumentiert Confluent. Streaming-Pipelines beschleunigen Abläufe und Analysen und senken zudem die Kosten.

Daten-Streaming
©Khanchit Khirisutchalual, istockphoto.com

Daten sind das Kapital eines Unternehmens. Trotz ihrer immensen Relevanz werden sie vielerorts noch immer fragmentiert und in unterschiedlichen Formaten in zahlreichen Legacy- und Cloud-basierten Systemen gespeichert. Um den Zugriff darauf zu erleichtern, zentralisieren die IT-Abteilungen gerne so viele Informationen wie möglich. 

Um Daten zwischen operativen Datenbanken und einem zentralisierten Data Warehouse oder Data Lake zu verschieben kommen meist Punkt-zu-Punkt-Pipelines zum Einsatz. Besser geeignet sind sogenannte ETL-Pipelines (Extrahieren, Transformieren und Laden). Diese Pipelines nehmen Daten auf, transformieren sie in regelmäßigen Batches und leiten sie dann an ein nachgelagertes analytisches Data Warehouse weiter. ETL-Pipelines und Reverse-ETL-Pipelines senden zudem Ergebnisse von Datenanalysen, die im Warehouse stattfinden, zurück an operative Datenbanken und Anwendungen.

Ältere Pipelines reichen nicht mehr aus

Auch wenn Unternehmen heute oft Dutzende oder sogar Hunderte Punkt-zu-Punkt-Pipelines betreiben, kommen viele IT-Verantwortliche zu dem Schluss, dass Punkt-zu-Punkt- und Batch-basierte Pipelines nicht mehr zeitgemäß sind.

Ältere Pipelines sind meist nicht sehr flexibel und werden von Entwicklern als „Black Boxes“ wahrgenommen, da sie sich nicht anpassen und sich schwer in andere Umgebungen übertragen können. Sobald betriebliche Prozesse oder Daten angepasst werden müssen, vermeiden es Datenentwickler deshalb, bestehende Pipelines zu ändern. Stattdessen fügen sie noch mehr Pipelines und die damit verbundenen technischen Schulden hinzu. Im Endeffekt benötigen herkömmliche ETL-Pipelines sehr viel Rechenleistung und Speicherplatz, und das kann mit zunehmendem Datenvolumen und Anforderungen zu Skalierungs- und Leistungsproblemen sowie hohen Betriebskosten führen.


Anzeige | Kostenloses Webinar der Trovarit-Academy


Das Daten-Streaming läuft im Self Service

Streaming-Pipelines sind ein moderner Ansatz zur Bereitstellung von Daten im Self Service. Anstatt Daten an ein zentrales Warehouse oder ein Analyse-Tool zu senden, erfassen Streaming-Pipelines Änderungen in Echtzeit, reichern die Daten zur Laufzeit an und senden sie an nachgelagerte Systeme. Teams können Daten mit einem Self Service verarbeiten, freigeben und wiederverwenden, wo und wann immer sie benötigt werden.

Im Gegensatz zu den althergebrachten Pipelines lassen sich Daten-Streaming-Pipelines mit deklarativen Sprachen wie SQL erstellen. Dank einer vordefinierten Logik der Vorgänge reduzieren sich unnötige operative Aufgaben. Dieser Ansatz trägt dazu bei, das Gleichgewicht zwischen zentralisierter kontinuierlicher Observability, Sicherheit, Policy-Management, Compliance-Standards und der Notwendigkeit für leicht durchsuchbare und auffindbare Daten zu wahren.

Agile Entwicklung und modulare Datenflüsse

Mit Daten-Streaming-Pipelines wenden IT-Abteilungen agile Entwicklungsverfahren an und erstellen modulare, wiederverwendbare Datenflüsse, die sie mit Version-Control- und CI/CD-Systemen (Continuous Integration/Continuous Deployment) testen und debuggen. Streaming-Pipelines lassen sich vergleichsweise einfach ausbauen und pflegen. Das reduziert im Vergleich zu konventionellen Ansätzen die Gesamtbetriebskosten. Unternehmen bringen ihre Daten so in Echtzeit auf eine skalierbare und effiziente Weise auf dem neuesten Stand.

Sobald Unternehmen in der Lage sind, Daten ohne jeglichen Zeitverzug zu nutzen, erhalten sie Echtzeiteinblicke in ihr Business. Daten-Teams können dann zeitnah auf Veränderungen im Markt reagieren. Mit schnellen und intelligenten Abläufen, basierend auf Streaming-Pipelines, lassen sich heutige und künftige Daten- und Geschäftsanforderungen erfüllen, wobei gleichzeitig die operativen Kosten sinken. jf


Der Autor

Quelle: ©Confluent

Roger Illing ist Vice President Sales CEMEA beim Streaming-Spezialisten Confluent.