Die Datenexploration von Big Data birgt neue Herausforderungen. Besonders durch die Größe und Komplexität der Daten fällt es schwer, die Zusammenhänge von Big Data zu begreifen. Dabei bietet Datenvisualisierung eine gute Möglichkeit, um diese abstrakten Zusammenhänge greifbar zu machen. Vor allem bei riesigen Datenmengen existieren allerdings bestimmte Schwierigkeiten – die sich aber bewältigen lassen.

BUSINESS-INTELLIGENCE (BI)-Tools wie Qlik Sense, Tableau oder Microsoft Power BI ermöglichen schon heute die interaktive Datenvisualisierung. Anwender können mit diesen Software-Werkzeugen Daten laden, die Dimensionen und den Visualisierungstyp auswählen und Daten analysieren. Das Ziel der Datenanalyse bildet die Struktur des Datensatzes zu erforschen und Muster, Trends und Zusammenhänge zu finden. Die Exploration beginnt mit dem Filtern und Zoomen in die Daten.

Erst die Übersicht, dann die Details

Um den Data Scientist in diesem Prozess zu unterstützen, folgen viele Anwendungs-Werkzeuge dem vom Visualisierungsexperten Ben Shneiderman aufgestellten Paradigma „Overview first, zoom in and filter, then details on demand“. Für die BI-Tools bedeutet dieser Leitsatz, dass zunächst ein genereller Überblick über die Daten geschafft werden soll, beispielsweise indem sie den gesamten Datensatz darstellen. Anschließend soll der Nutzer die Möglichkeit haben, die Daten zu erkunden, in diese zu zoomen, einzelne interessante Bereiche auszuwählen und zu filtern. Erst im letzten Schritt kann der Nutzer Details über die Daten abzurufen,  beispielsweise Namen zu einzelnen Datenpunkten.

Herausforderungen bei der Datenvisualisierung

Auch für Big Data ist Shneidermans Paradigma wichtiger denn je. Gerade bei riesigen Datensätzen ist der Überblick über die Daten ebenso wichtig, wie ein detailliertes Verständnis. Datenvisualisierung von Big Data gestaltet sich jedoch als sehr schwierig. Wenn ein Data Scientist viele Daten visualisieren lässt, überlappen sich Datenpunkte, sodass Strukturen, Trends und Zusammenhänge nicht mehr erkennbar sind. Anstelle von Mustern sieht er lediglich Farbteppiche.

Auch die Navigation innerhalb der Daten fordert Anwender besonders heraus. Wenn diese in die Daten hineinzoomen, erfordert das oft einen hoheren Vergrößerungsgrad, um an Details der Daten zu kommen. Hierbei besteht die Gefahr, dass der Nutzer die Orientierung verliert. Während der Datenexploration sind daher sowohl angepasste Visualisierungstechniken als auch Fokus und Kontext-Darstellungen notwendig. Erstere können die Farbteppiche in Muster zurückverwandeln und letztere ermögliche die Orientierung.

3 Ansätze für Big Data Datenvisualisierung

Das Problem der Visualisierung großer Datenmengen ist allerdings nicht neu. In der Wissenschaft wurde zu diesem Thema bereits geforscht und es wurden Methoden und Möglichkeiten entwickelt, um Big Data zu visualisieren und durch Big Data zu navigieren. Überblickend lassen sie sich in drei Kategorien zusammenfassen: Datenreduktion, aggregierte Visualisierungstechniken und fortgeschrittene Interaktionsmöglichkeiten.

Ansatz 1: Datenreduktion

Datenreduktion beinhaltet die Reduzierung der Datenmenge und der Dimensionen bzw. Attribute. Denkt man an eine Datentabelle, bezeichnet ersteres die Reduzierung der Zeilen und letzteres die der Spalten. Methoden der Datenreduktion beinhalten Sampling-Methoden mit deren Hilfe Teilmengen der Daten und Filter gebildet werden. Dimensionsreduktion erfolgt mithilfe spezieller Verfahren, wie der Hauptkomponentenanalyse, wodurch besonders aussagekräftige Dimensionen berechnet werden. Sowohl mit Datenreduktion wie auch mit Dimensionsreduktion wird der Datensatz verkleinert, sodass in der Visualisierung wieder Zusammenhänge erkennbar werden. Allerdings birgt die Datenreduktion auch die Gefahr des Informationsverlustes.

Ansatz 2: Aggregierte Visualisierungstechniken

Aggregierte Visualisierungen fassen Datenpunkte in der Darstellung zusammen. Ein aggregierter Scatter Plot stellt zum Beispiel Punktecluster anstelle jedes einzelnen Punktes dar. Die Punktdichte wird dabei über den Farbton abgebildet. Beispielhaft hierfür ist die Smart Data Compression von Qlik Sense.

Außerdem können aggregierte Visualisierungen multiple Auflösungen beinhalten. Relevante Daten, zum Beispiel aktuelle Daten, können hochaufgelöst im Zentrum dargestellt werden, wohingegen weniger relevante Daten, beispielsweise die Daten von vor fünf Jahren, aggregiert am Rande abgebildet werden. Auf diese Weise lassen sich Überlappungen vermeiden und der Fokus auf relevante Daten verlagern. Mithilfe von Datenreduktion und Aggregation wird die visuelle Überlappung reduziert und große Datenmengen somit wieder darstellbar.

Ansatz 3: Fortgeschrittene Interaktionsmöglichkeiten

Fokus und Kontext können durch Interaktionen verbessert werden. Neben Zoom und Filter bieten Lupentechniken die Möglichkeit einzelne Daten genauer zu betrachten und dennoch den Überblick zu behalten. Lupentechniken sind Verzerrungstechniken, zu denen auch bifokale Displays und perspektivische Wände zählen. Beispiele finden sich unter https://bost.ocks.org/mike/fisheye/.
Alle Verzerrungstechniken rücken einen ausgewählten Datenausschnitt in den Fokus, während der restliche Datensatz verkleinert angezeigt wird.

BI-Tools ermöglichen Big Data Datenvisualisierung

Qlik Sense, Tableau oder Microsoft Power BI setzen diese Techniken teilweise schon um. Zoomen und Filtern gehört in diesen Tools mittlerweile zum Standard, aber auch im Bereich der Datenreduktion bieten diese Tools einige Möglichkeiten. Dazu gehören aggregierte Dimensionen und die Einbindung von R-Skripts. Aggregierte Visualisierungen werden jedoch lediglich über Erweiterungen, sogenannte Extensions, ermöglicht. Für diese greifen die Anbieter auf populäre Programmiersprachen, wie JavaScript und R zurück. In Qlik Sense lassen sich mithilfe von JavaScript maßgeschneiderte Visualisierungen erstellen, wohingegen Tableau erweiterte Möglichkeiten der Datenreduktion mit R Skripten bietet. Microsoft Power BI ermöglicht sowohl die Einbindung von JavaScript, als auch von R Skripten.

Auch wenn es noch kein Tool gibt, das alle vorgestellten Methoden zur Datenvisualisierung von Big Data integriert, ist es dennoch möglich, diese Methoden mit den notwendigen Programmierkenntnissen zu implementieren. Die Datenvisualisierung von Big Data steht noch immer am Anfang — aber sie enthält viel Potenzial. Alena Beyer/hei


Die Autorin: Alena Beyer hat ihre Bachelorarbeit zu Data Visualization bei der Data Science Beratung  Alexander Thamm GmbH geschrieben

Anzeige

Trovarit: Unsere Kompetenz im Datenmanagement

Im Competence Center „Datenmanagement“ unterstützt die Trovarit AG Unternehmen in den Belangen „Informationsaufbereitung“ und „Informationsfluss“

  • durch die Untersuchung der Qualität von Stamm- und Transaktionsdaten, der Datenmodelle und der Datenflüsse in den Applikationslandschaften,
  • durch eine auf diesen Datenqualitätsuntersuchungen beruhende Sanierung, Optimierung und Migration der Daten in der bestehenden Applikationslandschaft und bei der Einführung von neuen Applikationen,
  • durch die Einrichtung eines optimalen Datenflusses von den operativen Applikationen zu neu einzurichtenden oder schon vorhandenen Business-Intelligence-Lösungen und
  • durch die Konzeption und Umsetzung von „Product-Life-Cycle“-Projekten (d.h. die Verbindung von CAD/CAM, PDM und Systems Engineering).