Datability - 27. Februar 2014

Fluch und Segen

Sie tragen im Suchfenster einen Begriff ein und noch während des Tippens zeigt sich dieser vollständig – plus weiter­führender Vorschläge. Der Online-Shop bietet auf der Startseite Produkte an, die zu Ihren jüngsten Web-Recherchen oder versendeten Nachrichten passen. Willkommen in der Welt von Big Data!

Datability ist das Motto der diesjährigen CeBIT – ein Kunstwort, das einerseits Big Data (viele Daten), aber auch die Fähigkeit (ability) und Verantwortung (responsibility), damit umzugehen, beschreibt.
Mit dem Begriff Big Data wird das Durchsuchen und Analysieren von großen, heterogen strukturierten Daten aus unterschiedlichen Quellen beschrieben. Dazu wird eine Software-Technologie eingesetzt, die aufgrund ihres skalier- und verteilbaren Charakters die Daten sehr schnell verarbeiten kann. Viele Lösungen basieren auf einem von Google mit einem US-Patent geschützten Algorithmus namens MapReduce, der die notwendige parallele Verarbeitung von Datenmengen in einer Größenordnung von Petabytes (1PB sind 1.000.000 GB) ermöglicht.

Einsatzszenarien mit großen Datenmengen

Um sich eine Vorstellung von wirklich großen Datenmengen zu machen, seien hier ein paar Zahlen genannt. Facebook verwaltet täglich 500 Terabytes an Bildern, Posts und Likes/Gefällt mir. 2012 wurden täglich 144 Milliarden E-Mails mit durchschnittlich 26 Kilobytes versendet. Das ergibt 3,4 Petabytes oder circa 720.000 vollgeschriebene DVDs pro Tag. Das Datenaufkommen im Internet wird bis 2017 auf etwa 1,4 Zettabytes (1 ZB sind 1.000.000.000.000 GB) pro Jahr anwachsen. Ein entsprechender Stapel beschriebener DVDs würde in etwa von der Erde bis zum Mond reichen.
Eine inhaltliche, feingranulare Analyse des gesamten Internets ist nicht sinnvoll. Bevor Big Data zum Einsatz kommt, gilt zunächst folgende Überlegung: Mithilfe welcher Daten kann durch Analyse ein – normalerweise – wirtschaftlicher Nutzen erzielt werden?
Typische Big-Data-Szenarien für Unternehmen sind gezielte Werbemaßnahmen (basierend auf Auswertungen von Webstatistiken hinsichtlich Ort, Demografie, Artikelauswahl und anderer Profildaten der Internetnutzer), agilere IT-Ressourcenplanung (durch Auswertung von Log-Dateien der IT-Infrastruktur, die auf Engpässe oder Flaschenhälse hindeuten) oder Smart Metering (intelligente Energieverbrauchs- und Bereitstellungssteuerung durch Auswertung des Nut­zungs­ver­haltens und ortsabhängiger Klima- und Wetterdaten).
Neben den wirtschaftlichen Interessen von Unternehmen und/oder deren Kunden gibt es weitere Einsatzgebiete, in denen Sicherheits- und Überwachungsaspekte im Vordergrund stehen. Hier werden Bewegungsprofile, soziale Kontakte oder potenziell verdächtige Inhalte von Internet- und Handynutzern gespeichert und in Echtzeit oder zeitlich nachgelagert analysiert. So wurde beispielsweise im Zuge der Enthüllungen von Edward Snowden bekannt, dass der Aus­lands­geheim­dienst der USA, die NSA (National Security Alliance), unter anderem täglich fünf Milliarden Daten­sätze von Mobil­telefonen und 200 Millionen SMS sammelt und auswertet. Das ist be­sorgnis­erregend.

Die Kehrseite von Big Data

Sowohl die vielfältige Datenmenge als auch die allgemein bereit­willige und leicht­fertige Weitergabe von Informa­tionen, führt zu einer uner­wünscht trans­parenten Privat­sphäre. Denn die preis­ge­gebenen persönlichen Infor­ma­tionen erfolgen häufig unbewusst und ungewollt.
Ein Teil des Geschäfts­modells kostenloser Social-Media-Dienste besteht im Sammeln und Analy­sieren von Daten sowie dem Verkauf an Dritte. Kunde ist normaler­weise der, der für ein Produkt oder eine Dienst­leistung zahlt. Also sind Nutzer sozialer Netzwerke weniger Kunden als vielmehr Produkt oder Lieferant verwert­barer Daten zum Beispiel an die Werbe­industrie.
Das Datenschutzniveau von Diensten aus dem Internet ent­spricht nicht immer dem eigenen Schutz­empfinden und der für sich selbst bean­spruchten infor­mellen Selbst­bestimmung. Weit­reichende AGBs werden trotzdem bestätigt, da man den Dienst schließlich nutzen möchte und die ver­klau­su­lierte Juristen­sprache nicht versteht. Bereit­ge­stellte, digitale Informa­tionen wie soziale Kontakte, Likes/Gefällt mir, Multi­media­inhalte, Kommentare und Beiträge finden sich dann in den Analysewerkzeugen von Dritten mit unbekannten Absichten wieder. Selbst bei ano­ny­mi­sierten und pseu­do­ny­mi­sierten Daten, wie der Unkennt­lich­machung des Namens, kann durch die Verknüpfung von Daten aus unter­schied­lichen Quellen der Personen­bezug wieder­her­gestellt werden. Auch können Infor­mationen im Verbor­genen ausgewertet und für den Betroffenen nachteilig genutzt werden. Exakte Standorte werden durch eingebuchte Mobil­telefone in Funkzellen ermittelt. Im Extremfall wird aufgrund von unachtsamen Daten­aus­wertungen ein harmloser Café­besucher einer vom Über­wachungs­schutz observierten Personen­gruppe zugeordnet, da sich die Bewegungs­daten gleichen – mit unabseh­baren Konsequenzen. Die weitreichenden technischen Möglichkeiten der Behörden und die international bestehende Intransparenz oder Verschleierung der gesetzlichen Rahmen­be­dingungen beunruhigt nicht nur die Bundesrepublik.

Die Zukunft von Big Data

Aus Anwendersicht ist der Nutzen nicht immer ersichtlich, da es kein Produkt Big Data gibt. Stattdessen werden auf entsprechenden Analysen basierende Dienste wie maßgeschneiderte Informationen, ideale Verkehrsführung oder hochverfügbare EDV-Systeme angeboten. Auch das im Januar von Amazon angekündigte vorausschauende Versenden von Paketen noch vor der Bestellung ist nur mit entsprechenden Analysen großer Datenmengen möglich. Der Einfluss von Big Data nimmt analog zu digitalisierten Prozessen und bereitgestellten elektronischen Daten zu. Exemplarisch sind die nationalen und europäischen Bestrebungen zu Open Data, Behördendaten über das Internet für Mensch und Maschine verfügbar zu machen. Damit werden Qualität und Quantität nutzbarer Daten für Big Data signifikant aufgewertet.
Neue Software-Konzepte wie MapReduce oder NoSQL (Not Only SQL, also funktional über heutige relationale Datenbanken hinaus) werden in Verbindung mit leistungsfähiger und flexibler Hardware-Architektur, wie beispielsweise in schnellen In-Memory-Datenbanken (In-Memory bedeutet, dass Daten im schnellen Arbeitsspeicher gehalten und nicht auf Festplatten ausgelagert werden), eingesetzt, und führen zu einer noch schnelleren Ver­arbeitungs­ge­schwindig­keit von noch größeren Datenmengen und damit zu weiteren Einsatzmöglichkeiten.
Digital Natives und folgende Generationen gehen mit persönlichen und sonstigen Daten im Internet eher leichtfertig um. Zudem zielen immer mehr Cloud-Anwendungen und Apps auf die Gewinnung persönlicher Nutzerdaten, wodurch Big Data weiter gespeist wird.

DATEV und Big Data

Nicht alles, was durch Big Data technisch machbar ist, darf auch umgesetzt werden. Zum Schutz vor Missbrauch regelt das Bundesdatenschutzgesetz die Verarbeitung und Nutzung von personenbezogenen Daten auch für Analysen. DATEV hält diese Vorgaben strikt ein.
Verwendungszweck und der Verarbeitungs­rahmen der DATEV anvertrauten Kundendaten sind in der Einwilligung der Beitrittserklärung unserer Mitglieder festgelegt und der Datenbestand kann deswegen nicht beliebig – auch nicht anonymisiert – analysiert werden, sondern ausschließlich auf Weisung des Auftraggebers. Anonyme Auswertungen finden bei DATEV für Produkt­ent­wick­lungen und Branchen­ver­gleiche nur statt, wenn der Auftrag­geber vorher explizit zugestimmt hat. Trotz aller bedenklichen Auswüchse und unter Einhaltung des Ver­arbeitung­srahmens hat Big Data aus DATEV-Sicht durchaus Potenzial für die Mitglieder, sofern die Datensammlung sinnvoll und sorgfältig erschlossen wird. Durch die Analyse und Verknüpfung von großen, heterogen struk­turierten Datenmengen lassen sich Zusammenhänge und Erkenntnisse ableiten, die sich für infor­mations­technische Verbesserungen, betriebs­wirt­schaft­liche Empfehlungen oder Wissens- und Informations­management verwenden lassen. Ergebnisse und Analysen sind potenziell sowohl für unternehmens­eigene Zwecke als auch für Kunden­dienst­leistungen interessant.

Zum Autor

Jeffrey Ahmad

kümmert sich bei DATEV in der Abteilung IT-Research vor allem um Social Software und Cloud Computing.

Weitere Artikel des Autors