Sie tragen im Suchfenster einen Begriff ein und noch während des Tippens zeigt sich dieser vollständig – plus weiterführender Vorschläge. Der Online-Shop bietet auf der Startseite Produkte an, die zu Ihren jüngsten Web-Recherchen oder versendeten Nachrichten passen. Willkommen in der Welt von Big Data!
Datability ist das Motto der diesjährigen CeBIT – ein Kunstwort, das einerseits Big Data (viele Daten), aber auch die Fähigkeit (ability) und Verantwortung (responsibility), damit umzugehen, beschreibt.
Mit dem Begriff Big Data wird das Durchsuchen und Analysieren von großen, heterogen strukturierten Daten aus unterschiedlichen Quellen beschrieben. Dazu wird eine Software-Technologie eingesetzt, die aufgrund ihres skalier- und verteilbaren Charakters die Daten sehr schnell verarbeiten kann. Viele Lösungen basieren auf einem von Google mit einem US-Patent geschützten Algorithmus namens MapReduce, der die notwendige parallele Verarbeitung von Datenmengen in einer Größenordnung von Petabytes (1PB sind 1.000.000 GB) ermöglicht.
Einsatzszenarien mit großen Datenmengen
Um sich eine Vorstellung von wirklich großen Datenmengen zu machen, seien hier ein paar Zahlen genannt. Facebook verwaltet täglich 500 Terabytes an Bildern, Posts und Likes/Gefällt mir. 2012 wurden täglich 144 Milliarden E-Mails mit durchschnittlich 26 Kilobytes versendet. Das ergibt 3,4 Petabytes oder circa 720.000 vollgeschriebene DVDs pro Tag. Das Datenaufkommen im Internet wird bis 2017 auf etwa 1,4 Zettabytes (1 ZB sind 1.000.000.000.000 GB) pro Jahr anwachsen. Ein entsprechender Stapel beschriebener DVDs würde in etwa von der Erde bis zum Mond reichen.
Eine inhaltliche, feingranulare Analyse des gesamten Internets ist nicht sinnvoll. Bevor Big Data zum Einsatz kommt, gilt zunächst folgende Überlegung: Mithilfe welcher Daten kann durch Analyse ein – normalerweise – wirtschaftlicher Nutzen erzielt werden?
Typische Big-Data-Szenarien für Unternehmen sind gezielte Werbemaßnahmen (basierend auf Auswertungen von Webstatistiken hinsichtlich Ort, Demografie, Artikelauswahl und anderer Profildaten der Internetnutzer), agilere IT-Ressourcenplanung (durch Auswertung von Log-Dateien der IT-Infrastruktur, die auf Engpässe oder Flaschenhälse hindeuten) oder Smart Metering (intelligente Energieverbrauchs- und Bereitstellungssteuerung durch Auswertung des Nutzungsverhaltens und ortsabhängiger Klima- und Wetterdaten).
Neben den wirtschaftlichen Interessen von Unternehmen und/oder deren Kunden gibt es weitere Einsatzgebiete, in denen Sicherheits- und Überwachungsaspekte im Vordergrund stehen. Hier werden Bewegungsprofile, soziale Kontakte oder potenziell verdächtige Inhalte von Internet- und Handynutzern gespeichert und in Echtzeit oder zeitlich nachgelagert analysiert. So wurde beispielsweise im Zuge der Enthüllungen von Edward Snowden bekannt, dass der Auslandsgeheimdienst der USA, die NSA (National Security Alliance), unter anderem täglich fünf Milliarden Datensätze von Mobiltelefonen und 200 Millionen SMS sammelt und auswertet. Das ist besorgniserregend.
Die Kehrseite von Big Data
Sowohl die vielfältige Datenmenge als auch die allgemein bereitwillige und leichtfertige Weitergabe von Informationen, führt zu einer unerwünscht transparenten Privatsphäre. Denn die preisgegebenen persönlichen Informationen erfolgen häufig unbewusst und ungewollt.
Ein Teil des Geschäftsmodells kostenloser Social-Media-Dienste besteht im Sammeln und Analysieren von Daten sowie dem Verkauf an Dritte. Kunde ist normalerweise der, der für ein Produkt oder eine Dienstleistung zahlt. Also sind Nutzer sozialer Netzwerke weniger Kunden als vielmehr Produkt oder Lieferant verwertbarer Daten zum Beispiel an die Werbeindustrie.
Das Datenschutzniveau von Diensten aus dem Internet entspricht nicht immer dem eigenen Schutzempfinden und der für sich selbst beanspruchten informellen Selbstbestimmung. Weitreichende AGBs werden trotzdem bestätigt, da man den Dienst schließlich nutzen möchte und die verklausulierte Juristensprache nicht versteht. Bereitgestellte, digitale Informationen wie soziale Kontakte, Likes/Gefällt mir, Multimediainhalte, Kommentare und Beiträge finden sich dann in den Analysewerkzeugen von Dritten mit unbekannten Absichten wieder. Selbst bei anonymisierten und pseudonymisierten Daten, wie der Unkenntlichmachung des Namens, kann durch die Verknüpfung von Daten aus unterschiedlichen Quellen der Personenbezug wiederhergestellt werden. Auch können Informationen im Verborgenen ausgewertet und für den Betroffenen nachteilig genutzt werden. Exakte Standorte werden durch eingebuchte Mobiltelefone in Funkzellen ermittelt. Im Extremfall wird aufgrund von unachtsamen Datenauswertungen ein harmloser Cafébesucher einer vom Überwachungsschutz observierten Personengruppe zugeordnet, da sich die Bewegungsdaten gleichen – mit unabsehbaren Konsequenzen. Die weitreichenden technischen Möglichkeiten der Behörden und die international bestehende Intransparenz oder Verschleierung der gesetzlichen Rahmenbedingungen beunruhigt nicht nur die Bundesrepublik.
Die Zukunft von Big Data
Aus Anwendersicht ist der Nutzen nicht immer ersichtlich, da es kein Produkt Big Data gibt. Stattdessen werden auf entsprechenden Analysen basierende Dienste wie maßgeschneiderte Informationen, ideale Verkehrsführung oder hochverfügbare EDV-Systeme angeboten. Auch das im Januar von Amazon angekündigte vorausschauende Versenden von Paketen noch vor der Bestellung ist nur mit entsprechenden Analysen großer Datenmengen möglich. Der Einfluss von Big Data nimmt analog zu digitalisierten Prozessen und bereitgestellten elektronischen Daten zu. Exemplarisch sind die nationalen und europäischen Bestrebungen zu Open Data, Behördendaten über das Internet für Mensch und Maschine verfügbar zu machen. Damit werden Qualität und Quantität nutzbarer Daten für Big Data signifikant aufgewertet.
Neue Software-Konzepte wie MapReduce oder NoSQL (Not Only SQL, also funktional über heutige relationale Datenbanken hinaus) werden in Verbindung mit leistungsfähiger und flexibler Hardware-Architektur, wie beispielsweise in schnellen In-Memory-Datenbanken (In-Memory bedeutet, dass Daten im schnellen Arbeitsspeicher gehalten und nicht auf Festplatten ausgelagert werden), eingesetzt, und führen zu einer noch schnelleren Verarbeitungsgeschwindigkeit von noch größeren Datenmengen und damit zu weiteren Einsatzmöglichkeiten.
Digital Natives und folgende Generationen gehen mit persönlichen und sonstigen Daten im Internet eher leichtfertig um. Zudem zielen immer mehr Cloud-Anwendungen und Apps auf die Gewinnung persönlicher Nutzerdaten, wodurch Big Data weiter gespeist wird.
DATEV und Big Data
Nicht alles, was durch Big Data technisch machbar ist, darf auch umgesetzt werden. Zum Schutz vor Missbrauch regelt das Bundesdatenschutzgesetz die Verarbeitung und Nutzung von personenbezogenen Daten auch für Analysen. DATEV hält diese Vorgaben strikt ein.
Verwendungszweck und der Verarbeitungsrahmen der DATEV anvertrauten Kundendaten sind in der Einwilligung der Beitrittserklärung unserer Mitglieder festgelegt und der Datenbestand kann deswegen nicht beliebig – auch nicht anonymisiert – analysiert werden, sondern ausschließlich auf Weisung des Auftraggebers. Anonyme Auswertungen finden bei DATEV für Produktentwicklungen und Branchenvergleiche nur statt, wenn der Auftraggeber vorher explizit zugestimmt hat. Trotz aller bedenklichen Auswüchse und unter Einhaltung des Verarbeitungsrahmens hat Big Data aus DATEV-Sicht durchaus Potenzial für die Mitglieder, sofern die Datensammlung sinnvoll und sorgfältig erschlossen wird. Durch die Analyse und Verknüpfung von großen, heterogen strukturierten Datenmengen lassen sich Zusammenhänge und Erkenntnisse ableiten, die sich für informationstechnische Verbesserungen, betriebswirtschaftliche Empfehlungen oder Wissens- und Informationsmanagement verwenden lassen. Ergebnisse und Analysen sind potenziell sowohl für unternehmenseigene Zwecke als auch für Kundendienstleistungen interessant.