Data Analysis, also Datenanalyse, ist mehr als das bloße Erzeugen von Reports aus Daten. Daher ist derzeit auch häufiger die Rede von Data Science. Durch die fortschreitende Digitalisierung werden Daten in Unternehmen zukünftig mehr und mehr der Schlüssel zum Geschäftserfolg von Morgen. Unternehmen werden zu Data-driven Companies. Big Data und künstliche Intelligenz werden der Schlüssel zu wichtigen Innovationen sein. Daher müssen Unternehmen ihre immer größeren, komplexen und sich schnell ändernden Daten, die aus unterschiedlichen Quellen zusammengeführt werden müssen mit Methoden aus dem Bereich Data Science verarbeiten. Algorithmen werden Entscheidungen treffen. Und zukünftig werden Daten nicht nur in einzelnen Silos des Unternehmens verarbeitet. Dabei ist es heute sehr oft so, dass dort in den Silos spezialisierte Tools z.B. für das Thema Webtracking eingesetzt werden. Diese Tools können dann angepasste Reports generieren und daraus werden dann vielleicht Entscheidungen und Maßnahmen abgeleitet, die zur Optimierung einer Webseite eingesetzt werden. Stattdessen werden zukünftig Daten aus verschiedenen Datensilos des Unternehmens gesamtheitlich und somit siloübergreifend zur automatischen Optimierung und Steuerung von Geschäftsprozessen unter dem Einsatz von Algorithmen genutzt werden.
Um dieses realisieren zu können sind Mitarbeiter mit einem tiefen Verständnis für Daten, Zusammenhänge, Geschäftsprozesse, Technologie, Informatik, Algorithmen, Data Science, Verständnis für Kundenbedürfnisse und Branchenknowhow erforderlich.
Historie
Der Übergang ins Informationszeitalter fand vermeintlich in den 1970er und 1980er Jahren statt, als wir das Zeitalter der Industrialisierung hinter uns gelassen haben. Das Informationszeitalter wird auch Computerzeitalter und Digitalzeitalter genannt. Auch wenn der Beginn in jener Zeit liegt, so nimmt die Digitalisierung der Welt gerade erst so richtig Fahrt auf. Noch nie wurden in so kurzer Zeit so viele Daten generiert und verarbeitet. Und noch nie wurde mit den Daten so viel gemacht. Daher spricht man in der aktuellen Zeit von der Digitalen Transformation.
Wo kommen all die Daten denn her?
Generiert werden so viele Daten, weil erstens immer mehr Kommunikation über das Internet erfolgt, z.B. mittels Smartphones, Tablets und Computern. Zweitens kommt die fortschreitende Multisensorik hinzu, bei der Armbanduhren, Smartphones, Aktivitytracker, Autos, Industrieanlagen etc. mit verschiedenen Sensoren, wie z.B. Temperatur- und Bewegungssensoren ausgestattet sind. Als drittes ist die Netzwerktechnik weiter fortgeschritten, wodurch immer mehr Geräte miteinander verbunden sind, miteinander kommunizieren, miteinander interagieren und aufeinander reagieren. Je nach Kontext wird dann vom Internet der Dinge oder der der Industrie 4.0 gesprochen. All die dadurch generiert Daten werden übertragen, verarbeitet und gespeichert.
Hierbei spielen Data Analytics und Data Science eine wichtige Rolle.
Daten müssen sicher sein
Unsere immer mehr datengetriebene Welt ist gefährdet durch Viren, sogenannte Computer Viren, und durch Datenlöcher, sog. Leaks, die verursacht werden durch Fehlverhalten und Fehlern von Mensch oder Maschine. Dabei kann es sich um einen unbefugten Datenzugriff und Missbrauch handeln oder darum dass eine Datenkrake wie Google bzw. Alphabet die Daten an Dritte weitergibt und zu viel Ungewolltes über eine Person preisgibt. Außerdem werden Daten von Computeralgorithmen verarbeitet und diese Algorithmen treffen Entscheidungen. Wenn in dem Algorithmus ein Fehler steckt, so kann es bei einem System natürlich zu einer Fehlentscheidung und dadurch gegeben falls zu einem Fehlverhalten kommen. Z.B. könnte an einem autonom fahrenden Auto ein automatisches Bremssystem einen Passanten nicht erkennen und gegebenenfalls nicht den notwendigen Bremsvorgang einleiten, wodurch es zu einem Personenunfall kommen würde. Andererseits müssen Algorithmen zukünftig vielleicht auch ethische und moralische Entscheidungen treffen. So muss der Algorithmus der ein Fahrzeug autonom steuert in einer Situation vielleicht zwischen den Richtungen entscheiden, wohin das Fahrzeug ausweichen muss. Wie soll der Algorithmus entscheiden, wenn aktuell in vielleicht 3 möglichen Ausweichrichtungen etwas steht, z.B. an einem Ort ein junger Mensch, am anderen ein alter Mensch und am dritten ein Hund. Wer definiert die moralisch-ethische Entscheidungsgrundlage für die Algorithmen der Zukunft?
Um hier sicher zu werden wird in nächster Zeit noch viel Arbeit in den Bereichen Qualitätssicherung, Data Security und Datenschutzrecht zu tun sein und vielleicht kommt auch noch ein neuer Bereich der Algorithmenethik hinzu.
Daten sind Smart und bergen smarte Gefahren
Die immer größer werdenden Datenmengen sollen smart verarbeitet werden. D.h. die Daten werden nicht nur einfach übertragen und gespeichert, sondern intelligent und mehrwertschöpfend verarbeitet.
Was bedeutet dabei mehrwertschöpfend? Natürlich, je nachdem wer die Daten in die Hände bekommt, kann damit einen positiven oder negativer Mehrwert erzeugen. Z.B. ein Aktivitytracker am Handgelenk misst regelmäßig, selbst in der Nacht beim Schlafen, eine zu hohe Herzfrequenz. Für die Krankenversicherung kann dies ein Grund sein den Tarif zu erhöhen, weil ein höheres Krankheits- und damit Kostenrisiko erkannt wurde. Für den Hausarzt hingegen ist es eine wichtige Information jemanden dahingehend genauer zu untersuchen und präventiv zu behandeln.
Die Welt und damit auch der Mensch werden immer mehr von Daten und Algorithmen gesteuert. Der kritischen Aspekt daran wird von 10 europäischen Experten im Digital Manifest bei Spektrum der Wissenschaft diskutiert. Darin wird vor der Aushöhlung von Freiheit und Demokratie durch Algorithmen gewarnt: “Schon bald könnten wir in einer automatisierten Gesellschaft leben, in der Algorithmen zunehmend unser Verhalten bestimmen. Um Gefahren für Freiheit und Demokratie zu begegnen und die Chancen der digitalen Entwicklung zu wahren, stellen die Autoren zudem eine gemeinsame >>Strategie für das digitale Zeitalter vor<<.” (Das PDF zum Digital Manifest gibt es hier zum kostenlosen download).
Vom positiven Grundgedanken her zielt eine smarte und damit mehrwertschöpfende Datenverarbeitung mittels Data Science und Data Analytics auf z.B. folgende Bereiche ab:
- zusätzliche Erkenntnisse erzeugen
- Services und Geschäftsprozesse steuern
- Verbesserungen, Optimierungen und Effizienzsteigerungen schaffen
- Komfort erzeugt
Big Data und die 5 Vs
Im Zusammenhang mit Data Science stet auch das Thema Big Data. Was bedeutet das eigentlich?
Bei Big Data geht es um die Sammlung, Speicherung und Verarbeitung sehr großer, komplexer und sich schnell ändernder Datenmengen, um sie noch mit manuellen und klassischen Methoden verarbeiten zu können. Zur Verarbeitung der Daten kommen Methoden aus der Data Science zum Einsatz.
Im Zusammenhang mit Big Data ist häufig die Rede von den 5 Vs:
- Volumen: Es werden riesige Datenmengen produziert, gesammelt und verarbeitet.
- Variety: Es werden unterschiedlichste Typen und zum Teil unstrukturierte Daten erfasst. Dazu gehören Video, Bild, Ton, Text, Kommunikationsdaten, Sensordaten etc.
- Velocity: Es werden diese Daten in unglaublicher Geschwindigkeit erzeugt und müssen entsprechend schnell verarbeitet werden. Dabei geht es um Echzeitdatenverarbeitung.
- Veracity: Es werden die Daten in unkontrollierter Weise erzeugt, die Quellen sind nicht immer klar vertrauenswürdig, sie sind von unterschiedlichster Qualität.
- Value: Der Zugang zu diesen Daten ist nichts, so lange daraus nicht ein Wert generiert wird. Daher starten immer mehr Unternehmen damit aus den Daten Mehrwerte für ihre bestehenden oder gar neuen Geschäftsmodelle zu generieren.
Data Science
Bei der Mehrwert schöpfenden Verarbeitung und Analyse der Daten hilft die Datenwissenschaft (Data Science) und sie wird ebenfalls gebraucht um mittels Datenanalyse (Data Analytics) die immer komplexer und komplizierter werdende Welt in der wir Leben zu verstehen und zu beherrschen.
Data Science hat seinen Ursprung in Wissenschaft und Forschung. Es handelt sich dabei um eine interdisziplinäre wissenschaftliche Disziplin. Es geht dabei um Prozesse und Systeme mit denen Wissen und Einsichten aus Daten gehoben werden, die in unterschiedlichen Formen, Strukturen und Systemen in strukturierter oder unstrukturierter Form vorliegen.
Dabei kommen Methoden aus den Fächern Mathematik, Kybernetik, Statistik und Informationstechnologie zum Einsatz. Dazu gehören u.a. die Signalverarbeitung, Wahrscheinlichkeitsmodelle, Maschinenlernen, das statistische Lernen, Computerprogrammierung, Datentechnik, Modellierung von Unsicherheiten, Datenspeicherung, Datenanalyse, Data Mining (Mustererkennung), selbstlernende Neuronale Netze, Anomaliedetektion und Predictiv Analystics (Prognostik)
Es geht dabei darum, dass die Daten begriffen werden müssen, sie müssen eine Bedeutung bekommen, statt einfach nur immer mehr Daten zu erfassen deren Bedeutung im Dunkeln bleibt.
Data Analysis
Im Bereich Data Science kommt der Data Analysis, also der Datenanalyse, die größte Bedeutung zu. Es handelt sich dabei um ein prozessuales Vorgehen bzw. einen Prozess mit dem die Bedeutung, die in den Daten verborgen liegt, an die Oberfläche gehoben und sichtbar gemacht wird. Dadurch soll ein Wert generiert werden der z.B. geschäftlich genutzt werden kann.
Das Vorgehen bei der Datenanalyse umfasst dabei die folgenden Themen:
- Datenerhebung (Data Collection): Die Daten werden gesammelt.
- Data Integration: Die unterschiedlichen Daten und die Daten aus unterschiedlichen Quellen werden zusammengeführt.
- Data Cleansing: Die Daten werden Bereinigung, indem z.B. Duplikate oder Signalstörungen weggefiltert werden.
- Data Monitoring und Data Quality: Die Daten Qualität und Konsistenz der Daten wird in den Schritten der Erhebung und Aufbewahrung überwacht.
- Data Lake und Data Warehouse: Die Daten werden in Speichersystemen, wie Dateisystemen, Datenbanken, Archiven und Archivsystemen aufbewahrt. Dabei kann es sich um sehr große Datenmengen handeln. Bei einem Data Lake liegen die Daten häufig in einer Cloud. Die Daten liegen auch nicht zwingend in so struktierter Form vor, wie es bei Data Warehouses traditionell der Fall ist.
- Data Enrichment: Die Daten werden in einem Prozess, z.B. durch Daten aus Drittquellen angereicht, veredelt und generell verbessert.
- Data Mining und Data Exploration: Die Daten werden durch Algorithmen nach Querverbindungen, Trends und Mustern durchsucht. Beim Data Mining geht es insbesondere darum in scheinbar wertlosen Datenbergen nach verborgenem Wissen zu schürfen. Was damit genau gemeint ist beschreibt die erfundene Parabel über “beer and nappies“, bei der vermeintlich herausgefunden wurde, dass sich in einem Supermarkt Samstags das Bier besonders gut verkaufen lässt, wenn es neben die Windeln gestellt wird. Die Muster- und Trenderkennung erfolgt z.B. mittels “Künstlicher Intelligenz”, selbstlernenden Neuralen Netzen (z.B. NeuoBayes), Fuzzyalgorithmen, etc. Dabei wird auch ein prognostischer Blick in die Zukunft gemacht (Predictive Analytics).
- Data Visualization: Die Daten werden visualisiert z.B. in Form von Tabellen oder Diagrammen.
- Reporting: Die Ergebnisse und Erkenntnisse der Datenanalyse werden zu Reports und Dashbords zusammengetragen. Dabei kann und sollte auch neben den Ergebnissen, die die Algorithmen geliefert haben, auch die Interpretation eines Menschen einfließen.
Zu guter Letzt werden die Ergebnisse aus der Datenanalyse durch manuelle und automatische Prozesse dazu benutzt, um damit (Geschäfts-)Prozesse oder Business Entscheidungen zu steuern.
Was in diesem Bereich möglich ist, kann z.B. in den Whitepapern der Firma Blue Yonder nachgelesen werden. Die von Blue Yonder verwendeten NeuroBayesAlgorithmen stammen aus der Grundlagenforschung in der Teilchenphysik und wurden am CERN, der Europäischen Organisation für Kernforschung in der Nähe von Genf entwickelt. Heute kommen sie z.B. zur Steuerung und Optimierung von Geschäftsprozessen aus den Bereichen Logistik, Absatzplanung, automatische Disposition etc. zum Einsatz.
Mensch und Daten
Menschen sind für die Verarbeitung der Daten derzeit weiterhin unerlässlich. Mit fortschreitender Entwicklung Künstliche Intelligenz in den nächsten Jahrzehnten kann jedoch die Bedeutung des Menschen im Datenanalyse Prozess an Bedeutung verlieren. In der aktuellen Entwicklung ist der Anspruch an die Menschen, die im Bereich Datenanalyse tätig sind, erheblich gestiegen. Gesucht werden Data Scientists aus z.B. den Fächern Mathematik, Physik und Informatik. Sie sollen in der Lage sein Daten nicht nur rein quantitativ auszuwerten, sondern bei der Auswertung komplexe Algorithmen verwenden, selbst programmieren, sowie die Ergebnisse aus Zwischenschritten logisch miteinander in Beziehung zu setzen. Dabei sollen sie jederzeit die Brille des tief in die Datenanalyse abtauchenden Spezialisten aufhaben und gleichzeitig Branchen-Knowhow mitbringen und somit den Blick darauf gerichtet haben, was die Ergebnisse aus der Datenanalyse für das jeweilige Kerngeschäft des Unternehmens bedeuten können.
Der iBusiness Artikel “Sieben Tracking-Techniken in der Analyse: Was nach dem Cookie kommt” liefert weitere aufschlussreiche Informationen darüber, dass die Identität von Menschen, also die Zuordnung von Bewegungsdaten zu einer abstrakten oder konkreten Person, häufig im Mittelpunkt von Datenanalysen steht. Damit wird zugleich auch ein weiterer Impuls dafür geliefert, was Unternehmen oder Organisationen, die bereits viele Millionen Kunden haben, mit ihren Daten zukünftig anstellen könnten, um daraus zu profitieren. Dabei geht es um den Aufbauen eines eigenen Tracking-Ökosystem. Das Thema Tracking von Identitäten entwickelt sich gerade rasend schnell aus der online (Webseiten) in die offline Welt hinein. Durch Smartphone, Activitytracker und App wird es zukünftig möglich sein jemanden nicht mehr nur beim Besuchen einer Webseite zu tracken, sondern auch in der realen Welt, wenn er zum Beispiel an einem bestimmten iBeacon vorbeiläuft und die App auf dem Smartphone das trackt und an den Server meldet. Heile, heile Datenschutzwelt: Big Bro ick seh dir und verkaufe deine Daten an die Vermarkter. Hier liessen dann Dynamic Attribution, Programmatic Buying, Real Time Bidding und Co. grüßen und die Kassen klingeln 😉
Datenanalyse wird zukünftig also auch mehr und mehr dafür genutzt werden, um die Menschen zu beeinflussen. Dies kann in der Werbung oder in der Politik geschehen. Das wird dann z.B. Big Nudging genannt. Es existiert eine Tendenz von der Programmierung von Computern hin zu einer Programmierung auch von Menschen.

Laut Digital Manifest stehen wir am Scheideweg zu einem von Algorithmen gesteuerten Feudalismus 2.0 oder einer Demokratie 2.0, die nur durch eine Aufklärung 2.0 zu erreichen sein wird. >>Digital Manifest: Strategie für das digitale Zeitalter vor<<.
Aufbrechen der Silos
Neben der Tatsache, dass Unternehmen höhere Anforderungen an ihre Datenanalysten stellen, stehen die Unternehmen vor einer weiteren Herausforderung. Die Unternehmen müssen ihre Datensilos aufbrechen. Erst wenn die Daten aus verschiedenen Systemen und Bereichen des gesamten Unternehmens integrativ genutzt werden können, kann ein entsprechender Mehrwert generiert werden.
Hier existieren natürlich auch rechtliche Einschränken. So sagte Peter Terium z.B. in einem Interview mit “Die Welt”: “… Smart Meter sind so dumm wie Brot. Und zwar nicht weil sie nichts können, sondern weil sie nichts dürfen…“. Denn in Deutschland gelten dafür die strengsten Datenschutzrichtlinien.
Ein einfaches, naheliegendes und dennoch derzeit in noch nicht allzu vielen Unternehmen umgesetztes Bespiel für das Aufbrechen von Datensilos ist, dass für die Interaktion mit dem Kunden die Daten aus dem Internettracking und den Informationen im CRM System gemeinsam zur Steuerung des Kundenkontaktes über alle Touchpoints hinweg eingesetzt werden.
Hier liegt viel wichtige Arbeit vor den Fachabteilungen, den Datenschutz-, den Datensicherheitsverantwortlichen und den Gesetzgebenden.
Von der Gegenwart in die Zukunft
Was ist nun anders als zuvor?
Zunächst werden höhere Ansprüche an die Qualifikation der Menschen gestellt.
Und dann ändert sich auch das was sie tun und wie sie es tun:
- Heute:Daten im Silo sammeln; Daten aufbereiten; Report generieren; Zusammenhänge erkennen und Maßnahmen ableiten.
- Morgen:Steuerungsalgorithmus definieren; Daten im Silo sammeln; Daten aufbereiten; Algorithmus mit Daten füttern; Daten führen im Algorithmus zu Entscheidungen; der Algorithmus steuert den Prozess; Report generieren; Zusammenhänge erkennen; Maßnahmen ableiten und Algorithmus mit Daten füttern oder anpassen.
- Übermorgen: Steuerungsalgorithmus definieren; Daten im Silo sammeln; Daten aufbereiten; Daten mit weiteren Daten aus anderen Silos und Datenquellen zusammenführen; Daten aufbereiten; Algorithmus mit Daten füttern; Daten führen im Algorithmus zu Entscheidungen; der Algorithmus steuert den Prozess; Report generieren; Zusammenhänge erkennen; Maßnahmen ableiten und Algorithmus anpassen; Daten anderen Silos zur Verfügung stellen; gemeinsam Entscheidungen treffen und Maßnahmen ableiten; Algorithmen anpassen; Geschäftsmodell und Prozesse anpassen.
Oder kurz gesagt: Discover -> Decide -> Automate -> Activate
Dieses Vorgehen wird zukünftig in immer mehr Bereichen der Unternehmen zum automatisierten Steuern der jeweiligen Geschäftsprozesse in Echtzeit zum Einsatz kommen. Zu diesen Bereichen gehören z.B. Transport, Produktion, Vertrieb, Erzeugung, Netze, Infrastruktur, Verbrauch.
Was bedeutet das für die Unternehmen?
Die Digitalisierung und Datengetriebenheit in Unternehmen sollte nicht zum Zwecke ihrer Selbst geschehen. Dennoch müssen Unternehmen ihr Denken anpassen und zukünftig digital und datenanalytisch denken und handeln.
Die Unternehmen müssen ihre Prozesse anpassen. In der IT müssen die Voraussetzungen geschaffen werden die großen Datenmengen in Echtzeit verarbeiten zu können, um damit auch automatisiert Prozesse steuern zu können. Die Datensilos müssen aufgebrochen und zusammengeführt werden. Datenanalyse muss im Unternehmen und auch in Funktionsbereichen innerhalb des Unternehmens, wo es bisher nicht fester Bestandteil war, organisatorisch verankert werden. Jedoch ebenso wenig, wie die Daten in ihren Silos bleiben dürfen, dürfen auch die Menschen, die sich verantwortlich um das Thema Datenanalyse kümmern, nicht in ihren Silos bleiben. Stattdessen müssen die Ergebnisse aus den Analysen bereichsübergreifend zur Identifizierung von Maßnahmen, Anpassungen, Optimierungen und Innovationen eingesetzt werden.
Unternehmen benötigen daher Menschen, die das komplexe Thema der Datenanalyse beherrschen und gleichzeitig über ein tiefes Verständnis für das eigentliche Kerngeschäft und das Erkennen von Zusammenhängen verfügen (Siehe hierzu die Deloite Studie “Talent meets Technology – Datenland Deutschland”. Capgemini spricht dabei vom “Digital Talent Gap“).
Es geht eben darum Zusammenhänge zu erkennen, den Schatz in den Daten zu heben, damit den Daten zur Bedeutung zu verhelfen und einen wirklichen Nutzen daraus zu ziehen.
In diesem Sinne hoffe ich, dass es jetzt alles zeroclear ist. 😉