Data Scientist – der Problemlöser für Big Data ?

Im Forum Business Intelligence & Big Data wurde von SAS die Frage aufgeworfen: Welches Anforderungsprofil muss ein Mitarbeiter haben, der die immensen Aufgabenstellungen im Bereich Big Data meistern kann?

Als Datenbutler benötigen wir natürlich auch entsprechende Methoden, Tools und Kompetenzen. Deswegen hier einmal ein Blick darauf, welches Profil für Big Data das richtige ist und was man als „Data Scientist“ (wie dieser Big Data Profi von Fraunhofer, IBM und CIA benannt wird) leisten muss.

Wir nähern uns dem Thema aus drei Blickwinkeln:

  • Big Data Definition – welche Aspekte deckt Big Data ab
  • Big Data Ziele – welche Persönlichkeiten benötigt man um die Ziele erreichen zu können
  • Big Data der große Wurf – was fehlt trotzdem noch

Big Data – Definition

Im Leitfaden Big Data der Bitkom findet sich sinngemäß folgende Definition:

Big Data ist der

  • Einsatz großer Datenmengen
  • aus vielfältigen Quellen
  • mit einer hohen Verarbeitungsgeschwindigkeit
  • zur Erzeugung wirtschaftlichen Nutzens

mit folgenden vier wesentlichen Facetten:

  • Datenmenge (Volume) – gigantische Datenmengen sind zu analysieren
  • Datenvielfalt (Variety) – es besteht eine zunehmende Vielfalt von Datenquellen und -Formaten von strukturierten über semistrukturierte bis hin zu unstrukturierten Daten. Die unternehmenseigenen Daten werden durch externe Daten ergänzt.
  • Geschwindigkeit (Velocity) – die riesigen Datenmengen müssen immer schneller ausgewertet werden, nicht selten in Echtzeit und muss mit dem Datenwachstum Schritt halten.
  • Analyse (Analytics) – es bedarf einer möglichst automatisierten Erkennung und Nutzung von Mustern, Zusammenhängen und Bedeutungen. Zum Einsatz kommen u.a. statistische Verfahren, Vorhersagemodelle, Optimierungsalgorithmen, Data Mining, Text- und Bildanalyse.

Somit besteht Big Data aus vielfältigen Technologien aus der Datenbanktechnik, der Algorithmik, des maschinellen Lernens bis hin zur Visualisierung. Mit einem anderen Blick betrachtet geht es um Datenhaltung, Datenzugriff, Datenintegration, Analyse, Informationsgewinnung, Informationsverteilung und am Ende auch der Wissensnutzung im Rahmen der Geschäftsprozesse. Als „Begleiterscheinung“ werden auch Themenfelder wie Daten Qualität / Data Governance und Datenschutz berührt.

Was bedeutet all dies für unseren Data Scientist: Er oder sie muss die aktuellen Datenhaltungs- und verarbeitungstechniken kennen wie Hadoop, die es erlauben Daten verteilt und skalierbar über große Rechnermengen performant zu speichern und analysieren. Er weiß wie Daten aus bestehenden Data Warehouse Projekten des Unternehmens hinzugenommen werden können. Er kennt Data Harvesting Ansätze, um die internen Daten mit geschäftskritischen externen Daten anzureichern. Er setzt Methoden des maschinellen Lernens ein, um aus den Einzeldaten Informationen und Wissen abzuleiten. Er kennt die Data Mining Verfahren, die je nach Einsatzzweck zu verwenden sind und ist in der Lage gewonnene Erkenntnisse und Wissen, durch zielführende Visualisierung greifbar zu machen.

Data Scientist
Data Scientist

Big Data – Nutzen

Angerissen wird die Wichtigkeit von Big Data auch im diesjährigen Motto der Cebit:

„d!conomy“ lautet dieses – beim Motto steht also eine datengetriebene Wirtschaft im Fokus. Welche Verbesserungen soll Big Data der Wirtschaft bringen?

In der Definition der Bitkom steckt der Hauptanspruch. Big Data Projekte werden durchgeführt

… zur Erzeugung wirtschaftlichen Nutzens.

Laut SAS sind folgendes die in zwei Drittel der Fälle erreichten Nutzen:

Nutzen von Big Data
Nutzen von Big Data laut SAS
  • schnellere Analyse
  • gesenkte Kosten
  • bessere Steuerung der operativen Prozesse

Was lässt sich daraus für das Aufgabenspektrum des Data Scientist ableiten?

  • Daten müssen aggregiert, visualisiert und in umsetzbare Empfehlungen geleitet werden
  • Die gewonnenen Informationen und das Wissen müssen für die Geschäftsprozesse nutzbar gemacht werden
  • Ein wirtschaftlicher Nutzen entsteht durch Big Data

Somit ist der Data Scientist

  • kein reiner Wissenschaftler auch wenn dies im Wort „Scientist“ anklingt
  • nicht nur ein Datenbankexperte, Real Time-Guru oder Satistiknerd

Er muss verstehen, welche Prozesse für die Firma wichtig sind und wie Daten, Informationen und Erkenntnisse hier Verbesserungen bringen. Das bedeutet, dass er auch Wissen über Marketing, Produktionsprozesse, Geschäftsmodelle, Recht und Unternehmensführung haben muß.

Big Data – der große Wurf

Spätestens jetzt wird man innehalten und sagen: Und das alles soll der Data Scientist leisten?

Und spätestens jetzt wird klar: Um ein Unternehmen für die d!conomy fit zu machen benötigt es ein heterogenes Team verschiedenster Experten. Um ein Unternehmen zur „data-driven“ Company umzubauen braucht es Geschäftsleitung, Bereiche wie Marketing genauso wie die eigentlichen Technikexperten. Der Erfolg eines Data Scientists und damit der Erfolg des Big Data wird sich damit nur dann einstellen, wenn er in der Lage ist, in diesem heterogenen Team, die geschäftskritischen Anforderungen zu verstehen und mit anderen Experten Schritt für Schritt zu entwerfen. Hierbei ist auch wichtig zu erkennen, ob das Team bereits richtig strukturiert ist, zur Lösung interne Daten und Expertise ausreichen oder durch externe Datenquellen und externes Wissen angereichert werden sollte. Big Data ist immer ein Stück Neuland, da die Nutzbarmachung für jede Firma unterschiedlich ausfallen muss und es lohnt hier doppelt, wenn man von Erfahrungen anderer profitieren kann.

Abschließend damit die Frage – kann ein Begriff wie „Data Scientist“ überhaupt das abdecken was für ein Big Data Projekt benötigt wird oder führt uns der Begriff nicht gerade in die Irre, indem er Einzelkompetenzen betont, anstatt das integrative herauszustellen?

Somit am Schluss die Frage – was wäre eine bessere Bezeichnung – vielleicht sogar auf Deutsch?

Es grüßt Sie freundlich Ihr

Großdatenjäger/in – Daten-Wisser/in – Datenbutler

 

 

One Response

  1. Anita Lakhotia

    Hallo Großdatenjäger 🙂

    vielen Dank für diesen Beitrag zur SAS Blogparade. Ich bin der Meinung, es sollte mehr Diskussionen wie diese geben, ob ein Data Scientist als Person allein das leisten kann, was erwartet wird. Oder ob es sich nicht doch vielmehr zu einem Team von Experten entwickeln wird.

    vielen Dank und viele Grüße von SAS,
    Anita Lakhotia

Schreibe einen Kommentar