wie wird man data scientist

Wie wird man Data Scientist?

Data Science tauchte in den 1960er Jahren als Begriff auf und bezeichnete eine Forschungsrichtung, die sich speziell mit der Aufgabe beschäftigt, große Datenmengen sinnvoll zu nutzen. 1962 veröffentlichte John Tukey The Future of Data Analysis, um ein Umdenken der akademischen Statistik zu fordern. Tukey, der an der Schnittstelle von Industrie und Wissenschaft arbeitete (sowohl bei Bell Telephone Laboratories als auch am Department of Statistics der Princeton Universität), spielte auf die Existenz einer noch nicht anerkannten Wissenschaft an, die das „Lernen aus Daten“ oder die „Datenanalyse“ untersucht.

Erst Anfang der 2000er Jahre wurde der Begriff weiter konkretisiert, nicht zuletzt durch William S. Clevelands Aufsatz Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics.” John Chambers und Jeff Wu wurden auch für die Erweiterung der akademischen Statistik in Richtung Data Science anerkannt, wodurch der Schwerpunkt auf der Datenaufbereitung, -präsentation und -vorhersage und nicht auf statistischer Modellierung und Schlussfolgerung liegt. Die erste begutachtete Zeitschrift in diesem Bereich, das CODATA Data Science Journal, erschien 2002 zusammen mit dem International Council for Science: Committee on Data for Science and Technology. Im Jahr 2003 folgte die Columbia University mit dem The Journal of Data Science.

Wie ein Begriff auch außerhalb der Wissenschaft Popularität erlangte

In 2010 erlangte der Begriff echte Popularität außerhalb von akademischen und industriellen Kreisen. Dies geschah, als Mike Loukides, Vice President of Content Strategy bei O’Reilly Media, den Artikel “What is data science?” veröffentlichte und erklärte, dass „die Zukunft Unternehmen und Menschen gehört, die Daten in Produkte umwandeln“. Etwa zehn Jahre nach diesem Ereignis wissen wir immer noch nicht, was Data Science ist.

Im Laufe der Jahre haben Datenanalytiker, Statistiker und Informatiker an Rechenumgebungen für Datenanalysen und Datenanwendungen gearbeitet, die sich auf Unternehmen auswirken würden, indem sie Daten zur Generierung von Neuerungen verwenden. Definitionen der Data Science entwickeln und verändern sich im Zusammenhang mit der sich verändernden Landschaft der Technologie und der Datenverarbeitung. The Journal of Data Science verfolgt weiterhin eine maximal breite Definition: „Mit Data Science meinen wir fast alles, was mit Daten zu tun hat: Sammeln, analysieren, modellieren… aber der wichtigste Teil sind die Anwendungen – alle möglichen Anwendungen.“ In einem kürzlich erschienenen Beitrag nannte David Donoho die Data Science „das wirklich wichtige intellektuelle Ereignis der nächsten 50 Jahre“.

Data Science Aktuell

In der aktuellen Innovationslandschaft gibt es noch mehr Analyse- und Rechenleistung, einen weitaus stärkeren Austausch und Nutzung zugänglicher Daten sowie verbesserte Entscheidungsmöglichkeiten auf der Grundlage datenwissenschaftlicher Ansätze. Das Zusammenwirken dieser drei Kräfte ist der Antrieb für die weitere Entwicklung des interdisziplinären Data Scientists. Data Science ist besonders empfänglich für Bewegungen zwischen und über die Sektoren hinweg. Wir haben auch das Phänomen der so genannten „geflochtenen Karrieren“, die die Ausübung von zwei oder mehreren Karrierewegen sowohl in der Wissenschaft als auch in der Industrie, in der Wissenschaft und im öffentlichen Sektor oder in der Industrie und im öffentlichen Sektor beinhalten.

Die Kompetenzen eines Data Scientists

All dies erfordert neue und vielleicht bisher ungekannte Kombinationen von Fähigkeiten und Datenkenntnissen. Aber was sind die Grundlagen?

Hard Skills

  • Jahrelange (formale) Ausbildung. Um die Tiefe und Breite des mit diesen Rollen verbundenen Wissens zu entwickeln, benötigen die meisten Data Scientists möglicherweise einen soliden Hintergrund in den Wissenschaften. Nach jüngsten Daten sind die häufigsten akademischen Bereiche für Data Scientists Mathematik und Statistik (25 %), Informatik (20 %), Naturwissenschaften wie Physik (20 %) und Ingenieurwissenschaften (18 %). Über 90 % der Datenwissenschaftler verfügen über einen Master-Abschluss und 48 % über einen PhD.
  • Python & Co. Eine aktuelle Studie über die Dynamik der datenwissenschaftlichen Fähigkeiten in Großbritannien zeigt, dass Python die beliebteste Programmiersprache ist, wobei 43 % der im Zeitraum 2013-2018 generierten Stellenanzeigen im Bereich Data Science diese als Qualifikationsanforderung aufführen. Weitere Top-Skills sind SQL (27 %), Machine Learning (26 %), Big Data (25 %), Hadoop (19 %) und ein solider Hintergrund in der Forschung (20 %). Die Spitzenkompetenzen sind Skriptsprachen (87 %), Big Data (63 %), SQL-Datenbanken (57 %), Datenanalyse (39 %), Statistik (27 %), Statistische Software (33 %) und Software-Entwicklungsprinzipien (26 %).

Soft Skills

  • Intellektuelle Neugier. Data Science wird durch Entdeckung und Erfindung angetrieben. Dabei geht es nicht nur darum, Antworten auf bestehende Fragen zu geben und das bereits Vorhandene zu untersuchen, sondern auch um die Fähigkeit, neue Fragen zu generieren und Daten auf neue, erfinderische Weise zu untersuchen. Die intellektuell Neugierigen bleiben aufgeschlossen, interessiert und wirklich begeisterungsfähig.
  • Kommunikation. Ein Data Scientist muss ein hervorragender Kommunikator sein, der die Geschäftserkenntnisse in einer wirkungsvollen Sprache bündelt. Neben der wissenschaftlichen Denkweise, um ein Problem anzugehen, müssen Data Scientists die Ergebnisse an ihre Unternehmen und die Öffentlichkeit weitergeben. Sie werden mit vielen Abteilungen im gesamten Unternehmen zusammenarbeiten, um den Umfang der zu behandelnden Probleme vollständig zu verstehen. Die Fähigkeit, die eigenen Ergebnisse einem nicht-technischen Publikum zu vermitteln, ist unerlässlich.
  • Geschäftssinn. Dabei geht es um das Verständnis der Auswirkungen der Ergebnisse auf die Unternehmensziele, d.h. um ein tiefes Verständnis Ihrer Branche und der zu lösenden Unternehmensprobleme. Hinzu kommt die Fähigkeit, neue Wege zu finden, um mit diesen Problemen umzugehen und zu erkennen, welche Probleme sich tatsächlich lösen lassen.

Die Aufgaben eines Data Scientists

Was wären die Aufgaben eines Data Scientists?

  • Sammeln, Vorbereiten, Explorieren, Verwandeln. Daten aus einer Vielzahl von Formaten sammeln, die Daten untersuchen, Datentransformationen durchführen und die Daten für Aufgaben wie das Reporting vorbereiten.
  • Datenrepräsentation. Präsentation der Daten in einem Format, das sich für die Analyse eignet.
  • Datenmodellierung. Darstellung der Komplexität eines Systemdesigns in zugänglichen Diagrammen.
  • Datenvisualisierung. Verwendung von Visualisierungstools zur grafischen und zugänglichen Darstellung der Daten, die die Erkennung von Trends, Mustern und Ausreißern in den Daten ermöglicht.
  • Meta. Data Scientists können auch Wissenschaft über die Datenwissenschaft betreiben, wenn sie wiederkehrende Analyse-Workflows finden, die Effektivität etablierter Workflows in Bezug auf verschiedene Leistungskennzahlen messen und in ihren Datenanalysen nach aufkommenden Phänomenen suchen.

Die Segmentierung von Data Science

Wie sieht es mit den Arbeitsbereichen aus?

  • Dateninfrastruktur. Dazu gehören Datenaufnahme, Verfügbarkeit, Zugriff und Betriebsumgebungen, die die Arbeitsabläufe von Data Scientists verbessern.
  • Das Daten-Engineering. Dies beinhaltet die Festlegung von Datenschemata zur Unterstützung von Datenaggregation, Datenbereinigung, Extraktion, ETL-Aufgaben sowie das Datensatzmanagement.
  • Datenqualität und Datenverwaltung. Dazu gehören die Prozesse und Richtlinien, die implementiert werden. Diese stellen sicher, dass die Daten standardisiert, korrekt, überwacht, dokumentiert und gesichert sind.
  • Datenanalyse-Engineering. Dabei erfolgt die Skalierung über Analytics-Anwendungen für den internen Gebrauch.
  • Daten-Produkt-Produktmanager. In diesem Fall erstellen Sie Produkte, die interne Kunden in ihrem Workflow nutzen können. Außerdem ermöglichen sie mit denen die Einbindung von Messungen aus der Datenverarbeitung.

Was treibt den Data Scientist?

Aber was wären die Treiber für einen Data Scientist? Hier ist unsere Liste:

  • Intellektuelle Freiheit
  • Raum für kreative Erfindungen
  • Möglichkeiten zur Mitgestaltung der Innovationslandschaft
  • Grundlagenforschung auf hohem Niveau mit praxisnahen Anwendungen
  • Anerkennung
  • Industrielle und/oder wissenschaftliche Erkenntnisse, die der Öffentlichkeit zu Gute kommen.

Neugierig geworden? Erfahren Sie mehr über unsere Stellenangebote und Trainingsmöglichkeiten.


Abonnieren Sie unser Magazin!
Bleiben Sie auf dem Laufenden mit den neuesten Tipps und Nachrichten aus Data Science und IoT.