data science platforms image

Die wichtigsten Fähigkeiten von Data-Science-Plattformen in 2020: Ein Überblick

Im März 2020 veröffentlichte Gartner seinen Bericht über die zentralen Fähigkeiten von Data-Science-Plattformen und Plattformen für maschinelles Lernen. Der Bericht befasst sich mit den Angeboten von 16 Marktführern. Diese werden u.a. anhand von Kriterien wie Datenzugriff, Datenvorbereitungsfähigkeiten, Daten-Exploration und -Visualisierung, Bereitstellung, Kollaboration und Skalierbarkeit bewertet. 

Im Folgenden finden Sie einen Überblick über die wichtigsten Fähigkeiten, die Gartner in seinem Bericht behandelt, sowie grundlegende Definitionen. Außerdem erfahren Sie, wie sich die Data-Science-Plattform Repods in dieses Bild einordnet. 

Wir haben uns die von Gartner identifizierten, wesentlichen Fähigkeiten von Data-Science-Plattformen genauer angesehen:

Datenzugriff

Die erste wesentliche Komponente von Data-Science-Plattformen bezieht sich auf die Fähigkeit einer Plattform, Daten aus vielen heterogenen Quellen zu extrahieren und zu integrieren. Dazu können sowohl lokale Quellen als auch in der Cloud vorhandene Daten gehören. 

Benutzer sollten darauf achten, dass eine Plattform Daten aus verschiedenen Quellen importieren und konsolidieren kann ohne dabei auf zusätzliche, externe Tools angewiesen zu sein. Die Plattform sollte in der Lage sein, wachsende Mengen unterschiedlicher Daten zu verarbeiten, sodass sie auch mittel- und langfristig Ihren Anforderungen an Datenmengen entsprechen kann.

Laut Gartner sind dies die wesentlichen Merkmale, die eine Data-Science-Plattform abdecken muss:

  • Zugriff auf verschiedene Datentypen
  • Multi-Cloud- und hybride Datenquellen 
  • Extrahieren, Transformieren, Laden (ETL)
  • Integration von Web-Daten und IoT-Daten als Datenquellen
  • Datenaktualisierung und -synchronisierung
  • Echtzeit-Daten-Feeds
  • Daten-Governance und Verwaltung von Metadaten
  • Unterstützung von Data Lakes
  • Zugriff auf Enterprise-Anwendungen
  • Hadoop- und NoSQL-Zugriff
  • Daten-Lineage

Erfahren Sie mehr über die Datenimportoptionen der Data-Science-Plattform Repods, darunter Import aus Dateien, IoT-Router, Web- und Twitter-Quellen, FTPs, S3-Buckets und externen Datenbanken.

Datenaufbereitung

Dieser Begriff erfasst die Fähigkeit, die Daten eingehend zu untersuchen, Datenbereinigungs- oder Datentransformationsaufgaben durchzuführen und die Daten auf flexible Weise zu kombinieren. Von Data-Science-Plattformen wird erwartet, dass sie über eine integrierte Infrastruktur zur Unterstützung verschiedener Datentransformationsaufgaben verfügen. Einige Plattformen bieten möglicherweise sogar Vorschläge zur Sicherung der Datenqualität oder zur Durchführung der Partitionierung von Datensätzen an.

Die traditionell mühsame, manuelle Aufgabe der Datenaufbereitung sollte von einer Data-Science-Plattform möglichst automatisiert durchgeführt werden können.

Im Folgenden sind die Datenvorbereitungsfunktionen aufgeführt, die Gartner als wesentlich für Data-Science-Plattformen identifiziert:

  • Blending, Binning, Smoothing
  • Transformation, Aggregation und Set-Operationen
  • Daten-Katalogisierung, Daten-Labeling und Daten-Annotation
  • Maschinelles Lernen 
  • Such- und Filteroptionen

Erfahren Sie mehr über die Transformation von Daten mit Data-Pipes in Repods oder die Erstellung eines Datenmodells auf der Plattform.

Daten-Visualisierung

Diese Fähigkeit bezieht sich auf die Art und Weise, auf die eine Data-Science-Plattform ihren Endbenutzern ermöglicht, die Daten zu erforschen und mit ihnen zu interagieren. Dazu gehören grundlegende Reporting-Aufgaben, statistische Analysen, die Erkennung verschiedener Muster in den Daten und das Aufspüren von Korrelationen. Sie bieten außerdem eine Auswahl an Möglichkeiten der Datenvisualisierung. Letztere umfassen interaktive Dashboards und/oder Diagramme, die nahezu in Echtzeit aktualisiert werden, sowie die Möglichkeit, benutzerdefinierte Visualisierungen zu erstellen, wie z.B. benutzerdefinierte interaktive Infografiken mit d3.js.  

Gartner nennt die folgenden Schlüsselfähigkeiten, auf die es zu achten gilt:

  • Erweiterte Datenermittlung
  • Univariate und bivariate Statistiken
  • Statistische Signifikanz-Prüfung
  • Clustering und selbstorganisierende Maps 
  • Geolokalisierung
  • Affinitäts- und Graphenanalyse
  • Conjoint- und Umfrageanalyse
  • Schätzung der Dichte
  • Ähnlichkeitsmetriken

Weitere Informationen zu Auswertungen und Berichterstattung mit Repods finden Sie hier. Informationen über die Erstellung von Infografiken auf der Plattform finden Sie auf dieser Seite.

Maschinelles Lernen (ML) & Erweiterte Analytik

Plattformen für maschinelles Lernen unterstützen traditionell mehrere Modelle „out of the box“ oder bieten die Möglichkeit einer benutzerdefinierten Programmierung. Zu den typischen Fähigkeiten gehören der Import und die Entwicklung sowie das Testen von prädiktiven Modellen; Deep Learning, neuronale Netze, Reinforcement Learning, Transfer Learning, Regression, Zeitreihenanalyse, Bayes’sche Modellierung, Klassifikations- und Regressionsbäume, Ensembles oder hierarchische Modelle. 

Dann haben wir die Fähigkeit einer Data-Science-Plattform, zusätzliche statistische Methoden sowie Optimierung, Simulation (Predictive Analytics) und andere Analysen in die Entwicklungsumgebung zu integrieren. Zu den Optimierungsfunktionalitäten können Solver- und heuristische Ansätze sowie die Gestaltung von Experimenten gehören. Zu den Simulationsfunktionalitäten gehört der Aufbau eines Modells, um sein Verhalten zu untersuchen und Erkenntnisse über mögliche Ergebnisse zu gewinnen. 

In Repods programmieren Sie in Data-Science-Workbooks mit der Möglichkeit, zwischen PostgreSQL- und Python-Karten zu wählen.

Über die Direct-Access-Schnittstelle der Plattform können Sie auch mit Jupyter oder Zeppelin arbeiten. Sie verfügen über Markdown-Karten, mit denen Sie Ihrer Workbooks stilvolle Dokumentationsschnipsel in einem einfachen Markdown-Format zur Verfügung stellen können.

Erfahren Sie mehr über die Data-Science-Workbooks in Repods.

Flexibilität und Offenheit

Im Großen und Ganzen geht es darum, den Data Scientists die Freiheit zu geben, ihre bevorzugten Methoden und Werkzeuge bei der Arbeit auf der Plattform zu verwenden.

Data-Science-Plattformen müssen in der Lage sein, die relevantesten Werkzeuge, Sprachen, Bibliotheken und Frameworks sowie verschiedene andere Open-Source-Angebote zu unterstützen.

Data-Science-Plattformen müssen in der Lage sein, die relevantesten Werkzeuge, Sprachen, Bibliotheken und Frameworks sowie verschiedene andere Open-Source-Angebote zu unterstützen.

Dies bedeutet die Unterstützung von Sprachen wie Python, R und Scala; Jupyter- oder Zeppelin-Notebooks; Visualisierungswerkzeuge wie d3; Open-Source-Werkzeuge für maschinelles Lernen und Datenverwaltungsplattformen wie Spark und Hadoop; Docker; sowie die generelle Fähigkeit, Angebote von Drittanbietern zu integrieren. 

Eine vorläufige Liste der Dienste, die Sie in Repods integrieren können, finden Sie hier.

Leichte und schnelle Bereitstellung von Informationen

Hier geht es um die Leichtigkeit und Geschwindigkeit, mit der Sie Modelle von Ihrer Entwicklungsumgebung in eine Produktionsumgebung übertragen können. Data-Science-Plattformen sollten es Ihnen z. B. ermöglichen, APIs oder Container für eine schnellere Bereitstellung zu erstellen. 

Weitere Informationen zum externen Zugriff und zur API-Referenz in Repods finden Sie in unserer Dokumentation.

Fähigkeiten zur Plattformverwaltung und Kollaboration

Die Plattformverwaltung umfasst Fragen der Sicherheit (z.B. Datenverschlüsselung), der Verwaltung von Compute-Ressourcen, der Data Governance, der Versionsverwaltung und Wiederverwendbarkeit von Projekten sowie Auditing und Reproduzierbarkeit.

Im Hinblick auf die Einhaltung gesetzlicher Vorschriften sollten Data-Science-Plattformen in der Lage sein, Audits zu erleichtern und auf gesetzliche Herausforderungen zu reagieren. Von Plattformen wird erwartet, dass sie eine Runtime-Optimierung, Mehrbenutzerfähigkeiten im Sinne des Projektmanagements sowie Debugging und Protokollierung bieten. 

Der Aspekt des Multi-User-Managements führt uns zu dem, was zu den unverzichtbaren Fähigkeiten von Data-Science-Plattformen zählt: Kollaboration.

Dazu gehört die Fähigkeit einer Plattform, verschiedene Arten der Zusammenarbeit zu unterstützen und Arbeitsabläufe und Projekte für Teams an verschiedenen Standorten und in verschiedenen Abteilungen einer Organisation zu erleichtern. Hierzu zählen noch die Zusammenarbeit zwischen Data Scientists, Ingenieuren, Business-Analysten sowie nicht-technischen Wirtschaftsfachleuten und Anwendern. Entscheidend ist dabei die Prozesstransparenz, die durch die Zusammenarbeit ermöglicht wird. 

Mehr über die kollaborativen Funktionen der Data-Science-Plattform Repods erfahren Sie hier.

UI und Kohärenz

Dieses Kriterium umfasst die visuelle Gestaltung einer Data-Science-Plattform. Hier betrachten wir, wie intuitiv und responsiv eine Plattform für ihre Endbenutzer ist. Das Ziel ist es, ein kohärentes „Look & Feel“ für eine maximal nutzerzentrierte Erfahrung zu erreichen. Benutzeroberflächen können für die entwicklerorientierte Datenanalyse optimiert werden, sie können aber auch die Erstellung von Drag-and-Drop-Workflows beinhalten, die die Einstiegsbarriere für Nichtexperten senken.

Zu den Schlüsselaspekten gehören hier die Benutzerfreundlichkeit und die Lernkurve, kontextbezogene Hilfsmittel, die Plattformdokumentation, die Berücksichtigung von Benutzer-Communities für eine verbesserte Zusammenarbeit und sogar anpassbare Algorithmen. 

Das Kriterium der Kohärenz berücksichtigt, wie konsistent, integriert und intuitiv die Data-Science-Plattform im Hinblick auf den Gesamtprozess über eine Vielzahl von Benutzertypen hinweg ist. Dazu gehört auch die Benutzerfreundlichkeit, die als eine nahtlose End-to-End-Erfahrung geliefert wird. Aber auch die allgemeine Flexibilität der Plattformlösung wird berücksichtigt, sowie die Geschwindigkeit, den Grad der Vereinheitlichung und die Konsistenz des „Look & Feel“ der Plattform. 

Erfahren Sie mehr über die Workbooks in Repods

Automatisierung

Dazu gehört die Fähigkeit, Aufgaben zu automatisieren und die iterative Suche nach Modellen aus einer Reihe von vorab festgelegten Kandidaten zu unterstützen. Zu den Funktionalitäten, die laut Gartner von Data-Science-Plattformen adressiert werden sollten, gehören:

  • Datenvorverarbeitung, -aufbereitung und -entdeckung
  • Feature-Learning und Feature-Engineering
  • Dimensionalitätsreduktion und Feature-Auswahl
  • Auswahl von Algorithmen
  • Modelloptimierung, Bereitstellung und Überwachung

Weitere Informationen über die verschiedenen Möglichkeiten, Prozesse auf der Repods-Plattform zu automatisieren, zu überwachen und zu steuern, finden Sie im Abschnitt „Überwachung und Steuerung“ der Produktdokumentation. 

Leistung und Skalierbarkeit

Dieses Kriterium berücksichtigt die Zeit, die für das Laden von Daten, die Erstellung und Bereitstellung von Modellen benötigt wird, die Fähigkeit zur Iteration sowie die allgemeine Fähigkeit, schnellere Einblicke in Echtzeit zu liefern, um Entscheidungsprozesse innerhalb einer Organisation zu erleichtern.

Zu den wichtigsten Fähigkeiten von Data-Science-Plattformen gehören unter anderem die Skalierbarkeit großer Datenmengen, Echtzeit-Daten, Cloud-Computing-Fähigkeiten, In-Memory-Computing, Unterstützung für GPUs und andere spezialisierte Hardware sowie eine umfassende Kostenberatung.

Erfahrungen von Plattformbenutzern

Gartner identifiziert die Nutzer von Data-Science-Plattformen als Data Scientists, Dateningenieure, Statistiker und Citizen Data Scientists.

Laut Anwenderberichten gibt es eine klare Präferenz für Plattformen, die es Data-Science-Teams ermöglichen, ihre eigenen maßgeschneiderten Lösungen zu entwickeln.

Im Gegensatz zum Kauf von Paketlösungen oder der Auslagerung der Data-Science-Aufgaben an einen Dienstleister. Und das ist genau das, was wir tun!

Als eine Dienstleistung, die kurz vor dem Markteintritt steht, sind wir gespannt, was Sie von der Data-Science-Plattform Repods halten.

Um die Möglichkeiten der Plattform zu erkunden, melden Sie sich an und erstellen Sie einen kostenlosen Data Pod mit einem vollständigen Satz von Demodaten. Ihr kostenloser Data Pod wird immer kostenlos bleiben und Sie können so viele erstellen, wie Sie wollen!


Abonnieren Sie unser Magazin!
Bleiben Sie auf dem Laufenden mit den neuesten Tipps und Nachrichten aus Data Science und IoT.