Ein Tag im Leben eines Data Scientist

Sarah Stemmler arbeitet freiberuflich als Data Scientist und hat für die Malt Academy kürzlich ein Webinar gehalten, in dem sie aus ihrem Leben als Data Scientist erzählt. Im Interview erzählt sie uns von ihrem Beruf, typischen Anwendungsfällen und erklärt welche Fähigkeiten und Kenntnisse man als Data Scientist braucht.

Was macht eigentlich ein Data Scientist?

Sarah: Als Freelancer arbeitet man meist an Projekten für Kunden. Für einen Data Scientist geht es zunächst darum das Geschäftsmodell, sowie die konkrete Fragestellung zu verstehen. Zur Beantwortung der Fragen werden Daten analysiert, mathematische/statistische Modelle entwickelt und diese ggf. visualisiert. Das Ziel ist meistens, Daten besser oder schneller zu verstehen, die Planung zu optimieren, oder konkrete Handlungsempfehlungen zu geben.  

Was sind typische Anwendungsfälle im Bereich Data Science?

Sarah: Die Anwendungsfälle sind für jeden Kunden sehr individuell. Es gibt jedoch einige Muster. Die visuelle Aufbereitung von Daten dient häufig dazu Zusammenhänge schneller erkennen zu können. Ein Beispiel ist den Absatz von 7er BMWs in Abhängigkeit von der regionalen Kaufkraft darzustellen – welche Muster lassen sich erkennen?

Ökonomische Planungsmodelle dagegen helfen Managern bessere Entscheidungen zu treffen oder genauer zu planen. Hierzu vielleicht ein Fallbeispiel: Wenn das Wetter gut ist, kaufen Kunden beim Bäcker mehr Obstkuchen, vor Feiertagen ist der Absatz insgesamt höher, an Feiertagen selbst werden mehr belegte Brötchen gekauft. Ein Modell das mit den richtigen Parametern gespeist ist, kann helfen zwei Situationen zu vermeiden: Der Bäcker hat zu wenig von einem Produkt im Laden, die Kunden sind unzufrieden und der Bäcker hat weniger Umsatz. Oder aber, er hat zu viel und muss Lebensmittel wegschmeißen. Je genauer man die tatsächliche Nachfrage pro Produkt vorhersagen kann, desto ökonomischer und nachhaltiger ist es.

Ein letztes Beispiel wäre die Entwicklung eines Validierungsverfahrens für eine Bilderkennungssoftware mit dem Ziel nicht gewünschte Inhalte von einer Internetplattform automatisiert zu entfernen. Hier besteht die Herausforderung folgende zwei Fehler zu vermeiden:

  • Ein Bild wird entfernt, ist aber eigentlich okay
  • Ein Bild wird nicht entfernt, enthält aber unangemessenen Inhalt.

Mit Ansätzen des maschinellen Lernens wird ein mathematisches Modell anhand von Beispieldaten trainiert. So lernt das Modell wie ein Bild aussieht, das unangemessen Inhalt enthält und entfernt werden soll.

Wie kann man sich den typischen Tagesablauf von einem Data Scientist vorstellen?

Sarah: Die Arbeit variiert sehr stark über Projektphasen hinweg und häufig plane ich mir spezifische Zeiten am Tag für bestimmte Themen ein. Tatsächlich ist aber jedes Projekt unterschiedlich. 

Im Normalfall beginne ich damit die allgemeine Zielsetzung des Kunden zu verstehen und daraus ein Projektziel zu definieren. Wenn Datenquellen vom Kunden bereits vorhanden sind, kann man mit der Bereinigung und Aufbereitung direkt loslegen. Oftmals fehlen jedoch noch weitere Daten, die zunächst bezogen werden müssen. Erste Analysen schließen an um die Daten besser zu verstehen. Je nach Projektart, werden dann Daten modelliert. Bevor die Ergebnisse dem Kunden vorgestellt werden, bereite ich diese dann grafisch auf – zum Beispiel in einem Dashboard oder einer App.

Innerhalb eines Tages versuche ich mir Blöcke zu legen – entweder “deep focus time”, in denen ich konzentriert an den Daten arbeite, oder aber “casual time”, wo es darum geht mich mit Kollegen und Kunden abzustimmen. So könnte ein idealtypischer Tag für mich aussehen. 

Welche Fähigkeiten muss man mitbringen um ein guter Data Scientist zu werden?

Sarah: Man muss auf jeden Fall Neugier, Freude am Lösen von Problemen, strukturiertes Denken und Arbeiten, und eine gewissen Affinität für Zahlen mitbringen. Außerdem Konzentrationsfähigkeit und Ausdauer. Aber daneben gibt es auch eine ganze Menge an Fähigkeiten und Tools, die einem helfen erfolgreich zu sein. Ich habe diese mal in drei Gruppen zusammengefasst. 

Wie in vielen Bereichen ist es auch in Data Science so, dass die wenigsten Menschen Experte in allen Bereichen sind. Deshalb ist es meist sinnvoll für ein Projekt im Team zu arbeiten, um die Stärken von jedem einzelnen optimal einzusetzen. Und nicht zuletzt ist da die Lernfähigkeit. Das Berufsfeld ist noch jung, sodass man sich regelmäßig weiterbilden muss, um am Ball zu bleiben.  

Agile Work ist ja in aller Munde. Arbeitet ein Data Scientist auch agil?

Auf jeden Fall! In meinen Projekten habe ich gemerkt, dass es häufig viel besser ist, den Prozess schneller dafür aber mehrfach zu durchlaufen, um dann Feedback vom Kunden einzuholen. Das Vorgehen ist äquivalent zum Sprint, der viel in der Softwareentwicklung zum Einsatz kommt. Oft ist es für Kunden, aber auch für uns Data Scientists schwierig, von Anfang an eine perfekte Beschreibung des Endproduktes zu erstellen. Wenn man erste Ergebnisse hat, ist es viel einfacher diese weiter zu verbessern, oder auch zu sagen, welcher Ansatz nicht zum Ziel führt.

Daher arbeite ich auch bei Data Science Projekten gerne in Sprints mit Iterationen über die einzelnen Projektabschnitte. So nähert man sich dem perfekten Ergebnis Stück für Stück an, nimmt den Kunden dabei mit und hat auch die Chance auf ggf. geänderte Erwartungshaltungen über die Zeit zu reagieren. 

Welche Tools nutzt Du konkret, um an Deinen Projekten zu arbeiten?

Sarah: Da gibt es eine ganze Menge, je nachdem was man gerade machen möchte. Einige Tools, die ich nutze, werden in vielen Bereichen genutzt, z.B. Projektmanagement, Kommunikation, Design, oder Wissensaustausch. Spezifisch für Data Science sind insbesondere Entwicklungsumgebungen für die Programmierung in R und Python, wie z.B. Jupyter Notebooks oder RStudio relevant.

Für die sehr technischen Data Scientists, die extrem viel und komplexeren Code schreiben, ist Git eine wichtige Software, um den Programmcode strukturiert und versioniert an einem zentralen Ort abzulegen.

Hier bieten sich Tools wie GitLab oder GitHub an. Es gibt auch Data Science Projekte, in denen weniger gecodet und stattdessen verschiedene Analytics Tools mehr zur Anwendung kommen. Dazu zählen zum Beispiel Tableau oder Power BI zur Visualisierung der Analyseergebnisse. 

Was sind deine ganz persönlichen Lernziele für dieses Jahr?

Sarah: Im Hinblick auf meine gerade begonnene Selbstständigkeit habe ich drei Themen ganz besonders hoch priorisiert. Zum einen möchte ich mir einen auf Data Science abgestimmten “Methodenkoffer” mit agilen Ansätzen für meine Trainings und Workshops erarbeiten. Außerdem interessieren mich die Analytics Tools der großen Cloud-Anbieter wie AWS und Microsoft Azure, da ich glaube, dass man mit einem bereits vorhandenen Tech-Stack ziemlich schnell erste Prototypen zusammen mit den Kunden entwickeln kann, ohne von Beginn an gleich viel Zeit und Geld in die Programmierung zu stecken.

Und natürlich möchte ich lernen eine gute Unternehmerin zu sein.  

Über Sarah Stemmler: 

Sarah ist Coach für Data Science und Freelancer auf Malt. Mit synsugar bietet sie Schulungen für Data Science Teams und Projekt Workshops an. Sie hat bereits über 4 Jahre Erfahrung als Data Scientist und hat mehrfach Kundenprojekte konzipiert und bis in den Rollout begleitet. Nebenbei ist Sarah Co-Organisator des Tech-Meetups League of Geeks in Passau. In ihrer Freizeit ist Sarah gerne sportlich aktiv, entweder beim Wandern in den Bergen oder beim Klettern in der Boulderhalle.

Das komplette Webinar von Sarah findet ihr auf unserem YouTube Channel: