2014/04/19

Buchbesprechung: Agile Data Science - Building Data Analytics Applications with Hadoop

Russel Jurney versucht Methoden der agilen Entwicklung auf Datenwissenschaften umzulegen. Sein Buch Agile Data Science ist klar für Praktiker mit Vorkenntnissen in Informatik und Statistik ausgelegt. Es beschreibt agile Entwicklungsprinzipien und Toolsets anhand eines Beispiels, das sich durch den gesamten Text zieht.

Agilität in der Datenwissenschaft

Datenanalyse und -visualisierung ist bislang ein eher statisches Feld - Spezialisten arbeiten abgeschlossen mit komplexen Tools an noch komplexeren Modellen. Ein bisschen Agilität könnte diesem Bereich gut tun und den eigenen Workflow ergänzen - war mein Gedanke, um dieses Buch anzuschaffen. Mit den Prinzipien der Agilen Entwicklung hatte ich mich zuvor nur oberflächlich beschäftigt, aber Slogans wie Iterationen, Leichtgewichtigkeit, Interaktivität oder Skalierbarkeit würden doch auch gut zu Datenforschung passen.

Jurney (eventuell bekannt von dem Blog datasysndrome) beginnt sein Buch auch mit einer kurzen Einführung in agile Prinzipien und wie diese in einem Datenanalyseteam umgesetzt werden können. Besonders geht er auf Rahmenbedingungen für produktives Arbeiten ein und beschreibt prozessuale Veränderungen, welche durch die Verbreitung von Big Data nötig werden. Danach werden Tools vorgestellt, um agiles Entwickeln in einem Datenanalyseteam zu ermöglichen. Sein Toolset umfasst u.a. Avro, Pig, MongoDB zur Datenverarbeitung und -analyse bzw. Flask, Bootstrap oder d3 zur Datenvisualisierung.

Wie ein roter Faden zieht sich das Beispiel der Analyse und Visualisierung der Daten des eigenen Email-Kontos durch das Buch. Um diesen Anwendungsfall auch nachzubilden, sind drei Voraussetzungen nötig:
  • Verstehen von Python-Code
  • rudimentäre Kenntnisse von JavaScript, und
  • ein GMail-Konto.

Damit (und möglicherweise einer virtuellen Maschine, die -mit den Anleitungen in den Dokumenten zum Buch- einfach zu installieren ist) wird das Beispiel relativ einfach nachvollziehbar. Aus didaktischer Sicht ist das Beispiel gut geeignet, da wie im Buch vorexerziert wird, alle Schritte der Datenanalyse und -visualisierung daran angewendet werden können. Negativ zu erwähnen dabei ist jedoch, dass es sich in die lange Liste der Beispiele in Tutorials oder Bücher zu Themen der Datenforschung einreiht, die wenig bis gar keine Relevanz für den nützlichen Gebrauch in der Realität aufweisen. Außerdem ist es mehr als fragwürdig, dass vor allem die letzten Kapitel des Buches großteils aus Code-Snippets bestehen und die Beschreibung des Vorgehens den Dokumentationen der Tools im Netz überlassen wird.

Zusammenfassung

Für Einsteiger in die Welt der Datenanalyse ist Russel Jurney´s Buch Agile Data Science ungeeignet. Für erfahrene Datenwissenschafter kann es (aber muss es nicht) neue Einsichten bereitstellen, die den Umgang mit Daten erleichtern oder verbessern. Im Großen und Ganzen hinterlässt das Buch bei mir ein großes Fragezeichen hinsichtlich der Nützlichkeit des Buches. Einerseits hätte ich mir mehr Erklärung (bzgl. Prozessgestaltung, oder auch Anwendung der Tools) gewünscht. Andererseits liefert es aber sehr gute Ansatzpunkte, um den eigenen Workflow agiler zu gestalten.

2014/04/08

MOOC: The Data Scientist's Toolbox

Diese Woche habe ich wiedermal einen MOOC zum Thema Data Science begonnen. Dies ist der Einstiegskurs zu den, in einem früheren Post erwähnten, Data Science Specialization Kursen von Coursera.

Leider war aus der Kursbeschreibung nicht ersichtlich, dass es sich dabei um eine reine Einführung in (und Werbung für) diese neue Specialization-Schiene handelt und nicht etwa um eine umfassende Beschreibung von relevanten Werkzeugen, wie der Titel vermuten lassen könnte.
Thematisch handeln die Lektionen von der Installation nötiger Software (va. R für die Analyse und Git zur Versionskontrolle) und ein wenig einführender Worte zur Arbeit mit Daten. Der Arbeitsaufwand ist entsprechend gering - aktuell, habe ich alle Erfordernisse, abgesehen von der Benotung der Peers, mit einem Zeitaufwand von ca. 4h hinter mich gebracht. Etwas dürftig für einen 4 wöchigen Kurs ;)
Der Kurs ist für Datenwissenschaften-Interessierte als Zeitverschwendung anzusehen. Immerhin sollte davon ausgegangen werden können, dass jemand, der/die sich datenanalytisch betätigen möchte, gut dokumentierte Programme installieren kann.