2014/01/28

Umstieg auf Fedora Scientific

Nachdem ich mein Notebook doch noch dazu bringen konnte, mit einem Dualboot-System klar zu kommen, ist es mir endlich möglich ein Linux Betriebssystem auch im Produktivbetrieb zu benutzen. Meine Wahl fiel auf Fedora, genau genommen dessen KDE-basierten Scientific Spin, der schon von Grund auf viele Tools zur Datenanalyse mitbringt (R, Root, Octave, SciPy, Spyder, IPython, ...).

Desktop Heisenbug
Abgesehen von kleinen Schwierigkeiten bei der Druckerinstallation (das durch die Installation eines neuen Druckertreibers von OpenPrinting schnell behoben war) und der doch etwas mühevollen Installation von Chromium (aufgrund des fehlenden offiziellen Repositoriums), gab es bislang bei der Einrichtung des neuen OS keine nennenswerte Probleme. Auch das Einbinden von Windows Partitionen ist mit Hilfe des nachinstallierten gnome-disk-utility Programms (um mir das manuelle umkonfigurieren zu ersparen) einfach eingerichtet gewesen.

Aufgrund der umfassenden Ausstattung von Fedora Scientific, habe ich bislang nur folgende Tools für den produktiven Einsatz zur Datenanalyse nachinstalliert:
  • kate - Geschmacksfrage, liegt mir mehr als der vorhandene KWriter; aus den Fedora Repositorien
  • QGIS - für die Geoinformation; aus den Fedora Repositorien
  • JOSM - OpenStreetMap Editor; aus den Fedora Repositorien
  • Beautiful Soup 4 - Python Bibliothek; aus den Fedora Repositorien
  • LibreOffice - Geschmacksfrage, da Calligra Suite vorhanden; nach der Anleitung auf LibreOffice-Page
  • RStudio - Geschmacksfrage, liegt mir zur Skriptprogrammierung besser als vorhandenes RKWard; RPM Paket von RStudio

Fedora Desktop
Die ersten R-Skripte sind schon gelaufen und die Einrichtung des Desktops (eigentlich der Desktops, da 4 Arbeitsflächen pro Aktivität) ist fast fertig. Die Python Integration ist in diesem Spin hervorragend. Bis auf die oben erwähnte Bibliothek zum Markup-Language-Parsen ist eigentlich alles vorhanden um out-of-the-box mit der Analyse von sozialen Daten in Python (bzw. IPython) los zu legen. Visualisierungs-Hilfswerkzeuge (wie Inkscape) sind auch schon standardmäßig enthalten, sowie Mittel zur Dokumentation (besonders umfassende LaTex-Integration), ein Projektplanungs-Werkzeug und ein Personal-Information-Manager (Kontact, von dem ich wegen seiner Systemintegration besonders begeistert bin).

Der KDE-Desktop ist individuell gut anpassbar. Generell ist mir hinsichtlich der Benutzbarkeit noch kein Bug unter gekommen. Sobald die ersten Projekte in Fedora gemacht wurden aber mehr dazu...

2014/01/22

Coursera´s Data Science Specialization

Nachdem Ende letzten Jahres der MOOC Anbieter Udacity eine Serie von neuen MOOC´s zum Thema Data Science angekündigt hat (die jedoch noch immer nicht Online sind), zog Heute Coursera nach und veröffentlichte eine neue Angebotsschiene. Dabei werden verschiedene Kurse zu einem Thema gebündelt. Werden diese positiv absolviert, wird ein spezielles Zertifikat ausgestellt. Eine dieser Specializations ist Data Science, die in Zusammenarbeit mit der Johns Hopkins Universität realisiert wurde.

Ab April werden die ersten Kurse starten, die alle in Englisch gehalten werden. Neun davon sind zu absolvieren und ein sogenanntes Capstone Project muss am Ende auch noch als Abschlussarbeit erstellt werden. Die Themen der jeweils vierwöchigen Kurse decken das breite Spektrum an Fähigkeiten, die DatenwissenschafterInnen haben sollten, ganz gut ab. Es wird ein Kurs zur Sammlung und Aufbereitung von Daten angeboten, eine Reihe von Kursen zu diversen Analysmethoden, ein Kurs über Machine Learning und einer über die Herstellung von Datenprodukte. Wie aus den Beschreibungen heraus zu lesen ist, sind alle Kurse sehr auf R als Analysewerkzeug ausgerichtet. Die Auswahl der Kursleiter Roger D. PengJeff Leek und Brian Caffo, die alle schon in letzter Zeit Kurse über (oder mit) R auf Coursera gehalten haben, ist wohl auch als Indiz dafür zu werten.

Für jene, die ein solches Specialization Certificate erhalten möchten, beträgt die Kursgebühr jeweils 49$ pro Kurs - was also insgesamt 441$ macht. Ist einem ein solches Zertifikat das nicht wert oder gefällt die Kurszusammenstellung nicht, können die Kurse jedoch auch einzeln und kostenlos absolviert werden.

Da meine Erfahrung von früheren Coursera Kursen ist, dass sie ganz gut geeignet sind, um Wissen aufzufrischen und sich mit aktuellen Entwicklungen vertraut zu machen, habe ich vor, das freie Angebot von The Data Scientist´s Toolbox, Practical Machine Learning und Developing Data Products zu absolvieren und falls es die Zeit (bzw. die Anforderungen der Kurse) zu lässt, eventuell auch noch ein, zwei Kurse über die Analysemethoden.