2. Ziel
• ... einen Überblick über das Berufsfeld "Data Science" zu
geben,
• ... in die Lage versetzen, sich selbst weiter zu
informieren,
• ... weitere Fortbildungen gezielt auszuwählen,
• ... zu erkennen, wo sich Potenziale bei Kunden ergeben,
die dann mit interner bzw. externer Unterstützung in
Angebote übersetzt werden können.
2
3. Agenda
1) Einführung in das Thema
• Neue Paradigmen / Abgrenzung zu Statistik,
Marktforschung und Business Intellgence
• Data Science 101:
1. Daten erzeugen Sammeln
2. Daten ablegen / abrufen (=wiederfinden)
3. Daten bereinigen
4. Daten analysieren
5. Daten visualisieren
3
19. Scraping
• Daten sammeln, die bereits optisch aufbereitet wurden
und keine "Datenstruktur" mehr besitzen:
• Tabellen, Charts
• pdf
• Websites
19
20. Corpus
• unbearbeitete Datengrundlage, häufig in Textformat:
• eine Webpage
• Wikipedia
• Sammlung von Tweets zu einem bestimmten Thema,
• Wahlprogramme der Parteien
• Google ngram Corpus
20
21. Stream
• kontinuierlicher Datenfluss:
• Tweets
• Stromverbrauchsmessung durch Smart Meters
• Sensordaten aus dem Bordcomputer eines KfZ
• Verarbeitung muss in der Regel online erfolgen, d.h.
eintreffende Daten werden sofort verarbeitet
21
22. Spezifikationen
• Daten sind oft nur sehr grob beschrieben, häufig gibt es
überhaupt keine Dokumentation
• Mit Versionswechsel der API ändert sich in der Regel
auch das Datenformat der neuen Datensätze, ohne dass
die Bestandsdaten transformiert werden
• Datenformat, Toleranzen, Umgang mit fehlenden Werten
etc. wird "durch Augenschein" erarbeitet
22
24. 2. Daten ablegen / abrufen
Marktforschung /
Statistik
Data Science
Format
Tabellen, RDBMS
Dokumente, Dateien
Konsistenz
durch das Format
Funktional
Struktur
Fälle, Datensätze
Netzwerke, Graphen
Datenhaltung
lokal
Cloud
24
34. Konsistenzfunktion
• Statt die Konsistenz der Daten schon in der Struktur
festzulegen, wird eine Funktion definiert, die jeden
Record nach den vorgegebenen Kriterien überprüft:
function IsConsistent(Record, Schema) as
Boolean
34
35. Immutability
Operation SQL
Create
Read (Retrieve)
Update (Modify)
Delete (Destroy)
"mutable"
35
INSERT
SELECT
UPDATE
DELETE
"Each event happens at a
particular time and is always
true"
• Just C+R; nothing gets ever
"updated"
• Records are stored as files.
Each record is a new file.
"immutable"
36. Document/Graph/Key-Value Store
• Dokumente werden geeignet indiziert
• Meta-Daten werden in speziellen Formaten mitgeliefert
(zB. MPEG7)
• Wenn eine Key-Value-Struktur besteht, wird die Sturktur
der JSON- oder XML-Dokumente in eine Art
Tabellenform gebracht (Keys ~ Spalten, Values ~
Zellwerte)
36
37. Hash-Table, Bitmap-Index
• Hash-Table: aus den Werten wird über eine HashFunktion ein Index berechnet, der auf den Datensatz
verweist
• Bitmap-Index: Tabellenartige Struktur, bei der die
Variablen (via Dummy-Variablen) in eine 0/1-Struktur
gebracht werden
37
45. Mahout
• Mahout currently has
• Singular value decomposition
• Collaborative Filtering
• Parallel Frequent Pattern
mining
• User and Item based
recommenders
• K-Means, Fuzzy K-Means
clustering
• Mean Shift clustering
• Dirichlet process clustering
• Latent Dirichlet Allocation
45
• Complementary Naive Bayes
classifier
• Random forest decision tree
based classifier
• High performance java
collections (previously colt
collections)
46. Textanalyse
• Vorbereitung des Corpus
• N-Gramme
• Wortabstände
• Textvergleiche: Cosinus-Vektor-Ähnlichkeit
Textmining in R: z.B. das Paket "TM"
46
68. Flickr für Touristen
Eric Fischer „See something or say something“http://www.flickr.com/photos/walkingsf/5935471000/in/set72157627140310742 and „Locals and Tourists“http://www.flickr.com/photos/walkingsf/4671578001/in/set72157624209158632
74. Noch ein paar Links:
http://twitter.com/jbenno/bigdata
http://strataconf.com/
http://www.r-bloggers.com/
http://oreilly.com/
http://iognos.com/blog-3/
74