Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Mapper 2 + Reducer 2: Getting Started on Hadoop

20 562 vues

Publié le

Mapper 2 + Reducer 2: Threshold Filter

map_filter.py and red_filter.py apply a threshold (based on statistical
analysis of TF-IDF) to filter results of co-occurrence analysis so that we begin to
produce a semantic lexicon for exploring the data set.


How do we determine a reasonable value for the TF-IDF threshold, for filtering
terms? Sampling from the (term, max_tfidf) tuple, we run summary stats and
visualization in R:


cat dat.idf | util_extract.py m > thresh.tsv


We also convert the sender/receiver social graph into CSV format for Gephi
visualization:


cat dat.parsed | util_extract.py s | util_gephi.py | sort -u > graph.csv

Publié dans : Technologie

×