Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Reducer 1: TF-IDF and Co-Occurrence Getting Started on Hadoop

21 233 vues

Publié le

Reducer 1: TF-IDF and Co-Occurrence

red_idf.py takes the shuffled output from map_parse.py, collects metadata
for each term, calculates TF-IDF to use in a later stage for filtering, calculates
co-occurrence probability, then emits all these results:



(doc_id, msg_uri, date)

(sender, receiver, doc_id)

(term, idf, count)

(term, co_term, prob_cooc)

(term, tfidf, doc_id)

(term, max_tfidf)

Publié dans : Technologie

×