SlideShare une entreprise Scribd logo
1  sur  9
Télécharger pour lire hors ligne
Jaccard係数の計算式(2)
仮に1950年代~2000年代までの文書をデータとし
て扱うとします。この場合に、どの程度、語Aが80
年代に特徴的なのかを計算するJaccard係数の式は、
次のようになります。
「80年代」でなおかつ「語Aを含む」文書の数
「80年代」か「語Aを含む」か1方でも当てはまる文書の数
図解にするとより分かりやすく→
80年代の文書 語Aを含む文書
(a) 「80年代」でなおかつ「語Aを含む」文書
80年代の文書 語Aを含む文書
(b) 「80年代」か「語Aを含む」か1方でも当てはまる文書
80年代の文書 語Aを含む文書
(a) 「80年代」でなおかつ「語Aを含む」文書
(b)の中での(a)の割合 = (a)÷(b) がJaccard係数!
80年代の文書 語Aを含む文書
(a) 「80年代」でなおかつ「語Aを含む」文書
(b) 「80年代」か「語Aを含む」か1方でも当てはまる文書
もし単純に数をかぞえると?
語Cを含む文書
• 単純に80年代の語をかぞえると、80年代だけでなく、
どの年代にも多く出てくる語Cが上位に。
• Jaccard係数では、割合を見るので語Cは下位になり、
「80年代ならでは」の語が上位に
80年代の文書
それでも、ある程度は数も必要
語Dを含む文書
• 語Dはほぼ80年代にだけ登場するが、数が少なく
「80年代を代表する/80年代の特徴」とは言えない
• Jaccard係数では割合を見るので語Dも下位に
→ 語CやDを取り除きつつ共起語を探すのがJaccard係数
80年代の文書
どちらにも合致しない文書は無視
• 一部の係数は、(c) どちらにも合致しない文書がたく
さんあると、係数が大きくなる
• 計量テキスト分析では、(c)の文書は常に大量に存在
するので、(c)を無視するJaccard係数を採用
80年代の文書 語Bを含む文書
すべての文書
(c) 80年代でもなく語Bも含まない文書
ところで「文書」ってなに?
• 設定を変えなければ(デフォルトでは)
– Excel・CSVデータの場合は、1つのセルが1つの「文書」
– テキストデータの場合は、1つの段落(改行で区切れられ
た部分)が1つの「文書」
• 分析時に「集計単位」の設定を「文」に変更すれば、
1つの文を1つの「文書」と見なせる
• KH CoderではH1からH5による見出しを加えることで、
節・章・部など様々な単位での分析が可能

Contenu connexe

Tendances

Tendances (20)

ナレッジグラフ/LOD利用技術の入門(後編)
ナレッジグラフ/LOD利用技術の入門(後編)ナレッジグラフ/LOD利用技術の入門(後編)
ナレッジグラフ/LOD利用技術の入門(後編)
 
fastTextの実装を見てみた
fastTextの実装を見てみたfastTextの実装を見てみた
fastTextの実装を見てみた
 
よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理
 
詳説word2vec
詳説word2vec詳説word2vec
詳説word2vec
 
Shinyユーザのための非同期プログラミング入門
Shinyユーザのための非同期プログラミング入門Shinyユーザのための非同期プログラミング入門
Shinyユーザのための非同期プログラミング入門
 
トピックモデルでテキストをクラスタリングしてみた
トピックモデルでテキストをクラスタリングしてみたトピックモデルでテキストをクラスタリングしてみた
トピックモデルでテキストをクラスタリングしてみた
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介
 
数式からみるWord2Vec
数式からみるWord2Vec数式からみるWord2Vec
数式からみるWord2Vec
 
Indeedなう 予選A 解説
Indeedなう 予選A 解説Indeedなう 予選A 解説
Indeedなう 予選A 解説
 
ナレッジグラフ入門
ナレッジグラフ入門ナレッジグラフ入門
ナレッジグラフ入門
 
論文に関する基礎知識2016
 論文に関する基礎知識2016 論文に関する基礎知識2016
論文に関する基礎知識2016
 
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
 
自然言語処理 Word2vec
自然言語処理 Word2vec自然言語処理 Word2vec
自然言語処理 Word2vec
 
潜在ディリクレ配分法
潜在ディリクレ配分法潜在ディリクレ配分法
潜在ディリクレ配分法
 
ダブリング
ダブリングダブリング
ダブリング
 
Marp Tutorial
Marp TutorialMarp Tutorial
Marp Tutorial
 
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!
[part 2]ナレッジグラフ推論チャレンジ・Tech Live![part 2]ナレッジグラフ推論チャレンジ・Tech Live!
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!
 
KH Coder 3 チュートリアル(スライド版)
KH Coder 3 チュートリアル(スライド版)KH Coder 3 チュートリアル(スライド版)
KH Coder 3 チュートリアル(スライド版)
 
優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案
 
【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and Documents【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and Documents
 

Plus de khcoder (6)

【旧版】KH Coder 3 チュートリアル(スライド版)
【旧版】KH Coder 3 チュートリアル(スライド版)【旧版】KH Coder 3 チュートリアル(スライド版)
【旧版】KH Coder 3 チュートリアル(スライド版)
 
Quick Start Tutorial of KH Coder 3
Quick Start Tutorial of KH Coder 3Quick Start Tutorial of KH Coder 3
Quick Start Tutorial of KH Coder 3
 
[OUTDATED] Quick Start Tutorial of KH Coder 3
[OUTDATED] Quick Start Tutorial of KH Coder 3[OUTDATED] Quick Start Tutorial of KH Coder 3
[OUTDATED] Quick Start Tutorial of KH Coder 3
 
Executing SQL Queries and Making Plugins
Executing SQL Queries and Making PluginsExecuting SQL Queries and Making Plugins
Executing SQL Queries and Making Plugins
 
Example of Using R #1: Exporting the Result of Correspondence Analysis
Example of Using R #1: Exporting the Result of Correspondence AnalysisExample of Using R #1: Exporting the Result of Correspondence Analysis
Example of Using R #1: Exporting the Result of Correspondence Analysis
 
Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...
Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...
Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...
 

Jaccard係数の計算式と特徴(2)