Twitterにおける即時話題推定技術「どたばたかいぎ」の開発

Twitterにおける
即時話題推定技術

の開発
産学間連携推進室
情報科学類１年川上大樹
情報科学類１年桑原悠太
情報科学類２年＊＊＊＊＊

0.説明手順

1.  研究背景 6.  実装

2.  研究目的 7.  ここまでの結果

3.  研究概要 8.  ここまでの考察

4.  研究計画 9.  今後の展望

5.  理論

1.研究背景

•  Twitterがとても流行っている
•  follow数が多いアクティブなユーザも多数いる
•  目視だけでは雑多で大量の情報を理解するには限界があ
るため、follow数に能力的上限がある
→もっとfollowしたい、多少まとまった状態の情報がリ
アルタイムでしたい
•  自然言語処理に興味をもっている

2.研究目的

社会に対して：
•  タイムラインに溢れかえる雑多なつぶやきの話題を自動
推定して分類することで、follow数の多いTwitterユーザ
の理解の助けとなる。
•  話題の発生と遷移などの研究に貢献する。
•  移り変わる話題を敏感に察知するための
ツールの一つとして企業に提供する。

2.研究目的

自分たちのために：
•  自然言語処理の入門
•  複数人開発の練習
•  専門基礎における既習事項の応用
•  効率的なアルゴリズム・データ構造の勉強

3.研究概要
•  それぞれのつぶやきの話題を自動で推定する技術
•  そのつぶやきが何に言及しているのか、何と関連するのか
•  例えば、「Excel」を含むつぶやきを自分がしたとして、だ
れかが「Powepoint」を含むつぶやきをしたとき、
「@***さんがあなたと同じ話題をつぶやきました」とユー
ザに通知してくれるシステムなどが作れる
•  アウトプットの形式についてはまだ検討中。どう見えるのが
ユーザにとっていちばんわかりやすいか？

4.研究計画
大きく分けて７つの研究項目がある

・特徴語抽出・精度向上

・データベース・システム補助

・アルゴリズム・future work

・出力方法

4.研究計画
・各企業にデータ提供の交渉
・表記ゆれ/関連概念データベースの用意




・出力方法

4.研究計画
・データベースの速度向上
・データベースの設計/構成検討



・出力方法

4.研究計画
・関連概念の比較による同一話題推定アルゴリズムの研究
・レート計算による話題推定アルゴリズムの改良
・発言内ハイパーリンクを考慮した推定アルゴリズムの研究
・ソーシャルグラフを考慮した推定アルゴリズムの研究



・出力方法

4.研究計画


・プロトコルの検討
・ユーザへの出力の表現の検討

・出力方法

4.研究計画
・表記ゆれを吸収した特徴語の抽出
・MeCabのチューニング
・話題キューの保持方式の改善




・出力方法

4.研究計画
タイムラインの録画・再生ツールの開発




・出力方法

4.研究計画

・特徴語抽出
・新出単語の自動抽出・精度向上
・新規概念の自動学習


・出力方法

5.理論

なにをもって発言Aと発言Bを
「同じ話題である」
とするのか？

5.理論

•  たくさんの共通の特徴語があれば同じ話題
•  どちらにも同じカテゴリに属する特徴語が
含まれていたとき関連度が高くなる
•  抱えている単語がすくなければすくない
カテゴリほど関連度が高くなる
•  急に頻発しだした特徴語の関連度も高くなる

5.理論
さらに正確さを増すために:

•  二人とも同じ(ユーザの)クラスタに属している
場合、同じ話題を話したり共有したり
する可能性が高い
•  一連の会話がなされているとき、リプライ
チェーンは同じ話題であると推定する
•  つぶやきに含まれるハイパーリンクの先も解析
対象に入れる

6.実装
現時点でできていること
1.  MeCabコーパスの強化

2.  表記ゆれの吸収

カテゴリ情報を利用したらどれだけの
正確さになるかの実証をまだ
行なっていない。

6.実装
1.MeCabコーパスの強化
Twi$erで流れる単語の多くはインターネットスラング

→普通のNAIST辞書やIPA辞書などでは到底語彙が足りない

6.実装
2.表記ゆれの吸収
S Wikipediaの「リダイレクトテーブル」と
ニコニコ大百科の「転送項目」を使用することで実現
S 「Excel」「EXCEL」はすべて
「Microsoft Excel」として登録される
S 正確さが増した

Google

グーグル
Google

GOOGLE

6.実装
Before

6.実装
A7er

7.ここまでの結果

S  リアルタイムに特徴語が取得できた
S  単語でタイムラインに反応することができた
S  「引越し」「引っ越し」でも
同じ単語と見なせるようになった

7.ここまでの結果

S  リアルタイムに特徴語が取得できた
ここでデモをします
S  単語でタイムラインに反応することができた
(๑╹◡╹๑)
S  「引越し」「引っ越し」でも
同じ単語と見なせるようになった

8.ここまでの考察
S  memcachedを用いることで高速に単語の変換
が可能になった。
S  インターネットスラングにも柔軟に対応。
S  なぜか「人」から「GReeeeN」にリダイレクト
されたりする。データ処理のミス？
S  一部解析に失敗することがある。形態素解析辞
書に学習させる内容をもう少し選ぶ必要がある
S  新出単語を特徴語として検出できない。

9.今後の展望

S  表記ゆれ・関連概念データベースの用意
S  データベースの速度改善
S  関連概念の比較による同一話題推定アルゴリズムの研究
S  レート計算による話題推定アルゴリズムの改良
S  発言内ハイパーリンクを考慮した推定アルゴリズムの研究
S  ソーシャルグラフを考慮した推定アルゴリズムの研究

ご清聴ありがとうございました。

Twitterにおける即時話題推定技術「どたばたかいぎ」の開発

Recommandé

Recommandé

Contenu connexe

Similaire à Twitterにおける即時話題推定技術「どたばたかいぎ」の開発

Similaire à Twitterにおける即時話題推定技術「どたばたかいぎ」の開発 (20)

Plus de Eric Sartre

Plus de Eric Sartre (11)

Twitterにおける即時話題推定技術「どたばたかいぎ」の開発