SlideShare une entreprise Scribd logo
1  sur  33
Télécharger pour lire hors ligne
Twitterにおける
即時話題推定技術



                        の開発
        産学間連携推進室
       情報科学類1年  川上 大樹
       情報科学類1年  桑原 悠太
       情報科学類2年 *** **
0.説明手順

1.  研究背景   6.  実装

2.  研究目的   7.  ここまでの結果

3.  研究概要   8.  ここまでの考察

4.  研究計画   9.  今後の展望

5.  理論
1.研究背景

•  Twitterがとても流行っている
•  follow数が多いアクティブなユーザも多数いる
•  目視だけでは雑多で大量の情報を理解するには限界があ
   るため、follow数に能力的上限がある
   →もっとfollowしたい、多少まとまった状態の情報がリ
   アルタイムでしたい
•  自然言語処理に興味をもっている
2.研究目的


社会に対して:
•  タイムラインに溢れかえる雑多なつぶやきの話題を自動
   推定して分類することで、follow数の多いTwitterユーザ
   の理解の助けとなる。
•  話題の発生と遷移などの研究に貢献する。
•  移り変わる話題を敏感に察知するための
   ツールの一つとして企業に提供する。
2.研究目的


自分たちのために:
•  自然言語処理の入門
•  複数人開発の練習
•  専門基礎における既習事項の応用
•  効率的なアルゴリズム・データ構造の勉強
3.研究概要
•  それぞれのつぶやきの話題を自動で推定する技術
•  そのつぶやきが何に言及しているのか、何と関連するのか
•  例えば、「Excel」を含むつぶやきを自分がしたとして、だ
   れかが「Powepoint」を含むつぶやきをしたとき、
   「@***さんがあなたと同じ話題をつぶやきました」とユー
   ザに通知してくれるシステムなどが作れる
•  アウトプットの形式についてはまだ検討中。どう見えるのが
   ユーザにとっていちばんわかりやすいか?
4.研究計画
大きく分けて7つの研究項目がある


・特徴語抽出    ・精度向上

・データベース   ・システム補助

・アルゴリズム   ・future work

・出力方法
4.研究計画
大きく分けて7つの研究項目がある
     ・各企業にデータ提供の交渉
        ・表記ゆれ/関連概念データベースの用意


・特徴語抽出       ・精度向上

・データベース      ・システム補助

・アルゴリズム      ・future work

・出力方法
4.研究計画
大きく分けて7つの研究項目がある
        ・データベースの速度向上
        ・データベースの設計/構成検討
・特徴語抽出       ・精度向上

・データベース      ・システム補助

・アルゴリズム      ・future work

・出力方法
4.研究計画
大きく分けて7つの研究項目がある
・関連概念の比較による同一話題推定アルゴリズムの研究
・レート計算による話題推定アルゴリズムの改良
・発言内ハイパーリンクを考慮した推定アルゴリズムの研究
・特徴語抽出       ・精度向上
・ソーシャルグラフを考慮した推定アルゴリズムの研究

・データベース      ・システム補助

・アルゴリズム      ・future work

・出力方法
4.研究計画
大きく分けて7つの研究項目がある


・特徴語抽出       ・精度向上

・データベース    ・システム補助
       ・プロトコルの検討
         ・ユーザへの出力の表現の検討
・アルゴリズム      ・future work

・出力方法
4.研究計画
・表記ゆれを吸収した特徴語の抽出
大きく分けて7つの研究項目がある
・MeCabのチューニング
・話題キューの保持方式の改善


・特徴語抽出    ・精度向上

・データベース   ・システム補助

・アルゴリズム   ・future work

・出力方法
4.研究計画
大きく分けて7つの研究項目がある
タイムラインの録画・再生ツールの開発

・特徴語抽出      ・精度向上

・データベース     ・システム補助

・アルゴリズム     ・future work

・出力方法
4.研究計画
大きく分けて7つの研究項目がある


・特徴語抽出
・新出単語の自動抽出   ・精度向上
・新規概念の自動学習
・データベース      ・システム補助

・アルゴリズム      ・future work

・出力方法
4.研究計画
大きく分けて7つの研究項目がある


・特徴語抽出    ・精度向上

・データベース   ・システム補助

・アルゴリズム   ・future work

・出力方法
5.理論


 なにをもって発言Aと発言Bを
   「同じ話題である」
     とするのか?
5.理論
5.理論
5.理論
5.理論
5.理論


•  たくさんの共通の特徴語があれば同じ話題
•  どちらにも同じカテゴリに属する特徴語が
   含まれていたとき関連度が高くなる
•  抱えている単語がすくなければすくない
   カテゴリほど関連度が高くなる
•  急に頻発しだした特徴語の関連度も高くなる
5.理論
さらに正確さを増すために:

•  二人とも同じ(ユーザの)クラスタに属している
   場合、同じ話題を話したり共有したり
   する可能性が高い
•  一連の会話がなされているとき、リプライ
   チェーンは同じ話題であると推定する
•  つぶやきに含まれるハイパーリンクの先も解析
   対象に入れる
6.実装
 現時点でできていること
  1.  MeCabコーパスの強化

  2.  表記ゆれの吸収

 カテゴリ情報を利用したらどれだけの
 正確さになるかの実証をまだ
 行なっていない。
6.実装
1.MeCabコーパスの強化
 Twi$erで流れる単語の多くはインターネットスラング	
  
 →普通のNAIST辞書やIPA辞書などでは到底語彙が足りない
6.実装
2.表記ゆれの吸収
 S Wikipediaの「リダイレクトテーブル」と
  ニコニコ大百科の「転送項目」を使用することで実現
 S 「Excel」「EXCEL」はすべて
  「Microsoft Excel」として登録される
 S 正確さが増した

   Google	


   グーグル	
        Google	


   GOOGLE
6.実装
2.表記ゆれの吸収
Before
6.実装
2.表記ゆれの吸収
A7er
7.ここまでの結果


S  リアルタイムに特徴語が取得できた
S  単語でタイムラインに反応することができた
S  「引越し」「引っ越し」でも
    同じ単語と見なせるようになった
7.ここまでの結果


S  リアルタイムに特徴語が取得できた
ここでデモをします
S  単語でタイムラインに反応することができた
       (๑╹◡╹๑)
S  「引越し」「引っ越し」でも
    同じ単語と見なせるようになった
8.ここまでの考察
S  memcachedを用いることで高速に単語の変換
    が可能になった。
S  インターネットスラングにも柔軟に対応。
S  なぜか「人」から「GReeeeN」にリダイレクト
    されたりする。データ処理のミス?
S  一部解析に失敗することがある。形態素解析辞
    書に学習させる内容をもう少し選ぶ必要がある
S  新出単語を特徴語として検出できない。
9.今後の展望


S    表記ゆれ・関連概念データベースの用意
S    データベースの速度改善
S    関連概念の比較による同一話題推定アルゴリズムの研究
S    レート計算による話題推定アルゴリズムの改良
S    発言内ハイパーリンクを考慮した推定アルゴリズムの研究
S    ソーシャルグラフを考慮した推定アルゴリズムの研究
ご清聴ありがとうございました。
質疑応答
(`・ω・́)

Contenu connexe

Similaire à Twitterにおける即時話題推定技術「どたばたかいぎ」の開発

SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」 SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」 Yasushi Hara
 
20160409_Validating Product Ideas_yukio yoshida_cp04
20160409_Validating Product Ideas_yukio yoshida_cp0420160409_Validating Product Ideas_yukio yoshida_cp04
20160409_Validating Product Ideas_yukio yoshida_cp04Japan Culture Creation
 
マイニング探検会#12
マイニング探検会#12マイニング探検会#12
マイニング探検会#12Yoji Kiyota
 
ICDE 2014参加報告資料
ICDE 2014参加報告資料ICDE 2014参加報告資料
ICDE 2014参加報告資料Masumi Shirakawa
 
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第3回 特許データベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第3回特許データベースの使い方SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第3回特許データベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第3回 特許データベースの使い方Yasushi Hara
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法Hirokatsu Kataoka
 
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~aslead
 
ICLR2018出張報告
ICLR2018出張報告ICLR2018出張報告
ICLR2018出張報告Yu Nishimura
 
Deep learning reading club @ nimiri for SWEST
Deep learning reading club @ nimiri for SWESTDeep learning reading club @ nimiri for SWEST
Deep learning reading club @ nimiri for SWESTKiyoshi Ogawa
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニングYudai Shinbo
 
RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~江上 ゼミナール
 
[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNsDeep Learning JP
 
20211213 インターネットの番号資源教室 akira
20211213 インターネットの番号資源教室 akira20211213 インターネットの番号資源教室 akira
20211213 インターネットの番号資源教室 akiraAkira Nakagawa
 
Code4Lib 2013参加報告
Code4Lib 2013参加報告Code4Lib 2013参加報告
Code4Lib 2013参加報告Masao Takaku
 
厳研Python講座1回目
厳研Python講座1回目厳研Python講座1回目
厳研Python講座1回目tan tan
 
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回 サイエンスリンケージデータベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回サイエンスリンケージデータベースの使い方SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回サイエンスリンケージデータベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回 サイエンスリンケージデータベースの使い方Yasushi Hara
 
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)Webpla LLC.
 
企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポート企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポートDaichi Morifuji
 
Development and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and mafDevelopment and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and mafKenta Oono
 
Janog31 bof-pattern-sasaki-01
Janog31 bof-pattern-sasaki-01Janog31 bof-pattern-sasaki-01
Janog31 bof-pattern-sasaki-01Ken SASAKI
 

Similaire à Twitterにおける即時話題推定技術「どたばたかいぎ」の開発 (20)

SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」 SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
 
20160409_Validating Product Ideas_yukio yoshida_cp04
20160409_Validating Product Ideas_yukio yoshida_cp0420160409_Validating Product Ideas_yukio yoshida_cp04
20160409_Validating Product Ideas_yukio yoshida_cp04
 
マイニング探検会#12
マイニング探検会#12マイニング探検会#12
マイニング探検会#12
 
ICDE 2014参加報告資料
ICDE 2014参加報告資料ICDE 2014参加報告資料
ICDE 2014参加報告資料
 
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第3回 特許データベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第3回特許データベースの使い方SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第3回特許データベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第3回 特許データベースの使い方
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
 
ICLR2018出張報告
ICLR2018出張報告ICLR2018出張報告
ICLR2018出張報告
 
Deep learning reading club @ nimiri for SWEST
Deep learning reading club @ nimiri for SWESTDeep learning reading club @ nimiri for SWEST
Deep learning reading club @ nimiri for SWEST
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニング
 
RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~
 
[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs
 
20211213 インターネットの番号資源教室 akira
20211213 インターネットの番号資源教室 akira20211213 インターネットの番号資源教室 akira
20211213 インターネットの番号資源教室 akira
 
Code4Lib 2013参加報告
Code4Lib 2013参加報告Code4Lib 2013参加報告
Code4Lib 2013参加報告
 
厳研Python講座1回目
厳研Python講座1回目厳研Python講座1回目
厳研Python講座1回目
 
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回 サイエンスリンケージデータベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回サイエンスリンケージデータベースの使い方SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回サイエンスリンケージデータベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回 サイエンスリンケージデータベースの使い方
 
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
 
企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポート企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポート
 
Development and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and mafDevelopment and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and maf
 
Janog31 bof-pattern-sasaki-01
Janog31 bof-pattern-sasaki-01Janog31 bof-pattern-sasaki-01
Janog31 bof-pattern-sasaki-01
 

Plus de Eric Sartre

やさしい日本語言い換えシステムを支える技術
やさしい日本語言い換えシステムを支える技術やさしい日本語言い換えシステムを支える技術
やさしい日本語言い換えシステムを支える技術Eric Sartre
 
「わからない」との付き合い方
「わからない」との付き合い方「わからない」との付き合い方
「わからない」との付き合い方Eric Sartre
 
正則化つき線形モデル(「入門機械学習第6章」より)
正則化つき線形モデル(「入門機械学習第6章」より)正則化つき線形モデル(「入門機械学習第6章」より)
正則化つき線形モデル(「入門機械学習第6章」より)Eric Sartre
 
ネトゲで人生を変えたい
ネトゲで人生を変えたいネトゲで人生を変えたい
ネトゲで人生を変えたいEric Sartre
 
Emacsいじめの現場
Emacsいじめの現場Emacsいじめの現場
Emacsいじめの現場Eric Sartre
 
初めてのCPUを作ってみた
初めてのCPUを作ってみた初めてのCPUを作ってみた
初めてのCPUを作ってみたEric Sartre
 
どたばたかいぎ成果発表
どたばたかいぎ成果発表どたばたかいぎ成果発表
どたばたかいぎ成果発表Eric Sartre
 
ゆとりが数週間でC++を始めるようです
ゆとりが数週間でC++を始めるようですゆとりが数週間でC++を始めるようです
ゆとりが数週間でC++を始めるようですEric Sartre
 
つくっておぼえる!仮想マシン〜直前で実装編〜
つくっておぼえる!仮想マシン〜直前で実装編〜つくっておぼえる!仮想マシン〜直前で実装編〜
つくっておぼえる!仮想マシン〜直前で実装編〜Eric Sartre
 
ぼくとしりとりの約3.0*10^3日間戦争
ぼくとしりとりの約3.0*10^3日間戦争ぼくとしりとりの約3.0*10^3日間戦争
ぼくとしりとりの約3.0*10^3日間戦争Eric Sartre
 

Plus de Eric Sartre (11)

やさしい日本語言い換えシステムを支える技術
やさしい日本語言い換えシステムを支える技術やさしい日本語言い換えシステムを支える技術
やさしい日本語言い換えシステムを支える技術
 
「わからない」との付き合い方
「わからない」との付き合い方「わからない」との付き合い方
「わからない」との付き合い方
 
正則化つき線形モデル(「入門機械学習第6章」より)
正則化つき線形モデル(「入門機械学習第6章」より)正則化つき線形モデル(「入門機械学習第6章」より)
正則化つき線形モデル(「入門機械学習第6章」より)
 
ネトゲで人生を変えたい
ネトゲで人生を変えたいネトゲで人生を変えたい
ネトゲで人生を変えたい
 
Emacsいじめの現場
Emacsいじめの現場Emacsいじめの現場
Emacsいじめの現場
 
初めてのCPUを作ってみた
初めてのCPUを作ってみた初めてのCPUを作ってみた
初めてのCPUを作ってみた
 
どたばたかいぎ成果発表
どたばたかいぎ成果発表どたばたかいぎ成果発表
どたばたかいぎ成果発表
 
upcamp発表
upcamp発表upcamp発表
upcamp発表
 
ゆとりが数週間でC++を始めるようです
ゆとりが数週間でC++を始めるようですゆとりが数週間でC++を始めるようです
ゆとりが数週間でC++を始めるようです
 
つくっておぼえる!仮想マシン〜直前で実装編〜
つくっておぼえる!仮想マシン〜直前で実装編〜つくっておぼえる!仮想マシン〜直前で実装編〜
つくっておぼえる!仮想マシン〜直前で実装編〜
 
ぼくとしりとりの約3.0*10^3日間戦争
ぼくとしりとりの約3.0*10^3日間戦争ぼくとしりとりの約3.0*10^3日間戦争
ぼくとしりとりの約3.0*10^3日間戦争
 

Twitterにおける即時話題推定技術「どたばたかいぎ」の開発