Soumettre la recherche
Mettre en ligne
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
•
2 j'aime
•
1,254 vues
Eric Sartre
Suivre
産学官連携推進室のTwitterのつぶやきの話題推定技術に関する研究成果の報告です。
Lire moins
Lire la suite
Technologie
Affichage du diaporama
Signaler
Partager
Affichage du diaporama
Signaler
Partager
1 sur 33
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
位置情報にまつわるデータ補間技術
位置情報にまつわるデータ補間技術
Hiroaki Sengoku
マイニング探検会 #02
マイニング探検会 #02
Yoji Kiyota
tokyo_webmining_no51
tokyo_webmining_no51
Shu (shoe116)
ウェブ検索者の情報要求観点の集約と俯瞰に関する研究
ウェブ検索者の情報要求観点の集約と俯瞰に関する研究
utsuro_lab
オープンデータで実現する作文測定分析のシステム構成
オープンデータで実現する作文測定分析のシステム構成
yamahige
東海支部西田
東海支部西田
nishida-srmtlab
東大生向けデータ解析講座 第4回 2018/01/05
東大生向けデータ解析講座 第4回 2018/01/05
西岡 賢一郎
東大生向けデータ解析講座 第1回 2017/12/27
東大生向けデータ解析講座 第1回 2017/12/27
西岡 賢一郎
Recommandé
位置情報にまつわるデータ補間技術
位置情報にまつわるデータ補間技術
Hiroaki Sengoku
マイニング探検会 #02
マイニング探検会 #02
Yoji Kiyota
tokyo_webmining_no51
tokyo_webmining_no51
Shu (shoe116)
ウェブ検索者の情報要求観点の集約と俯瞰に関する研究
ウェブ検索者の情報要求観点の集約と俯瞰に関する研究
utsuro_lab
オープンデータで実現する作文測定分析のシステム構成
オープンデータで実現する作文測定分析のシステム構成
yamahige
東海支部西田
東海支部西田
nishida-srmtlab
東大生向けデータ解析講座 第4回 2018/01/05
東大生向けデータ解析講座 第4回 2018/01/05
西岡 賢一郎
東大生向けデータ解析講座 第1回 2017/12/27
東大生向けデータ解析講座 第1回 2017/12/27
西岡 賢一郎
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
Yasushi Hara
20160409_Validating Product Ideas_yukio yoshida_cp04
20160409_Validating Product Ideas_yukio yoshida_cp04
Japan Culture Creation
マイニング探検会#12
マイニング探検会#12
Yoji Kiyota
ICDE 2014参加報告資料
ICDE 2014参加報告資料
Masumi Shirakawa
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第3回特許データベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第3回特許データベースの使い方
Yasushi Hara
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
Hirokatsu Kataoka
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
aslead
ICLR2018出張報告
ICLR2018出張報告
Yu Nishimura
Deep learning reading club @ nimiri for SWEST
Deep learning reading club @ nimiri for SWEST
Kiyoshi Ogawa
RでTwitterテキストマイニング
RでTwitterテキストマイニング
Yudai Shinbo
RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~
江上 ゼミナール
[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs
Deep Learning JP
20211213 インターネットの番号資源教室 akira
20211213 インターネットの番号資源教室 akira
Akira Nakagawa
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Masao Takaku
厳研Python講座1回目
厳研Python講座1回目
tan tan
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回サイエンスリンケージデータベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回サイエンスリンケージデータベースの使い方
Yasushi Hara
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
Webpla LLC.
企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポート
Daichi Morifuji
Development and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and maf
Kenta Oono
Janog31 bof-pattern-sasaki-01
Janog31 bof-pattern-sasaki-01
Ken SASAKI
やさしい日本語言い換えシステムを支える技術
やさしい日本語言い換えシステムを支える技術
Eric Sartre
「わからない」との付き合い方
「わからない」との付き合い方
Eric Sartre
Contenu connexe
Similaire à Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
Yasushi Hara
20160409_Validating Product Ideas_yukio yoshida_cp04
20160409_Validating Product Ideas_yukio yoshida_cp04
Japan Culture Creation
マイニング探検会#12
マイニング探検会#12
Yoji Kiyota
ICDE 2014参加報告資料
ICDE 2014参加報告資料
Masumi Shirakawa
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第3回特許データベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第3回特許データベースの使い方
Yasushi Hara
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
Hirokatsu Kataoka
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
aslead
ICLR2018出張報告
ICLR2018出張報告
Yu Nishimura
Deep learning reading club @ nimiri for SWEST
Deep learning reading club @ nimiri for SWEST
Kiyoshi Ogawa
RでTwitterテキストマイニング
RでTwitterテキストマイニング
Yudai Shinbo
RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~
江上 ゼミナール
[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs
Deep Learning JP
20211213 インターネットの番号資源教室 akira
20211213 インターネットの番号資源教室 akira
Akira Nakagawa
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Masao Takaku
厳研Python講座1回目
厳研Python講座1回目
tan tan
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回サイエンスリンケージデータベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回サイエンスリンケージデータベースの使い方
Yasushi Hara
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
Webpla LLC.
企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポート
Daichi Morifuji
Development and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and maf
Kenta Oono
Janog31 bof-pattern-sasaki-01
Janog31 bof-pattern-sasaki-01
Ken SASAKI
Similaire à Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
(20)
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
20160409_Validating Product Ideas_yukio yoshida_cp04
20160409_Validating Product Ideas_yukio yoshida_cp04
マイニング探検会#12
マイニング探検会#12
ICDE 2014参加報告資料
ICDE 2014参加報告資料
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第3回特許データベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第3回特許データベースの使い方
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
ICLR2018出張報告
ICLR2018出張報告
Deep learning reading club @ nimiri for SWEST
Deep learning reading club @ nimiri for SWEST
RでTwitterテキストマイニング
RでTwitterテキストマイニング
RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~
[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs
20211213 インターネットの番号資源教室 akira
20211213 インターネットの番号資源教室 akira
Code4Lib 2013参加報告
Code4Lib 2013参加報告
厳研Python講座1回目
厳研Python講座1回目
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回サイエンスリンケージデータベースの使い方
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第4回サイエンスリンケージデータベースの使い方
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポート
Development and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and maf
Janog31 bof-pattern-sasaki-01
Janog31 bof-pattern-sasaki-01
Plus de Eric Sartre
やさしい日本語言い換えシステムを支える技術
やさしい日本語言い換えシステムを支える技術
Eric Sartre
「わからない」との付き合い方
「わからない」との付き合い方
Eric Sartre
正則化つき線形モデル(「入門機械学習第6章」より)
正則化つき線形モデル(「入門機械学習第6章」より)
Eric Sartre
ネトゲで人生を変えたい
ネトゲで人生を変えたい
Eric Sartre
Emacsいじめの現場
Emacsいじめの現場
Eric Sartre
初めてのCPUを作ってみた
初めてのCPUを作ってみた
Eric Sartre
どたばたかいぎ成果発表
どたばたかいぎ成果発表
Eric Sartre
upcamp発表
upcamp発表
Eric Sartre
ゆとりが数週間でC++を始めるようです
ゆとりが数週間でC++を始めるようです
Eric Sartre
つくっておぼえる!仮想マシン〜直前で実装編〜
つくっておぼえる!仮想マシン〜直前で実装編〜
Eric Sartre
ぼくとしりとりの約3.0*10^3日間戦争
ぼくとしりとりの約3.0*10^3日間戦争
Eric Sartre
Plus de Eric Sartre
(11)
やさしい日本語言い換えシステムを支える技術
やさしい日本語言い換えシステムを支える技術
「わからない」との付き合い方
「わからない」との付き合い方
正則化つき線形モデル(「入門機械学習第6章」より)
正則化つき線形モデル(「入門機械学習第6章」より)
ネトゲで人生を変えたい
ネトゲで人生を変えたい
Emacsいじめの現場
Emacsいじめの現場
初めてのCPUを作ってみた
初めてのCPUを作ってみた
どたばたかいぎ成果発表
どたばたかいぎ成果発表
upcamp発表
upcamp発表
ゆとりが数週間でC++を始めるようです
ゆとりが数週間でC++を始めるようです
つくっておぼえる!仮想マシン〜直前で実装編〜
つくっておぼえる!仮想マシン〜直前で実装編〜
ぼくとしりとりの約3.0*10^3日間戦争
ぼくとしりとりの約3.0*10^3日間戦争
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
1.
Twitterにおける 即時話題推定技術
の開発 産学間連携推進室 情報科学類1年 川上 大樹 情報科学類1年 桑原 悠太 情報科学類2年 *** **
2.
0.説明手順 1. 研究背景
6. 実装 2. 研究目的 7. ここまでの結果 3. 研究概要 8. ここまでの考察 4. 研究計画 9. 今後の展望 5. 理論
3.
1.研究背景 • Twitterがとても流行っている • follow数が多いアクティブなユーザも多数いる •
目視だけでは雑多で大量の情報を理解するには限界があ るため、follow数に能力的上限がある →もっとfollowしたい、多少まとまった状態の情報がリ アルタイムでしたい • 自然言語処理に興味をもっている
4.
2.研究目的 社会に対して: • タイムラインに溢れかえる雑多なつぶやきの話題を自動
推定して分類することで、follow数の多いTwitterユーザ の理解の助けとなる。 • 話題の発生と遷移などの研究に貢献する。 • 移り変わる話題を敏感に察知するための ツールの一つとして企業に提供する。
5.
2.研究目的 自分たちのために: • 自然言語処理の入門 • 複数人開発の練習 •
専門基礎における既習事項の応用 • 効率的なアルゴリズム・データ構造の勉強
6.
3.研究概要 • それぞれのつぶやきの話題を自動で推定する技術 • そのつぶやきが何に言及しているのか、何と関連するのか •
例えば、「Excel」を含むつぶやきを自分がしたとして、だ れかが「Powepoint」を含むつぶやきをしたとき、 「@***さんがあなたと同じ話題をつぶやきました」とユー ザに通知してくれるシステムなどが作れる • アウトプットの形式についてはまだ検討中。どう見えるのが ユーザにとっていちばんわかりやすいか?
7.
4.研究計画 大きく分けて7つの研究項目がある ・特徴語抽出
・精度向上 ・データベース ・システム補助 ・アルゴリズム ・future work ・出力方法
8.
4.研究計画 大きく分けて7つの研究項目がある
・各企業にデータ提供の交渉 ・表記ゆれ/関連概念データベースの用意 ・特徴語抽出 ・精度向上 ・データベース ・システム補助 ・アルゴリズム ・future work ・出力方法
9.
4.研究計画 大きく分けて7つの研究項目がある
・データベースの速度向上 ・データベースの設計/構成検討 ・特徴語抽出 ・精度向上 ・データベース ・システム補助 ・アルゴリズム ・future work ・出力方法
10.
4.研究計画 大きく分けて7つの研究項目がある ・関連概念の比較による同一話題推定アルゴリズムの研究 ・レート計算による話題推定アルゴリズムの改良 ・発言内ハイパーリンクを考慮した推定アルゴリズムの研究 ・特徴語抽出
・精度向上 ・ソーシャルグラフを考慮した推定アルゴリズムの研究 ・データベース ・システム補助 ・アルゴリズム ・future work ・出力方法
11.
4.研究計画 大きく分けて7つの研究項目がある ・特徴語抽出
・精度向上 ・データベース ・システム補助 ・プロトコルの検討 ・ユーザへの出力の表現の検討 ・アルゴリズム ・future work ・出力方法
12.
4.研究計画 ・表記ゆれを吸収した特徴語の抽出 大きく分けて7つの研究項目がある ・MeCabのチューニング ・話題キューの保持方式の改善 ・特徴語抽出
・精度向上 ・データベース ・システム補助 ・アルゴリズム ・future work ・出力方法
13.
4.研究計画 大きく分けて7つの研究項目がある タイムラインの録画・再生ツールの開発 ・特徴語抽出
・精度向上 ・データベース ・システム補助 ・アルゴリズム ・future work ・出力方法
14.
4.研究計画 大きく分けて7つの研究項目がある ・特徴語抽出 ・新出単語の自動抽出
・精度向上 ・新規概念の自動学習 ・データベース ・システム補助 ・アルゴリズム ・future work ・出力方法
15.
4.研究計画 大きく分けて7つの研究項目がある ・特徴語抽出
・精度向上 ・データベース ・システム補助 ・アルゴリズム ・future work ・出力方法
16.
5.理論 なにをもって発言Aと発言Bを
「同じ話題である」 とするのか?
17.
5.理論
18.
5.理論
19.
5.理論
20.
5.理論
21.
5.理論 • たくさんの共通の特徴語があれば同じ話題 • どちらにも同じカテゴリに属する特徴語が
含まれていたとき関連度が高くなる • 抱えている単語がすくなければすくない カテゴリほど関連度が高くなる • 急に頻発しだした特徴語の関連度も高くなる
22.
5.理論 さらに正確さを増すために: • 二人とも同じ(ユーザの)クラスタに属している
場合、同じ話題を話したり共有したり する可能性が高い • 一連の会話がなされているとき、リプライ チェーンは同じ話題であると推定する • つぶやきに含まれるハイパーリンクの先も解析 対象に入れる
23.
6.実装 現時点でできていること
1. MeCabコーパスの強化 2. 表記ゆれの吸収 カテゴリ情報を利用したらどれだけの 正確さになるかの実証をまだ 行なっていない。
24.
6.実装 1.MeCabコーパスの強化 Twi$erで流れる単語の多くはインターネットスラング
→普通のNAIST辞書やIPA辞書などでは到底語彙が足りない
25.
6.実装 2.表記ゆれの吸収 S Wikipediaの「リダイレクトテーブル」と ニコニコ大百科の「転送項目」を使用することで実現
S 「Excel」「EXCEL」はすべて 「Microsoft Excel」として登録される S 正確さが増した Google グーグル Google GOOGLE
26.
6.実装 2.表記ゆれの吸収 Before
27.
6.実装 2.表記ゆれの吸収 A7er
28.
7.ここまでの結果 S リアルタイムに特徴語が取得できた S 単語でタイムラインに反応することができた S
「引越し」「引っ越し」でも 同じ単語と見なせるようになった
29.
7.ここまでの結果 S リアルタイムに特徴語が取得できた ここでデモをします S 単語でタイムラインに反応することができた
(๑╹◡╹๑) S 「引越し」「引っ越し」でも 同じ単語と見なせるようになった
30.
8.ここまでの考察 S memcachedを用いることで高速に単語の変換
が可能になった。 S インターネットスラングにも柔軟に対応。 S なぜか「人」から「GReeeeN」にリダイレクト されたりする。データ処理のミス? S 一部解析に失敗することがある。形態素解析辞 書に学習させる内容をもう少し選ぶ必要がある S 新出単語を特徴語として検出できない。
31.
9.今後の展望 S
表記ゆれ・関連概念データベースの用意 S データベースの速度改善 S 関連概念の比較による同一話題推定アルゴリズムの研究 S レート計算による話題推定アルゴリズムの改良 S 発言内ハイパーリンクを考慮した推定アルゴリズムの研究 S ソーシャルグラフを考慮した推定アルゴリズムの研究
32.
ご清聴ありがとうございました。
33.
質疑応答 (`・ω・́)
Télécharger maintenant