Contenu connexe Plus de Rakuten Group, Inc. (20) 自然言語処理に基づく商品情報の整理および構造化3. 3
楽天株式会社 会社概要
代表取締役会長兼社長 三木谷 浩史
従業員数 単体3,498人,グループ9,311人
設立 1997年2月17日
株式店頭上場 2000年4月19日(ジャスダック)
資本金 1,080億円(2011年12月末現在)
連結売上高 4,434億円(2012年度)
連結営業利益 715億円(2012年度)
楽天市場(eコマース事業)を中核とした,
総合インターネットサービス企業
20. 20
Our goal
Old-fashioned
shop owner
It’s an artichoke.
(Object recognition)
You can boil it
and eat it with
mayonnaise.
(World knowledge)
Recently, it is very
popular among
young people.
(Opinion mining)
I’m looking for the
vegetable in this
photo.
21. 21
実現に向けて必要な技術
Hints from a legendary & successful real market
Understand language
Master his products
Understand the customers
World Knowledge
Recognize image, video
Remember for the future
Manipulate knowledge
Think, inference, analysis
Situation adaptation
Friendly service
NLP
Multi-media
Big Data
Semantic
Big Data
I/F
Artificial Intelligence
Infrastructure
23. 23
自然言語処理 (Natural Language Processing, NLP)
• 人工知能の一分野
• 自然言語の機械による理解を目指す
– テキスト内の情報の構造化 (誰/いつ/どこで/何を/どうした)
• 曖昧性と同義性の問題が常につきまとう
– 黒い瞳の大きい女の子
25. 25
自然言語処理 (Natural Language Processing, NLP)
• 人工知能の一分野
• 自然言語の機械による理解を目指す
– テキスト内の情報の構造化 (誰/いつ/どこで/何を/どうした)
• 曖昧性と同義性の問題が常につきまとう
– 黒い瞳の大きい女の子
– 今日,NIIで発表します
27. 27
自然言語処理 (Natural Language Processing, NLP)
• 人工知能の一分野
• 自然言語の機械による理解を目指す
– テキスト内の情報の構造化 (誰/いつ/どこで/何を/どうした)
• 曖昧性と同義性の問題が常につきまとう
– 黒い瞳の大きい女の子
– 今日,NIIで発表します
• 幅広い研究トピック
28. 28
研究トピック (NLP2014 CFPより)
A. 言語学・言語分析
(1)音声・音韻 (2)語彙・形態論 (3)統語論 (4)意味論 (5)語用論
(6)計量・コーパス言語学 (7)心理言語学 (8)認知言語学
(9)社会言語学 (10)対照言語学
B. 基盤技術・言語資源
(1)語彙・辞書 (2)形態素解析 (3)構文解析 (4)意味解析
(5)談話解析 (6)固有表現解析 (7)生成 (8)言語資源・コーパス
(9)アノテーション (10)含意関係・言い換え (11)知識獲得 (12)文書分類
(13)機械学習 (14)マルチモーダル
C. 応用技術
(1)機械翻訳 (2)情報検索 (3)対話 (4)要約 (5)情報抽出
(6)質問応答 (7)Web応用 (8)テキストマイニング (9)評判・感情解析
(10)音声言語処理 (11)教育応用
29. 29
自然言語処理 (Natural Language Processing, NLP)
• 人工知能の一分野
• 自然言語の機械による理解を目指す
– テキスト内の情報の構造化 (誰/いつ/どこで/何を/どうした)
• 曖昧性と同義性の問題が常につきまとう
– 黒い瞳の大きい女の子
– 今日,NIIで発表します
• 幅広い研究トピック
• 実世界の多くのアプリケーションで使われている
35. 35
自然言語処理の流れ
• 文分割 (Sentence splitting)
• 形態素解析 (Morphological analysis)
• 構文解析 (Syntactic parsing)
• 格解析 (Case structure analysis)
• 照応省略解析 (Anaphora and ellipsis resolution)
54. 54
自動構築した知識ベースの例(ワイン)
ぶどう品種 産地 内容量 生産者 タイプ
シャルドネ (59) フランス (45) 750ML (147) ファルネーゼ (9) 辛口 (34)
メルロー (36) イタリア (30) 720ML (64) マス デ モニストロル (4) 赤 (24)
シラー (29) スペイン (30) 375ML (49) ルロワ (3) 白 (23)
リースリング
(29)
チリ (25) 500ML (41) M. シャプティエ (3) フルボディ (23)
グルナッシュ
(22)
ボルドー (22) 1500ML (22) マストロベラルディーノ
(3)
やや甘口 (15)
サンジョベーゼ
(20)
シャンパーニュ
(20)
360ML (15) サンテロ (3) 甘口 (14)
メルロ (20) オーストラリア (19) 200ML (13) サルタレッリ (3) やや辛口 (12)
マカベオ (19) アメリカ (16) 3000ML (12) カビッキオーリ (3) ライトボディ (12)
テンプラリーニョ
(19)
ドイツ (15) 1800ML (11) フォントディ (3) ミディアム (9)
シラーズ (18) アルゼンチン (13) 1000ML (6) カ ルガーテ (3) ロゼ (8)
69. 69
Score 𝑤 = log
p 𝑤, 𝑂
p 𝑤 p 𝑂
オノマトペと語の共起の強さの計算
• 名詞,形容詞,動詞を対象にオノマトペとの共起の強
さを計算
• 共起の強さ⇒相互情報量
p(O): 任意のオノマトペを含む文の出現確率
p(w): 語wを含む文の出現確率
p(w,O): 任意のオノマトペと語wを共に含む文の出現確率
70. 70
語とそのスコアの例
チーズケーキ シャンプー ワンピース
スコア 単語 スコア 単語 スコア 単語
1.991 感 1.881 ごわごわ 1.941 ゴワゴワ
1.618 重い 1.881 かんじ 1.941 ぶかぶか
1.568 後味 1.881 ギシギシ 1.941 ニット
: : :
0.005 最高 0.001 感想 0.001 ゆう
0.003 十分 0.001 良い 0.000 加工
-0.002 売る -0.004 すき -0.001 切る
: : :
-2.095 親戚 -2.104 無料 -1.704 問い合わせる
-2.133 中元 -2.380 安値 -1.909 キャンセル
-2.195 物産 -2.454 親切 -1.951 雑誌
71. 71
S 𝑠 = Score 𝑤
𝑤∈𝑠
文のスコアリング
• 文を形態素解析し,文に含まれる単語のスコアの総
和を文のスコアとする
• オノマトペと共起しやすい語を含む文ほど高いスコア
を得る
72. 72
例 (チーズケーキ)
スコア 文
9.270 チーズケーキのとろけるような食感と濃厚な味わい,ブラウニーのナッ
ツの香ばしさとチョコの甘みが濃縮され,どちらもおいしかったです。
5.388 口に入れたらとろっとして甘酸っぱく,私好みのお味でした。
5.064 口の中に入れると香りだけ残してす〜っと溶けていく感じ。
:
0.000 なんじゃこりゃ!
-0.011 3個購入で独り占めしたい気分ですが,仕方がないので家族と食べた
いと思います。
-0.043 お土産用にしました。
:
-4.446 北海道物産展で購入したことがあり,とっても大好きです。
-5.050 いつもクリスマスプレゼントを贈ってくれる義兄のお母さんにお中元で
贈ってみました。
-5.615 お店のオンラインショッピングでも物産展でも何度も購入し,味はわ
かっています。
73. 73
例 (シャンプー)
スコア 文
6.380 軽い洗いごごちで,流しやすく,乾かしたあとは髪の毛がふわふわにな
りました。
5.445 シャンプーは軽くすすぐだけで少し不安でしたがべたつかず良い洗い
上がりです。
4.153 髪がやわらかくサラサラになる気がします。
:
0.006 続けていくとよくなるのかな。
0.000 30代です。
-0.036 ロングの私はシャンプーがすぐに無くなります。
:
-7.956 サロン専売品で使いはじめて,ここで安く買える事を知り,それ以来
ずっとここで購入させていただいていますが,シーウィードとウィートプ
ロテインはずっと愛用しています。
-12.006 某解析サイトで評価が高い商品の中で,価格的にも買いやすいこちら
を更に楽天で検索し,こちらのショップが一番安かったので購入。
83. 83
自然言語処理入門書
• 入門自然言語処理
• 岩波講座ソフトウェア科学(15) 自然言語処理
• 言語処理学事典
• 言語処理100本ノック
– http://www.cl.ecei.tohoku.ac.jp/index.php?%E8%A8%80%E8%AA%9E%E5%87%
A6%E7%90%86100%E6%9C%AC%E3%83%8E%E3%83%83%E3%82%AF
Recommended