SlideShare une entreprise Scribd logo
1  sur  8
Télécharger pour lire hors ligne
入門セッション
●   テキストマイニング必須用語を15分程度で紹介
●   目的:初心者向け勉強会なので、基本用語から説
    明すべきだが、各発表者がいちいち説明している
    と重複しまくって非効率なので、最初にまとめる
●
    セッション後、質問タイムを設けます。お気軽に御
    質問下さい
●   ※あくまでざっくりした説明です



                              1
テキストマイニングの利用分野
1.マーケティング
  –   評判分析:売れ行き予測
  –   需要の抽出:今どんな商品が求められているか?
  –   自社製品の強み弱み:強みを伸ばし、弱点を補う
  –   インフルエンサーの特定:どこ/誰が影響力を持っているか
2.ナレッジの自動蓄積
  ●
      メール等の文書をデータベース化
  ●
      暗黙知→形式知
3.自然言語処理的領域
  –   検索、本文要約、IME、機械翻訳

                                    2
言語処理特有の技術
1.形態素解析:絶対使う。精度95%
2.構文解析:よく使う。精度80%
3.意味解析:たまに使う。研究段階。精度60%
4.文脈解析:研究段階(今回は説明省略




                          3
言語処理の技術 (1) 形態素解析
●   形態素とは:意味を持つ最小の文字列の単位
●   分かち書き:文を単語に分割すること
●   形態素解析:分かち書き+品詞付け+原形復元
●   日本語の分かち書きは難しい
    ●
        英語等と違って単語の切れ目がわからない
        –   「すもももももももものうち」→「李も桃も桃の内」○
        –   「東京都」→「東, 京都」?
●   MeCab:非常によく使われる形態素解析エンジン

                                        4
言語処理の技術 (2) 構文解析
●   構文解析:文の構造(係り受け等)を明らかにする
●   係り受け:ある文節がどの文節に作用するか
●   例文:「黒い大きな瞳の男の娘」
    ●   (肌の)黒い、大きな瞳の、男の娘?
    ●   黒い大きな瞳の、男の娘?
    ●
        黒い大きな瞳(さん)の男の娘?




                              5
言語処理の技術 (3) 意味解析
●   意味解析:評判分析等で使われる
●   「泣ける」という単語はポジティブ?ネガティブ?
     –   「映画」+泣ける⇒感動した!というポジティブ表現
     –   「試験」+泣ける⇒結果が悪かった!というネガティブ表現
     –   単語の意味は文脈によって変わる可能性がある
●   語義曖昧性解消:単語の複数の意味の中から、文
    に応じた語義を特定すること
●   単語情報単体で自然言語の全てを理解できるわけ
    ではない

                                       6
テキストの統計処理
●   単語:トークンとタイプ
      –   “nurture or nature? nurture passes nature”は何単語?
      –   6(節)と答えるのがトークン
      –   4(種類)と答えるのがタイプ
●   bag-of-words(BOW):文章の単語ベクトル表現
      –   柴犬が私を噛んだ→{柴犬,が,私,を,噛ん,だ}
      –   {柴犬,が,私,を,噛ん,だ} = {私,が,柴犬,を,噛ん,だ}
●   Nグラム:隣接するN単位の共起
      –   単語2グラム[柴犬,が][が,私][私,を][を,噛ん][噛ん,だ]
      –   文字2グラム(柴,犬)(犬,が)(が,私)(私,を)(を,噛)(噛,ん)(ん,だ)
                                                            7
頻出専門用語
●
    コーパス:言語の分析用例データ
●   素性:文法的な情報を表す特徴量(単語頻度等)
●   シソーラス:階層構造を持った類義語辞書
●   照応解析:代名詞が指しているものを明らかにする
●   省略補完:省略された主語などを補完する
●
    チャンキング:文の意味的な固まりを見つける技術
●   格フレーム:ある語の語義毎に共起する語の組
●   機械学習:人間の学習能力をコンピュータに持た
    せて、分類や判別、予測などを行う研究分野
     –   教師有り学習:与えられた正解例に沿う様、分類などを行う
                                       8
     –   教師無し学習:入力値から頻出/特殊なパターンを見出す

Contenu connexe

Tendances

20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
Tomoyuki Kajiwara
 
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
schoowebcampus
 
正規表現入門
正規表現入門正規表現入門
正規表現入門
thinca
 
09 manual writing20130611sample
09 manual writing20130611sample09 manual writing20130611sample
09 manual writing20130611sample
和也 高山
 
ロジカルコミュニケーション
ロジカルコミュニケーションロジカルコミュニケーション
ロジカルコミュニケーション
ashizawa1 Ashizawa
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
akikom0819
 

Tendances (20)

自由文と自然言語、どちらがすぐれている?
自由文と自然言語、どちらがすぐれている?自由文と自然言語、どちらがすぐれている?
自由文と自然言語、どちらがすぐれている?
 
Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127
 
DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情
 
Logics 18th ota_20211201
Logics 18th ota_20211201Logics 18th ota_20211201
Logics 18th ota_20211201
 
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
 
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
 
たのっち流コラムの書き方
たのっち流コラムの書き方たのっち流コラムの書き方
たのっち流コラムの書き方
 
正規表現入門
正規表現入門正規表現入門
正規表現入門
 
文章を企画・設計する
文章を企画・設計する文章を企画・設計する
文章を企画・設計する
 
プログラミング言語の習得順番について
プログラミング言語の習得順番についてプログラミング言語の習得順番について
プログラミング言語の習得順番について
 
09 manual writing20130611sample
09 manual writing20130611sample09 manual writing20130611sample
09 manual writing20130611sample
 
Sigconf 2019 slide_ota_20191123
Sigconf 2019 slide_ota_20191123Sigconf 2019 slide_ota_20191123
Sigconf 2019 slide_ota_20191123
 
joint_seminar
joint_seminarjoint_seminar
joint_seminar
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築
 
ロジカルコミュニケーション
ロジカルコミュニケーションロジカルコミュニケーション
ロジカルコミュニケーション
 
Japan.r 2018 slide ota_20181201
Japan.r 2018 slide ota_20181201Japan.r 2018 slide ota_20181201
Japan.r 2018 slide ota_20181201
 
Ultra Lightning Talk × 3
Ultra Lightning Talk × 3Ultra Lightning Talk × 3
Ultra Lightning Talk × 3
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
 
第1回 スライドシェア用
第1回 スライドシェア用第1回 スライドシェア用
第1回 スライドシェア用
 
A Neural Reordering Model for Phrase-based Translation
A Neural Reordering Model for Phrase-based TranslationA Neural Reordering Model for Phrase-based Translation
A Neural Reordering Model for Phrase-based Translation
 

En vedette

テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際
antibayesian 俺がS式だ
 
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
Kyoshiro Sugiyama
 
Aizu.LT::Tokyo #2
Aizu.LT::Tokyo #2Aizu.LT::Tokyo #2
Aizu.LT::Tokyo #2
Taku Unno
 
sigfpai2009_okanohara
sigfpai2009_okanoharasigfpai2009_okanohara
sigfpai2009_okanohara
Hiroshi Ono
 
言語処理のための仮説推論エンジン Phillip
言語処理のための仮説推論エンジン Phillip言語処理のための仮説推論エンジン Phillip
言語処理のための仮説推論エンジン Phillip
Kazeto Yamamoto
 

En vedette (20)

SPSSで簡単テキストマイニング
SPSSで簡単テキストマイニングSPSSで簡単テキストマイニング
SPSSで簡単テキストマイニング
 
ガチャとは心の所作
ガチャとは心の所作ガチャとは心の所作
ガチャとは心の所作
 
テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際
 
神の言語による自然言語処理
神の言語による自然言語処理神の言語による自然言語処理
神の言語による自然言語処理
 
チームラボ忘年会
チームラボ忘年会チームラボ忘年会
チームラボ忘年会
 
全文検索入門
全文検索入門全文検索入門
全文検索入門
 
OpenID Foundation Foundation Financial API (FAPI) WG
OpenID Foundation Foundation Financial API (FAPI) WGOpenID Foundation Foundation Financial API (FAPI) WG
OpenID Foundation Foundation Financial API (FAPI) WG
 
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
 
Aizu.LT::Tokyo #2
Aizu.LT::Tokyo #2Aizu.LT::Tokyo #2
Aizu.LT::Tokyo #2
 
Абрамов Н.Н.
Абрамов Н.Н.Абрамов Н.Н.
Абрамов Н.Н.
 
研究
研究研究
研究
 
認知科学会サマースクール2015・人工知能と言語機能
認知科学会サマースクール2015・人工知能と言語機能認知科学会サマースクール2015・人工知能と言語機能
認知科学会サマースクール2015・人工知能と言語機能
 
sigfpai2009_okanohara
sigfpai2009_okanoharasigfpai2009_okanohara
sigfpai2009_okanohara
 
質疑応答
質疑応答質疑応答
質疑応答
 
Qaシステム解説
Qaシステム解説Qaシステム解説
Qaシステム解説
 
言語処理のための仮説推論エンジン Phillip
言語処理のための仮説推論エンジン Phillip言語処理のための仮説推論エンジン Phillip
言語処理のための仮説推論エンジン Phillip
 
会話型ロボットを作った話
会話型ロボットを作った話会話型ロボットを作った話
会話型ロボットを作った話
 
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ
 
はじめてのAIプログラミング 5章: 知識表現
はじめてのAIプログラミング 5章: 知識表現はじめてのAIプログラミング 5章: 知識表現
はじめてのAIプログラミング 5章: 知識表現
 
検索と自然言語処理
検索と自然言語処理検索と自然言語処理
検索と自然言語処理
 

Similaire à 第三回さくさくテキストマイニング勉強会 入門セッション

ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
Shuyo Nakatani
 
Tsubota 20120915
Tsubota 20120915Tsubota 20120915
Tsubota 20120915
nextedujimu
 
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
mametter
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
Yuya Unno
 
Ism npblm-20120315
Ism npblm-20120315Ism npblm-20120315
Ism npblm-20120315
隆浩 安
 

Similaire à 第三回さくさくテキストマイニング勉強会 入門セッション (20)

Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
1 3-2
1 3-21 3-2
1 3-2
 
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.
 
日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価
 
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
Tsubota 20120915
Tsubota 20120915Tsubota 20120915
Tsubota 20120915
 
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
 
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 
日本語文章に対する 述語項構造アノテーション仕様の考察
日本語文章に対する述語項構造アノテーション仕様の考察日本語文章に対する述語項構造アノテーション仕様の考察
日本語文章に対する 述語項構造アノテーション仕様の考察
 
言語モデル入門 (第二版)
言語モデル入門 (第二版)言語モデル入門 (第二版)
言語モデル入門 (第二版)
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
Evaluation
EvaluationEvaluation
Evaluation
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
 
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 
形態素解析
形態素解析形態素解析
形態素解析
 
Ism npblm-20120315
Ism npblm-20120315Ism npblm-20120315
Ism npblm-20120315
 
プロソディの捉え方とその指導_06.03.2015
プロソディの捉え方とその指導_06.03.2015プロソディの捉え方とその指導_06.03.2015
プロソディの捉え方とその指導_06.03.2015
 

第三回さくさくテキストマイニング勉強会 入門セッション

  • 1. 入門セッション ● テキストマイニング必須用語を15分程度で紹介 ● 目的:初心者向け勉強会なので、基本用語から説 明すべきだが、各発表者がいちいち説明している と重複しまくって非効率なので、最初にまとめる ● セッション後、質問タイムを設けます。お気軽に御 質問下さい ● ※あくまでざっくりした説明です 1
  • 2. テキストマイニングの利用分野 1.マーケティング – 評判分析:売れ行き予測 – 需要の抽出:今どんな商品が求められているか? – 自社製品の強み弱み:強みを伸ばし、弱点を補う – インフルエンサーの特定:どこ/誰が影響力を持っているか 2.ナレッジの自動蓄積 ● メール等の文書をデータベース化 ● 暗黙知→形式知 3.自然言語処理的領域 – 検索、本文要約、IME、機械翻訳 2
  • 4. 言語処理の技術 (1) 形態素解析 ● 形態素とは:意味を持つ最小の文字列の単位 ● 分かち書き:文を単語に分割すること ● 形態素解析:分かち書き+品詞付け+原形復元 ● 日本語の分かち書きは難しい ● 英語等と違って単語の切れ目がわからない – 「すもももももももものうち」→「李も桃も桃の内」○ – 「東京都」→「東, 京都」? ● MeCab:非常によく使われる形態素解析エンジン 4
  • 5. 言語処理の技術 (2) 構文解析 ● 構文解析:文の構造(係り受け等)を明らかにする ● 係り受け:ある文節がどの文節に作用するか ● 例文:「黒い大きな瞳の男の娘」 ● (肌の)黒い、大きな瞳の、男の娘? ● 黒い大きな瞳の、男の娘? ● 黒い大きな瞳(さん)の男の娘? 5
  • 6. 言語処理の技術 (3) 意味解析 ● 意味解析:評判分析等で使われる ● 「泣ける」という単語はポジティブ?ネガティブ? – 「映画」+泣ける⇒感動した!というポジティブ表現 – 「試験」+泣ける⇒結果が悪かった!というネガティブ表現 – 単語の意味は文脈によって変わる可能性がある ● 語義曖昧性解消:単語の複数の意味の中から、文 に応じた語義を特定すること ● 単語情報単体で自然言語の全てを理解できるわけ ではない 6
  • 7. テキストの統計処理 ● 単語:トークンとタイプ – “nurture or nature? nurture passes nature”は何単語? – 6(節)と答えるのがトークン – 4(種類)と答えるのがタイプ ● bag-of-words(BOW):文章の単語ベクトル表現 – 柴犬が私を噛んだ→{柴犬,が,私,を,噛ん,だ} – {柴犬,が,私,を,噛ん,だ} = {私,が,柴犬,を,噛ん,だ} ● Nグラム:隣接するN単位の共起 – 単語2グラム[柴犬,が][が,私][私,を][を,噛ん][噛ん,だ] – 文字2グラム(柴,犬)(犬,が)(が,私)(私,を)(を,噛)(噛,ん)(ん,だ) 7
  • 8. 頻出専門用語 ● コーパス:言語の分析用例データ ● 素性:文法的な情報を表す特徴量(単語頻度等) ● シソーラス:階層構造を持った類義語辞書 ● 照応解析:代名詞が指しているものを明らかにする ● 省略補完:省略された主語などを補完する ● チャンキング:文の意味的な固まりを見つける技術 ● 格フレーム:ある語の語義毎に共起する語の組 ● 機械学習:人間の学習能力をコンピュータに持た せて、分類や判別、予測などを行う研究分野 – 教師有り学習:与えられた正解例に沿う様、分類などを行う 8 – 教師無し学習:入力値から頻出/特殊なパターンを見出す