Contenu connexe
Similaire à 第三回さくさくテキストマイニング勉強会 入門セッション (20)
第三回さくさくテキストマイニング勉強会 入門セッション
- 1. 入門セッション
● テキストマイニング必須用語を15分程度で紹介
● 目的:初心者向け勉強会なので、基本用語から説
明すべきだが、各発表者がいちいち説明している
と重複しまくって非効率なので、最初にまとめる
●
セッション後、質問タイムを設けます。お気軽に御
質問下さい
● ※あくまでざっくりした説明です
1
- 2. テキストマイニングの利用分野
1.マーケティング
– 評判分析:売れ行き予測
– 需要の抽出:今どんな商品が求められているか?
– 自社製品の強み弱み:強みを伸ばし、弱点を補う
– インフルエンサーの特定:どこ/誰が影響力を持っているか
2.ナレッジの自動蓄積
●
メール等の文書をデータベース化
●
暗黙知→形式知
3.自然言語処理的領域
– 検索、本文要約、IME、機械翻訳
2
- 4. 言語処理の技術 (1) 形態素解析
● 形態素とは:意味を持つ最小の文字列の単位
● 分かち書き:文を単語に分割すること
● 形態素解析:分かち書き+品詞付け+原形復元
● 日本語の分かち書きは難しい
●
英語等と違って単語の切れ目がわからない
– 「すもももももももものうち」→「李も桃も桃の内」○
– 「東京都」→「東, 京都」?
● MeCab:非常によく使われる形態素解析エンジン
4
- 5. 言語処理の技術 (2) 構文解析
● 構文解析:文の構造(係り受け等)を明らかにする
● 係り受け:ある文節がどの文節に作用するか
● 例文:「黒い大きな瞳の男の娘」
● (肌の)黒い、大きな瞳の、男の娘?
● 黒い大きな瞳の、男の娘?
●
黒い大きな瞳(さん)の男の娘?
5
- 6. 言語処理の技術 (3) 意味解析
● 意味解析:評判分析等で使われる
● 「泣ける」という単語はポジティブ?ネガティブ?
– 「映画」+泣ける⇒感動した!というポジティブ表現
– 「試験」+泣ける⇒結果が悪かった!というネガティブ表現
– 単語の意味は文脈によって変わる可能性がある
● 語義曖昧性解消:単語の複数の意味の中から、文
に応じた語義を特定すること
● 単語情報単体で自然言語の全てを理解できるわけ
ではない
6
- 7. テキストの統計処理
● 単語:トークンとタイプ
– “nurture or nature? nurture passes nature”は何単語?
– 6(節)と答えるのがトークン
– 4(種類)と答えるのがタイプ
● bag-of-words(BOW):文章の単語ベクトル表現
– 柴犬が私を噛んだ→{柴犬,が,私,を,噛ん,だ}
– {柴犬,が,私,を,噛ん,だ} = {私,が,柴犬,を,噛ん,だ}
● Nグラム:隣接するN単位の共起
– 単語2グラム[柴犬,が][が,私][私,を][を,噛ん][噛ん,だ]
– 文字2グラム(柴,犬)(犬,が)(が,私)(私,を)(を,噛)(噛,ん)(ん,だ)
7
- 8. 頻出専門用語
●
コーパス:言語の分析用例データ
● 素性:文法的な情報を表す特徴量(単語頻度等)
● シソーラス:階層構造を持った類義語辞書
● 照応解析:代名詞が指しているものを明らかにする
● 省略補完:省略された主語などを補完する
●
チャンキング:文の意味的な固まりを見つける技術
● 格フレーム:ある語の語義毎に共起する語の組
● 機械学習:人間の学習能力をコンピュータに持た
せて、分類や判別、予測などを行う研究分野
– 教師有り学習:与えられた正解例に沿う様、分類などを行う
8
– 教師無し学習:入力値から頻出/特殊なパターンを見出す