固有表現抽出と適用例のご紹介

固有表現抽出と
適用例のご紹介
2019/4/5 @LT会

自己紹介
IoT/AIソリューション事業部所属のAIの担当
学生時代：
高専から大学院まで情報系だったが、
機械学習という名前に興味が持てず
AIに関係する授業をあまり受講しない学生生活
入社後：
入社してからはずっとAI関連の仕事をすることに
（画像、動画、自然言語、波形データの解析、レコメンドなど）
こういうのは
いいかな
学生時代

固有表現抽出とは？
固有表現抽出は文から人名や組織名、地名、日付等を抽出する方法
【例】
入力文：CCTは2009年に設立された新宿の会社
組織名日付地名ラベル： *住所は渋谷区…
固有表現抽出による抽出結果

固有表現抽出をどう活用する？①
プライバシー保護（弊社事例）
【例】
入力文：山田太郎さんは持病があり、茨城から通院している
■■さんは持病があり、■■から通院している
個人情報等を隠した文へ
個人情報が隠された文にして、関係者以外でも閲覧可能な形へ
人名地名

固有表現抽出をどう活用する？②
対話システム（弊社事例）
【例】
入力文：新宿駅近くのマクドナルドの住所は？
組織名地名
コンピュータが新宿駅近くの
マクドナルドを検索して、住所をユーザーに提示

固有表現抽出をどう活用する？③④
Sansan様の例：
ネットニュースから企業名を抽出しておき、
名刺交換した相手の企業のニュースを配信1
クックパッド様の例：
特売品の情報の文章から商品名を抽出2
[1]https://speakerdeck.com/sansanbuildersbox/introduction-of-ner-survey-paper-and-practical-
example-of-organization-extraction
[2]https://www.slideshare.net/abicky/ss-52441786

固有表現抽出の実現方法
1. ルールベース
どの単語がどれに該当するかをあらわす辞書や、
単語があらわれる文脈によってどう判定するべきかのルールを
人間が頑張って作り、これらをもとに固有表現抽出をおこなう
2. 機械学習
学習に使うデータをたくさん用意することで
ルールを自動で学ばせることができる！
新しい単語も対応可能！
最近はディープラーニングを利用
単語、ルールを網羅しようとするのは大変
新しい単語ができたら都度対応が必要

学習データの用意
機械学習を使う場合にはラベル付きの学習データが必要
基本的には人間が頑張って用意する
佐賀駅から会場となる市村記念体育館までの通りには、
佐賀にゆかりのある偉人の銅像が建てられ、
中には佐賀藩主の鍋島直正や、幕末維新期に活躍した大隈重信
などが姿を現します。
【学習データの例】
地名
地名
地名
地名
人名人名

実験
固有表現抽出には機械学習（ディープラーニング）を利用
学習データとして2000個のニュース記事を使用
ラベル付の体力の限界のため今回は
2000個ですが、実際の問題では
もっと沢山あったほうが良いです
ラベルは組織名、人名、地名の3つのみ

抽出した結果
【例1】
水戸藩の二代藩主、徳川光圀などがまつられている水戸市の常磐神社で、
ことし１年間にたまったほこりを落とし、新年を迎えるための
すす払いが行われました。
地名人名地名失敗
引用元：https://www3.nhk.or.jp/lnews/mito/
20181213/1070004942.html

抽出した結果
【例2】
ヤクルト・奥村展征内野手（２３）が１３日、東京・北青山の
球団事務所で契約更改交渉を行い、現状維持の９５０万円でサインした。
人名地名組織名
引用元：https://www.sanspo.com/baseball/
news/20181213/swa18121313340005-n1.html

抽出した結果
【例3】
千葉県の千葉市在住の千葉さんは千葉の魅力をアピールした。
人名地名地名地名
同じ単語でも
文脈で異なるラベル

まとめ
固有表現抽出と活用例、
ニュース記事に適用した実験結果をご紹介しました
文章データをたくさんお持ちの企業様は
固有表現抽出を使って面白いことができるかもしれません！
固有表現抽出以外にもAIを使ってやりたいことなどあれば
懇親会でご相談ください
【宣伝】
今回の発表内容は弊社のブログでも掲載しています！
https://orizuru.io/challenge/005_ai_extract-word/

固有表現抽出と適用例のご紹介

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à 固有表現抽出と適用例のご紹介

Similaire à 固有表現抽出と適用例のご紹介 (20)

Plus de Core Concept Technologies

Plus de Core Concept Technologies (20)

固有表現抽出と適用例のご紹介