SlideShare une entreprise Scribd logo
1  sur  25
ITエンジニアのための
自然言語処理入門
三上 悟
ITエンジニアのためのDeep Learning >> 番外編 LT
三上 悟(Mikami Satoru)
CTO at Innova
Twitter: @saicologic
Qiita: http://qiita.com/saicologic
Facebook: https://www.facebook.com/saicologic
Web Engineer (PHP, Ruby, Python) 10 Year
デザイン工学 4 Year
機械学習(自然言語処理)は、独学中 1 Year
興味:
Machine Learning for Artists
Machine Learning for Marketing
自然言語処理とは
自然言語(natural language)とは、日本語、英語、フランス語など、
われわれ人間が日常的に話し聞き、読み書きしている言語のこ
とをいう。
人工言語と区別するため、ただ「言語」というのではなく
「自然言語」と呼ぶこととなった。
自然言語をコンピューター上で扱う技術を自然言語処理
(natural language processing)という。
著:奥村学
自然言語処理の基礎
概要
• 辞書とコーパス(Dictionaly&Corpus)
• 形態素解析(morphological analysis)
• 構文解析(syntactic analysis)
• 意味解析(semantic analysis)
• 文脈解析(contextural analysis)
著:奥村学
自然言語処理の基礎
応用
• 機械翻訳(Google Translate)
• 情報検索(Google Search)
• テキスト分類(SmartNews)
• 情報抽出(出来事、日付、住所など)
– 固有表現抽出
単行本(ソフトカバー): 164ページ
Webエンジニアのための
自然言語処理 クラウドサービス
Google
CLOUD NATURAL LANGUAGE API (BETA)
• 構文解析
• エンティティ認識(固有表現抽出)
• 感情分析(日本語は未対応)
• マルチ言語(日本語含む80カ国語以上)
https://cloud.google.com/natural-language/
Yahoo! JAPAN
テキスト解析WebAPI
• 日本語形態素解析
• かな漢字変換
• ルビ振り
• 校正支援
• 日本語係り受け解析
• キーフレーズ抽出
http://developer.yahoo.co.jp/webapi/jlp/
IBM Bluemix
Watson API
• AlchemyAPI
• Concept Expansion
• Concept Insights
• Dialog
• Language Translation
• Natural Language Classifier
More….
IBM Bluemix の Watson APIを使ってみた雑感
http://qiita.com/knao124/items/60dc430fc31bf85b0e60
Webエンジニアのための
自然言語処理 学習方法
学習方法
言語処理100本ノック2015
http://www.cl.ecei.tohoku.ac.jp/nlp100/
学習方法
学習方法
自然言語処理を独習したい人のために
http://cl.sd.tmu.ac.jp/prospective/prerequisite
Webエンジニアのための
自然言語処理 本
本
http://cl.sd.tmu.ac.jp/prospective/readings
首都大学東京 自然言語処理研究室(小町研)
自然言自然言語処理を学ぶ推薦書籍
Webエンジニアのための
自然言語処理 データセット
データセット
Movielens
映画のレビュー 機械学習系の本でよく使われる
http://grouplens.org/datasets/movielens/
NII(国立情報学研究所)
Yahoo/楽天/ニコニコ動画/リクルート/クックパッド/HOME’s
http://www.nii.ac.jp/dsc/idr/datalist.html
NICT(国立研究開発法人情報通信研究機構)
日本語 WordNet
http://nlpwww.nict.go.jp/wn-ja/
東北大学(乾・岡崎研究室)
Open Resources (Yahoo!知恵袋機能表現タグ, 日本語極性辞書など)
http://www.cl.ecei.tohoku.ac.jp/index.php?Open%20Resources#o35a04e2
Webエンジニアのための
自然言語処理 アルゴリズム
アルゴリズム
• 基本
– TF-IDF(単語の重み付け、特徴量、特徴抽出)
• 次元削減
– PCA 主成分分析
– LSA(Latent Semantic Analysis)
– t-SNE
• 機械学習
– 教師あり学習
• Naive Bayes(文章分類)
• K-NN(k-nearest neighbor)(文章分類)
• SVM(Support Vector Machine)(文章分類)
• CRF(Conditional Random Fields) (固有表現抽出、本文抽出)
– 教師なし学習
• K-means(文章クラスタリング)
• Word2Vec(分散表現(単語埋め込み)
• LDA(カテゴリ分類)
Webエンジニアのための
自然言語処理 辞書・ライブラリ
ライブラリ
• Scikit-learn(Naive Bayes more..)
• Gensim(LSI/LDA/Word2vec/doc2vec)
• Mecab(形態素解析) + NEologd(辞書)
• CaboCha(係り受け解析)
• KNP(構文・格・照応解析)
• NLTK(Natural Language Toolkit)
• ExtractContent(Webページの本文抽出)
全て、Pythonから使えます。
Webエンジニアのための
自然言語処理 Neural Network
Neural Network
• Neural Language Model
– Word2Vec (Vector Representations of Words)
– Seq2Seq(Sequence-to-Sequence)
– RNN(Recurrent Neural Network)
• LSTM(Long Short-Term Memory)
TensorFlow Tutorial Language and Sequence Processing
https://www.tensorflow.org/versions/master/tutorials/index.html
ご静聴ありがとうございました。

Contenu connexe

Tendances

ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
LINE Corporation
 
CEDEC2015 サブディビジョンサーフェスの すべてがわかる
CEDEC2015 サブディビジョンサーフェスの すべてがわかるCEDEC2015 サブディビジョンサーフェスの すべてがわかる
CEDEC2015 サブディビジョンサーフェスの すべてがわかる
Takahito Tejima
 
AIを活用し経理業務を「データサイエンス業務」に変革するためのポイントと実務-経理人材が今後目指すべき方向性を提示-
AIを活用し経理業務を「データサイエンス業務」に変革するためのポイントと実務-経理人材が今後目指すべき方向性を提示-AIを活用し経理業務を「データサイエンス業務」に変革するためのポイントと実務-経理人材が今後目指すべき方向性を提示-
AIを活用し経理業務を「データサイエンス業務」に変革するためのポイントと実務-経理人材が今後目指すべき方向性を提示-
Kan Hara
 

Tendances (20)

情報共有は、なぜGoogle Docsじゃなく、 Confluenceなのか。
情報共有は、なぜGoogle Docsじゃなく、 Confluenceなのか。情報共有は、なぜGoogle Docsじゃなく、 Confluenceなのか。
情報共有は、なぜGoogle Docsじゃなく、 Confluenceなのか。
 
スクラムナイト#1 デイリースクラムやってます?
スクラムナイト#1 デイリースクラムやってます?スクラムナイト#1 デイリースクラムやってます?
スクラムナイト#1 デイリースクラムやってます?
 
Probabilistic fasttext for multi sense word embeddings
 Probabilistic fasttext for multi sense word embeddings Probabilistic fasttext for multi sense word embeddings
Probabilistic fasttext for multi sense word embeddings
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
【Unityの集い in大阪】LT:Unity認定試験(プログラマ)を受験しました
【Unityの集い in大阪】LT:Unity認定試験(プログラマ)を受験しました【Unityの集い in大阪】LT:Unity認定試験(プログラマ)を受験しました
【Unityの集い in大阪】LT:Unity認定試験(プログラマ)を受験しました
 
NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~
 
CEDEC2015 サブディビジョンサーフェスの すべてがわかる
CEDEC2015 サブディビジョンサーフェスの すべてがわかるCEDEC2015 サブディビジョンサーフェスの すべてがわかる
CEDEC2015 サブディビジョンサーフェスの すべてがわかる
 
40歳過ぎてもエンジニアでいるためにやっていること
40歳過ぎてもエンジニアでいるためにやっていること40歳過ぎてもエンジニアでいるためにやっていること
40歳過ぎてもエンジニアでいるためにやっていること
 
AIを活用し経理業務を「データサイエンス業務」に変革するためのポイントと実務-経理人材が今後目指すべき方向性を提示-
AIを活用し経理業務を「データサイエンス業務」に変革するためのポイントと実務-経理人材が今後目指すべき方向性を提示-AIを活用し経理業務を「データサイエンス業務」に変革するためのポイントと実務-経理人材が今後目指すべき方向性を提示-
AIを活用し経理業務を「データサイエンス業務」に変革するためのポイントと実務-経理人材が今後目指すべき方向性を提示-
 
WebRTCを利用した遠隔リアルタイム映像処理フレームワークの実装
WebRTCを利用した遠隔リアルタイム映像処理フレームワークの実装WebRTCを利用した遠隔リアルタイム映像処理フレームワークの実装
WebRTCを利用した遠隔リアルタイム映像処理フレームワークの実装
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
データサイエンティスト養成読本の解説+書き忘れたこと
データサイエンティスト養成読本の解説+書き忘れたことデータサイエンティスト養成読本の解説+書き忘れたこと
データサイエンティスト養成読本の解説+書き忘れたこと
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
 
【Unity道場スペシャル 2017京都】最適化をする前に覚えておきたい技術
【Unity道場スペシャル 2017京都】最適化をする前に覚えておきたい技術【Unity道場スペシャル 2017京都】最適化をする前に覚えておきたい技術
【Unity道場スペシャル 2017京都】最適化をする前に覚えておきたい技術
 
ユーザーストーリー駆動開発で行こう。
ユーザーストーリー駆動開発で行こう。ユーザーストーリー駆動開発で行こう。
ユーザーストーリー駆動開発で行こう。
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫る
 

En vedette

情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜
Yuya Unno
 

En vedette (7)

非エンジニアに人工知能に 興味を持ってもらう話
非エンジニアに人工知能に興味を持ってもらう話非エンジニアに人工知能に興味を持ってもらう話
非エンジニアに人工知能に 興味を持ってもらう話
 
IT技術者でも1から学べるビジネスモデルキャンバス入門
IT技術者でも1から学べるビジネスモデルキャンバス入門IT技術者でも1から学べるビジネスモデルキャンバス入門
IT技術者でも1から学べるビジネスモデルキャンバス入門
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜
 
最近のDQN
最近のDQN最近のDQN
最近のDQN
 
大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α
 
ビジネスモデルの作り方
ビジネスモデルの作り方ビジネスモデルの作り方
ビジネスモデルの作り方
 
成功するスタートアップの作り方 ー 完全版
成功するスタートアップの作り方 ー 完全版 成功するスタートアップの作り方 ー 完全版
成功するスタートアップの作り方 ー 完全版
 

Similaire à Itエンジニアのための自然言語処理入門

Similaire à Itエンジニアのための自然言語処理入門 (20)

AI GIRLS COLLECTION_0929
AI GIRLS COLLECTION_0929AI GIRLS COLLECTION_0929
AI GIRLS COLLECTION_0929
 
もっとドキュメントが日本語になりますように
もっとドキュメントが日本語になりますようにもっとドキュメントが日本語になりますように
もっとドキュメントが日本語になりますように
 
Why python
Why pythonWhy python
Why python
 
Why python
Why pythonWhy python
Why python
 
ピーFIの研究開発現場
ピーFIの研究開発現場ピーFIの研究開発現場
ピーFIの研究開発現場
 
Arithmer NLP Introduction
Arithmer NLP IntroductionArithmer NLP Introduction
Arithmer NLP Introduction
 
OSS Study#19_LT
OSS Study#19_LTOSS Study#19_LT
OSS Study#19_LT
 
GDG Tokyo New Year Seminar 2018 -Dialogflow-
GDG Tokyo New Year Seminar 2018 -Dialogflow-GDG Tokyo New Year Seminar 2018 -Dialogflow-
GDG Tokyo New Year Seminar 2018 -Dialogflow-
 
認知科学会サマースクール2015・人工知能と言語機能
認知科学会サマースクール2015・人工知能と言語機能認知科学会サマースクール2015・人工知能と言語機能
認知科学会サマースクール2015・人工知能と言語機能
 
プログラミング講座 【ド素人向け】
プログラミング講座 【ド素人向け】プログラミング講座 【ド素人向け】
プログラミング講座 【ド素人向け】
 
Pythonのプロファイリング
PythonのプロファイリングPythonのプロファイリング
Pythonのプロファイリング
 
Cap01
Cap01Cap01
Cap01
 
【ハンズオン】汎用性の高い自然言語処理モデルとは?HAIM【オンライン】
【ハンズオン】汎用性の高い自然言語処理モデルとは?HAIM【オンライン】【ハンズオン】汎用性の高い自然言語処理モデルとは?HAIM【オンライン】
【ハンズオン】汎用性の高い自然言語処理モデルとは?HAIM【オンライン】
 
Why python
Why pythonWhy python
Why python
 
新事業で目指す自然言語処理ビジネス、その未来 Machine Learning 15minutes! 発表資料
新事業で目指す自然言語処理ビジネス、その未来 Machine Learning 15minutes! 発表資料新事業で目指す自然言語処理ビジネス、その未来 Machine Learning 15minutes! 発表資料
新事業で目指す自然言語処理ビジネス、その未来 Machine Learning 15minutes! 発表資料
 
NLPでオンライン広告のオーディエンスの性別を推定する方法
NLPでオンライン広告のオーディエンスの性別を推定する方法NLPでオンライン広告のオーディエンスの性別を推定する方法
NLPでオンライン広告のオーディエンスの性別を推定する方法
 
質問応答システム
質問応答システム質問応答システム
質問応答システム
 
iOSローカライズことはじめ_Swiftビギナーズ20160109.pdf
iOSローカライズことはじめ_Swiftビギナーズ20160109.pdfiOSローカライズことはじめ_Swiftビギナーズ20160109.pdf
iOSローカライズことはじめ_Swiftビギナーズ20160109.pdf
 
NewsPicksにおける記事の推薦
NewsPicksにおける記事の推薦NewsPicksにおける記事の推薦
NewsPicksにおける記事の推薦
 
S05_T0_orientation
S05_T0_orientationS05_T0_orientation
S05_T0_orientation
 

Plus de Satoru Mikami (6)

第2回 人形町Techで騒がnight
第2回 人形町Techで騒がnight第2回 人形町Techで騒がnight
第2回 人形町Techで騒がnight
 
バイラルメディアの可視化 拡大版
バイラルメディアの可視化 拡大版バイラルメディアの可視化 拡大版
バイラルメディアの可視化 拡大版
 
バイラルメディアの可視化
バイラルメディアの可視化バイラルメディアの可視化
バイラルメディアの可視化
 
社会ネットワーク分析第7回
社会ネットワーク分析第7回社会ネットワーク分析第7回
社会ネットワーク分析第7回
 
Atndapi
AtndapiAtndapi
Atndapi
 
Mongodb
MongodbMongodb
Mongodb
 

Itエンジニアのための自然言語処理入門