Contenu connexe Similaire à Itエンジニアのための自然言語処理入門 (20) Plus de Satoru Mikami (6) Itエンジニアのための自然言語処理入門2. 三上 悟(Mikami Satoru)
CTO at Innova
Twitter: @saicologic
Qiita: http://qiita.com/saicologic
Facebook: https://www.facebook.com/saicologic
Web Engineer (PHP, Ruby, Python) 10 Year
デザイン工学 4 Year
機械学習(自然言語処理)は、独学中 1 Year
興味:
Machine Learning for Artists
Machine Learning for Marketing
8. Google
CLOUD NATURAL LANGUAGE API (BETA)
• 構文解析
• エンティティ認識(固有表現抽出)
• 感情分析(日本語は未対応)
• マルチ言語(日本語含む80カ国語以上)
https://cloud.google.com/natural-language/
10. IBM Bluemix
Watson API
• AlchemyAPI
• Concept Expansion
• Concept Insights
• Dialog
• Language Translation
• Natural Language Classifier
More….
IBM Bluemix の Watson APIを使ってみた雑感
http://qiita.com/knao124/items/60dc430fc31bf85b0e60
20. アルゴリズム
• 基本
– TF-IDF(単語の重み付け、特徴量、特徴抽出)
• 次元削減
– PCA 主成分分析
– LSA(Latent Semantic Analysis)
– t-SNE
• 機械学習
– 教師あり学習
• Naive Bayes(文章分類)
• K-NN(k-nearest neighbor)(文章分類)
• SVM(Support Vector Machine)(文章分類)
• CRF(Conditional Random Fields) (固有表現抽出、本文抽出)
– 教師なし学習
• K-means(文章クラスタリング)
• Word2Vec(分散表現(単語埋め込み)
• LDA(カテゴリ分類)
22. ライブラリ
• Scikit-learn(Naive Bayes more..)
• Gensim(LSI/LDA/Word2vec/doc2vec)
• Mecab(形態素解析) + NEologd(辞書)
• CaboCha(係り受け解析)
• KNP(構文・格・照応解析)
• NLTK(Natural Language Toolkit)
• ExtractContent(Webページの本文抽出)
全て、Pythonから使えます。
24. Neural Network
• Neural Language Model
– Word2Vec (Vector Representations of Words)
– Seq2Seq(Sequence-to-Sequence)
– RNN(Recurrent Neural Network)
• LSTM(Long Short-Term Memory)
TensorFlow Tutorial Language and Sequence Processing
https://www.tensorflow.org/versions/master/tutorials/index.html