Contenu connexe
Similaire à Watson活用事例~Watsonハッカソンの例を通じて~ (20)
Watson活用事例~Watsonハッカソンの例を通じて~
- 12. 文書番号 関連度 文書番号 関連度 文書番号 関連度
図書館は誰でも使えますか? 1 3 2 1
私はアメリカ人ですが、本を借りられますか? 1 3 2 2
隣の市から通学していますが、本は借りられます
か?
1 3 2 2
5歳の子供がいますが、ひとりでも本を借りられま
すか?
2 2 15 1
小さい子を連れていても利用できますか。 2 3 45 3 15 3
最近引っ越してきたので、図書館の利用方法を
教えてください。
1 2 2 3 5 1
利用カードをなくしました。 3 2 41 3 40 2
質問文
回答になる文書の文書番号と、関連度(ここでは3段階)
③R&R-仕組み
■Rankerのトレーニング
• 代表的な質問を抽出して{質問文、回答となる文書のID、関連度}の
組み合わせを学習させる
• 組み合わせと関連度は、人間が判断してデータ化する
• 学習したRankerは単純な全文検索よりも人間に近い判断をする
(はず)
<学習用データ(ground truth)の形式>
<検索対象文書>
文書ID 本文
1 XXX図書館のご案内
この図書館は、市内在住または在勤の方ならどなたでも無料でご利用になれます。資料を借りる場合は、図書館利用カード
が必要です。 ・・・・・
2 利用カードは、XXX図書館の受付カウンターで作成できます。
利用登録申込書に記入し、ご本人が住所を確認できる身分証明書を持ってカウンターへお越しください。
小学生未満のお子さんは、親御さんの同伴をお願いします。
「住所を確認できる身分証明書」の例
・健康保険証運転免許証 ・学生証 ・パスポート ・住基カード ・・・・
3 利用カードはXXX図書館の全館と、提携している△△図書館でもご利用になれます。
住所や電話番号等が変更になった場合は、変更手続きをしてください。電話番号、メールアドレスの変更は、ホームページの
利用者メニューからご自身で行うことができます。住所の変更は、上記の住所を確認できる身分証明書をお持ちになって、最
寄りの図書館カウンターで手続きをしてください。
カードを紛失した時は、なるべく早く図書館にご連絡ください。
有効期限は1年間です。期限が切れた場合、次回貸出時に登録内容変更の有無を確認させていただきます。
・・・・
例えば「図書館は誰でも使えま
すか?」という質問に対しては
文書1は非常に関連度が強い、文
書2は多少関連がある、いった判
断をしながらトレーニングデー
タを作成していく
- 25. 処理の流れ
25
テキスト カテゴリ 緊急度
助けて! 支援要請 高い
無事です 安否確認 低い
順位 アクション
1 ○○地区消防への連携
2 ○○地区への職員派遣
3 ○○地区へのボランティア派遣
※既存の災対マニュアル等をもとに提案
②NLCでカテゴリと緊急度に分類
③R&Rで次のアクションを提案
①災害情報を収集
④受付状況をフィードバック
助けて!
無事です
受け付けました
Notes de l'éditeur
- Solrクラスタの中にコレクションがあり、コレクションの中にドキュメント集合がある。
そして検索時にはコレクションとトレーニング済みのランカーを結びつけることで、
単なる全文検索ではなくて機械学習を利用した順位づけが可能になる
- テキスト入力せずに済む分速い
育成コスト削減
内容
顧客サポート業務にWatsonを活用
あらかじめQA集、業務マニュアル等を登録
問い合わせた音声をテキストに変換し、Watsonに尋ねる
Watsonは回答を表示
目的
オペレータの回答品質のばらつきを抑えて、応答を速くする
- ソフトバンク賞を頂いた。
- コンセプト、トラブル、ソリューションの順に話すとわかりやすい。ここに画像はいらないか?後で持ってきた方が。
- 対応者による品質のばらつきを抑える
- 左上から始まる方が良い。
- カテゴリ分類には効果的。
重要度とかだと、これだけ少ないデータではいまいち。
今回のようなケースではカテゴリ数が多いほうが良い。一般知識を使ってるのでフィットする対象が増えた。
短い文章は通常は難しい。口語的。
話の流れ
○○と××を検証するため、以下の条件で検証を行った
条件
各実験について説明と考察
評価指標に関しても説明する必要があるかな?
本当は普通の分類器と比較する必要がある。
- 今回の場合
R&Rに直接質問を放り込まないほうがよかったかも
R&RのコレクションをNLCで分類するカテゴリごとに作成
NLC→R&Rの順に聞く
NLCで確信度が低ければ質問を聞き直す
実際大賞取ったチームはそうして精度を上げていた
- カテゴリを絞る→検索時に絞ったカテゴリドメインのコレクションとランカーを指定して検索&順位付けする。
よく考えればランカー作るときにコレクションに結びつけるのはない。その時点で結合してしまうから。検索時に指定できた方が柔軟。
- お金の話があると面白い。興味があるところ。
- http://japan.zdnet.com/article/35070557/
http://techon.nikkeibp.co.jp/article/COLUMN/20150727/429583/?P=2
http://cloud.watch.impress.co.jp/docs/event/20141029_673586.html
- キーワードだけじゃない。
- カテゴリ分類には効果的。
重要度とかだと、これだけ少ないデータではいまいち。
今回のようなケースではカテゴリ数が多いほうが良い。一般知識を使ってるのでフィットする対象が増えた。
短い文章は通常は難しい。口語的。
話の流れ
○○と××を検証するため、以下の条件で検証を行った
条件
各実験について説明と考察
評価指標に関しても説明する必要があるかな?
本当は普通の分類器と比較する必要がある。