More Related Content
Similar to 2018aiexpo natural language_processing_group (20)
2018aiexpo natural language_processing_group
Editor's Notes
- それでは、これからIR-ALT流テキストコーパスの作り方と題しまして、弊社業務の一例をご紹介したいと思います。
- こんにちは。
私達IR-ALTは、データ作成を専門とした会社です。
例えば、機械学習に利用するための正解データ作成、音声認識に利用するための音声発話収録、画像認識に利用するための映像コーパスの作成などを行っています。
- このスライドでは、IR-ALTが得意とする「テキストコーパス作成」業務についてご紹介したいと思います。
この説明を通じて、弊社の強みをお伝えできればと思います。
- まず、ここでの「テキストコーパス」とはどんなものを指しているのかを確認しておきます。
私達が「テキストコーパス」と呼んでいるのは、自然言語処理の研究・開発に利用するための言語資源、
とりわけ、AIの学習に利用する学習データのことを指します。
- そもそも、なぜテキストコーパスが必要になるのでしょうか。
テキストコーパスの利用例として、AIエンジンの精度向上などが挙げられます。
例えばワトソンの質問応答システムの回答精度を上げたければ、質問文のコーパスを多く用意する必要があります。
- では、実際に弊社が過去に作成したテキストコーパスをご紹介致します。
まず一つ目は、「対話コーパス」の作成作業です。
作業内容は、2名の作業者がweb上でチャットした対話データの作成です。
収集発話数は10万発話以上、対話参加者数は100名程度、期間はおよそ1か月で収集しました。
- このコーパスの作成プロセスは、大まかに次のようになります。
最初に、お客様にデータの理想像を確認、つまり要件定義を行います。
二番目に、そのデータを作成するためのタスク設計、つまり基本設計を行います。
三番目に、実際に作業を行う作業者を集めることを行います。
四番目に、作業を効率よく行うための作業ツールの作成を行います。
ここまで準備が整ってから、次にデータ作成作業に入り、その後作成データ内容のチェック、納品という運びになります。
ここからは各工程について、簡単にご説明いたします。
ではまず、データの理想像をお客様からヒアリングについてです。
- まず、お客様が希望するデータ内容、その使用用途について細かく伺うことを行います。
- 欲しいデータ像は何か?
- 予算、期間はどのくらいを考えているか?
- 期間や予算は決めていても、具体的な収集方法までイメージして指定するお客さまは、殆どおりません。
- そこでヒアリング結果から、作業内容についてご提案するという形になることが多くあります。
ですので、ご相談時に明確な要件が決まっていなくても、問題ありません。
「データ作成のプロ」の観点から、ご提案できることがきっとございます。
お困りのことがあればまずはお気軽にご相談ください。
- 次に、作業を行うための最適なタスクの設計を行います。
- 作成したいデータの性質によって、起こりうるトラブル、最適な収集方法、作成者へのインストラクション内容などは大きく変わります。
- IR-ALTは、15年以上データ作成を専門に行ってきたことにより培われたノウハウを持っています。
最適なタスクを設計し、作成するデータを、お客様が望む理想のデータへと近づけます。
ただいま説明しています「対話コーパス」作成案件においても、
お客様側で明確な作業指針や手法に関するご要望はございませんでしたので、
社内でアイディアを出し合い、お客様と協議しながら工程内容を決めていきました。
- 次は、実際に作業を行う作業者を集める工程についてです。
- 弊社では、「アルトメンバーズ」という自社の作業者ネットワークを保有しています。
- 現在登録数はおよそ5000名になり、
必要に応じて登録者の方々に作業のお願いの連絡を致します。
- アルトメンバーズだけでは補えない属性の作業者が必要な場合には、
外部求人媒体も併用することで、子供や高齢者、外国人などの集めにくい属性の収集も可能としています。
- アルトメンバーズにはデータ作成の業務に慣れた、エキスパートスタッフが在籍していますので、
未経験のクラウドワーカーに任せにくい、高度なアノテーションなども安心してお任せください。
- 次に、作業ツール準備についてご説明いたします。
- 作業ツールは、その内容により作業結果のクオリティを大きく左右します。
ツール次第で、工数が倍になったり、意図したものと大きく異なるデータが生まれやすくなったりもします。
- アイアール・アルトではツール開発に特化したエンジニアが、案件ごとに最適なツールを構築しています。
- 只今ご紹介している案件とは別の案件になりますが、
弊社で用意したウェブブラウザ上で動作する作業ツールの一例をお見せします。
大規模に作業展開するときは、作業者のモチベーションをあげ、ミスを防ぐ仕掛けを組み込むことや、スマホ・タブレットからの操作性にも重点を置いています。
例えば、作業報酬をすぐ確認できることも、モチベーションを上げていくための方法になります。
- 社内の少数精鋭で行う高度なアノテーション作業では、より作り込んだツールを用います。
これはMicrosoft社のAccessを利用して構築したツールです。
大量のテキストから固有表現を自動抽出するための要素技術として「固有表現抽出」というものがあります。
この技術についてご研究されている研究者さまからのご依頼で、
弊社でテキストをお預かりし、正解データを作成したことがあります。
そのとき利用したツールをムービーでお見せいたします。
(ムービー中に読む↓)
左が抽出後のアノテーション済みテキスト、右側の枠が作業スペースです。
右側のテキスト中から固有表現にあたる箇所を特定し、
固有表現の種類を右側上部のプルダウンで選択し、プルダウン隣にあるSetボタンを押したタイミングで、左側にタグが埋め込まれていきます。
(この動画ではなぜかプルダウンが見えておりませんが)
固有表現の種類はLOCATIONやORGANIZATIONなどの数種類から選んでいます。
- ツールや作業者が準備できましたら、漸く実際の作業が始まります。
- お客さまからの依頼であるプロジェクトには、必ずプロジェクトリーダーという管理者がつきます。
- 実際にデータを作る作業者への教育は、作業結果のクオリティを左右する重要な事項になります。
プロジェクトリーダーは、プロジェクトの進行を管理するだけでなく、ガイドラインの整備、作業者とのすり合わせ、お客様との協議などを通して、
よりよいデータを作るために責任をもって、品質管理をしながらプロジェクトを進めていきます。
これには長い間データ作成を専門に行ってきた弊社のノウハウが大きく活かされます。
- 一通りデータが完成しましたら、次はその内容のチェックを行います。
- チェックは、機械でできるものは当然機械処理をしますが、
どうしても人間に頼る部分もあります。
そこで、人手と機械処理を組み合わせて、高精度かつ効率よくチェックしていきます。
- ケアレスミスチェックや、作業方針の途中変更による付与情報の誤りのようなものは、
機械処理で効率的に特定し、修正します。
- 誤字脱字に関しては人手による確認が必要なことから、
基本人手で探すことになりますが、同じミスがないかのチェックは機械で行います。
- 仕様に沿わないデータがないかの確認も、形式の問題ならば機械で、
内容の問題ならば人手で確認することになります。
確認、修正に対しても、プロジェクトリーダーが責任をもって監督します。
- 最後に、ご指定のフォーマットで納品いたします。
フォーマットは様々な形式のご要望にお答えできますので、案件ごとにご指定の形式でお納めしています。
- あと2つほど別の事例を簡単にご紹介いたします。
まず1つめは、先程ご紹介した対話コーパス作成結果の対話データに、発話の種類の情報を付けた「アノテーション付き対話コーパス」の作成です。
- この案件のおおまかなプロセスは先程ご説明した案件と同様ですが、
異なる点として、意図に分類するという高度な作業になることです。
そのため、言語の扱いに慣れた少数精鋭のスタッフで作業する必要がありました。
このような案件でよく現れる問題の一例として、個別のケースに対応していくにつれて、
全体の整合性が崩れることから、再度全体を見直し、ガイドラインをブラッシュアップしていかざるを得ない点と、
作業者への教育が難しい点、また、教育できたとしても生じてしまう判断の揺れをいかに抑えるかという点などがあります。
- 私達アイアール・アルトのプロジェクトリーダーは、そのような幾多の困難な問題を解決していき、
ノウハウとして蓄積し、新たなプロジェクトに活かしています。
- 最後にご紹介する事例は、FAQのQ、つまり質問文について、文のゆらぎを作成する作業です。
「コーヒーが飲みたい」という文に対して同じ意図を持つ質問文を何件も作る、というような作業です。
例えば「コーヒーはどこで売っているの」や「コーヒー屋ある?」が、同じ意図を持つ文になります。
規模はさまざまですが、本案件では、100のQAについて各50文ずつ、合計5000文を作成しました。
ワトソンなどの対話システムの流行にともない、このようなご依頼は弊社でも近年増えております。
- 最後になりますが、IR-ALTの強みは、大きく3つになります。
まず、フットワークの軽さです。
今まで行ったことのないような案件にも、実施可能な方法を考え、積極的に引き受けていきます。
次に、15年以上データ作成を専門にして培われてきたノウハウです。
既にご説明した通り、データ作成には数々の問題があり、その速やかな解決には、経験から得られるものが強く影響します。
最後は、プロジェクトリーダーが全工程一貫して責任をもって監督する点になります。
担当者であるプロジェクトリーダーが明確であることは、お客さまとの意思疎通がしやすくなることから、作業についてのお客様の意向を反映しやすくなります。
- 今回ご紹介いたしましたのは言語データ作成案件でしたが、音声や映像データの作成も得意としています。
- われわれの仕事の形態は「研究・開発のサポート」です。
データ作成についてお困りのことがございましたら、お気軽にブース内説明員にお声掛けください。紺色のポロシャツが説明員の目印です。
ご清聴ありがとうございました。