SlideShare une entreprise Scribd logo
1  sur  30
Télécharger pour lire hors ligne
データ/AI活用最前線:
「Data Augmentation(データ拡張)」という新しい常識
森 正弥
Feb/2020
https://note.mu/masayamori
2
インドでの Deep Learning ハッカソン
料理画像からの識別
参加者はみな最新の手法に通じていて、、、
3
• 企業情報化協会 AI&ロボティクス委員長
• 日本データベース学会理事
• APEC(アジア太平洋経済協力)データ・アナリ
ティクス人材育成プロジェクトアドバイザー
• 楽天株式会社 執行役員
森 正弥
https://note.mu/masayamori
• 先端技術の動向の情報発信を行い、産業横断的な公職にも携わる
• 楽天では、開発組織のグローバル化、研究開発の統括を行い、AI
を用いた新サービスも創出
Profile
4
「AI ネイティブなる世代に向けて」
https://note.mu/masayamori/n/n61f93076442e
• 機械学習、深層学習を中心としたITサービス
が、従来のモジュール型発想の開発手法とあ
わず、新しいアプローチを要求している
• それらを自然に身につけたAIネイティブの世
代が来ている
5
「AI を経営戦略の中心に据えるには?」
https://note.mu/masayamori/n/n4311ffd303d5
• 機械学習・深層学習の本質的な特徴を、いか
に単機能の改善ではなく、組織的なプロセス
に組み込んでいくか。
• そのためのマネジメントフレームワークとし
て、Prof. Ajay Agrawal の「AI Canvas」を紹介
6
楽天技術研究所:世界5カ国150名以上の研究者が所属
TOKYO
SINGAPORE
PARIS
& NY
BOSTON
SAN MATEO
BENGALURU
7
AI / Deep Learning の成果
⚫ 画像認識 (Rakutenラクマでの活用、楽天ドローンでの活用)
⚫ 顔認識 (各グループ会社での活用、楽天Pay の顔認識ペイメント)
⚫ 機械翻訳 (Video配信ビジネスでの7言語の字幕翻訳。世界レベルの精度)
⚫ 商品データの自動生成
⚫ 顧客ニーズの抽出及び商品デザイン
⚫ 株価予測・マーケット予測
⚫ 潜在顧客ターゲティング (Rakuten Airis)
⚫ 広告バナーの自動生成、商品解説文の自動生成 (Creative AI)
• Deep Learning による具体的なビジネスソリューションを創出
8
機械翻訳「Rakuten Translate」 で日経DLビジネス活用アワード 優秀賞を受賞
9
広告事業とともに企画した、データ&Deep Learningを活用した新ビジネス
AIris AIエージェントが顧客の個々の
購買行動を解析し、予測する
[Iris]
“AI”(Artificial Intelligence:人工知能)と、英語で「虹彩」を意味する “Iris” を
組み合わせた造語で、機械学習を用いた独自のアルゴリズムで消費行動を解析することで
購買の見込みがあるユーザーを抽出することができる「Target Prospecting機能」を有しています。
2018年5月、深層学習を活用し、広告配信における高精度な拡張ターゲティングの新ビジネスを開始
Customer DNABrand Mart
• ブランドコード • デモグラフィック
• 検索履歴
• ページ来場
• 購入履歴
• 価格選好
• 利用デバイス
• アクセス時間
• 楽天サービスの利用
AIris
インプット
潜在顧客
Target Prospecting
アイテム / ブランド
シードユーザー
Alrisのプロダクトデザイン
10
Deep Learning のトレンド
「データが少ないのであれば、、、」
11
脅威の精度を実現した機械翻訳
Back Translation
https://arxiv.org/abs/1808.09381
12
Next Paradigm is coming.
Deep
learning
Small
Dataset
Big Dataset
Great AI
Deep
learning
So so AI
Other
Dataset
2nd Deep
Learning
Another so so AI
Connect
&
Loop
Learning
Super
AI
Interactive Loop
13
Data Augmentation
データ拡張
キーワード
14
「Data Augmentation」
https://note.mu/masayamori/n/n63caf39a4cdf
• データが少ない、あるいはばらつきがある中
でもDeep Learning の高い性能を獲得すること
ができる手法として注目される
• Deep Learning の学習の謎に迫る手がかりの可
能性
15
具体的な手法:言語データ
• 同義語、類義語で置き換える
• 類似度を計算して置き換える
• 反意語で置き換える
• 文章内の語と語を入れ替える
• ランダムに削除する
• Back Translation を用いて文章を水増しする
• 楽天の機械翻訳も、データ拡張を駆使して、
元データを増やし、35言語翻訳に到達して
いる
• 特に、お客様の声の分析や、Chatbot、翻訳
などの開発においては有効に作用する
(理由は後で述べます)
16
具体的な手法:画像データ
• 水平・垂直に画像をシフトする
• 水平方向・垂直方向に画像を反転させる
• 回転させる (回転角度はランダムのケースもある)
• 明度を変える
• ズームインする、ズームアウトする
• 画像の一部をくり抜く、削除する
• 背景色を変える
• 背景を置き換える
• Mixup、CutMix
• 冒頭で紹介したハッカソンでも参加者は
みなデータ拡張を駆使
• Mixup, CutMix 以外はラベルの変更不要
• 例えば、ドローンやUGV (無人配送車)
の学習では、道路の画像に、対象物のCG
物体や人物を配置したデータでも十分な
成果がでてくる
17
脅威の手法: Mixup (2017)、CutMix (2019)
• ドメイン知識不要
• 計算上のオーバーヘッドがほとんどないhttps://arxiv.org/pdf/1710.09412.pdf
https://arxiv.org/abs/1905.04899v1
18
背景としての インターネット、スマートフォンの普及
• C2C、B2C 領域においてはスマホが広く普及
• 言語データ: 様々なユーザーが入力した文章データは
不完全な文や構造化されていない文、またフレーズの誤
用や記述ミス等も含まれる。
• 画像データ: SNSの画像共有とあいまって多くはスマ
ホで撮影。色々な距離や角度、照明の強弱、反射、映り
込み、陰影、何かによって一部覆われていることも。
• 実際のデータは様々な撹乱があり、それらに対応し、ロバストネスさを高めていくこ
とも非常に重要。
19
Waymo もData Augmentation を駆使し、自動運転を実現
https://note.com/masayamori/n/n7f21db4e5e49
• Deep Neural Net を複数用いたアーキテクチャ
としており、入力データの拡張だけでなく、
内部データも拡張させていく方法で、ロバス
トな自動運転を実現している。
20
GAN と Creative AI
21
GAN (敵対的生成ネットワーク)
Generator
Discriminator
Random
Input
Sample
SampleReal Data
Generator
Loss
Discriminator
Loss
• データ拡張にも使えるが、創造性を持ったAI (Creative AI)というトレンドの原
動力にもなっている
22
NVIDIA による Imaginary Celebrities
https://research.nvidia.com/sites/default/files/pubs/2017-
10_Progressive-Growing-of/karras2018iclr-paper.pdf
23
新しいトレンド: Creative Economy, Creative AI
⚫ World Economic Forum でも注目されるトレンド
⚫ 特定の技術やソリューションではなく、活用(アプリケーション)
⚫ Non-iterative かつ Expert Knowledge を要する経済的価値創出を実現する
✓ PFNのオンライン線画自動着色サービス PaintsChainer
✓ Magical PunchLine、 AI をクリエイティブディレクターに迎える
✓ 電通によるAI コピーライター AICO
✓ 佐藤・松崎研によるAIによるSF小説「人狼知能能力測定テスト」
✓ 日経のAI記者「決算サマリー」
(LINK)
(LINK)
(LINK)
(LINK)
(LINK)
24
Draw by AI
AttnGAN by Microsoft: AI can create a picture from caption
Text-to-Image convertor http://www.itmedia.co.jp/news/articles/1801/19/news054.html
“A bird with a yellow
body, with black
feathers and has a
short beak.”
• 画像から画像を作るのではないところがポイント。
• 例えば応用することで、設計図から製品の画像を作り出し、実際の製品と比較す
ることで設計図どおりに作られているのかの確認等にも使える。
25
Creative AI 事例
[LuBan System, Alibaba]
Background Shapes Colors Layout Product
Alibaba used automated banner design system at 11.11
出典: (Alibaba社 発表資料より)http://www.uisdc.com/alibaba-luban-ai-banner
26
Creative AI: 商品説明の自動生成
Dan Jurafsky 教授との研究を通し、
究極のパーソナライズサービスの実現へ一歩
商品とセールス・嗜好の関係を踏
まえ、PC/モバイル/スピーカーそれ
ぞれに最適な商品説明を生成
s://news.stanford.edu/2017/09/29/predicting-sales-online-products-advertising-language/
27
データ拡張のポイント
28
• データのバリエーションはどういう風に存在するのか?
• 固定カメラだとしたら、回転させる意味はない
• ノイズを減らすのか、増やすのか?
• 答えは、両方
• 混入する可能性のあるノイズを増やし、
• そうでないものは除去する
ポイント
29
イメージ
• 実際のインプットとしてありうるデータ
の分布に、トレーニングデータは近く
あってほしい。
• 近くであれば、ないよりもはるかにまし。
(CG でも学習効果は高い)
• 本番でもノイズが混入しうるのであれば、
トレーニングデータにも同様のノイズは
混入しているべき。
30
• Data Augmentation (データ拡張)という手法
• Back Translation、GAN という新テクノロジー
• Creative AI という新トレンドにもつながっている
• 単にデータを集める・貯める、をこえた
データをどう拡張して活用していくかという視点が
AI 活用においては大事
まとめ
https://note.mu/masayamori

Contenu connexe

Tendances

CTO of the year 2018によるLean開発話【データレイク編】 ~とにかくデータレイクにすべてのデータを投げ込もう! とりあえずs3に置け...
CTO of the year 2018によるLean開発話【データレイク編】 ~とにかくデータレイクにすべてのデータを投げ込もう! とりあえずs3に置け...CTO of the year 2018によるLean開発話【データレイク編】 ~とにかくデータレイクにすべてのデータを投げ込もう! とりあえずs3に置け...
CTO of the year 2018によるLean開発話【データレイク編】 ~とにかくデータレイクにすべてのデータを投げ込もう! とりあえずs3に置け...
Takanori Kawahara
 

Tendances (20)

Mattermostが働き方を劇的改善!NRIの働き方改革の秘訣
Mattermostが働き方を劇的改善!NRIの働き方改革の秘訣Mattermostが働き方を劇的改善!NRIの働き方改革の秘訣
Mattermostが働き方を劇的改善!NRIの働き方改革の秘訣
 
はてなのインフラの歴史、そしてMackerelへ至る道とこれから
はてなのインフラの歴史、そしてMackerelへ至る道とこれから はてなのインフラの歴史、そしてMackerelへ至る道とこれから
はてなのインフラの歴史、そしてMackerelへ至る道とこれから
 
楽天におけるビッグデータを対象としたデータサイエンス&AIの最新応用事例
楽天におけるビッグデータを対象としたデータサイエンス&AIの最新応用事例楽天におけるビッグデータを対象としたデータサイエンス&AIの最新応用事例
楽天におけるビッグデータを対象としたデータサイエンス&AIの最新応用事例
 
ユーザに価値を届けるためのデータプラットフォームの考え方
ユーザに価値を届けるためのデータプラットフォームの考え方ユーザに価値を届けるためのデータプラットフォームの考え方
ユーザに価値を届けるためのデータプラットフォームの考え方
 
NRI流 検索ソリューション導入時にこれだけはおさえておきたい鉄則
NRI流 検索ソリューション導入時にこれだけはおさえておきたい鉄則 NRI流 検索ソリューション導入時にこれだけはおさえておきたい鉄則
NRI流 検索ソリューション導入時にこれだけはおさえておきたい鉄則
 
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
 
[Track3-2] AI活用人材の社内育成に関する取り組みについて ~ダイキン情報技術大学~
[Track3-2] AI活用人材の社内育成に関する取り組みについて ~ダイキン情報技術大学~[Track3-2] AI活用人材の社内育成に関する取り組みについて ~ダイキン情報技術大学~
[Track3-2] AI活用人材の社内育成に関する取り組みについて ~ダイキン情報技術大学~
 
デジタル時代の企業変革 2019
デジタル時代の企業変革 2019デジタル時代の企業変革 2019
デジタル時代の企業変革 2019
 
20190228 it media lift and shift fujitec tomooka
20190228 it media lift and shift fujitec tomooka20190228 it media lift and shift fujitec tomooka
20190228 it media lift and shift fujitec tomooka
 
2016年度コーポレートフェローシップ活動報告(吉野さん)
2016年度コーポレートフェローシップ活動報告(吉野さん)2016年度コーポレートフェローシップ活動報告(吉野さん)
2016年度コーポレートフェローシップ活動報告(吉野さん)
 
aslead Searchのご紹介
aslead Searchのご紹介aslead Searchのご紹介
aslead Searchのご紹介
 
Tableau data science_20190627_distribute
Tableau data science_20190627_distributeTableau data science_20190627_distribute
Tableau data science_20190627_distribute
 
ヤフーにおけるTableau Blue Printの実践
ヤフーにおけるTableau Blue Printの実践ヤフーにおけるTableau Blue Printの実践
ヤフーにおけるTableau Blue Printの実践
 
2016年度コーポレートフェローシップ活動報告(山本さん)
2016年度コーポレートフェローシップ活動報告(山本さん)2016年度コーポレートフェローシップ活動報告(山本さん)
2016年度コーポレートフェローシップ活動報告(山本さん)
 
[Track3-6] DXを推進するAI人材育成の在り方 ~ e-learning によるAIリテラシの向上~
[Track3-6] DXを推進するAI人材育成の在り方 ~ e-learning によるAIリテラシの向上~[Track3-6] DXを推進するAI人材育成の在り方 ~ e-learning によるAIリテラシの向上~
[Track3-6] DXを推進するAI人材育成の在り方 ~ e-learning によるAIリテラシの向上~
 
マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話
 
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
 
Augmented tableau tug_ds_20201111
Augmented tableau tug_ds_20201111Augmented tableau tug_ds_20201111
Augmented tableau tug_ds_20201111
 
Tableau data science_20201209
Tableau data science_20201209Tableau data science_20201209
Tableau data science_20201209
 
CTO of the year 2018によるLean開発話【データレイク編】 ~とにかくデータレイクにすべてのデータを投げ込もう! とりあえずs3に置け...
CTO of the year 2018によるLean開発話【データレイク編】 ~とにかくデータレイクにすべてのデータを投げ込もう! とりあえずs3に置け...CTO of the year 2018によるLean開発話【データレイク編】 ~とにかくデータレイクにすべてのデータを投げ込もう! とりあえずs3に置け...
CTO of the year 2018によるLean開発話【データレイク編】 ~とにかくデータレイクにすべてのデータを投げ込もう! とりあえずs3に置け...
 

Similaire à ビッグデータ・AI 活用最前線:「Data Augmentation (データ拡張)」という新しい常識

Similaire à ビッグデータ・AI 活用最前線:「Data Augmentation (データ拡張)」という新しい常識 (20)

デジタル時代の企業変革 - 2020
デジタル時代の企業変革 - 2020デジタル時代の企業変革 - 2020
デジタル時代の企業変革 - 2020
 
プロダクト中心のデータ駆動を推進していくために必要なこと
プロダクト中心のデータ駆動を推進していくために必要なことプロダクト中心のデータ駆動を推進していくために必要なこと
プロダクト中心のデータ駆動を推進していくために必要なこと
 
スマートエスイー: 超スマート社会&DX時代のAI・IoT×ビジネスの人材育成と調査研究
スマートエスイー: 超スマート社会&DX時代のAI・IoT×ビジネスの人材育成と調査研究スマートエスイー: 超スマート社会&DX時代のAI・IoT×ビジネスの人材育成と調査研究
スマートエスイー: 超スマート社会&DX時代のAI・IoT×ビジネスの人材育成と調査研究
 
オープンデータとアプリがつなぐ次世代の地域情報活用法
オープンデータとアプリがつなぐ次世代の地域情報活用法オープンデータとアプリがつなぐ次世代の地域情報活用法
オープンデータとアプリがつなぐ次世代の地域情報活用法
 
Data Science Workshop 「クリエイティブAI」で新たな価値を創造する
Data Science Workshop  「クリエイティブAI」で新たな価値を創造するData Science Workshop  「クリエイティブAI」で新たな価値を創造する
Data Science Workshop 「クリエイティブAI」で新たな価値を創造する
 
IBM WatsonでInnovationを
IBM WatsonでInnovationをIBM WatsonでInnovationを
IBM WatsonでInnovationを
 
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
 
みんなのPython勉強会#21 澪標アナリティクス 井原様
みんなのPython勉強会#21 澪標アナリティクス 井原様みんなのPython勉強会#21 澪標アナリティクス 井原様
みんなのPython勉強会#21 澪標アナリティクス 井原様
 
Conformity assessment of trust services
Conformity assessment of trust servicesConformity assessment of trust services
Conformity assessment of trust services
 
『ハイブリッドクラウド研究会』創立について
『ハイブリッドクラウド研究会』創立について『ハイブリッドクラウド研究会』創立について
『ハイブリッドクラウド研究会』創立について
 
人工知能に任せないと難しい時代、何をどうやるべきか~楽天のAI技術活用から人材育成まで~
人工知能に任せないと難しい時代、何をどうやるべきか~楽天のAI技術活用から人材育成まで~人工知能に任せないと難しい時代、何をどうやるべきか~楽天のAI技術活用から人材育成まで~
人工知能に任せないと難しい時代、何をどうやるべきか~楽天のAI技術活用から人材育成まで~
 
情報システム部門の組織開発
 情報システム部門の組織開発 情報システム部門の組織開発
情報システム部門の組織開発
 
【資料】AIとデータプラットフォームがもたらす世界 ~Fintech, HRtechの最新事例と合わせて~
【資料】AIとデータプラットフォームがもたらす世界 ~Fintech, HRtechの最新事例と合わせて~【資料】AIとデータプラットフォームがもたらす世界 ~Fintech, HRtechの最新事例と合わせて~
【資料】AIとデータプラットフォームがもたらす世界 ~Fintech, HRtechの最新事例と合わせて~
 
DXの推進において企業内に求められる人材やデジタル人材の育て方
DXの推進において企業内に求められる人材やデジタル人材の育て方DXの推進において企業内に求められる人材やデジタル人材の育て方
DXの推進において企業内に求められる人材やデジタル人材の育て方
 
20220325 - Oudanピッチ資料
20220325 - Oudanピッチ資料20220325 - Oudanピッチ資料
20220325 - Oudanピッチ資料
 
正統なソフトウェア品質エンジニアであるためにSQiP研究会に入るべき7つの理由
正統なソフトウェア品質エンジニアであるためにSQiP研究会に入るべき7つの理由正統なソフトウェア品質エンジニアであるためにSQiP研究会に入るべき7つの理由
正統なソフトウェア品質エンジニアであるためにSQiP研究会に入るべき7つの理由
 
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
 
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点- 『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
 
データサイエンスセミナー 【found IT project #8】
データサイエンスセミナー 【found IT project #8】データサイエンスセミナー 【found IT project #8】
データサイエンスセミナー 【found IT project #8】
 
シラサギ紹介20161119
シラサギ紹介20161119シラサギ紹介20161119
シラサギ紹介20161119
 

ビッグデータ・AI 活用最前線:「Data Augmentation (データ拡張)」という新しい常識