SlideShare une entreprise Scribd logo
1  sur  29
Télécharger pour lire hors ligne
クラウドサービス
AWS/Azure/GCP
それぞれのText to Speechを
比べてみた
@Neri78
ツイート、ツイート!
#burikaigi
#burikaigi2020
#burikaigiB
自己紹介
池原大然(いけはらだいぜん)
Twitter: @Neri78
富山県の入善町出身
Developer Evangelist @ Twilio
元EverQuest(MMORPG)廃人
セッションアジェンダ
● Text to Speech(tts)とは?
● くらべてみよう:AWS/GCP/Azure
● ttsにおける違和感
● まとめ
Text to Speech(tts)
とは?
テキスト文字から音声を再生させること
● https://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E5%90%88%E6%88%90
● 1950年代終盤から取り組まれていた...らしい
● 日常生活の中に入り込んでいる
○ 電話の自動応答(IVR)
○ ATM、複合機
○ 工場の構内放送
○ 駅・バスターミナル・空港
● 逆方向として、音声の内容をテキストとして認識する
Speech to Textも存在する
他の技術との連携も
● 録音と違ってリアルタイムで合成
できるのが魅力
○ というか、そうでなかったら、
録音で良いし...
● 例:LINE BRAIN - DUET
○ https://youtu.be/SwZLp5Y-Z4g
Text to Speech APIを提供している主要なクラウドベンダー
多くが複数の言語に対応している
● AWS - Amazon Polly
https://aws.amazon.com/jp/polly/
● Google Cloud - Cloud Text-to-Speech
https://cloud.google.com/text-to-speech/?hl=ja
● Microsoft Azure - Cognitive Services Text-to-Speech
https://azure.microsoft.com/ja-jp/services/cognitive-services/text-to-speech/
● IBM Watson - Text to Speech
https://www.ibm.com/watson/jp-ja/developercloud/text-to-speech.html
日本語の実力、確かめたるぜ!
くらべてみよ
う:AWS/GCP/Azure
生成する音声の仕様
● ほぼ固定文(違いを感じるため)
● 女性話者
● 標準設定。とくに変更は加えない
● mp3ファイルを作成
● サンプリングレートとビットレートは
統一できなかった...
○ 22,050khz / 32kbps くらい
基本的にやることは似ている
let polly = new AWS.Polly({
apiVersion: '2016-06-10', region:'ap-northeast-1'});
polly.synthesizeSpeech({
Engine: 'standard', OutputFormat: 'mp3',
VoiceId: 'Mizuki', Text: 'AmazonのMitsukiだよ。' + baseText,
SampleRate: '22050', TextType: 'text'
}, (err, data) => {
//生成されたデータを取得 ..
data.AudioStream
});
1. サービスの有効化、
2. アクセストークン
など取得
3. オプション設定
4. 合成!
今日のデモはこんな感じ
Demo
Let’s 聴き比べ
より自然な音に近づけるには?(1)
● 音声合成マークアップ言語(SSML)を用いて抑揚や
スピードなどを細かく指定できる
基本は同じだが、ベンダーごとの独自設定が...
○ AWS
https://docs.aws.amazon.com/ja_jp/polly/latest/dg/supportedtags.html
○ GCP
https://cloud.google.com/text-to-speech/docs/ssml?hl=ja
○ Azure
https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/speech-synthesis-markup
より自然な音に近づけるには?(2)
● 自然な音声を選択する
○ Amazon Polly: ニューラル音声を提供(日本語NG)
https://docs.aws.amazon.com/ja_jp/polly/latest/dg/voicelist.html
○ GCP: WaveNetモデルを使用した音声(日本語OK)
https://cloud.google.com/text-to-speech/docs/voices?hl=ja
○ Azure: ニューラル音声を提供(日本語NG)
https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/language-support
良いと思った
サービスをツイート!
#burikaigi
#burikaigi2020
#burikaigiB
ttsにおける違和感
違和感の原因
● 発音
● イントネーション
● 抑揚
日本語ではそれが顕著
日本語が得意(または特化した)WebAPIも
AITalk Web API
● 標準語や関西弁など
● 感情調整に対応した
音声も提供
https://www.ai-j.jp/cloud/webapi/
Demo
より自然にできるかしら?
まとめ
まとめ
● ttsを利用することで、これまで人手が必要だった
業務をシステム化できる(かもしれない)
● メジャーどころのクラウドベンダーは
軒並みサービスを提供している
● 今後、より自然に近づくと思われる。
○ AI美空ひばりみたいなやつ
リソース
● tts - wikipedia
https://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E5%90%88%E6%88%90
● AWS - Amazon Polly
https://aws.amazon.com/jp/polly/
● Google Cloud - Cloud Text-to-Speech
https://cloud.google.com/text-to-speech/?hl=ja
● Microsoft Azure - Cognitive Services Text-to-Speech
https://azure.microsoft.com/ja-jp/services/cognitive-services/text-to-speech/
● AiTalk Web API
https://www.ai-j.jp/cloud/webapi/
● Twilio Programmable Voice
https://www.twilio.com/ja/voice
最後に
Twilio Meetup @ DevSumi 2020
https://connpass.com/event/162110
北陸でTwilioをからめた
ミートアップ、勉強会、UGを
開催しませんか?
ご興味があれば@Neri78まで!
ありがとうございました!

Contenu connexe

Tendances

Tendances (20)

分散トレーシング技術について(Open tracingやjaeger)
分散トレーシング技術について(Open tracingやjaeger)分散トレーシング技術について(Open tracingやjaeger)
分散トレーシング技術について(Open tracingやjaeger)
 
ドメイン駆動設計 コアドメインを語り合ってみよう
ドメイン駆動設計 コアドメインを語り合ってみようドメイン駆動設計 コアドメインを語り合ってみよう
ドメイン駆動設計 コアドメインを語り合ってみよう
 
DBスキーマもバージョン管理したい!
DBスキーマもバージョン管理したい!DBスキーマもバージョン管理したい!
DBスキーマもバージョン管理したい!
 
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
 
ドメイン駆動設計のプラクティスでカバーできること、できないこと[DDD]
ドメイン駆動設計のプラクティスでカバーできること、できないこと[DDD]ドメイン駆動設計のプラクティスでカバーできること、できないこと[DDD]
ドメイン駆動設計のプラクティスでカバーできること、できないこと[DDD]
 
ドメインモデルの育て方
ドメインモデルの育て方ドメインモデルの育て方
ドメインモデルの育て方
 
Spring Cloud Data Flow の紹介 #streamctjp
Spring Cloud Data Flow の紹介  #streamctjpSpring Cloud Data Flow の紹介  #streamctjp
Spring Cloud Data Flow の紹介 #streamctjp
 
ドメインオブジェクトの設計ガイドライン
ドメインオブジェクトの設計ガイドラインドメインオブジェクトの設計ガイドライン
ドメインオブジェクトの設計ガイドライン
 
DMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメントDMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメント
 
ドメイン駆動設計の正しい歩き方
ドメイン駆動設計の正しい歩き方ドメイン駆動設計の正しい歩き方
ドメイン駆動設計の正しい歩き方
 
20210127 今日から始めるイベントドリブンアーキテクチャ AWS Expert Online #13
20210127 今日から始めるイベントドリブンアーキテクチャ AWS Expert Online #1320210127 今日から始めるイベントドリブンアーキテクチャ AWS Expert Online #13
20210127 今日から始めるイベントドリブンアーキテクチャ AWS Expert Online #13
 
アプリ開発者、DB 管理者視点での Cloud Spanner 活用方法 | 第 10 回 Google Cloud INSIDE Games & App...
アプリ開発者、DB 管理者視点での Cloud Spanner 活用方法 | 第 10 回 Google Cloud INSIDE Games & App...アプリ開発者、DB 管理者視点での Cloud Spanner 活用方法 | 第 10 回 Google Cloud INSIDE Games & App...
アプリ開発者、DB 管理者視点での Cloud Spanner 活用方法 | 第 10 回 Google Cloud INSIDE Games & App...
 
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!
 
Cloud runのオートスケールを検証してみる
Cloud runのオートスケールを検証してみるCloud runのオートスケールを検証してみる
Cloud runのオートスケールを検証してみる
 
AWSのセキュリティについて
AWSのセキュリティについてAWSのセキュリティについて
AWSのセキュリティについて
 
ドメイン駆動設計のための Spring の上手な使い方
ドメイン駆動設計のための Spring の上手な使い方ドメイン駆動設計のための Spring の上手な使い方
ドメイン駆動設計のための Spring の上手な使い方
 
20211109 JAWS-UG SRE keynotes
20211109 JAWS-UG SRE keynotes20211109 JAWS-UG SRE keynotes
20211109 JAWS-UG SRE keynotes
 
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
 
AWSで作る分析基盤
AWSで作る分析基盤AWSで作る分析基盤
AWSで作る分析基盤
 
ドメイン駆動設計に15年取り組んでわかったこと
ドメイン駆動設計に15年取り組んでわかったことドメイン駆動設計に15年取り組んでわかったこと
ドメイン駆動設計に15年取り組んでわかったこと
 

Similaire à クラウドサービス、AWS/Azure/GCP それぞれの Text to Speechを比べてみた

Similaire à クラウドサービス、AWS/Azure/GCP それぞれの Text to Speechを比べてみた (20)

Brain Dots at dots. - Brain Dotsのアーキテクチャ -
Brain Dots at dots. - Brain Dotsのアーキテクチャ -Brain Dots at dots. - Brain Dotsのアーキテクチャ -
Brain Dots at dots. - Brain Dotsのアーキテクチャ -
 
座談会資料 事前配布 20170225
座談会資料 事前配布 20170225座談会資料 事前配布 20170225
座談会資料 事前配布 20170225
 
Chrome拡張で改善 表紙
Chrome拡張で改善 表紙Chrome拡張で改善 表紙
Chrome拡張で改善 表紙
 
Re: ご注文は自動化ですか?[2]
Re: ご注文は自動化ですか?[2]Re: ご注文は自動化ですか?[2]
Re: ご注文は自動化ですか?[2]
 
スマートスピーカーのバックエンドで Azure を使う方法
スマートスピーカーのバックエンドでAzure を使う方法スマートスピーカーのバックエンドでAzure を使う方法
スマートスピーカーのバックエンドで Azure を使う方法
 
VRアバターをモバイルARでより身近に! Vismuth
VRアバターをモバイルARでより身近に! VismuthVRアバターをモバイルARでより身近に! Vismuth
VRアバターをモバイルARでより身近に! Vismuth
 
LT document _ Iwakenlab_20230408
LT document _ Iwakenlab_20230408LT document _ Iwakenlab_20230408
LT document _ Iwakenlab_20230408
 
Dentoo.LT #3 "Party with Twitter"
Dentoo.LT #3 "Party with Twitter"Dentoo.LT #3 "Party with Twitter"
Dentoo.LT #3 "Party with Twitter"
 
AWS Startup Tech Lightning Talks 2015 Summer at dots.
AWS Startup Tech Lightning Talks 2015 Summer at dots.AWS Startup Tech Lightning Talks 2015 Summer at dots.
AWS Startup Tech Lightning Talks 2015 Summer at dots.
 
IoT とは?取り組むべき理由 あらたな技術への取り組み例 / SORACOM UG 信州 #7
IoT とは?取り組むべき理由 あらたな技術への取り組み例 / SORACOM UG 信州 #7IoT とは?取り組むべき理由 あらたな技術への取り組み例 / SORACOM UG 信州 #7
IoT とは?取り組むべき理由 あらたな技術への取り組み例 / SORACOM UG 信州 #7
 
いつでもどこでも .NET
いつでもどこでも .NETいつでもどこでも .NET
いつでもどこでも .NET
 
160531 IoT LT #15 @ 日本IBM
160531 IoT LT #15 @ 日本IBM160531 IoT LT #15 @ 日本IBM
160531 IoT LT #15 @ 日本IBM
 
20150603 AWS Summit Tokyo 2015 LT
20150603 AWS Summit Tokyo 2015 LT20150603 AWS Summit Tokyo 2015 LT
20150603 AWS Summit Tokyo 2015 LT
 
Serf2Excel - Serf を実運用に活かす話 + Consul もあるよ
Serf2Excel - Serf を実運用に活かす話 + Consul もあるよSerf2Excel - Serf を実運用に活かす話 + Consul もあるよ
Serf2Excel - Serf を実運用に活かす話 + Consul もあるよ
 
元運用担当者が,現役時代に本当に欲しかったもの. Osc2014 kansai@kyoto terraform introduction
元運用担当者が,現役時代に本当に欲しかったもの. Osc2014 kansai@kyoto terraform introduction元運用担当者が,現役時代に本当に欲しかったもの. Osc2014 kansai@kyoto terraform introduction
元運用担当者が,現役時代に本当に欲しかったもの. Osc2014 kansai@kyoto terraform introduction
 
TensorFlowで会話AIを作ってみた。
TensorFlowで会話AIを作ってみた。TensorFlowで会話AIを作ってみた。
TensorFlowで会話AIを作ってみた。
 
スマートファクトリーから動画認識MLまで 製造現場IoTのホントのところ
スマートファクトリーから動画認識MLまで製造現場IoTのホントのところスマートファクトリーから動画認識MLまで製造現場IoTのホントのところ
スマートファクトリーから動画認識MLまで 製造現場IoTのホントのところ
 
Seq2Seqでボットづくり
Seq2SeqでボットづくりSeq2Seqでボットづくり
Seq2Seqでボットづくり
 
WebRTC Meetup Tokyo #3 - WebRTC Conference参加報告
WebRTC Meetup Tokyo #3 - WebRTC Conference参加報告WebRTC Meetup Tokyo #3 - WebRTC Conference参加報告
WebRTC Meetup Tokyo #3 - WebRTC Conference参加報告
 
CONBU API の開発
CONBU API の開発CONBU API の開発
CONBU API の開発
 

Plus de Daizen Ikehara

Plus de Daizen Ikehara (20)

13-E-7 クラウドサービスとゲーミフィケーション: 「TwilioQuest 3」を用いた開発者オンボーディング
13-E-7 クラウドサービスとゲーミフィケーション: 「TwilioQuest 3」を用いた開発者オンボーディング13-E-7 クラウドサービスとゲーミフィケーション: 「TwilioQuest 3」を用いた開発者オンボーディング
13-E-7 クラウドサービスとゲーミフィケーション: 「TwilioQuest 3」を用いた開発者オンボーディング
 
Communications Platform as a Service (CPaaS) 入門
Communications Platform as a Service (CPaaS) 入門Communications Platform as a Service (CPaaS) 入門
Communications Platform as a Service (CPaaS) 入門
 
DevRel Meetupのおかげで転職した話
DevRel Meetupのおかげで転職した話DevRel Meetupのおかげで転職した話
DevRel Meetupのおかげで転職した話
 
エンジニア?のキャリアと英語を考える
エンジニア?のキャリアと英語を考えるエンジニア?のキャリアと英語を考える
エンジニア?のキャリアと英語を考える
 
開発者向けカンファレンス出展に向けて考えるべきこと
開発者向けカンファレンス出展に向けて考えるべきこと開発者向けカンファレンス出展に向けて考えるべきこと
開発者向けカンファレンス出展に向けて考えるべきこと
 
オンラインIDEで爆速オンボーディングと、サンプルコード共有
オンラインIDEで爆速オンボーディングと、サンプルコード共有オンラインIDEで爆速オンボーディングと、サンプルコード共有
オンラインIDEで爆速オンボーディングと、サンプルコード共有
 
コントロールベンダー視点での Command line interface (CLI)
コントロールベンダー視点での Command line interface (CLI)コントロールベンダー視点での Command line interface (CLI)
コントロールベンダー視点での Command line interface (CLI)
 
Xamarin 対応開発ツールで効率良くクロスプラットフォーム開発
Xamarin 対応開発ツールで効率良くクロスプラットフォーム開発Xamarin 対応開発ツールで効率良くクロスプラットフォーム開発
Xamarin 対応開発ツールで効率良くクロスプラットフォーム開発
 
ベストタイムは 23 時? グローバル開発チームとの付き合い方
ベストタイムは 23 時? グローバル開発チームとの付き合い方ベストタイムは 23 時? グローバル開発チームとの付き合い方
ベストタイムは 23 時? グローバル開発チームとの付き合い方
 
Knockout.js を利用したインタラクティブ web アプリケーション開発
Knockout.js を利用したインタラクティブ web アプリケーション開発Knockout.js を利用したインタラクティブ web アプリケーション開発
Knockout.js を利用したインタラクティブ web アプリケーション開発
 
手戻り ゼロ を目指して
手戻り ゼロ を目指して手戻り ゼロ を目指して
手戻り ゼロ を目指して
 
Ignite ui 2012 最新情報 jQuery UI 編
Ignite ui 2012 最新情報 jQuery UI 編Ignite ui 2012 最新情報 jQuery UI 編
Ignite ui 2012 最新情報 jQuery UI 編
 
Net advantage 2012 volume2 最新情報 Windows Forms / ASP.NET 編
Net advantage 2012 volume2 最新情報 Windows Forms / ASP.NET 編Net advantage 2012 volume2 最新情報 Windows Forms / ASP.NET 編
Net advantage 2012 volume2 最新情報 Windows Forms / ASP.NET 編
 
Netadvantage 2012 volume2 最新情報 Reporting 編
Netadvantage 2012 volume2 最新情報 Reporting 編Netadvantage 2012 volume2 最新情報 Reporting 編
Netadvantage 2012 volume2 最新情報 Reporting 編
 
Net advantage 2012 volume2 最新情報 xaml プラットフォーム編
Net advantage 2012 volume2 最新情報 xaml プラットフォーム編Net advantage 2012 volume2 最新情報 xaml プラットフォーム編
Net advantage 2012 volume2 最新情報 xaml プラットフォーム編
 
jQuery/Html5/ASP.NET MVC 対応コンポーネントを用いたデバイス対応業務アプリケーション開発
jQuery/Html5/ASP.NET MVC 対応コンポーネントを用いたデバイス対応業務アプリケーション開発jQuery/Html5/ASP.NET MVC 対応コンポーネントを用いたデバイス対応業務アプリケーション開発
jQuery/Html5/ASP.NET MVC 対応コンポーネントを用いたデバイス対応業務アプリケーション開発
 
Windows8 の UX
Windows8 の UXWindows8 の UX
Windows8 の UX
 
IgChart 入門編
IgChart 入門編IgChart 入門編
IgChart 入門編
 
IgGrid 入門編
IgGrid 入門編IgGrid 入門編
IgGrid 入門編
 
高速レポート アプリケーション開発
高速レポート アプリケーション開発高速レポート アプリケーション開発
高速レポート アプリケーション開発
 

Dernier

Dernier (10)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

クラウドサービス、AWS/Azure/GCP それぞれの Text to Speechを比べてみた