Soumettre la recherche
Mettre en ligne
自称・世界一わかりやすい音声認識入門
•
34 j'aime
•
23,414 vues
Tom Hakamata
Suivre
自称・世界一わかりやすい音声認識入門です。
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 151
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
音声認識の基礎 東北大学情報科学研究科「学際情報科学論」スライド
音声認識の基礎
音声認識の基礎
Akinori Ito
音声の認識と合成 東北大学工学研究科「音メディア工学」スライド
音声の認識と合成
音声の認識と合成
Akinori Ito
音声合成の基礎 東北大学情報科学研究科「学際情報科学論」スライド
音声合成の基礎
音声合成の基礎
Akinori Ito
homieエンジニア勉強会@+SHIFT TSUKIJI発表内容
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成
Genki Ishibashi
Interspeech2019&サテライト論文読み会@Sony
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
機械学習モデルの列挙
機械学習モデルの列挙
機械学習モデルの列挙
Satoshi Hara
Tokyo BISH Bash #05
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
機械学習勉強会の資料です.LSTM (Long short-term memory) について理解するために,単純なニューラルネットから話を進めていきます.
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
Kenji Urai
Recommandé
音声認識の基礎 東北大学情報科学研究科「学際情報科学論」スライド
音声認識の基礎
音声認識の基礎
Akinori Ito
音声の認識と合成 東北大学工学研究科「音メディア工学」スライド
音声の認識と合成
音声の認識と合成
Akinori Ito
音声合成の基礎 東北大学情報科学研究科「学際情報科学論」スライド
音声合成の基礎
音声合成の基礎
Akinori Ito
homieエンジニア勉強会@+SHIFT TSUKIJI発表内容
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成
Genki Ishibashi
Interspeech2019&サテライト論文読み会@Sony
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
機械学習モデルの列挙
機械学習モデルの列挙
機械学習モデルの列挙
Satoshi Hara
Tokyo BISH Bash #05
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
機械学習勉強会の資料です.LSTM (Long short-term memory) について理解するために,単純なニューラルネットから話を進めていきます.
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
Kenji Urai
Neural Network with Attention Mechanism for Natural Language Processing: survey
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
『トピックモデルによる統計的潜在意味解析』読書会ファイナル ~佐藤一誠先生スペシャル~ LT 資料 http://topicmodel.connpass.com/event/27999/
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
第21回情報科学技術フォーラム(FIT2022) 招待講演 戸田 智基:深層生成モデルに基づく音声合成技術,Sep. 2022 名古屋大学 情報学研究科 知能システム学専攻 戸田研究室
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
cvpaper.challenge の メタサーベイ発表スライドです。 cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ作成・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有します。 http://xpaperchallenge.org/cv/
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
cvpaper. challenge
音声生成の基礎と音声学 東北大学大学院情報科学研究科「学際情報科学論」スライド
音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
ICASSP 2019音声&音響論文読み会(https://connpass.com/event/128527/)での発表資料です。 AASP (Audio and Acoustic Signal Processing) 分野の紹介と、ICASSP 2019での動向を紹介しています。#icassp2019jp
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
小泉 悠馬, "実環境音響信号処理における収音技術," 情報処理学会 音学シンポジウム 2018, 招待講演, 2018.
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
機械学習プロフェッショナルシリーズの「深層学習」第6章 畳込みニューラルネットの輪読会スライドです。
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
Ken'ichi Matsui
音声分析法のであるケプストラム分析とLPC分析について、 簡単に説明したものです。 音声研究の初学者向け。 twitter: forthshinji
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
NIPS2015読み会で話した、「End-To-End Memory Networks」の資料です
NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」
Yuya Unno
Guest presentation at "Applied Gaussian Process and Machine Learning," Graduate School of Information Science and Technology, The University of Tokyo, Japan, 2021.
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
20. 10. 23 SLPディベロッパーズフォーラム招待講演
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
2018年1月 音声研究会 オーガナイズドセッション「新たな音声モデルによる音声合成・音声生成―深層学習による音声波形モデルWaveNet―」(招待講演) 戸田 智基:WaveNetが音声合成研究に与える影響,Jan. 2018 名古屋大学 情報学研究科 知能システム学専攻 戸田研究室
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。 近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。 "Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise. The slides are made by the lecturer from outside our company, and shared here with his/her permission. Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。 Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
第141回音声言語情報処理研究発表会/音声研究会 招待講演 W.-C. Huang, E. Cooper, Y. Tsao, H.-M. Wang, T. Toda, J. Yamagishi:The VoiceMOS Challenge 2022,Mar. 2022 名古屋大学 情報学研究科 知能システム学専攻 戸田研究室
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
NU_I_TODALAB
db analytics showcase Sapporo 2017 発表資料 http://www.db-tech-showcase.com/dbts/analytics
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
ゼミのスライドです。Digital Image Processing ウェーブレットと多重解像度処理
ウェーブレットと多重解像度処理
ウェーブレットと多重解像度処理
h_okkah
電子情報通信学会 音声研究会 (SP) 2015年7月研究会 招待講演スライド
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
5分では分からなかったorz
5分で分かる自己組織化マップ
5分で分かる自己組織化マップ
Daisuke Takai
2024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
2024年5月8日 Power Platform 勉強会 #1 LT資料
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
Contenu connexe
Tendances
Neural Network with Attention Mechanism for Natural Language Processing: survey
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
『トピックモデルによる統計的潜在意味解析』読書会ファイナル ~佐藤一誠先生スペシャル~ LT 資料 http://topicmodel.connpass.com/event/27999/
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
第21回情報科学技術フォーラム(FIT2022) 招待講演 戸田 智基:深層生成モデルに基づく音声合成技術,Sep. 2022 名古屋大学 情報学研究科 知能システム学専攻 戸田研究室
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
cvpaper.challenge の メタサーベイ発表スライドです。 cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ作成・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有します。 http://xpaperchallenge.org/cv/
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
cvpaper. challenge
音声生成の基礎と音声学 東北大学大学院情報科学研究科「学際情報科学論」スライド
音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
ICASSP 2019音声&音響論文読み会(https://connpass.com/event/128527/)での発表資料です。 AASP (Audio and Acoustic Signal Processing) 分野の紹介と、ICASSP 2019での動向を紹介しています。#icassp2019jp
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
小泉 悠馬, "実環境音響信号処理における収音技術," 情報処理学会 音学シンポジウム 2018, 招待講演, 2018.
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
機械学習プロフェッショナルシリーズの「深層学習」第6章 畳込みニューラルネットの輪読会スライドです。
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
Ken'ichi Matsui
音声分析法のであるケプストラム分析とLPC分析について、 簡単に説明したものです。 音声研究の初学者向け。 twitter: forthshinji
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
NIPS2015読み会で話した、「End-To-End Memory Networks」の資料です
NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」
Yuya Unno
Guest presentation at "Applied Gaussian Process and Machine Learning," Graduate School of Information Science and Technology, The University of Tokyo, Japan, 2021.
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
20. 10. 23 SLPディベロッパーズフォーラム招待講演
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
2018年1月 音声研究会 オーガナイズドセッション「新たな音声モデルによる音声合成・音声生成―深層学習による音声波形モデルWaveNet―」(招待講演) 戸田 智基:WaveNetが音声合成研究に与える影響,Jan. 2018 名古屋大学 情報学研究科 知能システム学専攻 戸田研究室
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。 近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。 "Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise. The slides are made by the lecturer from outside our company, and shared here with his/her permission. Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。 Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
第141回音声言語情報処理研究発表会/音声研究会 招待講演 W.-C. Huang, E. Cooper, Y. Tsao, H.-M. Wang, T. Toda, J. Yamagishi:The VoiceMOS Challenge 2022,Mar. 2022 名古屋大学 情報学研究科 知能システム学専攻 戸田研究室
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
NU_I_TODALAB
db analytics showcase Sapporo 2017 発表資料 http://www.db-tech-showcase.com/dbts/analytics
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
ゼミのスライドです。Digital Image Processing ウェーブレットと多重解像度処理
ウェーブレットと多重解像度処理
ウェーブレットと多重解像度処理
h_okkah
電子情報通信学会 音声研究会 (SP) 2015年7月研究会 招待講演スライド
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
5分では分からなかったorz
5分で分かる自己組織化マップ
5分で分かる自己組織化マップ
Daisuke Takai
Tendances
(20)
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
音声生成の基礎と音声学
音声生成の基礎と音声学
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
全力解説!Transformer
全力解説!Transformer
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
ウェーブレットと多重解像度処理
ウェーブレットと多重解像度処理
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
5分で分かる自己組織化マップ
5分で分かる自己組織化マップ
Dernier
2024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
2024年5月8日 Power Platform 勉強会 #1 LT資料
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
Jue Wang, Wentao Zhu, Pichao Wang, Xiang Yu, Linda Liu, Mohamed Omar, Raffay Hamid, " Selective Structured State-Spaces for Long-Form Video Understanding" CVPR2023 https://openaccess.thecvf.com/content/CVPR2023/html/Wang_Selective_Structured_State-Spaces_for_Long-Form_Video_Understanding_CVPR_2023_paper.html
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
Key topics covered: - Understanding Ballerina's role in integrations: features and advantages - Designing and implementing REST APIs for integration - Designing and implementing GraphQL services with Ballerina - Monitoring and observing applications - Introduction to data integration
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
LoRaWANスマート距離検出センサー DS20Lカタログ
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
This is an introduction to MAPPO's paper.
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
2024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Syed Talal Wasim, Muzammal Naseer, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan , "Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding" arXiv2024 https://arxiv.org/abs/2401.00901v2
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
Dernier
(10)
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
自称・世界一わかりやすい音声認識入門
1.
世界一わかりやすい音声認識入門 Hakamata Tomohiro 袴田 智博 Lightning
Talk Siri is not Speech Recognition 自称
2.
学生時代は 音声認識 やっていました
3.
いきなりですが 質問です。
4.
音声認識 とは 何でしょうか?
5.
音声認識システム? 初音ミク (Vocaloid)
6.
音声認識システム? FROM HAL9000
7.
音声認識システム? K.I.T.T
8.
音声認識システム? Siri
9.
全て 違います。
10.
音声認識 とは、
11.
音声認識とは 音声認識 こんにちは 音声を 文字 に変換する技術のこと
12.
答え合わせ
13.
正解は 初音ミク (Vocaloid) 音声合成 (歌声合成)
14.
正解は HAL9000 Siri K.I.T.T 音声対話 全て
15.
以前
16.
こんな記事を 見かけました。
17.
18.
!?
19.
本当に 止めてほしい。
20.
導入編終了。
21.
アウトライン 歴史 音声認識の登場と発展 仕組 音声認識のメカニズム 応用
音声認識の利用と応用
22.
歴史
23.
IBM Shoebox 1962 数字認識機 via http://www-03.ibm.com/ibm/history/exhibits/specialprod1/specialprod1_7.html
24.
70∼80年代までは 研究分野止まり
25.
90年代に入り 実用化され始める
26.
SANYO EXCEDIO NV-1V 1993 音声認識機能付きのカーナビ ※定価なんと 50
万円弱
27.
NINTENDO ピカチュウげんきでちゅう 1998 エンターテインメント業界に進出
28.
SEGA シーマン 1999 エンターテインメント業界に進出
29.
IBM ViaVoice 1999 初の有償・音声認識ソフトウェア発売 単語だけでなく、文章が認識できる画期的なソフトウェア。
30.
「音声入力は使えない」 イメージが浸透…
31.
2000年代は 音声業界の氷河期
32.
そして2010年代に入り 突如現れた
33.
APPLE Siri 2011 スマートフォンの音声操作
34.
NTT Docomo しゃべってコンシェル 2012 スマートフォンの音声操作
35.
GOOGLE Speech API 2013 ブラウザが音声認識をサポート
36.
音声入力が だんだん 受け入れられてきた
37.
技術的には どのような 発展があったのか?
38.
音声言語処理ロードマップ from 70年代 TIMELINE ハードウェアの性能向上 統計的機械学習の手法確立と進化 1970
1980 1990 2000 2010 ∼ 音声符号化 孤立 単語 音声認識 大語彙 連続 音声認識 超大語彙 連続 音声認識 連続 音声認識 メルケプストラム 分析 数万語彙に対応 数十∼数百万語に対応単語のみ認識 数百語彙での文章認識 リアルタイム処理 語彙数増加&認識精度の向上
39.
ただし制限あり
40.
理想は アナウンサー 原稿の読み上げ 綺麗な発音 良質な録音環境
41.
音声認識が苦手なもの
42.
複数人の同時発話 会議 ガヤ
43.
砕けた話し方 話し言葉 方言 ラップ 言い澱み
44.
雑音 騒音 機械音 風切り音
45.
なぜなのか?
46.
音声認識の 仕組みが分かれば 謎が解けます!
47.
アウトライン 歴史 音声認識の登場と発展 仕組 音声認識のメカニズム 応用
音声認識の利用と応用
48.
仕組
49.
おさらいです
50.
音声認識とは 音声認識 こんにちは 音声を 文字 に変換する技術のこと
51.
ものすごく ざっくり言うと
52.
音声認識は パターンマッチング
53.
音声認識とは こんにちは 音声認識 音声を パターンマッチング により 文字
に変換する技術のこと こんばんはこんにちはおはよう 照合
54.
つまり
55.
データベースに 存在しない単語は 認識不可能
56.
どういうことか?
57.
こうなります こんにちは 音声認識 佐藤近藤安西 照合 近藤??
58.
そのため
59.
砕けた話し方 話し言葉 方言 ラップ 言い澱み
60.
これは難しい
61.
では、どうやって パターンマッチング しているのか?
62.
音声波形で比較? こんにちは 佐藤 近藤 安西
63.
違います
64.
なぜでしょうか?
65.
複雑さ マイク、音程、スピード、話し方など、 あらゆる条件を一致させなければならない。
66.
原点に 立ち戻りましょう
67.
そもそも 音声 とは?
68.
人間の調音器官により 生成される 音波のこと
69.
調音器官?
70.
この辺一帯です
71.
調音器官 1.外唇 2.内唇 3.歯 4.歯茎 5.歯茎後部 6.硬口蓋前部 7.硬口蓋 8.軟口蓋 9.口蓋垂 10.咽頭壁 11.声門 12.喉頭蓋 13.舌根 14.後舌 15.前舌 16.舌端 17.舌尖 18.舌端裏
72.
これだけの部位を 複雑に動かして 音声は生成されます
73.
人間すごい
74.
75.
ではなくて
76.
パターンマッチングの 話です
77.
調音器官の 動きをパターン化する のでしょうか?
78.
それも違います そういうアプローチの音声合成はありますが
79.
正解は
80.
音素
81.
( ゚д゚)ポカーン 音素?
82.
音素とは 音声言語の最小単位
83.
日本語の場合 母音 アイウエオ 撥音 ン 子音
23種類
84.
日本語音素(子音) 調音位置調音位置 口唇口唇 歯,歯茎歯,歯茎
口蓋口蓋 声門 調音 方法 調音 方法 調音 方法 調音 方法 調音 方法 調音 方法 音源 有声 無声 有声 無声 有声 無声 無声 摩擦音 β z s ʒ ʃ h 破擦音 dz ts dʒ tʃ 破裂音 b p d t g k 半母音 w r j 鼻音 m n ŋ
85.
音素の単位で 音声をパターン化 (モデル化)します
86.
音素単位での 音響的特徴は 音の高さ、大きさの 影響を受けないため です!! ※ささやきは全てが無声音になるので例外
87.
ちなみに
88.
日本人の英語の発音が ジャパニーズイングリッシュ になるのは
89.
調音器官の使い方が 日本語のままだからです
90.
発音矯正 それすなわち
91.
筋トレ
92.
話を戻すと
93.
音素単位で 固有パターン
94.
単語は?
95.
単語 → 音素の並び こんにちは
k - o - N - n - i - ch - i - w - a こんばんは k - o - N - b - a - N - w - a コンバイン k - o - N - b - a - i - N
96.
共通の部分があるぞ? こんにちは k -
o - N - n - i - ch - i - w - a こんばんは k - o - N - b - a - N - w - a コンバイン k - o - N - b - a - i - N
97.
ネットワーク化 こんにちは こんばんは コンバイン k o N
b a N w a i N n i ch i aw
98.
こんにちは あとは…
99.
こんにちは あとは…
100.
こんにちは 区間と音素をマッピング k N n
ch i w ao i
101.
ネットワーク上の 解の探索問題になる こんにちは こんばんは コンバイン k o N
b a N w a i N n i ch i aw
102.
文章は?
103.
単語の並びですね
104.
ネットワーク化します は 元気 です 私 。 は 元気 です 私 。 は 元気 です 私 。 元気
105.
これを音素単位で マッチングします
106.
しかし 単語の組み合わせは 膨大な数になります
107.
語彙が10単語でも、 3語の組み合わせは 10の3乗…
108.
無謀
109.
そこで
110.
制約
111.
文法を規定 は 元気 です 貝 に
なり たい アイドル 。 私 。 。 僕 ドラえもん 。
112.
組み合わせに確率を付与 は 待つ 私 たち の ドラえもん 60% 10% 10% 10% 0% N-gram
113.
設定された制約から 単語の並びを生成し、 入力音声に音素が マッチするか?
114.
という探索問題
115.
音声認識は こんなメカニズムです。
116.
よって
117.
複数人の同時発話 会議 ガヤ
118.
砕けた話し方 話し言葉 方言 ラップ 言い澱み
119.
雑音 騒音 機械音 風切り音
120.
難しいのです。
121.
アウトライン 歴史 音声認識の登場と発展 仕組 音声認識のメカニズム 応用
音声認識の利用と応用
122.
応用
123.
音声認識 単品
124.
NHK ハイブリッド字幕放送 via http://www.nhk.or.jp/seikatsu-blog/800/112861.html
125.
Health Care in
USA アメリカの医療業界
126.
メインは 組み合わせ
127.
Vocollect 音声によるピッキングシステム
128.
SG PRO 英語音声認識を利用した英語発音練習ソフト
129.
iRemocon 音声認識を用いた家電操作用ガジェット
130.
SHARP COCOROBO 関西弁版ルンバ
131.
CINEMA PHONE 上映案内テレホンガイド
132.
他にも
133.
MMDAgent 学内情報案内端末
134.
NICT VoiceTra 音声翻訳アプリ
135.
その他 飛び道具っぽいもの
136.
KAYAC kageroi キーワード検索&表示によるアイデア出し支援
137.
PVI パーキンソン病の診断を音声認識で
138.
などなど
139.
さらに 盛り上がっていくはず!
140.
最後に
141.
音声認識とは 音声認識 こんにちは 音声を 文字 に変換する技術のこと
142.
音声認識は
143.
複数人の同時発話 会議 ガヤ
144.
砕けた話し方 話し言葉 方言 ラップ 言い澱み
145.
雑音 騒音 機械音 風切り音
146.
苦手。
147.
使えねー!!
148.
と怒る前に
149.
綺麗に発音
150.
してみてください!
Télécharger maintenant