SlideShare a Scribd company logo
1 of 28
学際情報科学論
I. 音声学と音声認識・合成
伊藤 彰則
aito@spcom.ecei.tohoku.ac.jp
この講義の概要
● 音声:音と言語のインタフェース
● 音声の生成と音声学
– 声を生み出す器官
– 人間の音声の特徴と分類
– 音声の音としての特徴
● 音声の認識
– パターン認識の枠組み
– 特徴抽出
– 音響モデル・言語モデル・デコーダ
● 音声の合成
– フォルマント合成 / 波形接続合成 /HMM 合成
音声の生成と音声学
● 人間の声はどうやって作られているのか?
● 人間の声はなぜ多様なのか?
● 人間はどんな種類の声を言語に使っているの
か?
● 発声器官と声の種類との関係は?
● 声の種類と音声の物理的性質との関係は?
● 音声の物理的性質と音声の知覚の関係は?
音声の生成
● 声を生成する器官 Organs for speech production
● 声帯 vocal cord
● 喉頭 larynx
● 咽頭 pharynx
● 舌 tongue
● 歯茎 teethridge
● 歯 teeth
● 口唇 lips
● 鼻腔 nasal cavity
声道
vocal tract
声を生成する器官
声帯
vocal cord 気管
trachea
食道
esophagus
喉頭 larynx
咽頭 pharynx
舌
tongue
軟口蓋
soft palate
硬口蓋
hard palate
鼻腔 nasal cavity
歯茎
teeth ridge
口唇
lips
声帯:声のもとを作る
前
後
声帯
食道へ
梨状窩
(梨状陥凹)
気
管
ビデオをご覧ください
vocal cord
piriform fossa
調音:音を形作る
● 調音
articulation
● 調音位置
Place of articulatuon
● 調音様式
Manner of articulation
調音:音を形作る
●調音位置
Place of articulation
●母音 vowels
●前舌 / 中舌 / 後舌
●Tongue front - back
●子音 consonants
●喉頭 grottal
●咽頭 pharyngeal
●舌背 velar - palatal
●歯 alveolar - dental
●唇 labial
調音:音を形作る
●調音様式
Method of articulation
–破裂音 plosive
–鼻音 nasal
–摩擦音 fricative
–流音 liquid
–はじき音 flap/tap
–ふるえ音 trill
–破擦音 affricate
ビデオをご覧ください
IPA: 音韻の表記法
● 母音 (Wikipedia より )
● 半母音 (semivowel) [w], [j]
IPA: 音韻の表記法
● 子音 (Wikipedia より )
IPA :音韻の表記法
● 変な発音 (Wikipedia より )
音韻 (phone) と音素 (phoneme)
● 音韻:人間が発声する、区別できる音
● 言語によらない
● すべての言語ですべての音韻を言語的に区別す
るわけではない
– 複数の音韻が区別されない(異音)
– 言語として使われない音韻がある
● 音素:言語的に区別される音の最小単位
● 音韻と必ずしも一対一に対応しない
● 例 : いろいろな「ん」の音韻(音素は一つ)
– あんがい [ŋ] / あんざい [n] / あんばい [m]
音素 (phoneme) と音節 (syllable)
● 音節 (syllable) :子音 (C) と母音 (V) からなる音
の塊 (cluster)
● happiness [hæ-pi-nis] 3 音節
● unscramble [ʌn-skræm-bəl] 3 音節
● 音節の構造
● 0 個以上の子音
● 母音(長母音、多重母音)
● 0 個以上の子音
● 長い音節例: scratched [skræʧt] CCCVCC
音声の生成と音声波形
● 音声の生成は物理的にどういう過程か
● 音声波形の特徴はどこにあるのか
● 音声の特徴と発音の関係は
音響管モデル
● 人間の発声機構は
管楽器に似ている
声 帯 声 道
喉 頭
唇
鼻 腔
声の高さ
発声内容
個人性
音韻性と個人性
声 帯 声 道
喉 頭
唇
鼻 腔
この辺の形は
自分で制御できる
音韻性と個人性
声 帯 声 道
喉 頭
唇
鼻 腔
この辺の形,全体の長さ,平均
的な太さなどは自分で制御できな
い
音声の波形
● 結構複雑です
/a/ /i/ /u/
/o//e/
音声の波形
● 複雑だけどおおむね周期的
基本周期
基本周期 T [s]
基本周波数 F0 [Hz] = 1/T
いろいろな「あ」
● 基本周波数の違う2つの /a/
● 音韻としては同じ:声道の形が同じ(と思われる)
● 波形はまったく異なる
● 物理量の何が同じなのか?
音声のスペクトル
● 2つの「あ」のスペクトル
● 大まかな形が似ている→声道形状
● 細かいギザギザは異なる→声帯音源波の周波数
音声のスペクトルとフォルマント周
波数
● F0: 基本周波数
● F1,F2,..: フォルマント (formant) 周波数
基 本 周 波 数
ホ ル マ ン ト 周 波 数
F 0
F 1
F 2
F 3 F 4
母音とフォルマント周波数
●日本語 5 母音はほぼ
F1-F2 周波数で説明さ
れる
●調音とフォルマント
の対応関係
–F1 が舌の位置
(front-back)
–F2 があごの開き
(open-close)
音声合成デモ
音声の知覚
● 発声された音声を人間はどう聞いているのか
● 音声信号に含まれる要素
● 言語情報 (linguistic information)
– 言語的な内容(文字に起こせる情報)
● パラ言語情報 (para-linguistic information)
– 文字には起こせないが、発話の意味や雰囲気、
ニュアンス、感情などに関係する音声の変化
– 音声の高さ(ピッチ)、強さ(パワー)、母音
の引き延ばし、速さなどが関係している
● 非言語情報 (non-linguistic information)
– 自分ではコントロールできない個人性(性別、
体格)
母音の知覚
● 基本的にはフォルマント周波数による
● 範疇的知覚 (categorical perception)
母音の知覚
● フォルマント周波数の値だけでなく、その動き
が重要
子音の知覚
● 子音の種類ごとに異なる
● 音韻の長さ
● スペクトル概形
● パワーの時間変化
● 先行・後続母音の影響

More Related Content

What's hot

What's hot (20)

音声の認識と合成
音声の認識と合成音声の認識と合成
音声の認識と合成
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
自称・世界一わかりやすい音声認識入門
自称・世界一わかりやすい音声認識入門自称・世界一わかりやすい音声認識入門
自称・世界一わかりやすい音声認識入門
 
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
ボイパの音をリアルタイムで解析してみる 〜リザバーコンピューティングを添えて〜
ボイパの音をリアルタイムで解析してみる 〜リザバーコンピューティングを添えて〜ボイパの音をリアルタイムで解析してみる 〜リザバーコンピューティングを添えて〜
ボイパの音をリアルタイムで解析してみる 〜リザバーコンピューティングを添えて〜
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 

Viewers also liked

ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
Shuyo Nakatani
 

Viewers also liked (8)

音声合成の基礎
音声合成の基礎音声合成の基礎
音声合成の基礎
 
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
 
Weighting of acoustic cues shifts to frication duration in identification of ...
Weighting of acoustic cues shifts to frication duration in identification of ...Weighting of acoustic cues shifts to frication duration in identification of ...
Weighting of acoustic cues shifts to frication duration in identification of ...
 
破擦音生成時の解放に伴う破裂が摩擦音・破擦音識別に与える影響〜若年者と高齢者の比較〜
破擦音生成時の解放に伴う破裂が摩擦音・破擦音識別に与える影響〜若年者と高齢者の比較〜破擦音生成時の解放に伴う破裂が摩擦音・破擦音識別に与える影響〜若年者と高齢者の比較〜
破擦音生成時の解放に伴う破裂が摩擦音・破擦音識別に与える影響〜若年者と高齢者の比較〜
 
第15回機械学習勉強会・説明用ノート
第15回機械学習勉強会・説明用ノート第15回機械学習勉強会・説明用ノート
第15回機械学習勉強会・説明用ノート
 
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
Pythonはどうやってlen関数で長さを手にいれているの?
Pythonはどうやってlen関数で長さを手にいれているの?Pythonはどうやってlen関数で長さを手にいれているの?
Pythonはどうやってlen関数で長さを手にいれているの?
 

Similar to 音声生成の基礎と音声学

言語学概論第三回
言語学概論第三回言語学概論第三回
言語学概論第三回
Kazuya Abe
 
言語学概論第二回
言語学概論第二回言語学概論第二回
言語学概論第二回
Kazuya Abe
 

Similar to 音声生成の基礎と音声学 (8)

言語学概論第三回
言語学概論第三回言語学概論第三回
言語学概論第三回
 
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
 
音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション
 
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
 
言語学概論第二回
言語学概論第二回言語学概論第二回
言語学概論第二回
 
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
 

More from Akinori Ito (8)

いろいろなプログラミング言語による互除法
いろいろなプログラミング言語による互除法いろいろなプログラミング言語による互除法
いろいろなプログラミング言語による互除法
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
 
マルチメディア情報ハイディング
マルチメディア情報ハイディングマルチメディア情報ハイディング
マルチメディア情報ハイディング
 
研究発表のやり方
研究発表のやり方研究発表のやり方
研究発表のやり方
 
歌声分析のエンタテイメント応用
歌声分析のエンタテイメント応用歌声分析のエンタテイメント応用
歌声分析のエンタテイメント応用
 
科学論文執筆・投稿にまつわる基礎知識
科学論文執筆・投稿にまつわる基礎知識科学論文執筆・投稿にまつわる基礎知識
科学論文執筆・投稿にまつわる基礎知識
 
音楽の情報処理
音楽の情報処理音楽の情報処理
音楽の情報処理
 
音声の生成と符号化
音声の生成と符号化音声の生成と符号化
音声の生成と符号化
 

音声生成の基礎と音声学