Contenu connexe Similaire à 第19期极客活动-讯飞语音云 (20) 第19期极客活动-讯飞语音云1. 语音识别的新纪元
“讯飞语音云”
科大讯飞副总裁 江涛
2011.11. 24 北京
6. 语音云服务能力快速进步
当前语音用户超过800万,平均每日新增用户超过3万
其中: 语音云服务容量已经达到3000万,可随
应用规模快速扩张
每天在线用户数量超过20万,总使用量超过200万次
得益 语音输入法和口讯等业务已经成为用户
于: 日常生活中必不可少的助手
当用户感受到语音的魅力后,语音逐渐
形成习惯
服务整体可用性达到94%
得益 服务器可用性的提高和稳定性改善
于: 客户端流程的优化,提高恶劣网络环境下
的容错能力
服务平均响应时间降低至2.0秒
得益 服务器和客户端交互流程的优化
于 客户端负载均衡策略的启用
9. 丰富多彩的语音云应用产品
语音聊天
语音 互联网
导航 电视
讯飞语音云
语音 语音
搜索 微博
语音 更多合作
业务…
短信
10. 讯飞语音云总体架构
• 基于云计算的讯飞语音平台封装了各类智能语音模块,可向开发伙伴提供便捷
的开发环境、向各行业及个人用户提供高效的语音服务
12. 国际英文语音合成大赛六联冠
评测时间:2006~2011 评测对象:英文语音合成技术
评测单位:“Blizzard Challenge”国际英文语音合成大赛
参赛单位:IBM、微软、MIT、CMU、英国爱丁堡大学、日本ATR等
评测结果:
英文合成系统连续六年蝉联自然度评测指标第一名
自然语音 Blizzard Challenge 测试结果(自然度指标)
科大讯飞参测系统
5
4.8 迄今唯一自然度
4.5 4.2
大于4分的参测系统 参
测
3.8 3.7
4
3.3 3.3
系
3.5 3.1 3 3
2.7 2.7
MOS
3 2.6 2.6 2.6 2.5
2.5 2.1
1.9
统
2 1.6
编
1.5
1 号
0.5 匿
0
A M J T F V S B P R U G H N C L O Q
名
14. NIST说话人语音识别评测
由NIST(美国国家标准技术研究院)举办,是国际上规模与影响力最大的说
话人识别评测
1996年第一次评测,之后每两年评测一次,说话人识别任务难度接近大规模
实际应用环境(不同信道、不同环境干扰)
科大讯飞在2008,2010年连续两届评测中均处于国际领先地位
三大核心测试指标 在参测系统中排名
测试时间 Min Min EE
EER DCF DCF
DCF DCF R
2008 0.107 2.625 0.187 1 1 3
2010 0.33 5.872 0.405 2 2 2
确立了科大讯飞在国际语音技术领域的全面领先地位
参赛单位有:CMU、MIT、Stanford、清华大学、中科院自动化所、中科院声学所、
Motorola研究中心、IBM 研究院等国内外50家著名语音研究机构
15. 持续提升的语音识别准确率
面向移动互联实际应用环境的中文连续语音识别技术性能
83.2%
2011年10月
复杂DT及TANDEM
2011年4月 技术
超大规模语言模型技 第四次更新
术第二次更新 78.8%
2011年8月
2011年1月 81.2% 基于上线数据
第三次更新
基于上线数据
首次更新
– 通过对海量数据的训练,可以更好的
75.3% 处理困扰语音识别的技术难点
– 用户在实际使用中形成的数据可以反
2010年8月
馈到平台中,形成不断迭代优化的正
语音云 60.2% 2010年10月28日
内测版上线 反馈机制,持续提高效果
语音云正式发布
55.8%
16. MSC开发两类接口
• C风格的API接口
– 实现最广泛的平台覆盖性
• 可视化控件接口
– 为了提高智能终端开发效率、降低开发难度,为Android、iPhone、
Symbian平台提供了内置语音交互UI、录音放音封装的可视化语音控件
接口
17. 不断扩展的语音云服务
语音识别服务 关键
语音合成服务 命令 短信 词检
个性化 词识 听写 索
传统语 语音合 别 转写
搜索 字幕
音合成 成
变声
网站服务
用户
论坛
管理
声纹识别服务 其他服务
文本
声音相 唱歌 文字 分析
声纹 客服 语言
似度 声纹 评分
验证
语种 鉴别 手写识 学习
识别 别