speech » 深度语音识别（三）——语音识别参考资源

2019-03-13 :: 6662 Words

语音合成
- WaveRNN（续）
语音分离
WeNet
Attention Based
语音识别参考资源

语音合成

WaveRNN（续）

3.我们可以将B组数据看作B个赛道。第1行首先发车（生成数据），当第1行生成了F个数据之后，第2行开始发车。依此类推。显然，只要赛道足够长，则在大多数时间中，都是B个赛车同时再跑。这样就达到了并行运算的效果。如上图中的三个白色方格就是同时生成的。

4.数据生成好之后，再重新组合回去，得到最终的结果序列。

WaveRNN还有一个trick：

生成语音的时候，并不是直接采用最大可能的音素，而是使用采样的方法，根据各个音素的概率，随机选择可能的音素。

参考：

https://mp.weixin.qq.com/s/H77iom38lTR0KzeFXrdWew

DeepMind与谷歌大脑联手推出WaveRNN，移动端合成高保真音频媲美WaveNet

https://www.monthly-hack.com/entry/2018/02/26/211248

这是个日文blog，有两张图不错。

https://www.jianshu.com/p/b3019f2773ed

语音合成text-to-speech WaveRNN

http://slides.com/smerity/reading-group-efficient-neural-audio-synthesis#/

Efficient Neural Audio Synthesis

语音分离

https://mp.weixin.qq.com/s/T96S0b7Lp9YWR4cRcMQr6A

一文概览基于深度学习的监督语音分离

https://mp.weixin.qq.com/s/XP4NVYMmKj9RLsgonP3ooQ

无需进行滤波后处理，利用循环推断算法实现歌唱语音分离

https://mp.weixin.qq.com/s/9QrahPP1gDM3eMNgx91spA

深度学习也能实现“鸡尾酒会效应”：谷歌提出新型音频-视觉语音分离模型

https://mp.weixin.qq.com/s/-ULMtt2GsrUk8B-kC6AnXw

入门语音分离，从鸡尾酒问题开始！

WeNet

WeNet是出门问问联合西北工业大学音频语音与语言处理研究组推出面向产品和工业界的端到端语音识别开源工具。

代码：

https://github.com/wenet-e2e/wenet

参考：

https://mp.weixin.qq.com/s/oR6AKKxsZ2WA9-D8e9rCWA

WeNet 1.0正式发布: 更快更高更强更有生产力

https://mp.weixin.qq.com/s/EqLCyHn9we2zn-lCnunDNA

WeNet更新：支持多机并行训练

https://mp.weixin.qq.com/s/QpTZSW2TZ1clEBt4iwoe4Q

WeNet更新：支持语言模型

Attention Based

https://mp.weixin.qq.com/s/4xUIF0tqKCnTMyfkVX1JJw

使用transformer模型进行流式自动语音识别

https://mp.weixin.qq.com/s/TTPpOOxSLbCgOmAsI9TLiw

百度发布Deep Voice 3：全卷积注意力机制TTS系统

语音识别参考资源

https://zhuanlan.zhihu.com/p/69637495

语音转写技术入门

https://mp.weixin.qq.com/s/rAfNNS6Y4vLAmnNhtfAbwA

微软亚研《神经语音合成》综述论文

https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=400189223&idx=1&sn=1cb32bee42de626443ebadbf065ec79c

百度贾磊：汉语语音识别技术重大突破：LSTM+CTC详解

https://mp.weixin.qq.com/s/PXYt4FYWlldUmvryh53kVg

滴滴单通道语音分离与目标说话人提取和抑制技术进展

https://mp.weixin.qq.com/s/MXAxL753oEUPSVtL_H34jA

语音识别中Chain Model的原理和实践

https://mp.weixin.qq.com/s/7C7UFfE2dIM8ZtvwW8kbWQ

使用TensorFlow Lite快速构建移动端声音分类应用

https://www.zhihu.com/question/46829056

语音识别领域的最新进展目前是什么样的水准？

https://www.zhihu.com/question/29168274

语音识别中，如何理解HMM是一个生成模型，而DNN是一个判别模型呢？

https://zhuanlan.zhihu.com/p/24979135

从声学模型算法总结2016年语音识别的重大进步

https://mp.weixin.qq.com/s/zEqgDh6_fnDgXEI8MC9cmg

端对端的深度卷积神经网络在语音识别中的应用

https://mp.weixin.qq.com/s/RjoGmtiyqrx8cG6JtgqsxQ

181页PPT专题讲座——语音识别与声纹识别

https://mp.weixin.qq.com/s/pimQBFd5uxrZk4dSgUsblg

苹果机器学习期刊“Siri三部曲”之一：通过跨带宽和跨语言初始化提升神经网络声学模型

https://mp.weixin.qq.com/s/u1R7NUg_kgI_mpjIFrO02A

探索Siri背后的技术：将逆文本标准化（ITN）转化为标签问题

https://mp.weixin.qq.com/s/2xpwLVHT8qU68uoV7Uj2cw

小米的语音识别系统是如何搭建的

https://mp.weixin.qq.com/s/cYBMy4TIhcutvrAt0y70Ow

腾讯AI Lab副主任俞栋：过去两年基于深度学习的声学模型进展

https://mp.weixin.qq.com/s/cvSz5Pxe3z54Tl5z3WTbQA

手把手教你在音频分类DCASE2017比赛中夺冠

https://blog.csdn.net/ffmpeg4976/article/details/52347845

语音识别系统及科大讯飞最新实践

http://mp.weixin.qq.com/s/0WNJq4OLZlZETKPf1Ewq7w

浅谈语音测试方案

https://mp.weixin.qq.com/s/b0bOf1bZ2p0yWMzhp66HhA

A flight (to Boston) to Denver-基于转移的顺滑技术研究

https://mp.weixin.qq.com/s/0AvV268s3TZ0z8WwtJv6sw

一文概览语音识别中尚未解决的问题

http://mp.weixin.qq.com/s/xRA9Xh-FTrhbIg0wLnfzhA

温正棋谈语音质检方案：从关键词检索到情感识别

https://mp.weixin.qq.com/s/GZI4uvCR3QzZDNddpBX2OQ

深度学习也解决不掉语音识别问题

https://mp.weixin.qq.com/s/E8brCI73IWY3P47IYPxSkg

谷歌发布全新端到端语音识别系统：词错率降至5.6%

http://www.cnblogs.com/qcloud1001/p/7941158.html

详解卷积神经网络（CNN）在语音识别中的应用

https://mp.weixin.qq.com/s/grqKRvv4dwKU26zT1qhq2g

Facebook开源语音识别工具包wav2letter

https://mp.weixin.qq.com/s/OeCiH4n-Y3kigI3ynMyZSg

有趣的研究奥巴马Net：从文本合成真实的唇语口型

https://mp.weixin.qq.com/s/mRmbrUJ2MgeDxbZn_0UiIQ

2017年深度学习总结：文本和语音应用

https://mp.weixin.qq.com/s/xR172RUG3JO59_2cJj_U2A

显著超越流行长短时记忆网络，阿里提出DFSMN语音识别声学模型

https://wenku.baidu.com/view/942891aba98271fe910ef9e3.html

基于深度学习的语音识别

https://mp.weixin.qq.com/s/HSdhkazt1j5phMTLRMjFlQ

深度对抗声学模型训练框架

https://mp.weixin.qq.com/s/jHB5pRsisvh-ZB8uY1oRTA

基于TensorFlow，人声识别如何在端上实现？

https://mp.weixin.qq.com/s/i7ugVM0mGqohThLW6NjNoQ

阿里开源自研语音识别模型DFSMN，准确率高达96.04%

https://mp.weixin.qq.com/s/o5UAnIOuDsjBWjsKg8wYCg

陶建华：深度神经网络与语音

https://mp.weixin.qq.com/s/DjskKa-KxiCX-hLKEw75Tg

Towards End-to-End Speech Recognition

https://mp.weixin.qq.com/s/xW_KvR5y12_eyp3FvtmBwQ

从概念到应用，腾讯视角深入“解剖”AI平台和语音技术

https://mp.weixin.qq.com/s/2DaBsFnRzqkf9PgvY3tWqw

谷歌神经网络人声分离技术再突破！词错率低至23.4%

https://mp.weixin.qq.com/s/kdUxaffyKI_Hu9RCEM5SZw

谷歌开源框架FUSS，让声音分离不再成为难题

https://mp.weixin.qq.com/s/V1W_M-lIJKdyGtuQyBbUPA

词错率2.97%：云从科技刷新语音识别世界纪录

https://mp.weixin.qq.com/s/eK8UxqMsUhDzJ-Ev7azS9w

田正坤：Seq2Seq模型在语音识别中的应用

https://zhuanlan.zhihu.com/p/48729548

端到端的语音识别（ASR）错词率降低到至3.4%左右

https://mp.weixin.qq.com/s/5vhiS2RG_mFeQHzYxmyeww

Google开源AI闹市辨音92%创新高？别急！论文+GitHub助你一臂之力！

https://mp.weixin.qq.com/s/RskIVlCnZnetn33H7GWeBQ

端到端语音识别时代

https://mp.weixin.qq.com/s/Zw-6eTeDt2hsY_uOTtfTDA

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

https://mp.weixin.qq.com/s/G5foGMWw4p3iP-8U-uvLQg

语音识别的前沿论文，看我们推荐的这4篇

https://mp.weixin.qq.com/s/fbOJJeU9h6FfsV9QFFv2gg

重磅公开！阿里语音识别模型端核心技术，让你“听”见未来

https://mp.weixin.qq.com/s/wbEjaZK5YXIuvlqNWN-0bA

中科院自动化所徐波研究员团队：鸡尾酒会问题与相关听觉模型的研究现状与展望

https://mp.weixin.qq.com/s/aUf8i3o7px2KcjI-3jFykg

使用RNN-Transducer进行语音识别建模

https://mp.weixin.qq.com/s/c-lQETCPQTztZjV4TYTsZA

语音关键词检测方法综述

https://mp.weixin.qq.com/s/BDPYtq_6i54Itvz3MnnDSw

谷歌手机输入法可以离线语音识别了！模型精度远超经典CTC

https://zhuanlan.zhihu.com/p/61600497

GE2E Speaker Verification论文复现

https://mp.weixin.qq.com/s/n11gkdXiUf618IAxvFx_RA

不识字也能翻译：谷歌AI直接用音频翻音频，不用先转文本

https://mp.weixin.qq.com/s/TkOMspquWEZPdUtlOe1Tfg

语音识别中的End2End模型: CTC, RNN-T与LAS

https://mp.weixin.qq.com/s/kk3UdijIbMsyYTd59nSoMw

语音情绪识别, 声源增强, 基频可视化

https://mp.weixin.qq.com/s/5Ddz_Y4-KFV4ioOOmLuQtw

MASR-中文语音识别，提供预训练模型，高识别率

https://mp.weixin.qq.com/s/eoihGqB2yTUWPieaxq_Svg

谷歌再获语音识别新进展：利用序列转导来实现多人语音识别和说话人分类

https://mp.weixin.qq.com/s/0-KviOoC_jVVjZr0C0Qnnw

2019年，这8款自动语音识别方案你应该了解！

https://mp.weixin.qq.com/s/dOrJ9zGelffKGnSAZ1coyA

从顶会看语音技术的发展趋势

https://mp.weixin.qq.com/s/UmVFCnwKqSQoowfQdefDdA

昆山杜克大学李明博士：基于端到端深度神经网络的说话人与语言识别综述

https://mp.weixin.qq.com/s/fc58gK4BVN-NeGdyVxjuPg

沟壑易填：端到端语音翻译中预训练和微调的衔接方法

https://mp.weixin.qq.com/s/HcumCA0kBrpSInn7Ge17MQ

多语言识别的实现

https://mp.weixin.qq.com/s/5ZVl2fRZifIDiNI-fU9YWw

时域音频分离模型登GitHub热榜，效果超传统频域方法，Facebook官方出品

https://mp.weixin.qq.com/s/1ENIla2CUU1dfhJ-6_bDXg

QQ音乐应用TensorFlow构建AI赋能的音乐曲库

https://mp.weixin.qq.com/s/k5BZGPVwH_DZylZ9dMK6zA

语音识别2019指南

https://mp.weixin.qq.com/s/eu_BhsjIWo41jncyl2VYIg

audio-visual recognition

https://mp.weixin.qq.com/s/DJVeNlLi5GHDeE7ajYZbdw

SPICE：新一代自监督式基音检测模型

https://mp.weixin.qq.com/s/3M2lCnXUG2MolcS7A79k8A

疑车无据：大熊猫何时交配才能怀上宝宝？四川学者用音频AI给出预测

https://mp.weixin.qq.com/s/NoKaBQssgd3uvgKzDvXnNg

从算法到应用：滴滴端到端语音AI技术实践

https://mp.weixin.qq.com/s/KpMl1ebWghKQikFCj8_8Ag

CIF：基于神经元整合发放的语音识别新机制

https://mp.weixin.qq.com/s/idXP4Y-B4pYYfM2egg6KYQ

Hey Siri唤醒原理

https://mp.weixin.qq.com/s/GTzGwKQfJgopd96doe8rIg

用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

https://mp.weixin.qq.com/s/wjVDgwHpLYM3vZWL5AJvDg

解决“鸡尾酒会问题”的利器-基于盲源分离的前端信号处理框架

https://mp.weixin.qq.com/s/bJ4xdXcHPI8VQcXAvE8i1w

可控时延语音识别文本后处理技术

您的打赏，是对我的鼓励