Antkillerfarm Hacking V7.0

深度语音识别(四)——语音合成参考资源, AMD

2021-07-31

语音识别参考资源(续)

https://mp.weixin.qq.com/s/I_WiSkA4Cu7N_FmoEJTADg

一次对语音技术的彻底批判

https://mp.weixin.qq.com/s/CXIO05_09vwWFJwfDyZQUA

迈向语音识别领域的ImageNet时刻

https://mp.weixin.qq.com/s/Izn6LPCRKNxkTHmkqbAzeg

从算法到应用:滴滴端到端语音AI技术实践

https://mp.weixin.qq.com/s/YTQOgGvFfBdasV18PmboGQ

深度学习在单声道录音中的说话人角色识别优化实践

https://mp.weixin.qq.com/s/PAHwyoxNbi8HDMGh2JtJPQ

58同城语音识别技术的探索和实践

https://mp.weixin.qq.com/s/A9bSp3H3UzAEgL4N7o1KpQ

使用tensorflow进行音乐类型的分类

https://mp.weixin.qq.com/s/j9Kis3AsyYjo3EYOJ6XzBA

端到端声源分离研究:现状、进展和未来

https://mp.weixin.qq.com/s/RC2Yj0cCXBBJaPpflBLB-w

语种识别

https://mp.weixin.qq.com/s/w6Uxr8oB_PHvIHf9ksTVsw

LRSpeech:极低资源下的语音合成与识别

https://mp.weixin.qq.com/s/TdGq07BZ9JcYeKo6Y8gtdA

音频预训练模型

https://mp.weixin.qq.com/s/ybanqEzEDtwTJ-y6piBv8Q

黑白键上的字节跳动:全球最大钢琴MIDI数据集背后的故事

https://mp.weixin.qq.com/s/wZfBg175ylxZj-k4Xzggqw

端到端语音识别模型

https://mp.weixin.qq.com/s/kEtoG4QVNn248k3Yhulrvw

《语音识别引擎后端架构设计》58同城

https://mp.weixin.qq.com/s/x_l5QliTPv7NyUJ5k4uaMQ

基于Transformer的高效、低延时、流式语音识别模型

https://mp.weixin.qq.com/s/4zm4kO4CU9-0sYKTSYdudw

10小时训练数据打造多语种语音识别新高度

https://mp.weixin.qq.com/s/_84nqrEMGC-Q-fPdEiPDgQ

3人半年打造语音识别引擎——58同城语音识别自研之路

https://mp.weixin.qq.com/s/8dFWQ-7m0jN5PvVIUeM33w

利用Android手机和YAMNet ML模型进行声音分类(一)

https://mp.weixin.qq.com/s/y7UZooc97gPgonnM3C9qxg

利用Android手机和YAMNet ML模型进行声音分类(二)

https://mp.weixin.qq.com/s/xS0fS8Haxt_DXxlw7VEo4Q

移动端的语音识别分享

https://mp.weixin.qq.com/s/wRAc0Vzrdxqr-dqXqqYapw

中文文本纠错算法–错别字纠正的二三事

https://zhuanlan.zhihu.com/p/377983386

流式语音识别原理和实现思路

https://mp.weixin.qq.com/s/zgoc3g5p-bq5xTKI_7Z8gA

ASR:从GMM到Transformer

语音合成参考资源

https://mp.weixin.qq.com/s/jwV4glj8vIUKSelzeRrxSg

语音合成

https://mp.weixin.qq.com/s/bFjXDQlxRbt1ia-DSfYazw

SampleRNN语音合成模型

https://mp.weixin.qq.com/s/xAO7mX64miTXE8E2vZ5q_w

Facebook开源TTS神经网络VoiceLoop:基于室外声音的语音合成

https://mp.weixin.qq.com/s/CVBSvQwnDqT-IVCZV7idog

极限元语音算法专家刘斌:基于深度学习的语音生成问题

https://mp.weixin.qq.com/s/zWmJ3uXnFtXaI2BotoadHA

从技术到产品,苹果Siri深度学习语音合成技术揭秘

https://mp.weixin.qq.com/s/6xxXOx59lDZx0kUPb_ftBA

漫谈语音合成之Char2Wav模型

https://mp.weixin.qq.com/s/8e4bkyTJIxHZ1y95GshA0Q

开源的语音合成系统WORLD介绍以及使用方法

https://mp.weixin.qq.com/s/JSnyE2k7jqd5GR1lHA6WUg

阿里巴巴Oral论文:用于语音合成的深度前馈序列记忆网络

https://mp.weixin.qq.com/s/p_VjFwwDCu1i_ovUljaoVw

阿里巴巴语音交互智能团队:基于线性网络的语音合成说话人自适应

https://mp.weixin.qq.com/s/imotc0RfPsvA9h5-1nouMA

端到端语音合成及其优化实践(上))

https://mp.weixin.qq.com/s/NlOH0wmToJvDudIDC-aM1g

端到端语音合成及其优化实践(下)

https://mp.weixin.qq.com/s/HLe4DUZWWfdorcgYOj9gzw

语音合成领域的首个完全端到端模型,百度提出并行音频波形生成模型ClariNet

https://zhuanlan.zhihu.com/p/45702794

微信是不是可以来一个文字转语音功能了?

https://mp.weixin.qq.com/s/DB2C-a_xEyoczuNSG9Bt7w

基于深度前馈序列记忆网络,如何将语音合成速度提升四倍?

https://mp.weixin.qq.com/s/t1ht3weG63Sj59n-MW-Prw

语音合成论文和英伟达撞车,韩国小哥紧急放出全部草稿代码和样本

https://mp.weixin.qq.com/s/1glxeUx-4DCWRjJQMW7IiQ

语音合成论文与韩国小哥“撞车”后续:英伟达“赶紧”把代码开源了

https://mp.weixin.qq.com/s/c1QSGia52ICTc25i-C91Rg

GAN跨界合成高保真音乐,Jeff Dean听了都陶醉

https://mp.weixin.qq.com/s/f1W7PFLwkoJtVXb_7Rh3sw

极大提升合成速度,百度提出首个全并行语音合成模型ParaNet

https://mp.weixin.qq.com/s/aHupAjPNFdUdaG9Uof_obQ

速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech

https://mp.weixin.qq.com/s/gaoZ6pQmiXBP3BNDec1nQg

FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2

https://mp.weixin.qq.com/s/JEYucJ16Zsxc6yWHPHGaZA

浙大研发AudioFace:随心录语音就能实时生成3D面部动画

https://mp.weixin.qq.com/s/HubxAFbxCdoaFHNOhfm9QQ

Facebook频谱图模型生成比尔·盖茨声音,性能完胜WaveNet、MAESTRO

https://mp.weixin.qq.com/s/QbSPOHvYD9CGnbPmigeYdA

多语言语音合成和跨语言语音克隆

https://mp.weixin.qq.com/s/McWHS0esRRhIiBlB4CAGXA

柯南变声器的算法原理解析

https://mp.weixin.qq.com/s?__biz=MzIzNjc0MTMwMA==&mid=2247491892&idx=1&sn=d23d0c20e3af340e5a55f19f98636811

2019深度学习语音合成指南

https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652055045&idx=3&sn=5c2a564350bdf5c2acb8679d05cba219

DeepMind推出GAN-TTS:用生成对抗网络实现高保真语音

https://mp.weixin.qq.com/s/-X2bgZ5P5BrPZFDJ-Dl1AQ

MelGAN:基于生成对抗网络快速生成音频

https://zhuanlan.zhihu.com/p/91024324

变分自编码器(VAE)在语音合成中的应用

https://mp.weixin.qq.com/s/oaI_X2SYeKVn7oXWGtFQag

爱奇艺语音转换技术的探索与实践

https://mp.weixin.qq.com/s/qPx1W_OebGgvb4g9Sb944A

使用GAN进行高保真语音合成

https://mp.weixin.qq.com/s/5cn3UBZbA5Cwk4YvKteYBA

吃下文本吐出语音,DeepMind提出新型端到端TTS模型EATS

https://mp.weixin.qq.com/s/eqMs7B70PZO4M7U5S1g5tg

跟郎朗媳妇有得一拼的AI,只看弹琴动作,完美复现原声

https://zhuanlan.zhihu.com/p/278037596

语音转换Voice Conversion—特征分离技术

https://zhuanlan.zhihu.com/p/278243561

语音转换Voice Conversion —直接转换技术

https://mp.weixin.qq.com/s/u2Op6y1vdZKtAlfhAYGLsQ

语音合成方向:歌唱合成(singing voice synthesis)

https://mp.weixin.qq.com/s/FYjXOl7dk3uQriGBuny8DA

志玲姐姐的导航声音是如何产生的??

AMD

Matrix Core

对标英伟达Tensor Core,AMD推出Matrix Core。

高速互联

对标NVLink,AMD推出了:

GMI:Global Memory Interconnect

AMD Infinity Fabric Link

其实Intel也有一个叫做Xelink的东西。

IBM BlueLink

HIP

HIP:Heterogeneous Interface for Portability。

HIP是AMD提出的C++接口,号称能兼容CUDA和自家的ROCm。

https://zhuanlan.zhihu.com/p/545296023

写给CUDA开发者AMD ROCm & Intel oneAPI开发贴士

https://streamhpc.com/blog/2016-04-05/comparing-syntax-cuda-opencl-hip/

Comparing Syntax for CUDA, OpenCL and HiP

Composable Kernel

Composable Kernel(CK)库旨在提供一套在AMD GPU上算子融合的后端方案。

https://www.sohu.com/a/603796560_129720

AMD Composable Kernel: 定制化算子融合,大幅提升AI端到端性能

AITemplate

AITemplate首先在Python层寻找最优的kernel配置,生成Jinja2 template,再生成C++ template:

  • NVIDIA GPU:基于CUTLASS的GPU Tensor Core C++ template;

  • AMD GPU:基于CK(Composable Kernel)的Matrix Core C++ Template。

官网:

https://github.com/facebookincubator/AITemplate

参考:

https://www.zhihu.com/question/557608132

如何看待Meta发布的全新推理引擎AITemplate?

AI服务器

AMD Instinct系列,大致对标NVIDIA DGX。

官网:

https://www.amd.com/zh-hans/graphics/instinct-server-accelerators


https://zhuanlan.zhihu.com/p/434686566

AMD CDNA2架构(MI200)

https://www.zhihu.com/question/606505567

如何看待AMD发布Instinct MI300X GPU芯片?是否在大模型时代威胁Nvidia地位?

其他对标术语

AMD NVIDIA
GCN wavefront(64 threads wide) CUDA warp(32 threads wide)

参考

罗家是台南水仙宫一带的世家。


以前的算法比较简单,数据吞吐量小,AMD的短流水线渲染单元数量多所以效率高。到了Ethash这类重IO算法主流的年代,其实A卡效率还略有优势,但是没以前那么夸张,所以N卡也被拉出来挖。


A卡的新驱动对于老游戏的支持有些差,解决办法:删除游戏目录下的dbghelp.dll文件。


https://www.zhihu.com/question/593343983

截至2023年4月,用AMD显卡做机器学习怎么样?

https://zhuanlan.zhihu.com/p/651797296

通过“最差实践”实验探索AMD GPU调度细节

Fork me on GitHub