https://mp.weixin.qq.com/s/I_WiSkA4Cu7N_FmoEJTADg
一次对语音技术的彻底批判
https://mp.weixin.qq.com/s/CXIO05_09vwWFJwfDyZQUA
迈向语音识别领域的ImageNet时刻
https://mp.weixin.qq.com/s/Izn6LPCRKNxkTHmkqbAzeg
从算法到应用:滴滴端到端语音AI技术实践
https://mp.weixin.qq.com/s/YTQOgGvFfBdasV18PmboGQ
深度学习在单声道录音中的说话人角色识别优化实践
https://mp.weixin.qq.com/s/PAHwyoxNbi8HDMGh2JtJPQ
58同城语音识别技术的探索和实践
https://mp.weixin.qq.com/s/A9bSp3H3UzAEgL4N7o1KpQ
使用tensorflow进行音乐类型的分类
https://mp.weixin.qq.com/s/j9Kis3AsyYjo3EYOJ6XzBA
端到端声源分离研究:现状、进展和未来
https://mp.weixin.qq.com/s/RC2Yj0cCXBBJaPpflBLB-w
语种识别
https://mp.weixin.qq.com/s/w6Uxr8oB_PHvIHf9ksTVsw
LRSpeech:极低资源下的语音合成与识别
https://mp.weixin.qq.com/s/TdGq07BZ9JcYeKo6Y8gtdA
音频预训练模型
https://mp.weixin.qq.com/s/ybanqEzEDtwTJ-y6piBv8Q
黑白键上的字节跳动:全球最大钢琴MIDI数据集背后的故事
https://mp.weixin.qq.com/s/wZfBg175ylxZj-k4Xzggqw
端到端语音识别模型
https://mp.weixin.qq.com/s/kEtoG4QVNn248k3Yhulrvw
《语音识别引擎后端架构设计》58同城
https://mp.weixin.qq.com/s/x_l5QliTPv7NyUJ5k4uaMQ
基于Transformer的高效、低延时、流式语音识别模型
https://mp.weixin.qq.com/s/4zm4kO4CU9-0sYKTSYdudw
10小时训练数据打造多语种语音识别新高度
https://mp.weixin.qq.com/s/_84nqrEMGC-Q-fPdEiPDgQ
3人半年打造语音识别引擎——58同城语音识别自研之路
https://mp.weixin.qq.com/s/8dFWQ-7m0jN5PvVIUeM33w
利用Android手机和YAMNet ML模型进行声音分类(一)
https://mp.weixin.qq.com/s/y7UZooc97gPgonnM3C9qxg
利用Android手机和YAMNet ML模型进行声音分类(二)
https://mp.weixin.qq.com/s/xS0fS8Haxt_DXxlw7VEo4Q
移动端的语音识别分享
https://mp.weixin.qq.com/s/wRAc0Vzrdxqr-dqXqqYapw
中文文本纠错算法–错别字纠正的二三事
https://zhuanlan.zhihu.com/p/377983386
流式语音识别原理和实现思路
https://mp.weixin.qq.com/s/zgoc3g5p-bq5xTKI_7Z8gA
ASR:从GMM到Transformer
https://mp.weixin.qq.com/s/jwV4glj8vIUKSelzeRrxSg
语音合成
https://mp.weixin.qq.com/s/bFjXDQlxRbt1ia-DSfYazw
SampleRNN语音合成模型
https://mp.weixin.qq.com/s/xAO7mX64miTXE8E2vZ5q_w
Facebook开源TTS神经网络VoiceLoop:基于室外声音的语音合成
https://mp.weixin.qq.com/s/CVBSvQwnDqT-IVCZV7idog
极限元语音算法专家刘斌:基于深度学习的语音生成问题
https://mp.weixin.qq.com/s/zWmJ3uXnFtXaI2BotoadHA
从技术到产品,苹果Siri深度学习语音合成技术揭秘
https://mp.weixin.qq.com/s/6xxXOx59lDZx0kUPb_ftBA
漫谈语音合成之Char2Wav模型
https://mp.weixin.qq.com/s/8e4bkyTJIxHZ1y95GshA0Q
开源的语音合成系统WORLD介绍以及使用方法
https://mp.weixin.qq.com/s/JSnyE2k7jqd5GR1lHA6WUg
阿里巴巴Oral论文:用于语音合成的深度前馈序列记忆网络
https://mp.weixin.qq.com/s/p_VjFwwDCu1i_ovUljaoVw
阿里巴巴语音交互智能团队:基于线性网络的语音合成说话人自适应
https://mp.weixin.qq.com/s/imotc0RfPsvA9h5-1nouMA
端到端语音合成及其优化实践(上))
https://mp.weixin.qq.com/s/NlOH0wmToJvDudIDC-aM1g
端到端语音合成及其优化实践(下)
https://mp.weixin.qq.com/s/HLe4DUZWWfdorcgYOj9gzw
语音合成领域的首个完全端到端模型,百度提出并行音频波形生成模型ClariNet
https://zhuanlan.zhihu.com/p/45702794
微信是不是可以来一个文字转语音功能了?
https://mp.weixin.qq.com/s/DB2C-a_xEyoczuNSG9Bt7w
基于深度前馈序列记忆网络,如何将语音合成速度提升四倍?
https://mp.weixin.qq.com/s/t1ht3weG63Sj59n-MW-Prw
语音合成论文和英伟达撞车,韩国小哥紧急放出全部草稿代码和样本
https://mp.weixin.qq.com/s/1glxeUx-4DCWRjJQMW7IiQ
语音合成论文与韩国小哥“撞车”后续:英伟达“赶紧”把代码开源了
https://mp.weixin.qq.com/s/c1QSGia52ICTc25i-C91Rg
GAN跨界合成高保真音乐,Jeff Dean听了都陶醉
https://mp.weixin.qq.com/s/f1W7PFLwkoJtVXb_7Rh3sw
极大提升合成速度,百度提出首个全并行语音合成模型ParaNet
https://mp.weixin.qq.com/s/aHupAjPNFdUdaG9Uof_obQ
速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech
https://mp.weixin.qq.com/s/gaoZ6pQmiXBP3BNDec1nQg
FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2
https://mp.weixin.qq.com/s/JEYucJ16Zsxc6yWHPHGaZA
浙大研发AudioFace:随心录语音就能实时生成3D面部动画
https://mp.weixin.qq.com/s/HubxAFbxCdoaFHNOhfm9QQ
Facebook频谱图模型生成比尔·盖茨声音,性能完胜WaveNet、MAESTRO
https://mp.weixin.qq.com/s/QbSPOHvYD9CGnbPmigeYdA
多语言语音合成和跨语言语音克隆
https://mp.weixin.qq.com/s/McWHS0esRRhIiBlB4CAGXA
柯南变声器的算法原理解析
https://mp.weixin.qq.com/s?__biz=MzIzNjc0MTMwMA==&mid=2247491892&idx=1&sn=d23d0c20e3af340e5a55f19f98636811
2019深度学习语音合成指南
https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652055045&idx=3&sn=5c2a564350bdf5c2acb8679d05cba219
DeepMind推出GAN-TTS:用生成对抗网络实现高保真语音
https://mp.weixin.qq.com/s/-X2bgZ5P5BrPZFDJ-Dl1AQ
MelGAN:基于生成对抗网络快速生成音频
https://zhuanlan.zhihu.com/p/91024324
变分自编码器(VAE)在语音合成中的应用
https://mp.weixin.qq.com/s/oaI_X2SYeKVn7oXWGtFQag
爱奇艺语音转换技术的探索与实践
https://mp.weixin.qq.com/s/qPx1W_OebGgvb4g9Sb944A
使用GAN进行高保真语音合成
https://mp.weixin.qq.com/s/5cn3UBZbA5Cwk4YvKteYBA
吃下文本吐出语音,DeepMind提出新型端到端TTS模型EATS
https://mp.weixin.qq.com/s/eqMs7B70PZO4M7U5S1g5tg
跟郎朗媳妇有得一拼的AI,只看弹琴动作,完美复现原声
https://zhuanlan.zhihu.com/p/278037596
语音转换Voice Conversion—特征分离技术
https://zhuanlan.zhihu.com/p/278243561
语音转换Voice Conversion —直接转换技术
https://mp.weixin.qq.com/s/u2Op6y1vdZKtAlfhAYGLsQ
语音合成方向:歌唱合成(singing voice synthesis)
https://mp.weixin.qq.com/s/FYjXOl7dk3uQriGBuny8DA
志玲姐姐的导航声音是如何产生的??
对标英伟达Tensor Core,AMD推出Matrix Core。
对标NVLink,AMD推出了:
GMI:Global Memory Interconnect
AMD Infinity Fabric Link
其实Intel也有一个叫做Xelink的东西。
IBM BlueLink
HIP:Heterogeneous Interface for Portability。
HIP是AMD提出的C++接口,号称能兼容CUDA和自家的ROCm。
https://zhuanlan.zhihu.com/p/545296023
写给CUDA开发者AMD ROCm & Intel oneAPI开发贴士
https://streamhpc.com/blog/2016-04-05/comparing-syntax-cuda-opencl-hip/
Comparing Syntax for CUDA, OpenCL and HiP
Composable Kernel(CK)库旨在提供一套在AMD GPU上算子融合的后端方案。
https://www.sohu.com/a/603796560_129720
AMD Composable Kernel: 定制化算子融合,大幅提升AI端到端性能
AITemplate首先在Python层寻找最优的kernel配置,生成Jinja2 template,再生成C++ template:
NVIDIA GPU:基于CUTLASS的GPU Tensor Core C++ template;
AMD GPU:基于CK(Composable Kernel)的Matrix Core C++ Template。
官网:
https://github.com/facebookincubator/AITemplate
参考:
https://www.zhihu.com/question/557608132
如何看待Meta发布的全新推理引擎AITemplate?
AMD Instinct系列,大致对标NVIDIA DGX。
官网:
https://www.amd.com/zh-hans/graphics/instinct-server-accelerators
https://zhuanlan.zhihu.com/p/434686566
AMD CDNA2架构(MI200)
https://www.zhihu.com/question/606505567
如何看待AMD发布Instinct MI300X GPU芯片?是否在大模型时代威胁Nvidia地位?
AMD | NVIDIA |
---|---|
GCN wavefront(64 threads wide) | CUDA warp(32 threads wide) |
罗家是台南水仙宫一带的世家。
以前的算法比较简单,数据吞吐量小,AMD的短流水线渲染单元数量多所以效率高。到了Ethash这类重IO算法主流的年代,其实A卡效率还略有优势,但是没以前那么夸张,所以N卡也被拉出来挖。
A卡的新驱动对于老游戏的支持有些差,解决办法:删除游戏目录下的dbghelp.dll文件。
https://www.zhihu.com/question/593343983
截至2023年4月,用AMD显卡做机器学习怎么样?
https://zhuanlan.zhihu.com/p/651797296
通过“最差实践”实验探索AMD GPU调度细节
您的打赏,是对我的鼓励
请访问这里提交评论