https://blog.csdn.net/dearwind153/article/details/70053704
Kaldi HCLG深入理解
https://zhuanlan.zhihu.com/p/31174085
有限状态自动机和转换器在元音和谐处理中的应用。这篇blog研究的问题相对偏门,但是文末附有若干FST方面的软件资源,可以提供OpenFST之外的选择。
https://www.jianshu.com/p/5eb45c64f3e3
深入浅出理解有限状态机
http://infolocata.com/mirovia/finite-state-transducers-for-natural-language-processing/
Finite-State-Transducers for Natural Language Processing
https://zhuanlan.zhihu.com/p/23664023
构建CTC语音识别解码网络
https://mp.weixin.qq.com/s/2Un2Vy33dkxPwe8n7d_Yng
一个有限状态机的C++实现
https://mp.weixin.qq.com/s/Li4GUgFcnotVrswgcX4QFQ
语音识别系列之高阶解码器技术
https://mp.weixin.qq.com/s/UUbYxv2L6A7iTxuFS52VRA
语音识别中的WFST和语言模型
声纹识别关心的“谁在说”,用于解决生物身份确认和识别;而语音识别关心的“说了什么”,用于解决对说话内容的识别。
对测试语音,同样提取mfcc->提取i-vector,然后进行打分,打分的方法有cosine, LDA, PLDA,其中PLDA的效果是最好的,但是需要数据去训练获得参数。
代码的话,推荐kaldi里的sre10/v1,里面有全套的i-vector/PLDA说话人识别系统流程。
这方面的数据集有:
https://ivectorchallenge.nist.gov
NIST i-vector Machine Learning Challenge
参考:
https://zhuanlan.zhihu.com/voicebiometrics
专栏:声纹识别的应用实践
https://www.jianshu.com/p/513dadeef1fd
声纹识别
https://blog.csdn.net/twinkle_star1314/article/details/55049746
声纹识别
https://blog.csdn.net/twinkle_star1314/article/details/55050138
声纹识别2
https://zhuanlan.zhihu.com/p/67088235
声纹识别5大核心知识点
https://zhuanlan.zhihu.com/p/24425179
End-to-End Voiceprint
https://mp.weixin.qq.com/s/I2nbzD2QqSYgahI2jLjYTQ
批训练、注意力模型及其声纹分割应用,谷歌三篇论文揭示其声纹识别技术原理
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650750181&idx=5&sn=96d85740cb3d696cd2833f35f7908a6b
只对你有感觉:谷歌用声纹识别实现定向人声分离
https://mp.weixin.qq.com/s/Cfk3639bCy55qQj4HM2HWw
人工智能老司机带你认识声音黑科技:声纹识别
https://mp.weixin.qq.com/s/XUHS4o2G-iGuV9uuOmfBdQ
为什么在说话人识别技术中,PLDA面对神经网络依然坚挺?
https://mp.weixin.qq.com/s/bgIJMRZ64En3xMk3IGK-Vw
如何基于迁移学习快速识别出讲话的人是谁?
https://mp.weixin.qq.com/s/I2XU9u28S6LFoTY4kizoqw
清华大学郑方:语音技术与身份信息的隐私保护
https://mp.weixin.qq.com/s/YOupCjU06JhRCZNCbMvAgQ
Google开源新AI模型,语音区分准确率92%创新高
https://mp.weixin.qq.com/s/Cx066B8MCnkl4XY1f2AbbA
NIST评测(SRE19)获胜团队声纹识别技术分析
https://mp.weixin.qq.com/s/buTWsIPPmx9npt6MxSo7EQ
解锁声纹技术中的说话人日志
https://mp.weixin.qq.com/s/uvoj64TVEOP0E3pWV-DkfQ
attention在声纹识别中的应用
https://mp.weixin.qq.com/s/tl6D_A-SuUj_W76yu_pvkg
声纹识别助力身份认证
https://mp.weixin.qq.com/s/QuWKW3Hl8kho9RvHcn-uLQ
声纹分割聚类(Speaker Diarization)概要
https://zhuanlan.zhihu.com/p/22722073
当我谈汽车声学时,我在谈什么(一)
https://zhuanlan.zhihu.com/p/28608243
当我谈汽车声学时,我在谈什么(二)
https://zhuanlan.zhihu.com/p/31240294
当我谈汽车声学时,我在谈什么(三)
https://zhuanlan.zhihu.com/p/34256635
当我谈汽车声学时,我在谈什么(四)
https://zhuanlan.zhihu.com/p/40329331
谈谈语音识别与人声的物理原理,以及真声假声头声混声等概念
https://mp.weixin.qq.com/s/CjWNZf225OELIBoWRAbakg
全面了解什么是语音交互
https://mp.weixin.qq.com/s/NZUOy4KOL-19fGxC8JHYGw
语音识别系列之决策树
https://mp.weixin.qq.com/s/FsZqX-Uwk1-ciXTH_vCNng
声学发展史之——超声:寻找杰克,始于泰坦尼克号
https://mp.weixin.qq.com/s/_v-H1eapsBshp-sl7KHh2A
盘点欧洲知名声学实验室
https://mp.weixin.qq.com/s/iS0bz8w9qrKCrQIO2PFN6Q
关于主动降噪耳机,你想知道的一切(一)
https://mp.weixin.qq.com/s/BZMvDn4_mlaoV8m1DqT85A
关于主动降噪耳机,你想知道的一切(二):前馈自适应
https://mp.weixin.qq.com/s/2tq8tMnMGbNfe_javn07Eg
关于主动降噪耳机,你想知道的一切(三)
https://mp.weixin.qq.com/s/jJZ-Gx4cush3We_Nsmo4CA
关于主动降噪耳机,你想知道的一切(四)
https://mp.weixin.qq.com/s/qJS3cyWloNrON5-wCTXucw
关于主动降噪耳机,你想知道的一切(五)
https://mp.weixin.qq.com/s/PXSsMyWeUCOxrzX-5wkp5g
什么是音色?
https://mp.weixin.qq.com/s/BJshUILPcX-xA6ayn8J4oA
听音识瓜:怎样挑选一个好的西瓜?
https://mp.weixin.qq.com/s/hParUanfg0JxagE5Qk0VYQ
噪声控制简史,以及几个简单的声学概念
https://mp.weixin.qq.com/s/6KBQ9CzyMcUPiJTppI5eFQ
耳朵的进化
https://mp.weixin.qq.com/s/J11lDgGsYXLgT7jXmRQtAA
地球上最先进的麦克风,居是苍蝇耳朵
https://zhuanlan.zhihu.com/p/678715752
音频算法之音频预处理
Gobal IP Solutions,简称GIPS。这是一家1990年成立于瑞典斯德哥尔摩的VoIP软件开发商,提供了可以说是世界上最好的语音引擎。
Skype、腾讯 QQ、WebEx、Vidyo 等都使用了它的音频处理引擎,包含了受专利保护的回声消除算法,适应网络抖动和丢包的低延迟算法,以及先进的音频编解码器。
Google在2011年收购了GIPS,并将其源代码开源,加上在2010年收购的On2获取到的VPx系列视频编解码器,WebRTC开源项目应运而生,即GIPS音视频引擎+替换掉H.264的VPx视频编解码器。
https://mp.weixin.qq.com/s/DhQ0kks7SnyAROYEH_1BQg
进击的WebRTC:我们为什么需要它?
http://blog.shengbin.me/posts/multi-user-video-conference-based-on-webrtc
基于WebRTC的多人视频会议
https://mp.weixin.qq.com/s/JAzROTYsnF_JqiI5vjVglA
腾讯天籁:音频联合信源信道编码技术白皮书
H.264的开源实现主要有:
JM:
https://iphome.hhi.de/suehring/tml/
X264:
https://www.videolan.org/developers/x264.html
X264是从JM的早期版本发展而来,是JM的简化优化版本:只支持H.264的一个子集,并进行了针对性的工程优化。
参考:
https://blog.csdn.net/leixiaohua1020/article/details/45536607
x264源代码简单分析:概述
H.264的开源实现主要有:
HM:
https://hevc.hhi.fraunhofer.de/
可以看得出HM和JM系出同门,都是德国Fraunhofer研究所的产品。
x265:
https://www.videolan.org/developers/x265.html
国内这些做视频业务的大公司有一个算一个,大家所谓”自研编码器”,都是基于JM和x264,以及HM和x265开源代码做自己的优化。都是一个爹妈生的。
H.265可不是免费使用的。至少有四家组织或公司在收取HEVC的许可费用:老牌的专利池MPEG LA,新兴的专利池HEVC Advance和Velos Media,以及Technicolor公司。
比如说一项标准有2000个专利组成,这些专利来自于50个公司,这些公司有权利对自己的专利收费。设备生产商和内容生产商要给50个公司交专利显然很麻烦,他们可以把这2000项专利授权给一个组织,由他代收,再分发给这些专利提供公司。h.264就是这样。h.265这些公司由于对于收费的标准产生了不同的意见,组成了不同的专利池,分别对于自己的专利收费。
在过去的30年里,不同的组织发布了很多视频标准。幸运的是,这些标准都是基于块的运动补偿和混合变换方案。事实上,自从h.261发布以来,这些编码方法从未改变过。
https://www.zhihu.com/question/406149352
如何看待最新的国际视频编解码标准H.266?
流媒体服务器主要可用于视频直播领域。
https://cloud.tencent.com/developer/article/1786233
SRS、EasyDarwin、ZLMediaKit、Monibuca对比分析
https://zhuanlan.zhihu.com/p/559429803
视频压缩的原理-发展-应用,手把手教你学习codec
https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/106152333
从HEVC到通用视频编码的下一代视频压缩技术
您的打赏,是对我的鼓励