Antkillerfarm Hacking V7.0

语音识别(八)——声纹识别, Video

2020-05-26

WFST(续)

https://blog.csdn.net/dearwind153/article/details/70053704

Kaldi HCLG深入理解

https://zhuanlan.zhihu.com/p/31174085

有限状态自动机和转换器在元音和谐处理中的应用。这篇blog研究的问题相对偏门,但是文末附有若干FST方面的软件资源,可以提供OpenFST之外的选择。

https://www.jianshu.com/p/5eb45c64f3e3

深入浅出理解有限状态机

http://infolocata.com/mirovia/finite-state-transducers-for-natural-language-processing/

Finite-State-Transducers for Natural Language Processing

https://zhuanlan.zhihu.com/p/23664023

构建CTC语音识别解码网络

https://mp.weixin.qq.com/s/2Un2Vy33dkxPwe8n7d_Yng

一个有限状态机的C++实现

https://mp.weixin.qq.com/s/Li4GUgFcnotVrswgcX4QFQ

语音识别系列之高阶解码器技术

https://mp.weixin.qq.com/s/UUbYxv2L6A7iTxuFS52VRA

语音识别中的WFST和语言模型

声纹识别

声纹识别关心的“谁在说”,用于解决生物身份确认和识别;而语音识别关心的“说了什么”,用于解决对说话内容的识别

对测试语音,同样提取mfcc->提取i-vector,然后进行打分,打分的方法有cosine, LDA, PLDA,其中PLDA的效果是最好的,但是需要数据去训练获得参数。

代码的话,推荐kaldi里的sre10/v1,里面有全套的i-vector/PLDA说话人识别系统流程。

这方面的数据集有:

https://ivectorchallenge.nist.gov

NIST i-vector Machine Learning Challenge

参考:

https://zhuanlan.zhihu.com/voicebiometrics

专栏:声纹识别的应用实践

https://www.jianshu.com/p/513dadeef1fd

声纹识别

https://blog.csdn.net/twinkle_star1314/article/details/55049746

声纹识别

https://blog.csdn.net/twinkle_star1314/article/details/55050138

声纹识别2

https://zhuanlan.zhihu.com/p/67088235

声纹识别5大核心知识点

https://zhuanlan.zhihu.com/p/24425179

End-to-End Voiceprint

https://mp.weixin.qq.com/s/I2nbzD2QqSYgahI2jLjYTQ

批训练、注意力模型及其声纹分割应用,谷歌三篇论文揭示其声纹识别技术原理

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650750181&idx=5&sn=96d85740cb3d696cd2833f35f7908a6b

只对你有感觉:谷歌用声纹识别实现定向人声分离

https://mp.weixin.qq.com/s/Cfk3639bCy55qQj4HM2HWw

人工智能老司机带你认识声音黑科技:声纹识别

https://mp.weixin.qq.com/s/XUHS4o2G-iGuV9uuOmfBdQ

为什么在说话人识别技术中,PLDA面对神经网络依然坚挺?

https://mp.weixin.qq.com/s/bgIJMRZ64En3xMk3IGK-Vw

如何基于迁移学习快速识别出讲话的人是谁?

https://mp.weixin.qq.com/s/I2XU9u28S6LFoTY4kizoqw

清华大学郑方:语音技术与身份信息的隐私保护

https://mp.weixin.qq.com/s/YOupCjU06JhRCZNCbMvAgQ

Google开源新AI模型,语音区分准确率92%创新高

https://mp.weixin.qq.com/s/Cx066B8MCnkl4XY1f2AbbA

NIST评测(SRE19)获胜团队声纹识别技术分析

https://mp.weixin.qq.com/s/buTWsIPPmx9npt6MxSo7EQ

解锁声纹技术中的说话人日志

https://mp.weixin.qq.com/s/uvoj64TVEOP0E3pWV-DkfQ

attention在声纹识别中的应用

https://mp.weixin.qq.com/s/tl6D_A-SuUj_W76yu_pvkg

声纹识别助力身份认证

https://mp.weixin.qq.com/s/QuWKW3Hl8kho9RvHcn-uLQ

声纹分割聚类(Speaker Diarization)概要

汽车声学

https://zhuanlan.zhihu.com/p/22722073

当我谈汽车声学时,我在谈什么(一)

https://zhuanlan.zhihu.com/p/28608243

当我谈汽车声学时,我在谈什么(二)

https://zhuanlan.zhihu.com/p/31240294

当我谈汽车声学时,我在谈什么(三)

https://zhuanlan.zhihu.com/p/34256635

当我谈汽车声学时,我在谈什么(四)

ASR参考资源

https://zhuanlan.zhihu.com/p/40329331

谈谈语音识别与人声的物理原理,以及真声假声头声混声等概念

https://mp.weixin.qq.com/s/CjWNZf225OELIBoWRAbakg

全面了解什么是语音交互

https://mp.weixin.qq.com/s/NZUOy4KOL-19fGxC8JHYGw

语音识别系列之决策树

https://mp.weixin.qq.com/s/FsZqX-Uwk1-ciXTH_vCNng

声学发展史之——超声:寻找杰克,始于泰坦尼克号

https://mp.weixin.qq.com/s/_v-H1eapsBshp-sl7KHh2A

盘点欧洲知名声学实验室

https://mp.weixin.qq.com/s/iS0bz8w9qrKCrQIO2PFN6Q

关于主动降噪耳机,你想知道的一切(一)

https://mp.weixin.qq.com/s/BZMvDn4_mlaoV8m1DqT85A

关于主动降噪耳机,你想知道的一切(二):前馈自适应

https://mp.weixin.qq.com/s/2tq8tMnMGbNfe_javn07Eg

关于主动降噪耳机,你想知道的一切(三)

https://mp.weixin.qq.com/s/jJZ-Gx4cush3We_Nsmo4CA

关于主动降噪耳机,你想知道的一切(四)

https://mp.weixin.qq.com/s/qJS3cyWloNrON5-wCTXucw

关于主动降噪耳机,你想知道的一切(五)

https://mp.weixin.qq.com/s/PXSsMyWeUCOxrzX-5wkp5g

什么是音色?

https://mp.weixin.qq.com/s/BJshUILPcX-xA6ayn8J4oA

听音识瓜:怎样挑选一个好的西瓜?

https://mp.weixin.qq.com/s/hParUanfg0JxagE5Qk0VYQ

噪声控制简史,以及几个简单的声学概念

https://mp.weixin.qq.com/s/6KBQ9CzyMcUPiJTppI5eFQ

耳朵的进化

https://mp.weixin.qq.com/s/J11lDgGsYXLgT7jXmRQtAA

地球上最先进的麦克风,居是苍蝇耳朵

https://zhuanlan.zhihu.com/p/678715752

音频算法之音频预处理

Video

WebRTC

Gobal IP Solutions,简称GIPS。这是一家1990年成立于瑞典斯德哥尔摩的VoIP软件开发商,提供了可以说是世界上最好的语音引擎。

Skype、腾讯 QQ、WebEx、Vidyo 等都使用了它的音频处理引擎,包含了受专利保护的回声消除算法,适应网络抖动和丢包的低延迟算法,以及先进的音频编解码器。

Google在2011年收购了GIPS,并将其源代码开源,加上在2010年收购的On2获取到的VPx系列视频编解码器,WebRTC开源项目应运而生,即GIPS音视频引擎+替换掉H.264的VPx视频编解码器。

https://mp.weixin.qq.com/s/DhQ0kks7SnyAROYEH_1BQg

进击的WebRTC:我们为什么需要它?

http://blog.shengbin.me/posts/multi-user-video-conference-based-on-webrtc

基于WebRTC的多人视频会议

https://mp.weixin.qq.com/s/JAzROTYsnF_JqiI5vjVglA

腾讯天籁:音频联合信源信道编码技术白皮书

H.264/AVC

H.264的开源实现主要有:

JM:

https://iphome.hhi.de/suehring/tml/

X264:

https://www.videolan.org/developers/x264.html

X264是从JM的早期版本发展而来,是JM的简化优化版本:只支持H.264的一个子集,并进行了针对性的工程优化。

参考:

https://blog.csdn.net/leixiaohua1020/article/details/45536607

x264源代码简单分析:概述

H.265/HEVC

H.264的开源实现主要有:

HM:

https://hevc.hhi.fraunhofer.de/

可以看得出HM和JM系出同门,都是德国Fraunhofer研究所的产品。

x265:

https://www.videolan.org/developers/x265.html


国内这些做视频业务的大公司有一个算一个,大家所谓”自研编码器”,都是基于JM和x264,以及HM和x265开源代码做自己的优化。都是一个爹妈生的。

H.265可不是免费使用的。至少有四家组织或公司在收取HEVC的许可费用:老牌的专利池MPEG LA,新兴的专利池HEVC Advance和Velos Media,以及Technicolor公司。

比如说一项标准有2000个专利组成,这些专利来自于50个公司,这些公司有权利对自己的专利收费。设备生产商和内容生产商要给50个公司交专利显然很麻烦,他们可以把这2000项专利授权给一个组织,由他代收,再分发给这些专利提供公司。h.264就是这样。h.265这些公司由于对于收费的标准产生了不同的意见,组成了不同的专利池,分别对于自己的专利收费。


在过去的30年里,不同的组织发布了很多视频标准。幸运的是,这些标准都是基于块的运动补偿和混合变换方案。事实上,自从h.261发布以来,这些编码方法从未改变过。

H.266/VVC

https://www.zhihu.com/question/406149352

如何看待最新的国际视频编解码标准H.266?

流媒体服务器

流媒体服务器主要可用于视频直播领域。

https://cloud.tencent.com/developer/article/1786233

SRS、EasyDarwin、ZLMediaKit、Monibuca对比分析

参考

https://zhuanlan.zhihu.com/p/559429803

视频压缩的原理-发展-应用,手把手教你学习codec

https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/106152333

从HEVC到通用视频编码的下一代视频压缩技术

Fork me on GitHub