Antkillerfarm Hacking V8.0

speech » 语音识别（八）——声纹识别, Video

2020-05-26 :: 6037 Words

WFST（续）
声纹识别
汽车声学
ASR参考资源
Video
NVLink+
- NCCL
- 参考

WFST（续）

https://blog.csdn.net/dearwind153/article/details/70053704

Kaldi HCLG深入理解

https://zhuanlan.zhihu.com/p/31174085

有限状态自动机和转换器在元音和谐处理中的应用。这篇blog研究的问题相对偏门，但是文末附有若干FST方面的软件资源，可以提供OpenFST之外的选择。

https://www.jianshu.com/p/5eb45c64f3e3

深入浅出理解有限状态机

http://infolocata.com/mirovia/finite-state-transducers-for-natural-language-processing/

Finite-State-Transducers for Natural Language Processing

https://zhuanlan.zhihu.com/p/23664023

构建CTC语音识别解码网络

https://mp.weixin.qq.com/s/2Un2Vy33dkxPwe8n7d_Yng

一个有限状态机的C++实现

https://mp.weixin.qq.com/s/Li4GUgFcnotVrswgcX4QFQ

语音识别系列之高阶解码器技术

https://mp.weixin.qq.com/s/UUbYxv2L6A7iTxuFS52VRA

语音识别中的WFST和语言模型

声纹识别

声纹识别关心的“谁在说”，用于解决生物身份确认和识别；而语音识别关心的“说了什么”，用于解决对说话内容的识别。

对测试语音，同样提取mfcc->提取i-vector，然后进行打分，打分的方法有cosine, LDA, PLDA，其中PLDA的效果是最好的，但是需要数据去训练获得参数。

代码的话，推荐kaldi里的sre10/v1，里面有全套的i-vector/PLDA说话人识别系统流程。

这方面的数据集有：

https://ivectorchallenge.nist.gov

NIST i-vector Machine Learning Challenge

参考：

https://zhuanlan.zhihu.com/voicebiometrics

专栏：声纹识别的应用实践

https://www.jianshu.com/p/513dadeef1fd

声纹识别

https://blog.csdn.net/twinkle_star1314/article/details/55049746

声纹识别

https://blog.csdn.net/twinkle_star1314/article/details/55050138

声纹识别2

https://zhuanlan.zhihu.com/p/67088235

声纹识别5大核心知识点

https://zhuanlan.zhihu.com/p/24425179

End-to-End Voiceprint

https://mp.weixin.qq.com/s/I2nbzD2QqSYgahI2jLjYTQ

批训练、注意力模型及其声纹分割应用，谷歌三篇论文揭示其声纹识别技术原理

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650750181&idx=5&sn=96d85740cb3d696cd2833f35f7908a6b

只对你有感觉：谷歌用声纹识别实现定向人声分离

https://mp.weixin.qq.com/s/Cfk3639bCy55qQj4HM2HWw

人工智能老司机带你认识声音黑科技：声纹识别

https://mp.weixin.qq.com/s/XUHS4o2G-iGuV9uuOmfBdQ

为什么在说话人识别技术中，PLDA面对神经网络依然坚挺？

https://mp.weixin.qq.com/s/bgIJMRZ64En3xMk3IGK-Vw

如何基于迁移学习快速识别出讲话的人是谁？

https://mp.weixin.qq.com/s/I2XU9u28S6LFoTY4kizoqw

清华大学郑方：语音技术与身份信息的隐私保护

https://mp.weixin.qq.com/s/YOupCjU06JhRCZNCbMvAgQ

Google开源新AI模型，语音区分准确率92%创新高

https://mp.weixin.qq.com/s/Cx066B8MCnkl4XY1f2AbbA

NIST评测（SRE19）获胜团队声纹识别技术分析

https://mp.weixin.qq.com/s/buTWsIPPmx9npt6MxSo7EQ

解锁声纹技术中的说话人日志

https://mp.weixin.qq.com/s/uvoj64TVEOP0E3pWV-DkfQ

attention在声纹识别中的应用

https://mp.weixin.qq.com/s/tl6D_A-SuUj_W76yu_pvkg

声纹识别助力身份认证

https://mp.weixin.qq.com/s/QuWKW3Hl8kho9RvHcn-uLQ

声纹分割聚类（Speaker Diarization）概要

汽车声学

https://zhuanlan.zhihu.com/p/22722073

当我谈汽车声学时，我在谈什么(一)

https://zhuanlan.zhihu.com/p/28608243

当我谈汽车声学时，我在谈什么(二)

https://zhuanlan.zhihu.com/p/31240294

当我谈汽车声学时，我在谈什么(三)

https://zhuanlan.zhihu.com/p/34256635

当我谈汽车声学时，我在谈什么(四)

ASR参考资源

https://zhuanlan.zhihu.com/p/40329331

谈谈语音识别与人声的物理原理，以及真声假声头声混声等概念

https://mp.weixin.qq.com/s/CjWNZf225OELIBoWRAbakg

全面了解什么是语音交互

https://mp.weixin.qq.com/s/NZUOy4KOL-19fGxC8JHYGw

语音识别系列之决策树

https://mp.weixin.qq.com/s/FsZqX-Uwk1-ciXTH_vCNng

声学发展史之——超声：寻找杰克，始于泰坦尼克号

https://mp.weixin.qq.com/s/_v-H1eapsBshp-sl7KHh2A

盘点欧洲知名声学实验室

https://mp.weixin.qq.com/s/iS0bz8w9qrKCrQIO2PFN6Q

关于主动降噪耳机，你想知道的一切（一）

https://mp.weixin.qq.com/s/BZMvDn4_mlaoV8m1DqT85A

关于主动降噪耳机，你想知道的一切（二）：前馈自适应

https://mp.weixin.qq.com/s/2tq8tMnMGbNfe_javn07Eg

关于主动降噪耳机，你想知道的一切（三）

https://mp.weixin.qq.com/s/jJZ-Gx4cush3We_Nsmo4CA

关于主动降噪耳机，你想知道的一切（四）

https://mp.weixin.qq.com/s/qJS3cyWloNrON5-wCTXucw

关于主动降噪耳机，你想知道的一切（五）

https://mp.weixin.qq.com/s/PXSsMyWeUCOxrzX-5wkp5g

什么是音色？

https://mp.weixin.qq.com/s/BJshUILPcX-xA6ayn8J4oA

听音识瓜：怎样挑选一个好的西瓜？

https://mp.weixin.qq.com/s/hParUanfg0JxagE5Qk0VYQ

噪声控制简史，以及几个简单的声学概念

https://mp.weixin.qq.com/s/6KBQ9CzyMcUPiJTppI5eFQ

耳朵的进化

https://mp.weixin.qq.com/s/J11lDgGsYXLgT7jXmRQtAA

地球上最先进的麦克风，居是苍蝇耳朵

https://zhuanlan.zhihu.com/p/678715752

音频算法之音频预处理

Video

WebRTC

Gobal IP Solutions，简称GIPS。这是一家1990年成立于瑞典斯德哥尔摩的VoIP软件开发商，提供了可以说是世界上最好的语音引擎。

Skype、腾讯 QQ、WebEx、Vidyo 等都使用了它的音频处理引擎，包含了受专利保护的回声消除算法，适应网络抖动和丢包的低延迟算法，以及先进的音频编解码器。

Google在2011年收购了GIPS，并将其源代码开源，加上在2010年收购的On2获取到的VPx系列视频编解码器，WebRTC开源项目应运而生，即GIPS音视频引擎+替换掉H.264的VPx视频编解码器。

https://mp.weixin.qq.com/s/DhQ0kks7SnyAROYEH_1BQg

进击的WebRTC：我们为什么需要它？

http://blog.shengbin.me/posts/multi-user-video-conference-based-on-webrtc

基于WebRTC的多人视频会议

https://mp.weixin.qq.com/s/JAzROTYsnF_JqiI5vjVglA

腾讯天籁：音频联合信源信道编码技术白皮书

H.264/AVC

H.264的开源实现主要有：

JM：

https://iphome.hhi.de/suehring/tml/

X264：

https://www.videolan.org/developers/x264.html

X264是从JM的早期版本发展而来，是JM的简化优化版本：只支持H.264的一个子集，并进行了针对性的工程优化。

参考：

https://blog.csdn.net/leixiaohua1020/article/details/45536607

x264源代码简单分析：概述

H.265/HEVC

H.264的开源实现主要有：

HM：

https://hevc.hhi.fraunhofer.de/

可以看得出HM和JM系出同门，都是德国Fraunhofer研究所的产品。

x265：

https://www.videolan.org/developers/x265.html

国内这些做视频业务的大公司有一个算一个，大家所谓”自研编码器”，都是基于JM和x264，以及HM和x265开源代码做自己的优化。都是一个爹妈生的。

H.265可不是免费使用的。至少有四家组织或公司在收取HEVC的许可费用：老牌的专利池MPEG LA，新兴的专利池HEVC Advance和Velos Media，以及Technicolor公司。

比如说一项标准有2000个专利组成，这些专利来自于50个公司，这些公司有权利对自己的专利收费。设备生产商和内容生产商要给50个公司交专利显然很麻烦，他们可以把这2000项专利授权给一个组织，由他代收，再分发给这些专利提供公司。h.264就是这样。h.265这些公司由于对于收费的标准产生了不同的意见，组成了不同的专利池，分别对于自己的专利收费。

在过去的30年里，不同的组织发布了很多视频标准。幸运的是，这些标准都是基于块的运动补偿和混合变换方案。事实上，自从h.261发布以来，这些编码方法从未改变过。

H.266/VVC

https://www.zhihu.com/question/406149352

如何看待最新的国际视频编解码标准H.266?

流媒体服务器

流媒体服务器主要可用于视频直播领域。

https://cloud.tencent.com/developer/article/1786233

SRS、EasyDarwin、ZLMediaKit、Monibuca对比分析

参考

https://zhuanlan.zhihu.com/p/559429803

视频压缩的原理-发展-应用，手把手教你学习codec

https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/106152333

从HEVC到通用视频编码的下一代视频压缩技术

NVLink+

NCCL

NCCL是Nvidia Collective multi-GPU Communication Library的简称，它是一个实现多GPU的collective communication通信库，可以在PCIe、Nvlink、InfiniBand上实现较高的通信速度。

官方文档：

https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/index.html

nccl v1：支持单机多卡通信，不支持多机通信。

nccl v2：支持多机通信。

参考：

https://www.zhihu.com/question/63219175

如何理解Nvidia英伟达的Multi-GPU多卡通信框架NCCL？

https://zhuanlan.zhihu.com/p/364816069

NCCL–GPU的collective communication通信技术

https://blog.csdn.net/TH_NUM/article/details/81479317

nvidia-nccl学习笔记

https://developer.nvidia.com/blog/fast-multi-gpu-collectives-nccl/

Fast Multi-GPU collectives with NCCL

https://zhuanlan.zhihu.com/p/701623664

由A800平台训练InternLM-7B无法收敛引发的思考

参考

https://www.infoq.cn/article/3D4MsRVS8ZOtGCj7*krT

GPU通信技术初探

https://zhuanlan.zhihu.com/p/67785062

不止显卡！这些硬件因素也影响着你的深度学习模型性能

https://zhuanlan.zhihu.com/p/680702927

NVLink发展概述

您的打赏，是对我的鼓励

speech » 语音识别（八）——声纹识别, Video

WFST（续）

声纹识别

汽车声学

ASR参考资源

Video

WebRTC

H.264/AVC

H.265/HEVC

H.266/VVC

流媒体服务器

参考

NVLink+

NCCL

参考

Recent Posts in speech

Recent Posts in All Blogs