Megatron是NVIDIA的研究小组。目前已经推出了三篇论文:
《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》
《Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM》
《Reducing Activation Recomputation in Large Transformer Models》
目前训练超大规模语言模型主要有两条技术路线:TPU + XLA + TensorFlow/JAX和GPU + PyTorch + Megatron-LM + DeepSpeed。前者由Google主导,后者背后则有NVIDIA、Meta、MS大厂加持。
代码:
https://github.com/NVIDIA/Megatron-LM
微软还有一个项目将DeepSpeed和Megatron-LM结合了起来:
https://github.com/microsoft/Megatron-DeepSpeed
参考:
https://zhuanlan.zhihu.com/p/522198082
Megatron-LM 第三篇Paper总结——Sequence Parallelism & Selective Checkpointing
https://zhuanlan.zhihu.com/p/366906920
Megatron论文和代码详细分析(1)
https://zhuanlan.zhihu.com/p/388830967
Megatron论文和代码详细分析(2)
https://blog.csdn.net/v_JULY_v/article/details/132462452
通俗理解Megatron-DeepSpeed之模型并行与数据并行
https://mp.weixin.qq.com/s/bvF50XRaA9cO2O4oB31kbg
大语言模型分布式训练的量化分析与最佳实践,以GPT-175B为例
对于每个输入的prompt,在计算第一个token输出的时候,每个token的attention肯定是都要从头计算。但是在后续token的生成中,都需要计算self-attention,也就是输入prompt以及前面输出的token的attention。这是就需要用到前面每一个token的K和V,由于每一层的参数矩阵是不变的,此时只有刚生成的那个token的K和V需要从头计算,输入prompt和之前生成的token的K和V其实是跟上一轮一样的。
我们可以把每一层的K、V矩阵缓存起来,这就是所谓的KV Cache。
https://zhuanlan.zhihu.com/p/630832593
大模型推理性能优化之KV Cache解读
https://zhuanlan.zhihu.com/p/662498827
大模型推理加速:看图学KV Cache
首先是原始的 MHA(Multi-Head Attention),QKV 三部分有相同数量的头,且一一对应。每次做Attention,head1的QKV就做好自己运算就可以,输出时各个头加起来就行。
而MQA则是,让Q仍然保持原来的头数,但K和V只有一个头,相当于所有的Q头共享一组K和V头,所以叫做Multi-Query了。
实现改变了会不会影响效果呢?确实会影响,但相对它30%-40%的吞吐收益,性能的些微降低是可以接受的。
而GQA呢,是MHA和MQA的折衷方案,既不想损失性能太多,又想获得MQA带来的推理加速好处。
https://zhuanlan.zhihu.com/p/647130255
为什么现在大家都在用MQA和GQA?
https://zhuanlan.zhihu.com/p/653352979
LLM七种推理服务框架总结
https://zhuanlan.zhihu.com/p/671347964
大模型(LLM)推理框架汇总
https://zhuanlan.zhihu.com/p/642412124
LLM的推理优化技术纵览
一次用户请求,实际上既包含prefill,也包含decode。一个是计算密集型,一个是访存密集型。
prefill(用户输入)和decode(模型输出)的token量在不同场景下也是不一样的。如果是简单对话场景,通常模型的decode输出会更多一些,而如果是超长上下文场景,用户先上传一本几十万字的书再进行问答,这本书的prefill会直接起飞。在Agent场景下,大量预设的prompt也会占据非常多的prefill,不过prompt的prefill有不少机会可以提前算好KV而无需每个用户请求单独重复计算。
当整个推理系统服务几千万用户时,一个batch的几十个用户请求支持开胃菜。每个用户会不间断地和大模型进行交互,发出大量请求,但这些请求的间隔时间短则几秒,长则几分钟几小时。考虑人机交互的频率,一个用户请求结束后,对应的KV-cache继续常驻在高速内存中实际意义不大。
https://www.zhihu.com/tardis/zm/art/647813179
大模型文本生成——解码策略(Top-k & Top-p & Temperature)
https://b23.tv/OfdfBnz
如何设置大模型推理参数,top_k,top_p, temperature, num_beams
TensorRT-LLM是NVIDIA推出的基于TensorRT的LLM推理工具。
代码:
https://github.com/NVIDIA/TensorRT-LLM/
https://docs.vllm.ai/en/latest/
Easy, fast, and cheap LLM serving for everyone
FairScale是由Facebook Research开发的PyTorch扩展库。FSDP就是首发于这个库。
https://zhuanlan.zhihu.com/p/412118353
Kokkos:一个异构并行计算通用平台
数据流并行是Pipeline并行的高阶版本。广义的数据流希望通过图编译找到全局最优策略,本质上是一种把编译器当万金油的惰性做法,深度学习框架在系统调度这种比较粗放的尺度围绕数据流做了这么多年的自动并行化,最后业界主流实际上的并行策略还是预设的这些Pipeline、Tensor并行的组合,而不是编译器搜出来的自动化的并行策略。
https://mp.weixin.qq.com/s/iAHvfgn54zIwfM9K8KFJnw
DLM:微信大规模分布式n-gram语言模型系统
https://mp.weixin.qq.com/s/s7sHzzLANOp8-1LxgXQskA
谷歌开发者大会上,蚂蚁金服开源ElasticDL分布式深度学习系统
https://mp.weixin.qq.com/s/IQMXg6nIJO-9-IG3mJpvRg
ElasticDL:同时提升集群利用率和研发效率的分布式深度学习框架
https://mp.weixin.qq.com/s/sn8fMAbJbeT6JUbCpBpN6A
Jeff Dean与David Patterson:不思考体系结构的深度学习研究者不是好工程师
https://mp.weixin.qq.com/s/6zLrWJ4nE0bHFlVe5dMxHw
分布式深度学习新进展:让“分布式”和“深度学习”真正深度融合
https://mp.weixin.qq.com/s/hjC-WTMIpbWWpmXoLBfD2g
腾讯大规模分布式机器学习系统无量是如何进行技术选型的?
https://mp.weixin.qq.com/s/mg-d1W5i9rzaLMNrvq0tSQ
32分钟训练神经机器翻译,速度提升45倍
https://mp.weixin.qq.com/s/iW0k80TUPuWDE9xwHvX91g
为什么你需要Raven:全球首个真正分布式深度学习训练协议
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650750181&idx=1&sn=156dac3c5646143fc2577972f1506836
GPU捉襟见肘还想训练大批量模型?谁说不可以
https://mp.weixin.qq.com/s/-CTVyKWtdTK0RIfzzPVyNQ
分布式与高效深度学习,140页ppt详述深度学习压缩与联邦学习训练技术进展
https://mp.weixin.qq.com/s/nTBuYuW7h9wZYuo3w1xGmQ
分布式训练的方案和效率对比
https://mp.weixin.qq.com/s/LOTQfD9KKtAq0zz4rObCGA
EB级系统空中换引擎:阿里调度执行框架如何全面升级?(DAG 2.0)
https://mp.weixin.qq.com/s/uQzwqcGwC9ZveuW64Lzkmg
分布式训练怎么还减速了呢?
https://zhuanlan.zhihu.com/p/294698838
DLPerf—分布式深度学习最佳入门(踩坑)指南
https://zhuanlan.zhihu.com/p/76638962
Pytorch分布式训练
https://zhuanlan.zhihu.com/p/360405558
PyTorch分布式训练
https://mp.weixin.qq.com/s/0aSBHvscloEnPMRLyNjQsg
PyTorch分布式训练简明教程
https://blog.csdn.net/orangerfun/article/details/123887725
torch分布式训练
https://mp.weixin.qq.com/s/r7kt1k7D1wurWs_uxdLCtg
PyTorch源码解读之分布式训练
https://mp.weixin.qq.com/s/85oWK2plv2QOX5Qfg-ZA
大规模机器学习优化,195页ppt与视频
https://mp.weixin.qq.com/s/soruo90Dbtzi6d1kA63Akg
阿里提出智能算力引擎DCAF,节省20%GPU算力
https://mp.weixin.qq.com/s/oDak7peTT5ynNYrH7LSWTg
分布式层次GPU参数服务器架构
https://zhuanlan.zhihu.com/p/28226956
浮点峰值那些事儿
https://zhuanlan.zhihu.com/p/285994980
针对深度学习的GPU共享
https://mp.weixin.qq.com/s/Np4w7RC2JFlB7ZGIduu71w
爱奇艺机器学习平台的建设实践
https://mp.weixin.qq.com/s/DwjvEn04lGzKU8mDu-5q4g
大幅提升训练性能,字节跳动与清华提出新型分布式DNN训练架构
https://mp.weixin.qq.com/s/dJa5zOXgJJQOM5uWog3JZA
Local Parallesim:一种新并行训练方法
https://zhuanlan.zhihu.com/p/335116835
推荐系统Serving架构分析
https://mp.weixin.qq.com/s/DdsJ-ZB_cX9UhbQNK6dCag
分布式深度学习训练网络综述
https://mp.weixin.qq.com/s/qpwBGlTtTLEAhYAUpPyXTQ
CMU:分布式机器学习原理与策略 AAAI2021教程,附221页ppt
https://mp.weixin.qq.com/s/nK-9ck5S6noIETOb8b2dJw
vivo AI计算平台弹性分布式训练的探索和实践
https://mp.weixin.qq.com/s/IzLtn1SR-aFuxXM3GNZbFw
蘑菇街自研服务框架如何提升在线推理效率?
https://mp.weixin.qq.com/s/GheEA0Ag0vbhZeyzqpTl0A
分布式优化:在大数据时代应运而生
https://mp.weixin.qq.com/s/3uu50NWFJqA_MTb8wSxIKA
如何优雅地训练大型模型?
https://mp.weixin.qq.com/s/RMDEvy-3-L-Rag1OrZLYhg
深度学习模型的训练时内存次线性优化
https://mp.weixin.qq.com/s/8PUIJykzoNe-fYht5ozrcQ
新一代CTR预测服务的GPU优化实践
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650771181&idx=1&sn=30b2a5abc7261b4f2ea122e8e96fdabf
世界第一超算跑深度学习模型,2.76万块V100 GPU将分布式训练扩展到极致
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650771231&idx=2&sn=6907d6d7a98eab353a076ed48352aadc
15分钟完成Kinetics视频识别训练,除了超级计算机你还需要TSM
https://www.zhihu.com/question/404721763
如何评价Google的GShard论文?
https://mp.weixin.qq.com/s/eTwSo3GnxSnK-BwwZeWmKA
Jeff Dean等提出自动化分层模型,优化CPU、GPU等异构环境,性能提升超60%
https://mp.weixin.qq.com/s/q0VENBNgolpeWmDapF5q_g
在有池化层、1步幅的CNN上减少冗余计算,一种广泛适用的架构转换方法
https://mp.weixin.qq.com/s/YusIuUtvTwoskNRV_OV7iw
100万帧数据仅1秒!AI大牛颜水成团队强化学习新作,代码已开源
https://www.zhihu.com/answer/2259890109
资源受限的人工智能
https://mp.weixin.qq.com/s/ai_XI8ddP5I2m3ChCqnQsA
高效大规模机器学习训练,198页PDF带你概览领域前沿进展
您的打赏,是对我的鼓励
请访问这里提交评论