在训练阶段,一次生成多个后续token,可以一次学习多个位置的label,进而有效提升样本的利用效率,提升训练速度;在推理阶段通过一次生成多个token,实现成倍的推理加速来提升推理性能。
https://zhuanlan.zhihu.com/p/18056041194
MTP(Multi-Token Prediction)的前世今生
https://blog.csdn.net/v_JULY_v/article/details/145374551
一文通透让Meta恐慌的DeepSeek-V3:在MoE、GRPO、MLA基础上提出Multi-Token预测(含FP8训练详解)
https://mp.weixin.qq.com/s/39MYrsB3gXpfzTTOgQjDwg
幻方AI DeepSeek模型背后的万卡集群建设
Alpa是一个自动探索分布式策略的工具。
论文:
《Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning》
代码:
https://github.com/openxla/xla/tree/main/xla/hlo/experimental/auto_sharding
文档:
https://alpa.ai/index.html
在介绍Alpa之前,先介绍一下Google的optimization库:
https://github.com/google/or-tools
文档:
https://developers.google.com/optimization
ILP可以分为下列几种类型:
(1)纯整数线性规划(Pure integer linear programming):指全部决策变量都必须取整数值的整数线性规划。有时,也称为全整数规划。
(2)混合整数线性规划(Mimed integer linear programming):指决策变量中有一部分必须取整数值,另一部分可以不取整数值的整数线性规划。
(3)0-1型整数线性规划(Zero-one integer linear programming):指决策变量只能了取值0或1的整数线性规划。
ILP相关的库还有pyomo、cyipopt等。
为了评估不同Sharding策略的好坏,我们需要对Sharding策略建立cost model。
这里的cost主要包括:
其中,Memory cost为该ILP问题的约束条件,其他几个为决策变量的影响因子。
Resharding cost是不同sharding之间切换产生的开销:
MLIR中有mesh dialect用于描述Sharding Spec:
module @sharding_test {
mesh.mesh @mesh_2d(shape = 4x8)
func.func @matmul_on_operand_shard_batch_and_k(%arg0: tensor<32x1000x4096xf32>, %arg1: tensor<32x4096x8192xf32>) -> tensor<32x1000x8192xf32> {
%sharding_annotated = mesh.shard %arg0 to <@mesh_2d, [[0], [], [1]]> annotate_for_users : tensor<32x1000x4096xf32>
%sharding_annotated_0 = mesh.shard %arg1 to <@mesh_2d, [[0], [1]]> annotate_for_users : tensor<32x4096x8192xf32>
%0 = tosa.matmul %sharding_annotated, %sharding_annotated_0 : (tensor<32x1000x4096xf32>, tensor<32x4096x8192xf32>) -> tensor<32x1000x8192xf32>
%sharding_annotated_1 = mesh.shard %0 to <@mesh_2d, [[0]], partial = sum[1]> : tensor<32x1000x8192xf32>
return %sharding_annotated_1 : tensor<32x1000x8192xf32>
}
}
如何用数学语言表示一个二维的one-hot:
\[\begin{aligned} \forall (v,u) \in E, \ & \forall i \in [0, k_v), & \sum_{j \in [0, k_u)}\mathbf{e}_{vu} [i,j] \leq \mathbf{s}_v[i] \\ & \forall j \in [0, k_u), & \sum_{i \in [0, k_v)}\mathbf{e}_{vu} [i,j] \leq \mathbf{s}_u[j] \\ \end{aligned}\]参考:
https://zhuanlan.zhihu.com/p/487588274
用ILP和DP自动探索DL分布式策略——Alpa
https://zhuanlan.zhihu.com/p/571836701
Alpa论文解读
FairScale是由Facebook Research开发的PyTorch扩展库。FSDP就是首发于这个库。
https://zhuanlan.zhihu.com/p/412118353
Kokkos:一个异构并行计算通用平台
数据流并行是Pipeline并行的高阶版本。广义的数据流希望通过图编译找到全局最优策略,本质上是一种把编译器当万金油的惰性做法,深度学习框架在系统调度这种比较粗放的尺度,围绕数据流做了这么多年的自动并行化,最后业界主流实际上的并行策略还是预设的这些Pipeline、Tensor并行的组合,而不是编译器搜出来的自动化的并行策略。
https://mp.weixin.qq.com/s/_1Yr_BbFhlNEW7UtYvAaoA
分布式深度学习,93页ppt概述最新DDL技术发展
https://mp.weixin.qq.com/s/jC5v9BKQvlxa2_6cikXV9w
分布式算法与优化,118页pdf
https://zhuanlan.zhihu.com/p/58806183
深度学习的分布和并行处理系统
https://zhuanlan.zhihu.com/p/56991108
一文说清楚Tensorflow分布式训练必备知识
https://mp.weixin.qq.com/s/r951Iasr4dke6MPHsUO0TA
开源DAWN,Stanford的又一力作
https://mp.weixin.qq.com/s/2jrMDeMcb47zpPfFLEcnIA
深度学习平台技术演进
https://mp.weixin.qq.com/s/L4CMKS53pNyvhhqvQhja0g
5种商业AI产品的技术架构设计
https://mp.weixin.qq.com/s/LjdHBEyQhJq3ptMj8XVT-w
TensorFlow在推荐系统中的分布式训练优化实践
https://mp.weixin.qq.com/s/rEHhf32L09KXGJ9bbB2LEA
TensorFlow在美团外卖推荐场景的GPU训练优化实践
https://zhuanlan.zhihu.com/p/522759214
手把手推导分布式矩阵乘的最优并行策略
https://mp.weixin.qq.com/s/_o7fzCOeuZE6qFc5gHb26g
美团视觉GPU推理服务部署架构优化实践
https://mp.weixin.qq.com/s/UxN9ZRmKLN30s7uPqMpHPQ
Jeff Dean等提出动态控制流编程模型,大规模机器学习性能提升21%
https://mp.weixin.qq.com/s/fx0Pfu0MOPjSkzi5mL6U_A
清华&斯坦福提出深度梯度压缩DGC,大幅降低分布式训练网络带宽需求
https://mp.weixin.qq.com/s/wIdTDHEPffWqHA3_XWBLyw
没错,纯SQL查询语句可以实现神经网络。
SQL跑神经网络固然没有太大意义,然而分布式数据库已经有数十年的历史,对于设计分布式深度学习框架亦有重大的启发意义。
https://mp.weixin.qq.com/s/F10UaaoxGPOE4pc59LBCRw
数据并行化对神经网络训练有何影响?谷歌大脑进行了实证研究
https://mp.weixin.qq.com/s/UF7DDenUQJ3bL83IHxOkIw
分布式优化算法及其在多智能体系统与机器学习中的应用
https://mp.weixin.qq.com/s/6h9MeBs89hTtWsYSZ4pZ5g
蚂蚁金服核心技术:百亿特征实时推荐算法揭秘
https://mp.weixin.qq.com/s/xV5cLbCPb7Nh6i4i7DxJIQ
没人告诉你的大规模部署AI高效流程!
https://mp.weixin.qq.com/s/8R7YhcZ_Dt0oFIF3bQovxw
为了提升DL模型性能,阿里工程师打造了流式编程框架
https://mp.weixin.qq.com/s/z6gXp-EeDID1ed8_DsUbOg
90秒训练AlexNet!商汤刷新纪录
https://mp.weixin.qq.com/s/HQW2bPyDY_3ecZWP6NYr-w
大规模机器学习在LinkedIn预测模型中的应用实践
https://mp.weixin.qq.com/s/i1PLA1xr3CefKx1EcVUVIg
谷歌破世界纪录!圆周率计算到小数点后31.4万亿位
https://mp.weixin.qq.com/s/rX8L63-jDGJT6lCAj04I3Q
独家解读!阿里重磅发布机器学习平台PAI 3.0
https://mp.weixin.qq.com/s/Ye2GVTFIrX3SbU1-4cDLoQ
你天天叫的外卖,你知道这里面深度学习的水有多深吗
https://mp.weixin.qq.com/s/FIWfbCLgckVzeNvfThIl4Q
阿里线下智能方案进化史
https://mp.weixin.qq.com/s/pqxiF6yEZzrw8qXu2hEsaA
单机训练速度提升640倍!独家解读快手商业广告模型GPU训练平台Persia
https://mp.weixin.qq.com/s/Jcz4XWDjMmbhmAiI_zBQXQ
流式计算优化:时效性
https://zhuanlan.zhihu.com/p/33351291
基于忆阻器(ReRAM),Computing-in-Memory的DLA
https://mp.weixin.qq.com/s/UbZtUL6Iveb4S3nTU0liGw
深度神经网络的分布式训练概述:常用方法和技巧全面总结
https://mp.weixin.qq.com/s/kLXJsHbBnRIFC3NLChPhzA
如何高效进行大规模分类?港中文联合商汤提出新方法
https://www.zhihu.com/question/454589636
为什么模型和数据都在gpu上,却打不满GPU的使用率?
https://mp.weixin.qq.com/s/sn8fMAbJbeT6JUbCpBpN6A
Jeff Dean与David Patterson:不思考体系结构的深度学习研究者不是好工程师
https://mp.weixin.qq.com/s/6zLrWJ4nE0bHFlVe5dMxHw
分布式深度学习新进展:让“分布式”和“深度学习”真正深度融合
https://mp.weixin.qq.com/s/hjC-WTMIpbWWpmXoLBfD2g
腾讯大规模分布式机器学习系统无量是如何进行技术选型的?
https://mp.weixin.qq.com/s/mg-d1W5i9rzaLMNrvq0tSQ
32分钟训练神经机器翻译,速度提升45倍
https://mp.weixin.qq.com/s/iAHvfgn54zIwfM9K8KFJnw
DLM:微信大规模分布式n-gram语言模型系统
https://mp.weixin.qq.com/s/s7sHzzLANOp8-1LxgXQskA
谷歌开发者大会上,蚂蚁金服开源ElasticDL分布式深度学习系统
https://mp.weixin.qq.com/s/IQMXg6nIJO-9-IG3mJpvRg
ElasticDL:同时提升集群利用率和研发效率的分布式深度学习框架
https://mp.weixin.qq.com/s/uQzwqcGwC9ZveuW64Lzkmg
分布式训练怎么还减速了呢?
https://zhuanlan.zhihu.com/p/294698838
DLPerf—分布式深度学习最佳入门(踩坑)指南
https://mp.weixin.qq.com/s/85oWK2plv2QOX5Qfg-ZA
大规模机器学习优化,195页ppt与视频
https://mp.weixin.qq.com/s/soruo90Dbtzi6d1kA63Akg
阿里提出智能算力引擎DCAF,节省20%GPU算力
https://mp.weixin.qq.com/s/oDak7peTT5ynNYrH7LSWTg
分布式层次GPU参数服务器架构
https://zhuanlan.zhihu.com/p/28226956
浮点峰值那些事儿
https://zhuanlan.zhihu.com/p/285994980
针对深度学习的GPU共享
https://mp.weixin.qq.com/s/Np4w7RC2JFlB7ZGIduu71w
爱奇艺机器学习平台的建设实践
https://mp.weixin.qq.com/s/DwjvEn04lGzKU8mDu-5q4g
大幅提升训练性能,字节跳动与清华提出新型分布式DNN训练架构
https://mp.weixin.qq.com/s/dJa5zOXgJJQOM5uWog3JZA
Local Parallesim:一种新并行训练方法
https://zhuanlan.zhihu.com/p/335116835
推荐系统Serving架构分析
https://mp.weixin.qq.com/s/DdsJ-ZB_cX9UhbQNK6dCag
分布式深度学习训练网络综述
https://mp.weixin.qq.com/s/qpwBGlTtTLEAhYAUpPyXTQ
CMU:分布式机器学习原理与策略 AAAI2021教程,附221页ppt
https://mp.weixin.qq.com/s/nK-9ck5S6noIETOb8b2dJw
vivo AI计算平台弹性分布式训练的探索和实践
https://mp.weixin.qq.com/s/IzLtn1SR-aFuxXM3GNZbFw
蘑菇街自研服务框架如何提升在线推理效率?
https://mp.weixin.qq.com/s/GheEA0Ag0vbhZeyzqpTl0A
分布式优化:在大数据时代应运而生
您的打赏,是对我的鼓励