https://mp.weixin.qq.com/s/IzLtn1SR-aFuxXM3GNZbFw
蘑菇街自研服务框架如何提升在线推理效率?
https://mp.weixin.qq.com/s/GheEA0Ag0vbhZeyzqpTl0A
分布式优化:在大数据时代应运而生
https://mp.weixin.qq.com/s/3uu50NWFJqA_MTb8wSxIKA
如何优雅地训练大型模型?
https://mp.weixin.qq.com/s/RMDEvy-3-L-Rag1OrZLYhg
深度学习模型的训练时内存次线性优化
https://mp.weixin.qq.com/s/8PUIJykzoNe-fYht5ozrcQ
新一代CTR预测服务的GPU优化实践
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650771181&idx=1&sn=30b2a5abc7261b4f2ea122e8e96fdabf
世界第一超算跑深度学习模型,2.76万块V100 GPU将分布式训练扩展到极致
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650771231&idx=2&sn=6907d6d7a98eab353a076ed48352aadc
15分钟完成Kinetics视频识别训练,除了超级计算机你还需要TSM
https://www.zhihu.com/question/404721763
如何评价Google的GShard论文?
https://mp.weixin.qq.com/s/eTwSo3GnxSnK-BwwZeWmKA
Jeff Dean等提出自动化分层模型,优化CPU、GPU等异构环境,性能提升超60%
https://mp.weixin.qq.com/s/q0VENBNgolpeWmDapF5q_g
在有池化层、1步幅的CNN上减少冗余计算,一种广泛适用的架构转换方法
https://mp.weixin.qq.com/s/YusIuUtvTwoskNRV_OV7iw
100万帧数据仅1秒!AI大牛颜水成团队强化学习新作,代码已开源
https://www.zhihu.com/answer/2259890109
资源受限的人工智能
https://mp.weixin.qq.com/s/ai_XI8ddP5I2m3ChCqnQsA
高效大规模机器学习训练,198页PDF带你概览领域前沿进展
https://mp.weixin.qq.com/s/RAjusu-Jyqb8K19N8KZ_3w
一份552页《大规模数据系统:Large-scale Data Systems》硬核课程PPT
https://mp.weixin.qq.com/s/AeCQK2hFy60pq6y1tRcs_A
20页pdf,A Survey on Large-scale Machine
https://mp.weixin.qq.com/s/iW0k80TUPuWDE9xwHvX91g
为什么你需要Raven:全球首个真正分布式深度学习训练协议
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650750181&idx=1&sn=156dac3c5646143fc2577972f1506836
GPU捉襟见肘还想训练大批量模型?谁说不可以
https://mp.weixin.qq.com/s/-CTVyKWtdTK0RIfzzPVyNQ
分布式与高效深度学习,140页ppt详述深度学习压缩与联邦学习训练技术进展
https://mp.weixin.qq.com/s/nTBuYuW7h9wZYuo3w1xGmQ
分布式训练的方案和效率对比
https://mp.weixin.qq.com/s/LOTQfD9KKtAq0zz4rObCGA
EB级系统空中换引擎:阿里调度执行框架如何全面升级?(DAG 2.0)
https://mp.weixin.qq.com/s/kOCftzSbHe2mvDmlRp-ihA
Jeff Dean:AI对计算机系统设计的影响
https://mp.weixin.qq.com/s/XjNPaL6PC9LHX1PEGn5UZg
微软实时AI系统“脑波计划”有多牛?看完秒懂!
https://mp.weixin.qq.com/s/OkqUulFYHQSdgAbf9Fi9LA
CoCoA:大规模机器学习的分布式优化通用框架
https://mp.weixin.qq.com/s/ToIDncp9dS_qk47PsdZm5A
杜克大学:分布式深度学习训练算法TernGrad
https://mp.weixin.qq.com/s/rhtrN2qDspGkpJYDAVSX7w
UC Berkeley展示全新并行处理方法
https://mp.weixin.qq.com/s/ASqpPSIgW_bcFPBfRYz7Xg
哈佛大学提出在云、边缘与终端设备上的分布式深度神经网络DDNN
http://blog.sina.com.cn/s/blog_81f72ca70101kuk9.html
《Large Scale Distributed Deep Networks》中译文
https://zhuanlan.zhihu.com/p/26552293
Dataflow架构和神经网络加速器
https://zhuanlan.zhihu.com/p/28445511
浅析深度学习框架设计中的关键技术
https://mp.weixin.qq.com/s/wu32LBwrkkBIANMdknHlCA
C++并行实战,592页pdf,C++ Concurrency in Action
https://zhuanlan.zhihu.com/p/79385727
有限元并行计算简介
https://mp.weixin.qq.com/s/heVQ9AIZKxTiCNiAtYKaag
新加坡国立大学最新“大规模深度学习优化”综述论文,带你全面了解最新深度学习准确率和效率的优化方法
https://mp.weixin.qq.com/s/B4aQp_0YvS0jyUHNLQ5rRA
IBM发布新型分布式深度学习系统:结合软硬件实现当前最优性能
http://engineering.skymind.io/distributed-deep-learning-part-1-an-introduction-to-distributed-training-of-neural-networks
神经网络的分布式训练
https://mp.weixin.qq.com/s/nvuflLfOolidDDXJVe2DZA
美团深度学习系统的工程实践
https://mp.weixin.qq.com/s/IE6blClvhYlq3-QAGHo5ww
TensorFlow分布式计算机制解读:以数据并行为重
https://mp.weixin.qq.com/s/4Ii3um3jqfm5yKKxZAFdmA
继1小时训练ImageNet之后,大批量训练扩展到了3万2千个样本
https://mp.weixin.qq.com/s/aNX_8UDYI_0u-MwMTYeqdQ
开发易、通用难,深度学习框架何时才能飞入寻常百姓家?
https://mp.weixin.qq.com/s/UbAHB-uEIvqYZCB7xIAJTg
机器学习新框架Propel:使用JavaScript做可微分编程
https://mp.weixin.qq.com/s/Ctl65r4iZNEOBxiiX2I2eQ
Momenta王晋玮:让深度学习更高效运行的两个视角
https://zhuanlan.zhihu.com/p/371499074
OneFlow——让每一位算法工程师都有能力训练GPT
https://mp.weixin.qq.com/s/LjdHBEyQhJq3ptMj8XVT-w
TensorFlow在推荐系统中的分布式训练优化实践
https://mp.weixin.qq.com/s/rEHhf32L09KXGJ9bbB2LEA
TensorFlow在美团外卖推荐场景的GPU训练优化实践
https://zhuanlan.zhihu.com/p/522759214
手把手推导分布式矩阵乘的最优并行策略
https://mp.weixin.qq.com/s/_o7fzCOeuZE6qFc5gHb26g
美团视觉GPU推理服务部署架构优化实践
https://mp.weixin.qq.com/s/X7XG51yohLnEZ_Jg6XK9oQ
Caffe作者贾扬清教你怎样打造更加优秀的深度学习架构
https://zhuanlan.zhihu.com/p/529388795
训练千亿参数大模型,离不开四种GPU并行策略
https://mp.weixin.qq.com/s/_mrYI7McMBUx0lEh4rNiYQ
百度开源移动端深度学习框架MDL,手机部署CNN支持iOS GPU
https://mp.weixin.qq.com/s/ZCNSq5FC2REoVTKAK2mJQg
分布式深度学习原理、算法详细介绍
https://mp.weixin.qq.com/s/Ewiil56vMkzhO2xDWgo-Wg
苹果发布Turi Create机器学习框架,5行代码开发图像识别

原始地址:
https://github.com/ROCm/Tensile/wiki/Kernel-Parameters
Spill指的是当GPU的寄存器压力(Register Pressure)过高时,编译器无法将所有活跃变量分配到有限的物理寄存器中,被迫将部分数据临时存储到内存(通常是Local Memory或L1/L2缓存)中的现象。
pytorch CUDA RadixSort call stack:
MediumRadixSort
should_use_small_sort
sortKeyValueInplace
launch_stable_sort_kernel
segmented_sort_large_segments
radix_sort_pairs_impl
NO_ROCM(at_cuda_detail)::cub::DeviceRadixSort::SortPairs
cub::DeviceRadixSort::SortPairs
DeviceRadixSort::custom_radix_sort
DispatchRadixSort::Dispatch
DeviceRadixSortSingleTileKernel
triple_chevron
BlockRadixSort
BlockRadixSortT(temp_storage.sort).SortBlockedToStriped
RankKeys
DescendingBlockRadixRank
BlockRadixRank
https://developer.nvidia.com/blog/even-easier-introduction-cuda/
An Even Easier Introduction to CUDA
http://ishare.iask.sina.com.cn/f/17211495.html
深入浅出谈CUDA技术
http://blog.csdn.net/xsc_c/article/category/2186063
某人的并行计算专栏
https://mp.weixin.qq.com/s/9D7uda3CV7volenhl-jchg
推荐几个不错的CUDA入门教程
https://mp.weixin.qq.com/s/bvNnzkOzGYYYewc3G9DOIw
GPU是如何优化运行机器学习算法的?
https://mp.weixin.qq.com/s/nAwxtOUi6HpIjVOREgEfaA
CUDA编程入门极简教程
https://mp.weixin.qq.com/s/-zdIWkuRZXhsLJmOZljOBw
《基于GPU-多核-集群等并行化编程》
https://mp.weixin.qq.com/s/bCb5VsH58JII886lpg9lvg
如何在CUDA中为Transformer编写一个PyTorch自定义层
https://mp.weixin.qq.com/s/OYSzol-vufiKPuU9YxtbuA
矩阵相乘在GPU上的终极优化:深度解析Maxas汇编器工作原理
https://zhuanlan.zhihu.com/p/358220419
PyTorch自定义CUDA算子教程与运行时间分析
https://zhuanlan.zhihu.com/p/358778742
详解PyTorch编译并调用自定义CUDA算子的三种方式
https://zhuanlan.zhihu.com/p/360441891
熬了几个通宵,我写了份CUDA新手入门代码
https://mp.weixin.qq.com/s/EZxO8IIBDJ4c7eQhUffc2w
怎样节省2/3的GPU?爱奇艺vGPU的探索与实践
https://mp.weixin.qq.com/s/3VjGpyXZSkJhy6sFPUsZzw
GPU虚拟化,算力隔离,和qGPU
https://zhuanlan.zhihu.com/p/383115932
大佬是怎么优雅实现矩阵乘法的?
https://zhuanlan.zhihu.com/p/410278370
CUDA矩阵乘法终极优化指南
https://www.zhihu.com/column/c_1437330196193640448
深入浅出GPU优化
https://www.zhihu.com/question/41060378
自己写的CUDA矩阵乘法能优化到多快?
https://zhuanlan.zhihu.com/p/559957579
简单谈谈CUDA的访存合并
https://zhuanlan.zhihu.com/p/565897763
GPGPU编程模型之CUDA
http://blog.csdn.net/augusdi/article/details/12833235
这是一篇转帖的CUDA教程,原帖比较分散,不好看。
https://zhuanlan.zhihu.com/p/544864997
cuda中threadIdx、blockIdx、blockDim和gridDim的使用
https://zhuanlan.zhihu.com/p/690717002
一文读懂cuda代码编译流程
https://zhuanlan.zhihu.com/p/690880124
并不太短的CUDA入门(The Not So Short Introduction to CUDA)
https://zhuanlan.zhihu.com/p/693690123
一文读懂nvidia-smi背后的nvml库
https://www.zhihu.com/question/445590537
问个CUDA并行上的小白问题,既然SM只能同时处理一个WARP,那是不是有的SP处于闲置?
https://zhuanlan.zhihu.com/p/2003147245525153066
现代CUDA编程指南
https://zhuanlan.zhihu.com/p/1898003094056470472
GPU GEMM优化之Stream-K

您的打赏,是对我的鼓励