https://mp.weixin.qq.com/s/LjdHBEyQhJq3ptMj8XVT-w
TensorFlow在推荐系统中的分布式训练优化实践
https://mp.weixin.qq.com/s/rEHhf32L09KXGJ9bbB2LEA
TensorFlow在美团外卖推荐场景的GPU训练优化实践
https://zhuanlan.zhihu.com/p/522759214
手把手推导分布式矩阵乘的最优并行策略
https://mp.weixin.qq.com/s/_o7fzCOeuZE6qFc5gHb26g
美团视觉GPU推理服务部署架构优化实践
https://mp.weixin.qq.com/s/UxN9ZRmKLN30s7uPqMpHPQ
Jeff Dean等提出动态控制流编程模型,大规模机器学习性能提升21%
https://mp.weixin.qq.com/s/fx0Pfu0MOPjSkzi5mL6U_A
清华&斯坦福提出深度梯度压缩DGC,大幅降低分布式训练网络带宽需求
https://mp.weixin.qq.com/s/wIdTDHEPffWqHA3_XWBLyw
没错,纯SQL查询语句可以实现神经网络。
SQL跑神经网络固然没有太大意义,然而分布式数据库已经有数十年的历史,对于设计分布式深度学习框架亦有重大的启发意义。
https://mp.weixin.qq.com/s/F10UaaoxGPOE4pc59LBCRw
数据并行化对神经网络训练有何影响?谷歌大脑进行了实证研究
https://mp.weixin.qq.com/s/UF7DDenUQJ3bL83IHxOkIw
分布式优化算法及其在多智能体系统与机器学习中的应用
https://mp.weixin.qq.com/s/6h9MeBs89hTtWsYSZ4pZ5g
蚂蚁金服核心技术:百亿特征实时推荐算法揭秘
https://mp.weixin.qq.com/s/xV5cLbCPb7Nh6i4i7DxJIQ
没人告诉你的大规模部署AI高效流程!
https://mp.weixin.qq.com/s/8R7YhcZ_Dt0oFIF3bQovxw
为了提升DL模型性能,阿里工程师打造了流式编程框架
https://mp.weixin.qq.com/s/z6gXp-EeDID1ed8_DsUbOg
90秒训练AlexNet!商汤刷新纪录
https://mp.weixin.qq.com/s/HQW2bPyDY_3ecZWP6NYr-w
大规模机器学习在LinkedIn预测模型中的应用实践
https://mp.weixin.qq.com/s/i1PLA1xr3CefKx1EcVUVIg
谷歌破世界纪录!圆周率计算到小数点后31.4万亿位
https://mp.weixin.qq.com/s/rX8L63-jDGJT6lCAj04I3Q
独家解读!阿里重磅发布机器学习平台PAI 3.0
https://mp.weixin.qq.com/s/Ye2GVTFIrX3SbU1-4cDLoQ
你天天叫的外卖,你知道这里面深度学习的水有多深吗
https://mp.weixin.qq.com/s/FIWfbCLgckVzeNvfThIl4Q
阿里线下智能方案进化史
https://mp.weixin.qq.com/s/pqxiF6yEZzrw8qXu2hEsaA
单机训练速度提升640倍!独家解读快手商业广告模型GPU训练平台Persia
https://mp.weixin.qq.com/s/Jcz4XWDjMmbhmAiI_zBQXQ
流式计算优化:时效性
https://zhuanlan.zhihu.com/p/33351291
基于忆阻器(ReRAM),Computing-in-Memory的DLA
https://mp.weixin.qq.com/s/UbZtUL6Iveb4S3nTU0liGw
深度神经网络的分布式训练概述:常用方法和技巧全面总结
https://mp.weixin.qq.com/s/kLXJsHbBnRIFC3NLChPhzA
如何高效进行大规模分类?港中文联合商汤提出新方法
https://www.zhihu.com/question/454589636
为什么模型和数据都在gpu上,却打不满GPU的使用率?
https://mp.weixin.qq.com/s/sn8fMAbJbeT6JUbCpBpN6A
Jeff Dean与David Patterson:不思考体系结构的深度学习研究者不是好工程师
https://mp.weixin.qq.com/s/6zLrWJ4nE0bHFlVe5dMxHw
分布式深度学习新进展:让“分布式”和“深度学习”真正深度融合
https://mp.weixin.qq.com/s/hjC-WTMIpbWWpmXoLBfD2g
腾讯大规模分布式机器学习系统无量是如何进行技术选型的?
https://mp.weixin.qq.com/s/mg-d1W5i9rzaLMNrvq0tSQ
32分钟训练神经机器翻译,速度提升45倍
https://mp.weixin.qq.com/s/iAHvfgn54zIwfM9K8KFJnw
DLM:微信大规模分布式n-gram语言模型系统
https://mp.weixin.qq.com/s/s7sHzzLANOp8-1LxgXQskA
谷歌开发者大会上,蚂蚁金服开源ElasticDL分布式深度学习系统
https://mp.weixin.qq.com/s/IQMXg6nIJO-9-IG3mJpvRg
ElasticDL:同时提升集群利用率和研发效率的分布式深度学习框架
https://mp.weixin.qq.com/s/uQzwqcGwC9ZveuW64Lzkmg
分布式训练怎么还减速了呢?
https://zhuanlan.zhihu.com/p/294698838
DLPerf—分布式深度学习最佳入门(踩坑)指南
https://mp.weixin.qq.com/s/85oWK2plv2QOX5Qfg-ZA
大规模机器学习优化,195页ppt与视频
https://mp.weixin.qq.com/s/soruo90Dbtzi6d1kA63Akg
阿里提出智能算力引擎DCAF,节省20%GPU算力
https://mp.weixin.qq.com/s/oDak7peTT5ynNYrH7LSWTg
分布式层次GPU参数服务器架构
https://zhuanlan.zhihu.com/p/28226956
浮点峰值那些事儿
https://zhuanlan.zhihu.com/p/285994980
针对深度学习的GPU共享
https://mp.weixin.qq.com/s/Np4w7RC2JFlB7ZGIduu71w
爱奇艺机器学习平台的建设实践
https://mp.weixin.qq.com/s/DwjvEn04lGzKU8mDu-5q4g
大幅提升训练性能,字节跳动与清华提出新型分布式DNN训练架构
https://mp.weixin.qq.com/s/dJa5zOXgJJQOM5uWog3JZA
Local Parallesim:一种新并行训练方法
https://zhuanlan.zhihu.com/p/335116835
推荐系统Serving架构分析
https://mp.weixin.qq.com/s/DdsJ-ZB_cX9UhbQNK6dCag
分布式深度学习训练网络综述
https://mp.weixin.qq.com/s/qpwBGlTtTLEAhYAUpPyXTQ
CMU:分布式机器学习原理与策略 AAAI2021教程,附221页ppt
https://mp.weixin.qq.com/s/nK-9ck5S6noIETOb8b2dJw
vivo AI计算平台弹性分布式训练的探索和实践
https://mp.weixin.qq.com/s/IzLtn1SR-aFuxXM3GNZbFw
蘑菇街自研服务框架如何提升在线推理效率?
https://mp.weixin.qq.com/s/GheEA0Ag0vbhZeyzqpTl0A
分布式优化:在大数据时代应运而生
https://mp.weixin.qq.com/s/3uu50NWFJqA_MTb8wSxIKA
如何优雅地训练大型模型?
https://mp.weixin.qq.com/s/RMDEvy-3-L-Rag1OrZLYhg
深度学习模型的训练时内存次线性优化
https://mp.weixin.qq.com/s/8PUIJykzoNe-fYht5ozrcQ
新一代CTR预测服务的GPU优化实践
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650771181&idx=1&sn=30b2a5abc7261b4f2ea122e8e96fdabf
世界第一超算跑深度学习模型,2.76万块V100 GPU将分布式训练扩展到极致
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650771231&idx=2&sn=6907d6d7a98eab353a076ed48352aadc
15分钟完成Kinetics视频识别训练,除了超级计算机你还需要TSM
https://www.zhihu.com/question/404721763
如何评价Google的GShard论文?
https://mp.weixin.qq.com/s/eTwSo3GnxSnK-BwwZeWmKA
Jeff Dean等提出自动化分层模型,优化CPU、GPU等异构环境,性能提升超60%
https://mp.weixin.qq.com/s/q0VENBNgolpeWmDapF5q_g
在有池化层、1步幅的CNN上减少冗余计算,一种广泛适用的架构转换方法
https://mp.weixin.qq.com/s/YusIuUtvTwoskNRV_OV7iw
100万帧数据仅1秒!AI大牛颜水成团队强化学习新作,代码已开源
https://www.zhihu.com/answer/2259890109
资源受限的人工智能
https://mp.weixin.qq.com/s/ai_XI8ddP5I2m3ChCqnQsA
高效大规模机器学习训练,198页PDF带你概览领域前沿进展
https://mp.weixin.qq.com/s/RAjusu-Jyqb8K19N8KZ_3w
一份552页《大规模数据系统:Large-scale Data Systems》硬核课程PPT
https://mp.weixin.qq.com/s/AeCQK2hFy60pq6y1tRcs_A
20页pdf,A Survey on Large-scale Machine
https://mp.weixin.qq.com/s/iW0k80TUPuWDE9xwHvX91g
为什么你需要Raven:全球首个真正分布式深度学习训练协议
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650750181&idx=1&sn=156dac3c5646143fc2577972f1506836
GPU捉襟见肘还想训练大批量模型?谁说不可以
https://mp.weixin.qq.com/s/-CTVyKWtdTK0RIfzzPVyNQ
分布式与高效深度学习,140页ppt详述深度学习压缩与联邦学习训练技术进展
https://mp.weixin.qq.com/s/nTBuYuW7h9wZYuo3w1xGmQ
分布式训练的方案和效率对比
https://mp.weixin.qq.com/s/LOTQfD9KKtAq0zz4rObCGA
EB级系统空中换引擎:阿里调度执行框架如何全面升级?(DAG 2.0)
https://zhuanlan.zhihu.com/p/26552293
Dataflow架构和神经网络加速器
https://zhuanlan.zhihu.com/p/28445511
浅析深度学习框架设计中的关键技术
https://mp.weixin.qq.com/s/wu32LBwrkkBIANMdknHlCA
C++并行实战,592页pdf,C++ Concurrency in Action
https://zhuanlan.zhihu.com/p/79385727
有限元并行计算简介
https://mp.weixin.qq.com/s/heVQ9AIZKxTiCNiAtYKaag
新加坡国立大学最新“大规模深度学习优化”综述论文,带你全面了解最新深度学习准确率和效率的优化方法
https://mp.weixin.qq.com/s/B4aQp_0YvS0jyUHNLQ5rRA
IBM发布新型分布式深度学习系统:结合软硬件实现当前最优性能
http://engineering.skymind.io/distributed-deep-learning-part-1-an-introduction-to-distributed-training-of-neural-networks
神经网络的分布式训练
https://mp.weixin.qq.com/s/nvuflLfOolidDDXJVe2DZA
美团深度学习系统的工程实践
https://mp.weixin.qq.com/s/IE6blClvhYlq3-QAGHo5ww
TensorFlow分布式计算机制解读:以数据并行为重
https://mp.weixin.qq.com/s/4Ii3um3jqfm5yKKxZAFdmA
继1小时训练ImageNet之后,大批量训练扩展到了3万2千个样本
https://mp.weixin.qq.com/s/kOCftzSbHe2mvDmlRp-ihA
Jeff Dean:AI对计算机系统设计的影响
https://mp.weixin.qq.com/s/XjNPaL6PC9LHX1PEGn5UZg
微软实时AI系统“脑波计划”有多牛?看完秒懂!
https://mp.weixin.qq.com/s/OkqUulFYHQSdgAbf9Fi9LA
CoCoA:大规模机器学习的分布式优化通用框架
https://mp.weixin.qq.com/s/ToIDncp9dS_qk47PsdZm5A
杜克大学:分布式深度学习训练算法TernGrad
https://mp.weixin.qq.com/s/rhtrN2qDspGkpJYDAVSX7w
UC Berkeley展示全新并行处理方法
https://mp.weixin.qq.com/s/ASqpPSIgW_bcFPBfRYz7Xg
哈佛大学提出在云、边缘与终端设备上的分布式深度神经网络DDNN
http://blog.sina.com.cn/s/blog_81f72ca70101kuk9.html
《Large Scale Distributed Deep Networks》中译文
https://mp.weixin.qq.com/s/X7XG51yohLnEZ_Jg6XK9oQ
Caffe作者贾扬清教你怎样打造更加优秀的深度学习架构
https://zhuanlan.zhihu.com/p/529388795
训练千亿参数大模型,离不开四种GPU并行策略
https://mp.weixin.qq.com/s/_mrYI7McMBUx0lEh4rNiYQ
百度开源移动端深度学习框架MDL,手机部署CNN支持iOS GPU
https://mp.weixin.qq.com/s/ZCNSq5FC2REoVTKAK2mJQg
分布式深度学习原理、算法详细介绍
https://mp.weixin.qq.com/s/Ewiil56vMkzhO2xDWgo-Wg
苹果发布Turi Create机器学习框架,5行代码开发图像识别
https://mp.weixin.qq.com/s/jOVUPhrCBI9W9vPvD9eKYg
UC Berkeley提出新型分布式框架Ray:实时动态学习的开端
您的打赏,是对我的鼓励