Antkillerfarm Hacking V7.5

Chip » AI Chip(四)——参考资源

2024-04-03 :: 5906 Words

AI Chip

https://mp.weixin.qq.com/s/_n1FA7H5q4AwXqeBg9tekA

硬件实现快速累加

Christopher Stewart “Chris” Wallace,1933~2004,澳大利亚计算机科学家和物理学家。University of Sydney博士(1959)。Monash University教授。ACM fellow。在早期计算机的软件/硬件方面皆有重大贡献。


几乎每一个概述的AI加速解决方案都是从一个已经有几十年历史的学术思想开始的:脉动阵列起源于1978;VLIW架构起源于1983;数据流编程的概念可以追溯到1975;早期的内存内处理(processing-in-memory)出现在20世纪70年代。

https://www.thepaper.cn/newsDetail_forward_16268882

详解AI加速器(一):2012年的AlexNet到底做对了什么?

https://www.thepaper.cn/newsDetail_forward_16641034

详解AI加速器(二):为什么说现在是AI加速器的黄金时代?

https://www.thepaper.cn/newsDetail_forward_16681105

详解AI加速器(三):架构基础离不开ISA、可重构处理器

https://www.thepaper.cn/newsDetail_forward_16787134

详解AI加速器(四):GPU、DPU、IPU、TPU…AI加速方案有无限种可能

https://www.thepaper.cn/newsDetail_forward_16869908

详解AI加速器(最终篇):给想进入赛道的玩家一些建议


Intel制订的游戏规则就是它自己的产品CPU作为“中央”处理器,通过PCIe扩展的形式,让围绕CPU的整个计算机系统变得非常具有可扩展性,可以围绕CPU打造各行各业的解决方案。而这套游戏规则的残酷之处在于,一旦一种PCIe设备的需求变得稳定,Intel就在CPU里增加一些专用指令,于是这种PCIe设备就从历史长河中抹去了,这种方式消失的各类PCIe扩展卡不计其数,显卡在这套游戏规则下也并不例外。

老黄当时意识到这个问题后,提出了Intel的摩尔定律是十八个月翻一番,NVidia要做到六个月翻一番。用更快的性能提升曲线快速拉高需求,让Intel的集显变成落后的产品。

过去十年,大家甚至在做产品规划的时候,也是对标着自己产品上市的时间点,去预估NVidia的产品规格。本质上是沿着和老黄一样的曲线去走,自然也不可能把老黄的产品搞成落后的产品,更不可能争取到独立的生态位了,实际上大家产品迭代的曲线甚至比不过NVidia。

NVidia基本2年一代产品,性能提升3~5倍,挑战者如果能每代相比自己上一代提升10~20倍,和NVidia的性能优势越拉越大。这才是NVidia当年挑战Intel时所作的壮举。

既然transformer is all you need,我们先不管软件的各种麻烦,让你去完全硬化地设计一个transformer加速指令,能不能实打实做出一个包含矩阵和向量单元的GPGPU完全无法企及的性能壁垒?你很难沿着DSA的逻辑持续比上一代DSA硬件做出巨大的性能提升。

https://zhuanlan.zhihu.com/p/672689713

芯片生态的竞争逻辑

https://zhuanlan.zhihu.com/p/619717622

DSA已死


架构的收益其实更多是工艺演进时,新约束下新tradeoff带来的超额收益。如果约束保持不变,其实最佳的tradeoff很快就收敛了,后面想继续靠arch压榨出更多性能就非常困难了。

arch领域需要的不是天才式的创新,而是能持续数十年稳定提升算力的方法论。

第一代芯片你可以用一个systolic array专门处理矩阵乘,当然可以吊打通过SIMD+SMT实现SIMT的GPU芯片,第二代芯片你如何进一步用一种新的电路结构吊打上一代的专用电路呢?针对一个特定功能的专用电路,最佳数据通路其实一两代产品肯定收敛了。

算力提升的方法论可以粗略分解成三个阶段:80年代以前是超标量、80年代到15年左右是并行,15年往后是专用架构。

并行做起来之后多核就成为了主流,比单核提升轻松,当然把代码难写(相比串行代码)的锅丢给了软件,慢慢也积累了大量并行代码的生态。此时多核的路就相对好走多了,也就没必要死扣单核性能了,毕竟要花更多的力气。而且在并行阶段还孕育出了SIMT和GPGPU这种为并行而生的编程模型与架构,软件也就朝着并行化的方向一路狂奔了,而CPU的单核架构已经很多年没有大的革新了。

https://zhuanlan.zhihu.com/p/387269513

专用架构与AI软件栈(1)


https://zhuanlan.zhihu.com/p/58971347

深度学习的芯片加速器

https://mp.weixin.qq.com/s/S5Kjt4tuf_o6o3Qag8sukQ

Google Jeff Dean独自署名论文:深度学习革命及其对计算机架构和芯片设计的影响,讲述AI芯片发展历程与未来

https://cloud.tencent.com/community/article/244743

深度学习的异构加速技术(一):AI需要一个多大的“心脏”?

https://cloud.tencent.com/community/article/581797

深度学习的异构加速技术(二):螺狮壳里做道场

https://cloud.tencent.com/community/article/446425

深度学习的异构加速技术(三):互联网巨头们“心水”这些AI计算平台

https://zhuanlan.zhihu.com/p/25382177

AI芯片怎么降功耗?

https://mp.weixin.qq.com/s/2aE5fzGZeyX-oFyWbcbA5A

揭开神经网络加速器的神秘面纱之DianNao

https://mp.weixin.qq.com/s/VAFb0DAZAUyDnjE6SlNcXw

如何对比评价各种深度神经网络硬件?不妨给它们跑个分

https://zhuanlan.zhihu.com/p/26594188

浅析Yann LeCun提到的两款Dataflow Chip

https://zhuanlan.zhihu.com/p/25728988

AI芯片的几种选择,你更看好哪个?

https://zhuanlan.zhihu.com/p/25510056

ISSCC 2017看AI芯片的四大趋势

https://zhuanlan.zhihu.com/p/26404565

AI芯片四大流派论剑,中国能否弯道超车?

https://zhuanlan.zhihu.com/p/27472524

从AI芯片说起,一起来看芯片门类

https://mp.weixin.qq.com/s/RKRDBiBzG5u2P2eaqNAFbg

机器学习的处理器列表

https://mp.weixin.qq.com/s/uzeeZiaAFdA0C_zAcX756w

深度学习架构之争

https://mp.weixin.qq.com/s/VM-KiIJHA2gXLVu0WRIzwA

王中风教授:如何满足不同应用场景下深度神经网络模型算力和能效需求

https://mp.weixin.qq.com/s/f5mQkWxPYc77t2we1Y306Q

深度学习引领AI芯片大战

https://mp.weixin.qq.com/s/6ksL9p1Gmnrd2HahU3KniQ

ARM攒机指南——AI篇:5大千万级设备市场技术拆解

https://zhuanlan.zhihu.com/p/32953957

浅析图像视频类AI芯片的灵活度

https://mp.weixin.qq.com/s/cfqnLYZSxJhtsgtrydx02A

语音及文本类AI芯片的需求分析

https://mp.weixin.qq.com/s/31SBgTXfIcwkmIzujBLxOA

深度学习引擎的终极形态是什么?

https://zhuanlan.zhihu.com/p/35103140

“传说中”的异步电路能否在AI芯片界异军突起?

https://mp.weixin.qq.com/s/PDe8O5zskxD_mycwH0_3lg

AI是如何影响计算机内存系统的?

https://blog.csdn.net/lien0906/article/details/78863118

深度学习中GPU和显存分析

http://eyeriss.mit.edu/

Eyeriss是MIT设计的一款NN加速器。

https://zhuanlan.zhihu.com/p/37520172

一窥ARM的AI处理器

https://mp.weixin.qq.com/s/UpnkYfhaEsYhze8GdpZ8Dg

Arm的NPU究竟什么水平?

https://mp.weixin.qq.com/s/QPuOmv7-agrcgnchgs3Hkg

清华大学提出AI计算芯片的存储优化新方法

https://mp.weixin.qq.com/s/eyzzeYOKdah-9WGUrhbAkg

非冯诺依曼新架构:IBM100万忆阻器大规模神经网络加速AI

https://mp.weixin.qq.com/s/oOYGa4Mti6KpkpI4TtpitQ

地平线杨铭:从无形视觉到有形芯片

https://mp.weixin.qq.com/s/_8lbTU0GFEXQr_4pdQ6XPw

同步SGD等现有分布式训练方式将过时,Yoshua Bengio谈迈向硬件友好的深度学习

https://mp.weixin.qq.com/s/5MyuZf_TBm2NV47CRAz5Dw

2017图灵奖得主:通用芯片每年仅提升3%,神经专用架构才是未来

https://zhuanlan.zhihu.com/p/57808378

AI芯片0.5与2.0

https://mp.weixin.qq.com/s/XDwTI-gnnFMLjVBbOGKL9w

清华大学团队研制高能效通用神经网络处理器芯片STICKER-T

https://mp.weixin.qq.com/s/xbHP1RFn7F7BbimxgWaKqg

Facebook把服务27亿人的AI硬件系统开源了

https://mp.weixin.qq.com/s/BD-HAILp3TPvBFlIy6QC4w

一文看懂机器视觉芯片

https://mp.weixin.qq.com/s/PMnNay4CRgVghA4fU9oLqg

牛津大学研发类脑光子芯片,运算速度超人脑1000倍

https://mp.weixin.qq.com/s/e333KjLavEvvpNIL3u1Y4Q

NovuMind异构智能核心技术引领智联网

https://mp.weixin.qq.com/s/fSSyOs4-NXbPTbDjpfJBNQ

Google IPU:互联网巨头纷纷进军芯片行业是为何?

https://mp.weixin.qq.com/s/S1y4NEx4_Mgwf68S2pexqA

拿着锤子找钉子,数字芯片领导者比特大陆进军人工智能

https://mp.weixin.qq.com/s/gtgPYf939uYRzxAab_LZLQ

谢源:计算存储一体化,在存储里做深度学习,架构创新实现下一代AI芯片

https://mp.weixin.qq.com/s/s-fYxv4z5kkJUFueU2IR7w

BP表达式与硬件架构:相似性构建更高效的计算单元

https://mp.weixin.qq.com/s/1r7G84les7FihqPbSiS0Ng

华为首款手机端AI芯片麒麟970

https://mp.weixin.qq.com/s/z68hk1yqg60QCjgTyzgG2w

GPU深度学习的“加速神器”

https://mp.weixin.qq.com/s/O-NDsFs6AOwl43LyevXtzg

OpenAI发布“块稀疏”GPU内核:实现文本情感分析与图像生成建模当前最优水平

https://mp.weixin.qq.com/s/XXef4F9HEZizoWRYXwHitw

如何配置一台深度学习工作站?

https://mp.weixin.qq.com/s/_xFRRkVyN9qevLeek7bFxQ

深度学习中GPU和显存分析

https://mp.weixin.qq.com/s/k5Xx-nnaf-yfWqGLIY3LEg

特斯拉的芯片究竟多强

https://zhuanlan.zhihu.com/p/88927564

窥探神经网络加速器的数据复用(一)

https://mp.weixin.qq.com/s/YARcCzQXqnJmWRtV2zd_FQ

国内外AI芯片发展现状

https://mp.weixin.qq.com/s/b_Hy0JSZ5ZGT9AsczCkp9Q

ISSCC 2020:AI芯片架构的转变

https://zhuanlan.zhihu.com/p/115219461

张量在神经网络加速器中的应用

https://pan.baidu.com/s/1zcXdXTaN3dbJ9VGplViHZw 提取码:ews4

AI芯片体系架构和软件专题报告会2020论文下载

https://mp.weixin.qq.com/s/cBVio3W64np8fXwUQs2wIw

机器学习如何用于芯片系统设计?Jeff Dean推荐Google最新《机器学习系统芯片设计》70页ppt为你讲解

https://zhuanlan.zhihu.com/p/150656419

AI芯片技术发展

https://mp.weixin.qq.com/s/9fBe6MsUOCDhtp4MSfP2jg

AI处理器热潮正在消退

https://mp.weixin.qq.com/s/JYTqJDlGw6Q2gNLaYIGLcQ

特斯拉芯片究竟怎么样?

https://mp.weixin.qq.com/s/cA1AXfpV3ZcMNX9k5XKlww

面向深度神经网络的芯片布图规划问题简介

Fork me on GitHub