Huawei的AI芯片项目大约启动于2016年底,算是布局比较晚的了,所以初期它们和寒武纪有不少合作。
官网:
https://ascend.huawei.com/home
Model Zoo:
https://github.com/Ascend/models
重要的开源项目:
https://gitee.com/ascend/tensorflow
https://gitee.com/mindspore/graphengine
Ascend(昇腾)芯片主要包括端侧的310系列和用于数据中心的910系列。
MTE(Memory Transfer Engine)
三种计算单元支持的典型操作:
HCCS,即Huawei Cache Coherence System(华为Cache一致性总线)。
英伟达的NVLink可以实现8颗芯片互联,而HCCS目前仅支持4路互联,提供30GB/S带宽。两个组使用PCI-E总线相互通信,提供32GB/S带宽。
这实际上就是NV在DGX1+P100时代,采用过的hybrid cube-mesh结构。
参考:
https://www.zhihu.com/answer/3459186418
华为昇腾芯片跟英伟达的芯片相比,差在哪里?
参考:
https://www.jiqizhixin.com/articles/2019-08-20-4
华为在hotchips详细介绍了达芬奇架构
https://www.hiascend.com/zh/software/cann
CANN(Compute Architecture for Neural Networks)是华为针对AI场景推出的异构计算架构
Imagination Technologies公司前身是一家名为Video Logic的公司,VideoLogic成立于1985年,主营业务是图形与音频加速等方面。后来选择了与ARM的类似盈利模式——授权IP核,并在1999年更名为Imagination Technologies。
在移动GPU市场上,Imagination的PowerVR GPU一度占有非常高的市场份额。苹果公司设计的各种供苹果手机使用的AP,比如A8、A9、A10等处理器都搭载了Imagination Technologies公司的PowerVR图像处理技术。
但在2017年4月,苹果宣布将不再使用其技术后,Imagination股价当天暴跌60%。后于2017年9月,被有中资背景的Canyon Bridge收购。
其AI Chip主要是:PowerVR Series2NX NNA和PowerVR Series3NX NNA。
Imagination目前主要的客户是:
汽车电子:Renesas
手机:MTK、紫光展锐
除此之外,由于Imagination已经全国资化了,因此很多研究所也对它的产品感兴趣。
从方案来看,Imagination采用的是GPU+NPU的模式。
这种模式的特点主要有:
NPU专注NN计算,其实主要是CNN/GEMM计算。
GPU作为通用计算的兜底,以应付一些不常见的op。GPU支持各种数学计算,单纯从计算的角度是完全可以替代CPU的。GPU的局限主要在于它没有CPU那样的逻辑控制的能力。
GPU的主频一般低于CPU,因此如果算法的并行性很差的话,效果并没有CPU好。但这种情况并不多见。
最近高通和华为CPU的超大核设计,应该对于提升串行运算性能很有帮助。毕竟CPU核再多,还能有GPU/NPU的核多吗?如果碰到就需要单挑能力的场合该怎么办呢?
综上,GPU+NPU的模式可以将NN运算基本承接过来,这样CPU的负载相对就比较小了。
从商业的角度讲,Imagination的核心产品还是GPU,NPU只是一个添头而已。它的目的应该还是利用NPU,来多卖一些GPU。
摩尔线程的GPU是基于Imagination的IMG BXT-32-1024 MC4。
官网:
https://www.imgtec.com/vision-ai/
参考:
https://mp.weixin.qq.com/s/W7GNhEq-em18V0YjCZ7MBw
被苹果抛弃的芯片供应商,现状如何?
https://zhuanlan.zhihu.com/p/436515863
PowerVR系列GPU架构的演进(一)
https://zhuanlan.zhihu.com/p/491131559
PowerVR系列GPU架构的演进(二)
https://zhuanlan.zhihu.com/p/492651331
PowerVR系列GPU架构的演进(三)
https://zhuanlan.zhihu.com/p/493240867
PowerVR系列GPU架构的演进(四)
2020.1
苹果自己研发受阻,重新延续imagination授权。
https://zhuanlan.zhihu.com/p/103597189
挣扎两年苹果重新向Imagination低头:自研GPU究竟难在何处?
SnapDragon = Kryo CPU + Adreno GPU + Hexagon DSP(include Hexagon Tensor Accelerator, HTA & Hexagon Vector eXtensions, HVX)
参考:
https://zhuanlan.zhihu.com/p/51727365
骁龙855细节曝光:引入张量加速器最亮眼
https://zhuanlan.zhihu.com/p/341328310
聊聊芯片技术趋势
https://www.zhihu.com/question/547728200
如何评价壁仞科技发布的最大算力GPGPU BR100?
https://zhuanlan.zhihu.com/p/642431341
壁仞的BR100:来自中国的机器学习GPU
现在,计算芯片是越做越大,在早先的PC中,最大的芯片无疑是CPU了。但现在高端显卡芯片的面积已经超越CPU了。
Cerebras在这方面更为极端,它的芯片采用了一整张300mm晶圆,将40万个内核,1.2万亿个晶体管,46,225平方毫米的硅和18GB的片上存储器,全部集成在一个与整个晶圆一样大的芯片中,大到令人难以置信。
其实Nvidia的芯片也有越来越大的趋势:
超大芯片主要有两个问题:
良品率问题。这个问题可以通过冗余设计来解决。比如Intel的i5、i7实际上都是同一批生产出来的。如果所有核都OK,那就是i7;否则的话,屏蔽不好的核,这就是i5,因此i5常有6核这样的奇怪数字出现。
散热问题。
参考:
https://mp.weixin.qq.com/s/Zsmvsy8I_qKZWrONj9Juuw
史上最大芯片正式推出世界最快AI计算机:1/30体积、1/5功耗、3倍性能!谷歌TPU V3在它面前就是“渣”
https://mp.weixin.qq.com/s/nGzDVR9dlF-jL4ZIkss0Ow
这家用一整块硅片做AI芯片的公司成功了?
Groq是Google TPU团队的部分成员创立的AI芯片公司。
官网:
https://groq.com/
参考:
https://zhuanlan.zhihu.com/p/102357412
Groq,“软件定义硬件”概念的背后
https://www.zhihu.com/question/510527941
DSA AI芯片,相对GPGPU,能效上有多大优势?是从哪些方面提升了能效?
Graphcore是一家英国芯片设计企业,成立于2012年。它的产品被称为IPU,主打数据中心的AI训练和推理。
官网:
https://www.graphcore.ai/
文档:
https://docs.graphcore.ai
这里必须表扬一下Graphcore的文档,写的非常好。
Graphcore的Tensorflow支持,使用了XLA接口。
而Pytorch支持,则采用了自研的PopTorch和PopART库。
PopTorch作为pytorch的平替,在建模型的同时,将模型导出为onnx格式。
PopART负责导入onnx格式的模型,并调度硬件执行。
参考:
https://zhuanlan.zhihu.com/p/103963276
深度剖析AI芯片初创公司Graphcore的IPU
https://mp.weixin.qq.com/s/WZQDmyjGgkGMpLjVP5jKlw
Graphcore
https://zhuanlan.zhihu.com/p/31782874
Graphcore AI芯片:更多分析
https://mp.weixin.qq.com/s/7vxJTh4IHeqUsc7IsLFLSA
解密哈萨比斯投资的IPU,他们要分英伟达一杯羹
https://www.cnblogs.com/zuyunfei/p/16349835.html
AI芯片:编程模型和硬件抽象(Nvidia CUDA vs Graphcore Poplar)
官网:
https://www.cambricon.com
文档:
https://developer.cambricon.com/index/document
寒武纪的AI芯片,被称为MLU。
寒武纪7nm训练芯片思元290:这款产品应该训练推理都支持的,int的算力都披露了,但是浮点算力没拿出来show。
估计浮点算力很鸡肋,大概率这是一个标注训练推理芯片的推理芯片吧!
参考:
https://www.zhihu.com/question/41469046
寒武纪神经网络处理器效能如何?
https://zhuanlan.zhihu.com/p/647727663
寒武纪显卡的使用和测试
https://zhuanlan.zhihu.com/p/591827529
寒武纪芯片学习和使用心得汇总
https://www.zhihu.com/answer/3395444932
寒武纪AI芯片
https://mp.weixin.qq.com/s/vGoWsyaal-gAzsrhPguvFg
深度解读:华为麒麟芯片是如何炼成的!
https://mp.weixin.qq.com/s/8RDHTn6P63otKXUdrHhbjw
一文看懂AI芯片产业生态及竞争格局
https://mp.weixin.qq.com/s/jINnom16KWiEKiug3N-f8g
一文看懂AI芯片:三大门派四大场景146亿美元大蛋糕
https://mp.weixin.qq.com/s/-FwuhibwwG6CFUcZXNBTFA
投资者梳理AI芯片产业,一文秒懂AI芯片生态!
https://zhuanlan.zhihu.com/p/28325678
零基础看懂全球AI芯片:详解“xPU”
https://mp.weixin.qq.com/s/Zng0NTR9P78lnR_vniiM8g
Chris Rowen: 分析全球334家真正的深度学习创业公司,盘点25家AI芯片创业公司
https://zhuanlan.zhihu.com/p/33462550
传统IP Vendor的AI加速器一览
https://mp.weixin.qq.com/s/IaCWZXQI8mYLJQXwDoNQcQ
自动驾驶芯片:GPU的现在和ASIC的未来
https://mp.weixin.qq.com/s/KjQ5BTGd92Y0Mqzk1A5JYg
老兵戴辉讲述海思视频监控芯片从0到1的血泪史!如何一步步成为行业霸主的
https://mp.weixin.qq.com/s/MwZ9j1MIwRBrJK4iWKzRqQ
和AMD有渊源的那些AI创业公司
https://mp.weixin.qq.com/s/FM-0MeXU_g0KCbCzVZruCw
12家AI芯片创企,盯上大模型生意
https://mp.weixin.qq.com/s/_n1FA7H5q4AwXqeBg9tekA
硬件实现快速累加
Christopher Stewart “Chris” Wallace,1933~2004,澳大利亚计算机科学家和物理学家。University of Sydney博士(1959)。Monash University教授。ACM fellow。在早期计算机的软件/硬件方面皆有重大贡献。
几乎每一个概述的AI加速解决方案都是从一个已经有几十年历史的学术思想开始的:脉动阵列起源于1978;VLIW架构起源于1983;数据流编程的概念可以追溯到1975;早期的内存内处理(processing-in-memory)出现在20世纪70年代。
https://www.thepaper.cn/newsDetail_forward_16268882
详解AI加速器(一):2012年的AlexNet到底做对了什么?
https://www.thepaper.cn/newsDetail_forward_16641034
详解AI加速器(二):为什么说现在是AI加速器的黄金时代?
https://www.thepaper.cn/newsDetail_forward_16681105
详解AI加速器(三):架构基础离不开ISA、可重构处理器
https://www.thepaper.cn/newsDetail_forward_16787134
详解AI加速器(四):GPU、DPU、IPU、TPU…AI加速方案有无限种可能
https://www.thepaper.cn/newsDetail_forward_16869908
详解AI加速器(最终篇):给想进入赛道的玩家一些建议
您的打赏,是对我的鼓励
请访问这里提交评论