NVIDIA作为行业龙头,其影响力甚至在Khronos Group之上,它提出的标准很多成为了行业的事实标准。
最近(2018.2),公司副总M给我们讲座的时候,回顾他早年在NVIDIA的经历,当时他作为公司骨干,曾拥有数万股NV的股票,可惜早都卖了。这十几年来,NV股票经过5次分拆(每次1股拆2股),当初的一股现在要值6500美元。他要不卖,现在可能已经是亿万富翁了。。。
The more you buy,The more you save.
https://www.zhihu.com/question/22407373
英伟达(NVIDIA)创始人黄仁勋是一个什么样的人?
第一代NVIDIA显卡甚至都不是PC游戏用的显卡,它是世嘉土星的兼容卡,可以在PC上玩SS游戏。因为要和Sega的3D技术兼容,N卡一度偏离了行业主流,差点破产。
一款叫《孤岛危机》,别称“显卡危机”的游戏于2007年诞生了,带来绝佳画面的同时,也“羞辱”了包括卡皇8800 Ultra在内的全部游戏GPU。当年主流分辨率尚且只是720P,但孤岛危机也需要3张8800 Ultra(总价在当年的北京可以买下2.5㎡房)SLI到一起,才能满足最高画质+4AA下,60帧流畅玩的需求。
https://zhuanlan.zhihu.com/p/571633096
NVIDIA软硬件全栈浅析
iGPU:Integrated Graphics Processing Unit。
dGPU:Discrete Graphics Processing Unit。
Copy Engine:复制引擎可以在流处理簇做计算时执行主机与设备之间的内存传输。在早期的CUDA硬件并没有任何复制引擎,后来版本的硬件包括了一个复制引擎,可以传输线性设备内存(CUDA数组除外),而最新的CUDA硬件则包括了两个复制引擎,这样可以使PCIe总线饱和并可以在CUDA数组和线性内存之间转换。
Stream Processor:传统的顶点和像素分离渲染架构,存在着资源分配不均匀的问题——两种单元的渲染在不同场景的任务量不同。如果一个单元既能做顶点渲染,又能做像素渲染的话,这个问题就迎刃而解了。这样的统一渲染单元被称为Stream Processor。
一个GPU含有若干个GPC(Graphics Processing Clusters),每个GPC含有7~8个TPC(Texture Processing Clusters),每个TPC有2个SM(Streaming Multi-processor)。
EU:Execution Units
https://zhuanlan.zhihu.com/p/266633373
详解CUDA的Context、Stream、Warp、SM、SP、Kernel、Block、Grid
https://www.zhihu.com/question/35361192
CUDA为什么要分线程块和线程网格?
Tesla产品专为数据中心与工作站计算应用而设计。
Quadro产品专为专业图形与工程应用而设计。
GeForce产品专为互动游戏与消费类应用而设计。
NVIDIA Tesla V100 | NVIDIA RTX 3090 | |
---|---|---|
FP32 (float) performance | 14.13 TFLOPS | 35.58 TFLOPS |
FP64 (double) performance | 7066 GFLOPS | 1112 GFLOPS |
RTX系列属于对于机器学习来说性价比较高的显卡,但是双精度浮点数性能很弱。
NVIDIA HGX:主板级的产品。比如数据中心机架上的板卡。
NVIDIA DGX:服务器级的产品。
NVIDIA EGX:主打边缘计算的主板级产品。
NVIDIA AGX:主打自动驾驶等AI功能的产品。目前已经有Parker、Xavier、Orin、Atlan、Thor等代产品。
历代GPU架构代号:Currie -> Tesla -> Fermi -> Kepler -> Maxwell -> Pascal -> Volta -> Turing -> Ampere -> Grace (CPU) Hopper (GPU)-> Ada Lovelace -> Blackwell -> Vera (CPU) Rubin (GPU) 。
V100表示是Volta架构的GPU,A100和H100同理。
A40是A100的简配版,用于数据中心的AI推理。
H100搭配的是X86的CPU,如果搭配NV自研的基于ARM架构的Grace CPU的话,就是GH200了。
Grace Hopper,1906~1992,女,美国计算机科学家。耶鲁大学博士(1934)。Cobol语言之母。
David Harold Blackwell,1919~2010,美国统计学家,伊利诺伊大学博士(1941年)。拉奥-布莱克韦尔定理的提出者之一。他是美国国家科学院的首位黑人院士,和加州大学伯克利分校的首位黑人终身教员。当然他是黑人混血,不是传统意义的黑人。
当Blackwell的名字被列入普林斯顿大学的访问学者名单时,该校校长大发雷霆。他声称该学院滥用了大学的好客,录取了一名黑人。
https://zhuanlan.zhihu.com/p/476820418
最伟大的黑人数学家——布莱克威尔,统计学领域的天才
Vera Florence Cooper Rubin,1928~2016,女,美国天文学家,美国国家科学院院士。她是研究星系自转速率的先驱,她通过研究星系旋转曲线,发现了预测的星系角运动与观测到的星系角运动之间的差异。通过确定星系自转问题,她的工作为暗物质的存在提供了证据。这些结果在随后的几十年里得到了证实。
2019年,Large Synoptic Survey Telescope被命名为Rubin天文台。
H100/A100和RTX 4090最大的区别就在通信和内存上,算力差距不大。至于A40之类的芯片虽然内存大,但是带宽甚至不如RTX同档的产品,导致实际效果也是远远不如后者。
https://zhuanlan.zhihu.com/p/655402388
A100/H100太贵,何不用4090?
https://zhuanlan.zhihu.com/p/669880751
谈谈RTX4090 GPU改装为AIDC加速卡的可行性--PCB板级改造的工艺缺陷和风险
https://arnon.dk/matching-sm-architectures-arch-and-gencode-for-various-nvidia-cards/
Matching CUDA arch and CUDA gencode for various NVIDIA architectures
这篇文章虽然讲的是NVCC的sm选项的含义,但同样可以看作是NV GPU架构的历代记。
有幸在客户那里见识了H100 Server的配置。
GPU:H100x8,每卡显存80GB。
CPU:Intel(R) Xeon(R) Platinum 8462Y+ 128核。
内存:2TB。
硬盘:14TB的MD RAID阵列。
查看显卡硬件型号:
ubuntu-drivers devices
安装驱动:
sudo ubuntu-drivers autoinstall
N卡型号:
nvidia-smi -L
参考:
https://zhuanlan.zhihu.com/p/59618999
Ubuntu 18.04安装NVIDIA显卡驱动
NVIDIA Deep Learning Accelerator是一个开源的用于inference的芯片方案。官网:
http://nvdla.org/
NVDLA由于其强大的背景,被很多芯片公司拿来套壳开发。
参考:
https://mp.weixin.qq.com/s/aFmr6WKhZ3E-PsF6-uJvJg
一图理清Nvidia AI软件栈
https://zhuanlan.zhihu.com/p/561018305
NVDLA硬件架构之卷积核心
RAPIDS,全称Real-time Acceleration Platform for Integrated Data Science,是NVIDIA针对数据科学和机器学习推出的一套开源GPU加速库,基于CUDA-X AI打造。
官网:
https://rapids.ai/
代码:
https://github.com/rapidsai
参考:
https://blog.csdn.net/sinat_26917383/article/details/104503795
NVIDIA的python-GPU算法生态
NVIDIA System Management Interface (NSMI): 即nvidia-smi。
NVIDIA Nsight Systems (NSYS)
NVIDIA Data Center GPU Manager (DCGM)
NVIDIA Management Library (NVML): NVML为GPU硬件数据提供了编程接口,开发者可以通过编程的方式访问GPU的各项数据,其中就包含GPU利用率,nvidia-smi和DCGM的背后就是NVML,推荐高级开发者使用。
cuda的调试主要使用ncu和nsys两个工具。
NCU侧重于内核级别的性能分析,例如显示不同block size内核函数的执行时间、执行的吞吐量、带宽分析等。
而Nsight System提供了更全面的系统级性能分析。包括CPU和GPU之间的交互、内存操作、内核执行时间等。它可以帮助开发者发现性能瓶颈,例如GPU饥饿、不必要的GPU同步、CPU并行度不足等问题。还提供了对多节点性能的分析,这对于数据中心和集群环境中的性能优化尤为重要。
https://fkong.tech/posts/2023-11-19-torch-gpu-util/
如何把PyTorch的GPU利用率提升到100%?
https://dev-discuss.pytorch.org/t/using-nsight-systems-to-profile-gpu-workload
Using Nsight Systems to profile GPU workload
光刻是芯片制造过程中最复杂、最昂贵、最关键的环节,其成本约占整个硅片加工成本的1/3甚至更多。计算光刻模拟了光通过光学元件并与光刻胶相互作用时的行为,应用逆物理算法来预测掩膜板上的图案,以便在晶圆上生成最终图案。
“计算光刻是芯片设计和制造领域中最大的计算工作负载,每年消耗数百亿CPU小时。”黄仁勋讲解道,“大型数据中心24x7全天候运行,以便创建用于光刻系统的掩膜板。这些数据中心是芯片制造商每年投资近2000亿美元的资本支出的一部分。”而cuLitho能够将计算光刻的速度提高到原来的40倍。
NV的EDA辅助设计
https://mp.weixin.qq.com/s/cGKtvtZzR–sGL4oNSZfAw
深度分析NVIDIA A100显卡架构
https://mp.weixin.qq.com/s/rtO8PxRj08GVimT3bfbplA
我看英伟达H100 GPU
https://www.zhihu.com/question/523521515
如何评价英伟达3月22日发布的全新GPU H100?
https://mp.weixin.qq.com/s/lP7sLiqiGGR2IY-FaorIPw
英伟达:AI芯片还可以这样做
https://mp.weixin.qq.com/s/jGGGMDokN9akzbjRkvUOaA
NVIDIA GPU架构的变迁史
https://jcf94.com/2020/05/24/2020-05-24-nvidia-arch/
NVIDIA GPU架构演进
https://www.zhihu.com/question/603617327
英伟达发布集成256个GH200芯片的DGX GH200超级计算机,有哪些技术亮点?
https://mp.weixin.qq.com/s/hK33RwqbqSH7FPqVKUEXCw
英伟达帝国的一道裂缝
https://zhuanlan.zhihu.com/p/639181571
谈一下英伟达帝国的破腚
https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/
NVIDIA Hopper Architecture In-Depth
https://zhuanlan.zhihu.com/p/679525399
NVIDIA GPGPU(一)总览
https://zhuanlan.zhihu.com/p/680098446
NVIDIA GPGPU(二)逐步走向通用
https://zhuanlan.zhihu.com/p/680195269
NVIDIA GPGPU(三)新时代
https://zhuanlan.zhihu.com/p/680262016
NVIDIA GPGPU(四)通信架构
您的打赏,是对我的鼓励