Antkillerfarm Hacking V8.5

Generative Model » AIGC(三)——LLaVA, 数据中心

2026-06-08 :: 3291 Words

LLaVA

LLaVA(Large Language and Vision Assistant)是一个大型的多模态模型,它的能力包括:

  • 理解视频/图片的内容。
  • 根据用户指令生成视频/图片。

https://zhuanlan.zhihu.com/p/692398098

LLaVA系列多模态大模型总结

AIGC参考资源

https://mp.weixin.qq.com/s/H2nqQi2EVQ_EyeDNCRD3Cg

一文回顾AI绘画的成长之路:从简笔画到真实人脸生成

https://www.zhihu.com/question/583294094

Ai绘画半年了,到目前为止,AI绘画让多少画师失业了?未来又会有多少?

https://www.zhihu.com/question/584139316

AI绘画引入ControlNet,将会带来哪些影响?

https://www.zhihu.com/question/584053473

如何评价2023年2月AI绘画的最新水平?

https://mp.weixin.qq.com/s/HpziNAqHY9Oetsgk2AVxEg

ControlNet组合拳效果惊人,颠覆AI绘画游戏规则

https://zhuanlan.zhihu.com/p/615522634

AIGC的一些记录

https://www.zhihu.com/question/593770520

首批因AI失业的人来了,有公司已裁减原画师,导演陆川力赞AI海报高效优质,哪些职位容易被取代?

https://zhuanlan.zhihu.com/p/619730103

AI绘画教程:如何用Stable Diffusion始终画同一个人?

https://zhuanlan.zhihu.com/p/626335914

AI绘图StableDiffusion最强大模型盘点 - 诸神乱战

https://zhuanlan.zhihu.com/p/622914660

《Stable Diffusion 倚天剑术》第1卷:在各种设备上把Stable Diffusion玩起来

https://zhuanlan.zhihu.com/p/629348322

StableDiffusion LoRA自训练教程

https://mp.weixin.qq.com/s/DBLMAEbVw6v4xH94-5Zl3w

GAN逆袭归来!清华校友论文引爆AI绘图圈,一秒把大象P转身,Diffusion黯然失色

https://zhuanlan.zhihu.com/p/643872569

AI这样把NB写在脸上,它在玩一种很新的艺术

https://zhuanlan.zhihu.com/p/626004957

利用AI在独立游戏项目中大干快上

https://zhuanlan.zhihu.com/p/664461927

一天时间,我用AI做了一个恐龙网站

https://www.zhihu.com/question/15735401526

OpenAI GPT-4o推出原生图像生成功能,这次升级有哪些看点?

数据中心

机柜

机柜、板卡的尺寸规格也有工业标准,以方便不同厂商产品的互联和替换。

OCP(Open Compute Project)组织负责定义数据中心相关的工业标准。

官网:

https://www.opencompute.org

OAM:OCP Accelerator Module

UBB:Universal Base Board

https://zhuanlan.zhihu.com/p/339628067

开放计算的源起,对比标准x86服务器开放计算有哪些特点和创新?

https://zhuanlan.zhihu.com/p/571417872

开放整机柜服务器简史

四大护法

NV数据中心生态“四大护法”:

  • ABB:1988年由百年电力巨头ASEA(1883,瑞士)、BBC(1891,瑞典)合并;现代三相电、高压直流输电技术发源地,深耕中高压电网、大功率变流领域百年。
  • Eaton:美国本土电力龙头,1911年重工机械起家,1978年切入电气领域,收购西屋、Cooper、Powerware,完成从机械传动到全链路电力管理转型,深耕数据中心末端配电与储能。
  • Schneider:法国百年工业巨头,1836年钢铁军工起家,擅长重型结构与流体工程;1999年聚焦电力能源,收购APC、Motivair等头部品牌,补齐机房配电、UPS、液冷全栈能力。
  • Vertiv:美国IDC基础设施专精龙头。源自1965年Liebert(全球机房精密制冷鼻祖),后并入艾默生网络能源,2016年独立为Vertiv;唯一100%聚焦数据中心关键负载的头部厂商。

电力

NVIDIA的路线图显示,Blackwell代的GB200 NVL72机柜已运行在120kW级别,而即将推出的Vera Rubin NVL72目标机柜功率预计在250-600kW范围,更激进的Rubin Ultra可能达到600kW到接近兆瓦级(900kW)。NVIDIA甚至已开始开发800V DC高压配电架构,目标就是支撑1MW级别的机柜。数据中心配电架构正在向”变电站级别”靠拢。

为了能放下如此高密度的机柜,机房可能不止要改供电和散热系统,估计地板都得铲了重铺,不然都无法承载这么重的机柜。

AI算力负载波动极强,集群启停、模型推理峰值会出现瞬时超大冲击电流,普通继电保护极易误跳闸,必须配套储能削峰、专用智能保护系统,供电冗余设计成本大幅抬升。

NVIDIA研发的”智能功率平滑”(Intelligent Power Smoothing),通过机柜级超级电容储能(比Blackwell代多20倍,约400焦耳/GPU)来削减峰值电流需求达25%,这从侧面印证了供电冲击的巨大压力。

液冷

两相液冷(Two-Phase Liquid Cooling):服务器整机完全浸泡在低沸点绝缘氟化液槽中,GPU发热直接让周边液体沸腾汽化,蒸汽在机柜顶部冷凝回流。

  • 氟利昂(Freon):杜邦商标,行业泛指氯氟烃CFC、氢氯氟烃HCFC、氢氟烃HFC,老式空调、冷水机组,导电、腐蚀塑料,不做电子浸没/冷板散热。
  • 3M Fluorinert FC系列:完全绝缘、不腐蚀电子,适合两相浸没/冷板;无臭氧破坏,但Global Warming Potential(全球变暖潜能值)极高。
  • 3M Novec系列:为替代FC-72而生,低GWP、易降解,合规;

互联

拿NVL72举例,其机柜后面的那一排Cable Tray总共包含5184组差分对承载着NVLink高速互联信号。NVL72在富士康等OEM厂商生产良率长期低迷,整机交付后在机房运维困难,可靠性差,在实际部署中容易因线缆松动、损坏导致故障。属于典型“量产难、运维难、稳定性差”的架构。之前一度传言NVL72在OEM厂商的直通率不足50%,即使工厂完成整柜测试,到客户机房后的首次开机成功率也不足50%。

在网络产品领域,Cable Tray架构在20年前就被淘汰了,而正交架构则早早的被大厂作为主流架构。如华为NetEngine 8000 X8。思科更是在2004年的CRS-1产品上就开始使用了正交架构。正交架构因为其相比Cable Tray更高的可靠性在网络产品上得到了充分的验证。

英伟达显然是受够了Cable Tray架构的良率问题带来的麻烦,让其在下一代产品中直接抛弃了NVL72的Cable Tray方案,改为了正交架构。Rubin288让72GPU通过正交互联成NVL72,然后4个NVL72通过后部线缆互联,组成NVL288。

https://zhuanlan.zhihu.com/p/2046878757710042279

超节点正交架构:英伟达死守的正交背板架构,为何没人敢抄?

Fork me on GitHub