打造比英伟达 Blackwell更强的GPU

发布日期：2024-03-30 21:08 点击次数：174

（原标题：打造比英伟达 Blackwell更强的GPU）

若是您但愿不错接续碰头，迎接标星储藏哦~

开端：实质由半导体行业不雅察（ID：icbank）编译自nextplatform，谢谢。

诚然好多东谈主暖和多样计较引擎的浮点和整数处理架构，但咱们却破耗越来越多的时期询查内存脉络结构和互连脉络结构。这是因为计较很容易，而数据挪动和存储却变得越来越贫乏。

用一些简便的数字来表现这一丝：在以前的二十年中，CPU 和 GPU 的计较智商增多了 90，000 倍，但 DRAM 内存带宽仅增多了 30 倍，互连带宽也仅增多了 30 倍。频年来，咱们在某些方面取得了卓越，但咱们觉得计较与内存的均衡仍然很远方，这意味着咱们在用于普遍 AI 和 HPC 责任负载的内存不及的计较引擎上破耗过多。

恰是磋议到这一丝，咱们磋议了 Eliyan 创建的收采集物理层 (PHY) 的架构更变，这些更变在本周的 MemCon 2024 会议上以不同且极度灵验的方式展现。调节独创东谈主兼首席践诺官 Ramin Farjadrad 花了一些时期向咱们展示 NuLink PHY 过甚用例怎么跟着时期的推移而发展，以及怎么使用它们来构建比使用 PHY 更好、更低廉、更坚毅的计较引擎面前基于硅中介层的封装技能。

PHY 是一种物理收集传输开辟，它将交换芯片、收集接口或计较引擎上或里面的任何数目的其他类型的接口聚合到物理介质（铜线、光纤、无线电信号），而物理介质又联接它们互相之间或收集上。

硅中介层是一种特殊的电路桥，用于将 HBM 堆叠式 DRAM 内存联接到计较引擎，举例 GPU 和定制 ASIC，这些引擎接续用于 HPC 和 AI 界限的带宽明锐应用。偶而 HBM 使用也需要高带宽内存的成例 CPU。

Eliyan 于 2021 年在圣何塞缔造，面前领有 60 名职工。该公司刚刚取得了 6000 万好意思元的第二轮融资，由内存制造商三星和 Tiger Global Capital 领投 B 轮融资。Eliyan 于 2022 年 11 月在 A 轮融资中筹集了 4000 万好意思元，由 Tracker Capital Management 领投，Celesta Capital、英特尔、Marvell 和内存制造商好意思光科技 (Micron Technology) 出资。

Farjadrad 在互联网激越时期在 Sun Microsystems 和 LSI Logic 担任遐想工程师，曾担任 Velio Communications（现为 LSI Logic 的一部分）的交换机 ASIC 首席工程师和调节独创东谈主，而况是调节独创东谈主和首席技能Aquantia 的官员，该公司为汽车阛阓分娩以太网 PHY。2019 年 9 月，Marvell 收购了 Aquantia，并让 Farjadrad 讲求收集和汽车 PHY。Marvell 已成为最大的 PHY 制造商之一，在遐想这些系统过错组件方面与 Broadcom、Alphawave Semi、Nvidia、Intel、Synopsis、Cadence 以及面前的 Eliyan 等公司竞争。

Eliyan 的其他调节独创东谈主包括 Syrus Ziai，他是工程和运营期骗，并曾担任高通公司 Ikanos 的工程副总裁。多年来，PsiQuantum 和 Nuvia 以及业务和企业发延期骗 Patrick Soheili 曾讲求 eSilicon 的居品惩办和东谈主工智能计谋期骗。该公司因在 Apple iPod 音乐播放器中创建 ASIC 以及开发 2.5D ASIC 封装和 HBM 内存限度器而著明。天然，eSilicon 于 2019 年底被 Inphi 以 2.13 亿好意思元收购，扩大了其 PHY 智商，2021 年 4 月，Marvell 在 2020 年 10 月以 100 亿好意思元收购 Inphi，完成了这一轮回。

PHY 以及 I/O SerDes 和重定时器齐有资金。SerDes 与交换机 ASIC 中使用的那些用于将从开辟发出的并行数据调节为通过电线、光纤或空中传输的串行数据一样，是一种特殊的 PHY，而况从某种想维方式来看，SerDes 亦然一种特殊的 PHY。跟着带宽的增多以及不错推送干净信号的铜线长度的减少，重定时器将越来越多地被使用。对于重定时器，感趣味的不错了解《》一文。

咱们会说:Fee PHY Faux Big Sum。说到这里，让咱们花一分钟谈谈2.5D封装。

细谈2.5D封装

跟着摩尔定律在晶体管密度方面的增长速率放缓，而况晶体管的资本跟着每一种后续工艺技能的发展而不是下跌，咱们齐也曾意志到当代芯片蚀刻工艺的掩模版限制。使用粗拙极紫外 (EUV) 水浸光刻技能，不错在硅晶圆上蚀刻晶体管的最大尺寸为 26 毫米 x 33 毫米。

但咱们中的许多东谈主可能没特地志到，这亦然硅中介层尺寸的限制，硅中介层允许小芯片在有机基板顶部互相聚合，有机基板就像每个计较引擎插槽过甚附庸 HBM 内存下方的主板。该硅中介层的尺寸取决于用于创建中间板的技能。中介层采选与芯片调换的光刻工艺制造，但如今使用一些技能，中介层不错达到 2，500 mm2，而不是像芯片那样具有 858 mm2的掩模版限制，并使用其他接近 1，900 mm 2 ；据 Farjadrad 称，筹备将其擢升到 3，300 mm2 。有机基板插座莫得这么的面积限制。当您驳倒小芯片的 2.5D 封装时，这一丝很首要。

Farjadrad 向咱们先容了与 Eliyan 的 NuLink PHY 竞争的不同 2.5D 方法的馈遗、速率和局限性。

以下是台积电怎么通过硅片晶圆芯片 (CoWoS) 工艺竣事 2.5D，该工艺用于创建 Nvidia 和 AMD GPU 过甚 HBM 堆栈等：

从技能上讲，上图泄露了台积电的 CoWoS-R 内插器技能，该技能接续用于将 GPU、CPU 和其他加快器聚合到 HBM 内存。CoWoS 的硅中介层仅限于约莫两个标线单位，这恰是Nvidia 上周刚刚推出的“Blackwell”B100 和 B200 GPU的尺寸。这并非适值。这也曾是英伟达所能作念到的最大界限了。

台积电领有一种不那么引东谈主注筹备 CoWoS-L 技能，该技能制造起来愈加复杂，就像其他方法中使用的镶嵌式桥一样。

一种桥接技能称为带有镶嵌式桥接的晶圆级扇出技能，该技能由芯片封装商 Amkor Technology 主张，并有来自 ASE Holdings 的一种名为 FOCoS-B 的变体。以下是这种封装方法的输入和速率：

使用这种 2.5D 封装，您不错制作尺寸约为三个掩模版限制的封装。高迹线密度意味着您不错以低功耗取得高芯片间带宽，但范围有限，布线智商也有限。哦，它还莫得信得过被普遍鼓吹。

英特尔将硅桥平直放入容纳小芯片的有机基板中（减去中介层）的方法与 Eliyan 对 NuLink 所作念的近似：

关联词，EMIB 受到分娩周期长、产量低、粉饰范围和可布线性有限以及由一家面前在先进半导体界限声誉欠安的公司英特尔构成的有限供应链的困扰。公正地说，英特尔正在重回正轨。但它还莫得出现。

Eliyan 忽视了 NuLink 的修改后的 2D MCM 经由：

Farjadrad说，NuLink PHY的数据速率约莫是传统MCM封装的10倍，NuLink PHY之间的走线长度不错达到2厘米到3厘米，比CoWoS和其他2.5D封装选项维持的0.1毫米走线长度增多了20倍到30倍。走线上的特等距离，以及NuLink PHY在这些走线上具有双向信号的事实，使计较引擎遐想发生了巨大的变化。

Farjadrad还提到:“在面前的架构下，当你在内存和ASIC之间运行数据包时，数据包数据并不是同期双向的。“你不错从内存中读取或写入。若是你有一个端口不错同期发送或袭取一个，那么你不错从销亡个beach取得两倍的带宽，这便是NuLink所作念的。因此，您不会挥霍您的ASICbeach的一半，这黑白常难得的。咱们需要我方的特殊公约来爱戴内存一致性，确保读和写之间莫得蹂躏。咱们知谈当咱们制作PHY时，咱们需要为特定的应用方法制作一个关联的公约。这是咱们最大的别离之一。领有最佳的PHY是一趟事，但将其与AI应用的正确专科知知趣结合是另一个首要身分，咱们知谈怎么作念到这一丝。”

当NuLink于2022年11月初次推出时，它还莫得这个名字，Eliyan也莫得忽视用物理学来创建通用存储接口(UMI)的方法。NuLink仅仅竣事某种东西的一种方式，它不错使用UCI-Express芯片互连公约，也不错维持Farjadrad和他的团队几年前创建的原始束线(BoW)芯片互连所维持的任何公约，顶牛贷并将其行动提议的措施捐赠给开放计较形式。以下是Eliyan怎么将NuLink与多样内存和芯片互连公约进行对比:

Intel MDFIO是Multi-Die Fabric I/O的缩写，用于将“Sapphire Rapids”Xeon SP处理器中的四个计较芯片互相联接;EMIB用于将这些小芯片聚合到具有HBM的Sapphire Rapids的Max系列CPU变体的HBM内存堆栈。OpenHBI基于JEDEC HBM3电气互连，亦然一个OCP措施。UCI-Express，咱们在这里写过，是一种端淑的带有CXL一致性粉饰的PCI-Express，它被遐想成小芯片的模对模互连。英伟达(Nvidia)的NVLink面前用于将Blackwell GPU的小芯片粘合在一齐，但它莫得出面前这张表中，英特尔的XeLink也莫得出面前“Ponte Vecchio”Max系列GPU上，用于将其GPU小芯片粘合在一齐。与UCI-Express不同，NuLink PHY是双向的，这意味着您不错领有与UCI-Express一样多或更多的电线，但在走线上的带宽是UCI-Express的两倍或更多。

正如你所看到的，有一个奋斗的封装聘用，使用凸点与40微米到50微米的凸点间距，而die到die的距离唯一约莫2毫米。物理层的带宽密度可致使极高——每毫米旯旮长度上的芯片不错达到Tb/秒——而况功率恶果根据方法的不同而变化。通盘蔓延也在4纳秒以下。

表的右边是不错与措施有机基板封装和使用130微米隆起责任的互连物理，因此是更低廉的聘用。其中包括Cadence的Ultralink PHY、AMD的Infinity Fabric PHY、Alphawave Semi的OIF Extra Short Reach (XSR) PHY，以及NuLink的一个版块，即使不使用低间距凸点，仍能竣事相配高的信号传输。

稽查表格右侧的芯片到芯片的联接距离。使用2厘米比拟于2毫米和ASIC与HBM堆栈或相邻芯片之间的0.1毫米间距，你不错作念更多的事情。这些更长的联接开放了计较和内存复合体的几何结构，而况它们还摒除了ASIC与HBM之间的热串扰效应。堆叠内存对热度极度明锐，跟着GPU变得更热，需要冷却HBM以使其深广责任。若是你能将HBM与ASIC保抓更远的距离，你不错使ASIC运行得更快——Farjadrad测度约莫快20%——而况更热，因为内存不及以被那增多的ASIC热量平直影响。

此外，通以前除像GPU这么的开辟中的硅中间层或等价物，通过挪动到有机衬底，使用更大的隆起和隔断组件，您不错将具有12个HBM堆栈的双ASIC开辟的制酿资本从约12，000好意思元(芯片加封装收率约为50%)裁汰到87%的开辟，资本约为6，800好意思元。

让咱们再看两个对比UCI-Express、BoW和UMI的图表，然后咱们不错玩一下系统架构师的游戏。

如您所见，Eliyan抓续鼓吹其PHYs的双向智商的极限，面前具备了同期进行双向流量的智商，这一功能被称为UMI-SMD。

这里还展示了这四个选项的带宽和ASIC旯旮区域：

因此，面前被称为 UMI 的 NuLink PHY 比 UCI-Express 更小、更快，而况不错同期投球和接球。你能用它作念什么？

率先，您不错构建更大的计较引擎：

24 个或更多 HBM 堆栈以及包含 10 到 12 个网格的计较引擎包怎么诱骗您？这种开辟的制造时期仅为措施有机基板的四分之一到五分之一。

IBM 从 1989 年傍边的巅峰时期开动走下坡路后，在 20 世纪 90 年代初曾流行过这么一句话：你不错找到更好的，但你弗成付出更多。

天然，Nvidia 不是 IBM。粗犷英特尔。不管怎么，还莫得。肆意赢利会对公司过甚道路图产生奇怪的影响。

以下是 Eliyan 觉得 HBM4 畴昔可能阐扬的作用：

HBM4 内存的 JEDEC PHY 极度大，切换到 UCI-Express 会将这个面积减少一半。使用 NuLink UMI PHY 险些会再次将其减半，为您聘用的 XPU 上的逻辑留住更多空间。粗犷，若是您想毁掉中介层，制造一个更大的开辟，并配备 13 mm 2 UMI PHY，您也不错构建一个更低廉的开辟，而况仍然不错从每个 HBM4 中驱动 2 TB/秒堆。

面前事情变节仪象意象了。

早在 2022 年 11 月，当 Eliyan 忽视其目的时，它正在将带有联接到 HBM 内存的中介层的 GPU 与移除中介层并将 ASIC 增多一倍（就像 Blackwell 所作念的那样）并摈弃一个野兽的机器进行比较。与 ASIC 小芯片比拟，24 个 HBM 名次极度出色。像这么：

左边是Nvidia A100和H100 GPU过甚HBM内存的架构。中间是一张英伟达的图表，泄露了跟着更多HBM内存容量和更多HBM内存带宽提供给AI应用方法，性能是怎么擢升的。正如咱们所知，具有141 GB HBM3E内存和4.8 TB/秒带宽的H200的工犯警果是具有调换GH100 GPU的H100的1.6到1.9倍，但唯一80 GB HBM3内存3.35 TB/秒带宽。

想象一下上头所示的具有576 GB HBM3E内存和19 TB/秒带宽的野兽!记取:内存并不是耗电量的首要构成部分，GPU才是。迄今为止，咱们看到的少许笔据标明，英伟达、AMD和英特尔干涉该界限的GPU齐受到HBM内存容量和带宽的限制，而且由于制造这种堆叠内存的贫乏，这种限制也曾抓续了很长时期。这些公司分娩GPU，而不是内存，他们通过提供尽可能少的HBM内存来竣事收入和利润的最大化，而不是弘大的计较量。它们老是比上一代泄露更多，但GPU计较的速率老是快于内存容量和带宽。Eliyan忽视的遐想不错使计较和内存复原均衡，并使这些开辟更低廉。

也许这对于 GPU 制造商来说有点太强了，因此跟着 UMI 的推出，该公司稍稍退一步，展示了怎么使用中介层和有机基板加上 NuLink PHY 的组合来制造更大、更均衡的 Blackwell GPU 复杂。

左下图展示了怎么创建一个 Blackwell-Blackwell 超等芯片，其中一个 NVLink 端口以 1.8 TB/秒的速率运行，将两个双小芯片 Blackwell GPU 联接在一齐：

使用NuLink UMI方法，你不错在上头的图表中看到，在两个Blackwell GPU之间有六个端口提供约莫12tb /秒的带宽-比Nvidia在B100和B200中使用NVLink端口提供的10tb /秒多一丝。Eliyan超等芯片遐想的带宽是Nvidia B200超等芯片遐想的6倍(若是有的话)。若是英伟达想要坚抓其coos制造工艺，Eliyan不错在中间层上摈弃雷同的8组HBM3E内存，但它不错在每个Blackwell开辟上再摈弃8组HBM3E，悉数32组HBM3E，这将产生768gb的容量和25tb /秒的带宽。

你仔细想想。

关联词等等，这不是你得到的全部。这种UMI方法适用于任何XPU和任何类型的内存，你不错作念像这么狂妄的事情，系数这些齐在一个巨大的有机衬底上，而不需要中间体:

任何内存、任何共同封装的光学器件、任何 PCI-Express 或其他限度器齐不错使用 NuLink 联接到任何 XPU。至此，插座才信得过成为了主板。

对于更大的复合体，Eliyan 不错构建 NuLink Switch。。。。

英文原文

https://www.nextplatform.com/2024/03/28/how-to-build-a-better-blackwell-gpu-than-nvidia-did/

点这里加暖和，锁定更多原创实质

*免责声明：本文由作家原创。著述实质系作家个东谈主不雅点，半导体行业不雅察转载仅为了传达一种不同的不雅点，不代表半导体行业不雅察对该不雅点赞同或维持，若是有任何异议，迎接关系半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第3720期实质，迎接暖和。

『半导体第一垂直媒体』

及时专科原创深度

公众号ID：icbank

可爱咱们的实质就点“在看”共享给小伙伴哦

上一篇：AI与海：一场海洋论坛上的“数字猜思”
下一篇：华泰证券专科版2官方电脑版

让建站和SEO变得简单

打造比英伟达 Blackwell更强的GPU