让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

你的位置:辉煌配资 > 股票操盘 >

HBM,莫得敌手?

发布日期:2024-03-30 22:24    点击次数:82

(原标题:HBM,莫得敌手?)

若是您但愿可以常常碰面,宽待标星储藏哦~

起首:内容由半导体行业不雅察(ID:icbank)编译自embedded,谢谢。

已往一年多,生成式东谈主工智能(AI)应用的爆炸式增长刺激了对东谈主工智能行状器的需求,以及对东谈主工智能处理器的需求猛增。这些处理器中的大多数(包括 AMD 和 Nvidia 的运筹帷幄 GPU、Intel 的 Gaudi 或 AWS 的 Inferentia 和 Trainium 等专用处理器以及 FPGA)都使用高带宽内存 (HBM),因为它提供了现在可能的最高内存带宽。

因此,把柄TrendForce 的说法,内存制造商好意思光、三星和 SK 海力士在 2023 年将 HBM 产量提高以后,并在 2024 年进一步提高,举例三星就在最近晓喻了扩产经营。

这些承诺将成为业界的挑战。

固然HBM很可以,但有好多 AI 处理器,非常是那些想象用于运行推理职责负载的处理愚弄 GDDR6/GDDR6X 甚而 LPDDR5/LPDDR5X 。

此外,还可以给运行 AI 职责负载(针对特定辅导进行优化)的通用 CPU 准备使用商用内存,这便是为什么在改日几年咱们将看到 MCRDIMM 和 MRDIMM 内存模块将显着提高容量和带宽达到新的水平。

但咱们必须强调的是,HBM 仍将保抓带宽王者地位。

HBM:不吝一切为带宽

计议到当代类型内存的性能规格和功能,HBM 在带宽需求大的应用门径中如斯受宽待的原因可想而知。每个堆栈的速率约为 1.2 TB/s,任何传统内存都无法在带宽方面打败 HBM3E。但这种带宽是有代价的,况且在容量和本钱方面存在一些胁制。

东谈主工智能工程定约MLCommons的实施董事 David Kanter 暗意:“HBM 不仅具有优厚的带宽,而且还具有功耗,因为距离很短。” “主要瑕玷是它需要先进的封装,目下胁制了供应并增多了本钱。“但 HBM 险些信服会永久占有一隅之地。”

HBM 的这些特点使得 DDR、GDDR 和 LPDDR 类型的内存也用于许多需要带宽的应用,包括 AI、HPC、图形和职责站。好意思光暗意,这些容量优化和带宽优化类型内存的开发正在赶紧进行,因此东谈主工智能硬件开发东谈主员对它们有明确的需求。

好意思光运筹帷幄和收集业务部高档司理 Krishna Yalamanchi 暗意:“HBM 是一项非常有长进的技艺,其市集改日增长后劲纷乱。” “目下应用主要邻接在东谈主工智能、高性能运筹帷幄等需要高带宽、高密度、低功耗的范畴。跟着越来越多的处理器和平台取舍它,该市集瞻望将快速增长。”

有分析东谈主士指出,自 2012 年以来,历练模子以每年 10 倍的速率增长,而且看起来[增长]并莫得放缓。”

非常理由的是,那些需要 HBM 的公司常常会在整夜之间取舍该圭臬的最新版块。

为此Gartner预测,高带宽内存的需求瞻望将从 2022 年的 1.23 亿 GB 激增至 2027 年的 9.72 亿 GB,这意味着 HBM 位需求瞻望将从 2022 年占 DRAM 举座的 0.5% 增多到 2027 年的 1.6%这一激增归因于圭臬 AI 和生成 AI 应用中对 HBM 的需求不休升级。

Gartner分析师合计,HBM收入将从2022年的11亿好意思元增至2027年的52亿好意思元,而HBM价钱相对2022年的水平将着落40%。Gartner指出,由于技艺高出和内存制造商的承诺不休增多,HBM 堆栈的密度也将增多,从 2022 年的 16 GB 增多到 2027 年的 48 GB。与此同期,好意思光似乎更为乐不雅,瞻望在 2026 年傍边推出 64 GB HBMNext (HBM4) 堆栈。HBM3 和 HBM4 法式允许构建 16-Hi 堆栈,因此可以使用 16 个 32-Gb 器件构建 64 GB HBM 模块,但这将条件内存制造商裁汰内存 IC 之间的距离,其中包括使用新的坐褥技艺。

鉴于 Nvidia 占据了运筹帷幄 GPU 市集的最大份额,该公司很可能成为业界最大的 HBM 内存消费者,况且这种情况将抓续一段时间。

但咱们也不得不承认,HBM难度极大。

HBM:太贵了,太难了

坐褥 HBM 已知细密堆叠芯片 (KGSD) 从根底上来说比坐褥传统 DRAM 芯片更为复杂。早先,用于 HBM 的 DRAM 拓荒与用于商用内存(举例 DDR4、DDR5)的典型 DRAM IC 完全不同。内存坐褥商必须制造 8 或 12 个 DRAM 拓荒,对其进行测试,然后将它们封装在事先测试的高速逻辑层之上,然后测试通盘封装。这个进程既高尚又漫长。

“HBM 堆栈基于 3D 堆栈 DRAM 架构,该架构使用硅通孔 (TSV) 垂直运动多个芯片,这与商用 DRAM 根底不同,”Yalamanchi 说。“这种带有 TSV 的堆叠架构可已毕非常宽的内存接口(1024 位)、高达 36 GB 的内存容量,并可已毕高出 1 TB/s 的高带宽操作。DRAM 存储体和数据架构从根底上进行了重新想象,以相沿此类并行宽接口。”

这些并不是一个可怕的本钱增多成分,这些器用和法子是把柄 3D NAND 配置的,您可以通过硅通孔进走时动,所需要作念的便是移植现存的 TSV 法子(来自 3D NAND),”DataSecure 首席技艺官兼 Boolean Labs 首席技艺官兼首席科学家 Michael Schuette说。

但用于 HBM 的 DRAM 拓荒必须具有宽接口,因此它们的物理尺寸更大,因此比老例 DRAM IC 更高尚。这亦然为什么好意思光首席实施官 Sanjay Mehrotra 合计,为知足东谈主工智能行状器的需求而增多 HBM 内存产量将影响扫数 DRAM 类型的比特供应。

Mehrotra 在早前的电话会议上暗意:“高带宽内存 (HBM) 坐褥将成为行业位供应增长的阻力。” “HBM3E 芯片的尺寸大致是同等容量 DDR5 的两倍。HBM 居品包括逻辑接口芯片,况且具有愈加复杂的封装堆栈,这会影响良率。因此,HBM3 和 3E 需求将摄取行业晶圆供应的很大一部分。HBM3 和 3E 产量的增多将贬抑全行业 DRAM 位供应的举座增长,尤其是对非 HBM 居品的供应影响,因为更多产能将被滚动到处分 HBM 契机上。好意思光Mehrotra 在最近的电话会议上暗意:“高带宽内存 (HBM) 坐褥将成为行业位供应增长的阻力。” “HBM3E 芯片的尺寸大致是同等容量 DDR5 的两倍。HBM 居品包括逻辑接口芯片,况且具有愈加复杂的封装堆栈,这会影响良率。因此,HBM3 和 3E 需求将摄取行业晶圆供应的很大一部分。HBM3 和 3E 产量的增多将贬抑全行业 DRAM 位供应的举座增长,尤其是对非 HBM 居品的供应影响,因为更多产能将被滚动到处分 HBM 契机上。”

HBM3E 骨子上是具有显着延缓的 HBM3,因此固然 DRAM 制造商必须确保细密的良率,然后治疗其坐褥法子以更灵验地构建 8-Hi 24 GB 和 12-Hi 36 GB HBM3E KGSD,但新式内存将并不代表 HBM 坐褥的要紧调动。相比之下,它的继任者将会。经营的 HBM3E 产能擢升对咱们的位供应才智也产生了类似的影响。”

HBM3E 骨子上是具有权贵延缓的 HBM3,因此固然 DRAM 制造商必须确保细密的产量,然后治疗其坐褥法子以更灵验地构建 8-Hi 24 GB 和 12-Hi 36 GB HBM3E KGSD,但新式内存将并不代表 HBM 坐褥的要紧调动。相比之下,它的继任者将会。

HBM4 将内存堆栈接口蔓延至 2048 位,这将是自八年前推出该内存类型以来 HBM 法式最要紧的变化之一。对于存储器制造商、SoC 开发商、代工场以及外包拼装和测试 (OSAT) 公司而言,将 I/O 引脚数目增多两倍,同期保抓相似的物理占用空间,极具挑战性。三星暗意,HBM4 需要从目下用于 HBM 的微凸块键合(这如故很困难且高尚)过渡到径直铜对铜键合,这是一种用于集成的滥觞进技艺改日几年的多芯片想象。

“若是我望望 [行将推出的 HBM4 法式] 和 2048 位宽接口,这将使引脚数达到约 5500 个引脚,这与大多数行状器 CPU 或 GPU [就引脚数而言] 处于合并水平,”Schuette说。“若是您尝试在小封装想象中布线,最终会得到 20 层重新散播层/中介层之类的东西,若是您取舍更大的封装、更少的层数,最终会高出允许的最大走线长度”。

SK 海力士甚而设思 HBM4 必须以 3D 神色集成在片上系统上才能已毕最大效果,但这将进一步增多本钱。

“在接下来的几年中,我合计咱们可能和会过更细巧的集成(举例 3D 堆叠)取得特殊的性能和效果,但这可能会愈加高尚,”Kanter说。

Schuette 合计,由于 HBM4 的引脚数极高,使用具有插入器和重新分派层的传统法子将具有 2048 位接口的 HBM4 堆栈运动到主机处理器可能非常困难。

“最渺小的误解就会导致运动不良,”Schuette 解释谈。“若是它仅仅一个接地引脚,你可能不会防御到,但若是它是一个信号引脚,你就完蛋了。

但 3D 封装技艺将需要更复杂的拓荒,因此很可能至少在早先只消代工场我方会在 2025 年至 2026 年的某个时候提供 HBM4 集成。

据报谈,为了不休减轻 DRAM 单位尺寸并胁制内存功耗,三星筹商在 HBM4 中使用 FinFET 晶体管。FinFET 的讨好瞻望将优化行将推出的 HBM 器件的性能、功耗和面积缩放。联系词,该技艺对本钱的影响仍不信服。此外,三星何时在圭臬 DRAM IC 中取舍 FinFET 的时间表尚未信服。目下,三星仅证据 FinFET 将用于 HBM4。

Salvador 暗意:“本钱问题仍然存在,HBM4 的实施问题可能会延长 HBM3/HBM3E 的使用寿命,非常是在本钱愈加明锐的场地。”

Yalamanchi 暗意:“东谈主们思要取舍最快版块的 HBM 并不是一个准确的假定,因为许多成分都会影响内存技艺的取舍,举例本钱、供应胁制、平台准备情况和性能条件。”

由于架构和封装本钱根底不同,HBM 仍将是一种高尚的内存类型,行状于不休增长的利基市集。Michael Schuette 部分欢喜这一不雅点。他合计,固然 HBM 很好地行状于其筹商市集,远大期货但它很难知足更无为的市集需求。

“HBM 似乎仍然是一种利基居品,况且很可能仍然是一种居品,”Schuette 说。

HBM 能否在本钱上与商品或专科内存竞争?

“我不思说永久不会,因为那是一段很长的时间,”Kanter说。“但 HBM 要思具有本钱竞争力,就需要大幅贬抑封装本钱和/或显着增多 GDDR 本钱。或者可能是根人性的技艺调动——举例,若是 GDDR 从高速铜信号转为光纤信号。但我不信服当时是否会是 GDDR。”

LPDDR:低功耗选项

固然 HBM 在性能方面无与伦比,但对于许多应用来说价钱高尚且耗电,因此开发东谈主员取舍将 LPDDR5X 用于其带宽条件较高的应用,因为这种类型的内存为他们提供了价钱、性能和功耗之间的相宜均衡。

举例,苹果公司多年来一直在其 PC 中使用 LPDDR 内存,然后才成为一种趋势。到目下为止,该公司如故很好地完善了基于 LPDDR5 的内存子系统,其性能是竞争处分有筹商无法相比的。Apple 的高端台式机 — 由 M2 Ultra SoC 提供相沿的 Mac Studio 和 Mac Pro — 使用两个 512 位内存接口可领有高达 800 GB/s 的带宽。讨好履行情况来看:AMD 最新的 Ryzen Threadripper Pro 配备 12 通谈 DDR5-4800 内存子系统,峰值带宽可达 460.8 GB/s。

像苹果一样,在其通盘拓荒系列中使用 LPDDR5 有一些额外的自制,举例 LPDDR5 胁制器 IP 和 PHY 在不同的 SoC 中类似使用,以及广宽采购此类内存,这为谈判提供了更好的筹码。苹果天然不是独逐一家将 LPDDR 内存用于高带宽处理器的公司。Tenstorrent 将这种内存用于其 Grayskull AI 处理器。

“如今,它们似乎行状于不同的利基市集,况且存在各异化的无为趋势,”Kanter说。“HBM 更面向数据中心,LPDDR 更面向角落。话虽如斯,皆备有东谈主针对类似的市集使用不同的内存类型。以数据中心为例——有些想象使用 HBM,有些想象使用 GDDR,有些想象使用老例 DDR,有些想象使用 LPDDR。”

LPDDR 存储芯片的显着上风之一是其相对无为的接口和相配快的运行速率。典型的 LPDDR5 和 LPDDR5X/LPDDR6T IC 具有 32 或 64 位接口,相沿高达 9.6 GT/s 的数据传输速率,这比批量坐褥的 DDR5 数据速率(8 或 16 位、胁制 2023 年 10 月,速率高达 7.2 GT/s)更好。此外,迁移内存天然比客户端 PC 和行状器的主流 DDR 内存破钞更少的功率。

对于 Tenstorrent 开发的应用门径来说,内存带宽至关贫寒,但功耗也至关贫寒,这便是为什么如今 LPDDR 的使用范围远远超出了智高手机和客户端 PC。

GDDR:价钱与性能之间的均衡

Tenstorrent 为咱们带来了另一种类型的内存,该公司将在行将推出的 Wormhole 和 Blackhole AI 处理器中使用这种内存。与此同期,Nvidia 将 GDDR6 和 GDDR6X 用于各式用于 AI 推理的 GPU。

“GDDR 内存用于东谈主工智能和其他应用,对于东谈主工智能推理当用来说是一个可以的取舍,因为 GDDR 仍然提供比 DDR 更高的带宽和更低的延伸,”Yalamanchi 说。“与 HBM 相比,GDDR 的本钱更低,复杂性也更低。举例,GDDR6可以在Nvidia用于东谈主工智能推理的Tesla T4 GPU以及用于东谈主工智能推理和图形应用的L40S中找到。”

GDDR6 频繁比 LPDDR 破钞更多功率,况且当代 GDDR6/GDDR6X 芯片配备 32 位接口(即比某些 LPDDR5X 更窄),但 GDDR6/GDDR6X/GDDR7 内存的运行速率要快得多。

事实上,GDDR7 有望以高达 36 GT/s 的速率运行,况且在如斯高的数据速率下,基于它的内存子系统将比取舍 LPDDR5X 的内存子系统快得多,非常是要记取,咱们正在评述潜在的宽内存接口,举例 384 或 512 位。即使在 32 GT/s 数据传输速率下,384 位 LPDDR7 内存子系统也可提供 1,536 TB/s 峰值带宽,远远高于 512 位 LPDDR5X-9600 内存子系统 (614.4 GB/s)。联系词,咱们可以猜测,LPDDR7 内存子系统也将比使用 LPDDR5X 的内存子系统愈加耗电,但计议到其性能,咱们合计这是一个平允的衡量。

MCR-DIMM 和 MR-DIMM

若是莫得 MCR-DIMM 和 MR-DIMM,对于高性能内存处分有筹商的故事就不无缺,它们是主要为行状器想象的新式双列 DDR5 内存模块,目下正在开发中。这些技艺背后的理念是,在每个 CPU 的中枢数目不休增多的情况下,进一步提高内存模块的效果,并将其峰值带宽提高到高出 DDR5 相沿的速率。

从较高层面来说,多路复用器组合列 DIMM (MCR-DIMM) 是配备多路复用器缓冲区的双列缓冲内存模块。该缓冲区可以同期从两个队伍检索 128 字节的数据,况且它想象为以约 8800 MT/s 的高速与内存胁制器合营使用(基于最近发布的好意思光阶梯图),即 400 MT/s高于原始 DDR5 法式国法的最大数据速率。这些模块旨在增强性能,同期简化大容量双列模块的构造。MCR-DIMM 得到了英特尔和 SK Hynix 的相沿,并将取得英特尔第六代至强可蔓延“Granite Rapids”平台的相沿,而好意思光经营于 2025 年头推出 MCR-DIMM。

多列缓冲 DIMM (MR DIMM) 在见识上非常相似:它们是具有多路复用器缓冲区的双列模块,可同期与两个列交互,并以超出 DDR5 指定速率的速率与内存胁制器沿途运行。该圭臬的第一代速率为 8,800 MT/s,第二代为 12,800 MT/s,第三代最终达到 17,600 MT/s。该技艺得到 JEDEC、AMD、Google 和 Microsoft 的相沿。好意思光经营于 2026 年运行出货速率为 12,800 MT/s 的 MR-DIMM。此类模块将提供纷乱的带宽和容量,这是由于数据中心 CPU 内的内核数目不休增多以及对带宽的需求而需要的。

“若是不取舍新的体式来已毕分类内存,那将是愚蠢的,”Schuette 说。“行状器条件与客户端不同,行状器上恒久需要 ECC,而客户端 PC 上则不需要。”

奇异和混杂内存子系统

固然使用特定类型的内存可能是芯片和系统开发东谈主员最昭彰的作念法,但也有东谈主取舍使用不同类型内存的混杂内存子系统。

举例,英特尔的 Xeon Max CPU 搭载 64 GB 封装 HBM2e,并相沿高达 6 TB 的六通谈 DDR5 内存,每个插槽最多使用 16 个 DIMM。这些 CPU 主要针对高性能运筹帷幄 (HPC) 环境,可以在 HBM Only 款式、HBM Flat 款式(提供快速和慢速内存层)和 HBM Caching 款式下职责。

另一个例子是 D-Matrix 的 AI 处理器,里面配备 256 MB SRAM(150 TB/s),并相沿高达 32 GB 的 LPDDR5 内存,但带宽相配有限。这些芯片主要用于推理,其架构是针对此类职责负载量身定制的。

“一般来说,缓存或片上 SRAM 可以减少一些外部带宽需求,”Kanter说。“因此,行为推断,若是咱们可以接收小于 100MB 的神经收集,[缓存会有所匡助]。相通,咱们可以将内存集成得更细巧,以减少封装外带宽。但真贞洁型培训系统的许多前沿职责,举例历练下一代LLM,老是需要更多带宽。”

固然历史上由不同类型内存构成的混杂和奇异内存子系统已被无为使用,举例用于 Xbox 360 游戏机的 ATI 的 Xenos GPU 以及基于 eDRAM 的“子芯片”或英特尔的 Xeon Phi 7200-对于同期使用 MCDRAM 和 DDR4 内存的系列协处理器,Schuette 合计此类内存子系统效果不高。

“我的不雅点是,你会得到两全其好意思的扫尾,”他说。“想象支出纷乱,复杂性很高,我什至不思进行故障放置。

另一方面,把柄界说,扫数具有 CPU 和加快器的系统都使用混杂内存子系统,况且它们已被解说非常高效。

“如今许多东谈主工智能系统都是混杂系统,”Kanter说。“举例,许多历练系统倾向于使用 HBM 行为加快器,但使用 DDR 行为主机处理器,而主机处理器履行上在这里作念履行职责。数据中心推理系统也类似。”

要而论之,HBM固然很好,但一统不了江湖。

英文原文

https://www.embedded.com/high-bandwidth-memory-hbm-options-for-demanding-compute/

点这里加眷注,锁定更多原创内容

*免责声明:本文由作家原创。著作内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或相沿,若是有任何异议,宽待有关半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第3720期内容,宽待眷注。

『半导体第一垂直媒体』

及时 专科 原创 深度

公众号ID:icbank

心爱咱们的内容就点“在看”共享给小伙伴哦







Powered by 辉煌配资 @2013-2022 RSS地图 HTML地图

建站@kebiseo; 2013-2024 万生优配app下载官网 版权所有