其中,全新旗舰AI芯片的型号为AMD Instinct MI325X GPU,虽然仍然是采用CDNA 3架构,但是相较于AMD Instinct MI300X GPU还是有一些明显的提升,且官方数据显示,该芯片多项性能优于英伟达H200。
不过,对于AMD一系列的产品发布,市场方面似乎并不买账,AMD股价出现了一波明显跳水。能够看出,无论是市场面还是需求方,似乎还是对英伟达Blackwell GPU有更大的期待,虽然这款芯片此前曝出了良率缺陷问题。
AMD最强AI芯片却不及预期?如上所述,AMD Instinct MI325X GPU仍然是基于CDNA 3架构,因此算是AMD Instinct MI300X GPU发布之后的中期小升级,并不是全新世代的产品。不过,即便如此,AMD Instinct MI325X GPU还是有非常多的亮点,且能够和英伟达的H200捉对厮杀。
AMD Instinct MI325X GPU是AMD公司首次采用HBM3E高带宽内存。HBM3E作为新一代高带宽内存技术,可以提供高达9.6Gb/s的扩展数据速率,相比前一代HBM3的6.4Gb/s有显著提升。目前,三星、SK海力士和美光都已经将HBM技术迭代到了HBM3E。得益于HBM3E内存的加持,AMD Instinct MI325X GPU内存带宽最高可达6TB/秒,同比提升约13%;内存容量最高可达256GB,相较于AMD Instinct MI300X GPU,内存容量提升了64GB。
由于同样是CDNA 3架构,因此MI325X和MI300X在计算性能方面基本是一致的,采用先进的2.5D封装,芯片内部有1530亿个晶体管,304个计算单元,AI算力(采用半精度浮点数FP16衡量)最高可达到1.3PFLOPS,也与MI300X相同。
虽然和自家芯片对比提升并不是太明显,但根据AMD的官方数据,AMD Instinct MI325X GPU是强于英伟达H200芯片的。官方文件显示,与H200相比,具有参数优势的MI325能够提供1.3倍的峰值理论FP16(16位浮点数)和FP8计算性能。AMD公司CEO苏姿丰表示,“你们能看到的是,MI325在运行Llama 3.1时,能提供比英伟达H200高出多达40%的性能。”根据发布会的信息显示,在模型推理方面,无论是单卡还是多卡,AMD Instinct MI325X GPU相较于英伟达H200基本有20%-40%的性能领先;在模型训练方面,AMD Instinct MI325X GPU也有单卡10%的性能领先。AMD预期,Instinct MI325X GPU芯片将从四季度开始生产,并将在明年一季度通过合作的服务器生产商供货。
目前,AI芯片在AMD业务中占比已经越来越高。根据AMD二季度财报,AMD Instinct MI300X GPU在二季度为AMD贡献了超过10亿美元的营收,预计全年销售额将达到45亿美元,约占公司整体销售额的15%。目前,微软、OpenAI、Meta、Cohere、Stability AI、Lepton AI(贾扬清创办)、World Labs(李飞飞创办)等公司的生成式AI方案都已经采用了AMD Instinct MI300X GPU。
除了发布AMD Instinct MI325X GPU,苏姿丰还剧透了AMD后续的AI芯片战略。下一代旗舰AI芯片的命名为AMD Instinct MI350X GPU,将开启全新的AMD AI芯片世代,采用最新的CDNA 4架构,首次引入FP6、FP4浮点数据类型,搭配内存还是HBM3E,但容量高达288GB,半精度浮点数FP16下的AI算力达到2.3PFLOPS。采用CDNA 4架构的MI350系列明年上市
同时,苏姿丰预测AI芯片后续美好的未来,数据中心人工智能加速器的市场将在2028年增长至5000亿美元,而这个数字在2023年时为450亿美元。在更早之前,苏姿丰曾预测全球数据中心人工智能加速器市场规模将在2027年达到4000亿美元。无论是哪一项数据预测,都足以显示目前全球AI发展高涨的情绪。
不过,即便新产品有着不错的性能。且未来市场空间广阔,但是AMD Instinct MI325X GPU的发布似乎并没有达到市场的预期,和自家上一款芯片Instinct MI300X GPU的性能差距并不明显,也没有能够借助这次发布会进一步缩小和英伟达之间的差距。因此,市场快速反应,AMD股价有了一个明显的下调。
市场还是倾向于选择英伟达?当然,消息面上也有不利于AMD本次新品发布的,那就是摩根士丹利发布了一份关于英伟达最新 Blackwell GPU 架构的报告,并透露导致造成生产瓶颈的补充信息。
此前,有媒体报道称,Blackwell架构产品生产上出现了一些问题,导致较低的良品率,从而影响了出货。英伟达在一份声明中表示,对Blackwell架构GPU的掩膜进行了改动,以提高产量。英伟达Blackwell GPU是第一批采用台积电CoWoS-L封装的产品,其使用RDL中间层与LSI桥接器连接小芯片,可实现约10Tb/s的数据传输速率。
与以往的CoWoS-S和CoWoS-R技术相比,CoWoS-L在性能和灵活性方面都有显著提升。这种技术利用LSI桥接器实现高密度的互联,能够兼容各种高性能芯片,如先进逻辑、SoIC(系统集成芯片)及HBM(高带宽内存)。挑战在于,由于GPU芯片、RDL中间层、LSI桥接器以及基板之间的热膨胀系数(CTE)不匹配,因此存在一定的生产挑战。
摩根士丹利指出,英伟达Blackwell GPU生产良率下降在后封装阶段发现的,这导致了良率的降低,并使原本供应紧张的CoWoS封装和HBM3e内存的情况雪上加霜。但该机构认为,这些问题在英伟达内部都已经过去了。摩根士丹利在报告中写道,“目前 Blackwell 产量提升‘相当强劲’,不会对原定路线图造成影响,所有迹象表明业务依然稳健,前景非常清晰,这与我们的所有调查一致。”
摩根士丹利预计,英伟达将于今年第4季度将出货最多45万张Blackwell GPU,从而实现50亿美元到100亿美元的营收。同时,该机构认为,当前安排不了的Blackwell GPU订单,可能需要到明年下半年才能够安排,因此前期订单已经签满了1年,而这些无法满足的订单,将促进Hopper GPU的需求。
原本英伟达Blackwell GPU的生产问题被认为是AMD公司的机会,但现在来看这个机会并没有得到兑现。一方面,英伟达很快就解决了这个困扰Blackwell GPU良率的问题;另一方面,AMD Instinct MI325X GPU作为相同架构升级的产品,性能提升只是体现在带宽上,这虽然能够提高集群的效率,但市场方面认为还不够,无法给英伟达造成更大的冲击。
另外,AMD并没有提到能耗的优势,这也是英伟达宣传Blackwell GPU的一个重点。该公司副总裁兼企业平台总经理Bob Pette在“AI Summit DC”人工智能峰会期间表示,Blackwell平台基本上是考虑到能效而构建的。在Blackwell上开发OpenAI的GPT-4软件需要3吉瓦(gigawatts)的电力,而十年前,这一过程需要高达5500吉瓦电力。
另外还有CUDA生态的问题,AMD公司也意识到了这一点,此前该公司将把面向消费者的RDNA和面向数据中心的CDNA架构统一为一种新的微架构UDNA。在2024年国际消费电子展(IFA 2024)上,AMD高级副总裁兼计算与图形事业部总经理Jack Huynh宣布了这一架构,代表了AMD在GPU领域的一次重要革新,但是要挑战英伟达的CUDA生态,还有很长的路要走。因此,AMD UDNA是一项长远的布局,也需要更多的时间兑现其潜力。
因此,在生态和制程并不占优的情况下,市场希望AMD能够在产品性能提升方面更加激进一些,但很显然AMD Instinct MI325X GPU没有达到人们的预期。因此,AMD Instinct MI325X GPU现在还很难成为Blackwell GPU的对手,但是能够在Blackwell GPU产能不足时,抢夺Hopper GPU的订单。
结语实际上,在AMD Instinct MI325X GPU发布之前,市场面上已经开始为其造势了,AMD作为目前英伟达GPU头号挑战者,因此人们自然而然要去关注这款旗舰GPU。不过,作为同是CDNA 3架构下的产品,AMD Instinct MI325X GPU并没有达到市场设定的性能基准线。不过正如苏姿丰所言,数据中心加速器市场是非常庞大的,英伟达一家吃不下,那么外溢的订单就会流落到AMD等公司的手里,这个时间段AMD可以更沉下心来打磨应用和生态。
微软资讯推荐
win10系统推荐
系统教程推荐