您好!半岛平台·(中国)官方网站欢迎您!

半岛平台入口英伟达新核弹站在苹果的肩膀上

作者:小编    发布时间:2024-03-30 16:22:37    浏览量:

  2024 GTC大会上,黄仁勋右手B200,左手H100,天经地义地有了新人忘旧人:“我们需求更大的GPU,假如不克不及更大,就把更多GPU组合在一同,酿成更大的假造GPU。”

  根据黄仁勋的引见,B200实际上的AI机能可达20PFLOPS,是H100的五倍。比拟H100的800亿晶体管范围,B200的晶体管范围高达2080亿。

  普通来讲,芯片算力提拔的最经常使用办法是接纳先辈制程,用更高的密度在芯片里塞进更多晶体管。如摩尔定律所说:

  好比接纳7nm工艺的A100 GPU,芯片(Die)面积为826mm ,内有542亿晶体管;接纳5nm(台积电N4)工艺的H100,芯全面积减少为814mm ,晶体管数目反而暴跌至800亿。

  但是,B200在晶体管数目进步近三倍的同时,并没有效更先辈的3nm工艺,而是接纳了和H100一样的5nm工艺。黄仁勋所说的“大”和“组合”,是字面意义上的:

  工场进步消费力有两种法子:一是扩建厂房,装进更多的消费线;二是晋级消费线,在厂房面积稳定的状况下,增长消费线数目。

  芯片公司不断以来都在接纳第二种办法:经由过程消费线立异(工艺制程),在有限的芯全面积里塞进更多晶体管,制止扩建厂房带来的房租本钱上涨。

  但这类方法的范围性在于,消费线立异(工艺制程)对应的研发本钱愈来愈高,以至有高过房租的趋向。H100接纳的5nm工艺,很能够就是GPU量产的极限定程,持续下探到3nm,很能够本钱上亏损。

  每颗芯片都是从12寸的硅晶圆(地盘)上“切”下来的,那末芯片(厂房)面积越大,每块晶圆能“切”出来的芯片就越少。

  由此衍生出了第三种思绪:建一个如出一辙的厂房,让两个厂房同时消费,既避开了本钱成绩,又进步了消费服从。

  芯片在施行计较使命时需求阅历两个阶段:数据传输和计较,数据传输破费工夫过量,计较“空载”,就会形成算力的华侈半岛平台。就像两间厂房需求一个领班转达唆使,领班在A厂房揭晓发言时,B厂房的工人都在摸鱼。

  但在详细的游戏中,想同时挪用两颗GPU的算力,不只需求特地的软件撑持,机能也只要单颗芯片的130%阁下。

  为理解决产线工人趁着领班不在悲观怠工的成绩,英伟达团队在2017年揭晓论文,提出了名为“可组合封装GPU”的架构,中心在于将多颗GPU集成在统一个芯片封装内。

  传统的芯片封装是“先封再拼”,即两颗芯片封装终了,再用导线毗连。英伟达的计划是“先拼再封”,先把两颗芯片拼成一个大芯片,再封装到一同。

  把芯片(厂房)之间的物理间隔缩减到0,领班通报唆使,双方的工人同时进修贯彻,低落数据传输工夫,完成1+1=2。

  几个月后,老敌手AMD暗示论文谁不会写,刊文展现了4颗GPU集成在统一封装内的设想,声称其机能比其时的最强GPU还要高45.5%,而且coming soon。

  2022年,苹果公布了M1 Ultra芯片,其最大特性是间接将两颗M1 Max芯片“粘合”在一同,酿成一张大芯片,业内戏称“胶水”。

  M1 Ultra 在事情时仍然表示出一枚芯片的团体性,也会被一切软件辨认为一枚完好芯片,开辟者无需重写代码就可以间接使用它的壮大机能。这在史上从无先例半岛平台。

  苹果之前,险些一切的“缝合”计划,都没法处理芯片在毗连过程当中发生的消耗,使得机能常常“1+12”。M1 Ultra的背后,是一个名为UltraFusion的“缝合手艺”。

  根据苹果官方的说法,Ultra Fusion由苹果与台积电配合研发。但从经历看,苹果阐扬的最大感化,是以“手艺冠名费”的方法,报销了台积电的研发开支。

  传统的传输方法是将两颗芯片封装在一块基板上,芯片之间的传输由引线处理。CoWoS计划在基板和芯片之间加了一层硅中介层,经由过程在硅中介层里布线,直接将两颗小芯片毗连起来半岛平台入口,毗连密度是现有手艺的两倍。

  硅中阶级素质上是一片硅晶圆,也就是“切”芯片的原质料。仅仅为了做毗连,就要另加一层硅晶圆的用度,这手笔生怕只要苹果做得出来。

  厥后,英伟达在H100上接纳了更成熟的CoWoS,本钱仍超越4000美圆。苹果作为最后的试错者,本钱只会更高。

  芯片制作的素质,是在硅晶圆上描写庞大电路。但在实践制作过程当中,电路不是间接刻在硅晶圆上的,而是先刻在一个掩膜版上,再经由过程光刻和刻蚀把电路“转移”到硅晶圆上。

  英伟达昔时碰到的成绩是,GPU芯片自己面积就大,一旦两颗GPU拼接,就会超越一般掩膜版的巨细(H100的面积曾经靠近台积电5nm掩模版的极限),电路就没法被完好地描写。

  经由过程四个掩膜版“缝合”,将电路描写的面积增长到2500mm ,是英伟达同期GPU的3倍多(815mm)。

  掩膜版消费需求Mask Writer(掩膜版写入机),精细水平堪比光刻机。并且Mask Writer只在掩膜版建造时利用,每种芯片只做一次,难以摊薄本钱。

  除此以外,因为Ultra Fusion用到了大批新手艺,好比毗连芯片的高纵横比硅通孔(TSV)手艺,用于散热的新型非凝胶型热界面质料(TIM)等,台积电都是拿着找苹果报销的。

  M1 Ultra公布时,业界都没有精确的本钱推算。不是研讨员程度不到位,其实是手艺过于先辈,算不出来。

  高科技财产最枢纽的成绩不是手艺怎样完成,而是谁来掏钱把论文和尝试室里的数据酿成能够量产的产物。不晓得看着M1 Ultra的拼接示企图,会不会有长远的影象进犯黄仁勋。

  2009年,回归台积电的张忠谋请回曾经退休的蒋尚义。在后者率领下,台积电以“后闸级”手艺道路nm工艺。但在研发过程当中,蒋尚义发明晶体管单元制作本钱不降反升,制程晋级提拔机能的性价比开端低落。

  把两颗芯片放到一同封装,物理间隔收缩了,传输速率天然进步。为了区分于传统封装,蒋尚义将其定名为“先辈封装”。

  2011年,台积电获得FPGA大厂赛灵思定单,凭仗CoWoS和配合开辟的硅通孔(TSV)等手艺,胜利将4个28nm FPGA芯片拼接在一同,推出了史上最大的FPGA芯片。

  老客户高通的高管在与蒋尚义共进午饭时直白暗示,CoWoS手艺很好,但“我只情愿为它破费1美分/平方毫米”,而台积电其时的售价是7美分/平方毫米。

  听说英伟达也是台积电CoWoS的第一批目的客户之一,由于数据传输的瓶颈不断是搅扰GPU计较的中心成绩。但听到台积电的报价后,英伟达就地暗示,老手艺还能再拼集几年。

  另外一方面,先辈制程还在稳步促进,先辈封装的理念显得过于超前,究竟结果指导还在开卡罗拉,你就别急着换宝马了。

  因而,先辈封装团队在台积电内部的一度边沿化,以至被当作老干部疗养院。厥后跳槽三星的梁孟松,就以为本人被调往先辈封装营业属于“下放”。

  随后,台积电开端给CoWoS做减法,取出了替换计划“InFO”,将高贵的硅中介层换成其他质料,捐躯了毗连密度,但本钱大幅降落。

  凭仗InFO计划,台积电在16nm工艺的根底上,制作出了比三星14nm机能更强的A10处置器,奉献了历代iPhone中第二轻浮的iPhone 7。

  有了苹果的大单的,台积电的先辈封装营业疾速盘活,并在2022年拿出了震动业界的M1 Ultra芯片。2024年开年,这个攻坚十多年的“胶水”,又被用在了英伟达的新核弹B200上。英伟达顺势拿下冠名权,将这项手艺定名为“NV-HBI”。

  CoWoS拿到赛灵思的第一笔定单时,蒋尚义如获至宝,但赛灵思的念头却让他有些啼笑皆非:把四个老芯片拼在一同,间接当做新产物加价卖,就不消本人开辟新产物了。

  在美国计较机汗青博物馆的采访中,蒋尚义回想道:“我开辟手艺的初志是处理机能瓶颈成绩,在我看来,我的立异并没有被用在好的处所”。

  科技很难鞭策手艺立异,反而是手艺立异让科技成为能够。缔造汗青的人,永久没法预感本人在汗青历程中的坐标。

推荐新闻

关注官方微信