标签归档:汪波

美国芯片内战

Reading Time: 3 minutes

科技公司最终都是芯片公司?

文丨邱豪 贺乾明
编辑丨黄俊杰 龚方毅

尽管人人都能用上手机,但 PC 处理器依然是现代生活的计算中心:近 20 亿人每天打开个人电脑工作、学习。这些电脑里的处理器再加上被装在数据中心和超级计算机里的数亿颗 PC 处理器在无形的数据世界里计算着一切,从推荐视频、记录股市交易,到分析战场情报,找到下一个轰炸目标。

过去 20 年里,这个重要的基础设施的竞争格局长久地维持静态。

上一场芯片大战后,几家头部公司牢牢控制着自己的位置。大多数时候,英特尔控制着超过 2/3 的市场,决定着明年 CPU 计算能力提升 8% 还是 10%;英伟达是在虚拟世界里描绘画面的首选,高通决定信号如何在空气里传播。三年前,苹果 M1 芯片推出,一度以超出想象的性能打破平静。但它的成功更多被外界归因于资本实力——果然只有钱最多的公司才可能造好芯片。

这一局面在过去一周几乎被彻底改写。并且向世界重复了一个朴素真理:纯粹的商业世界里,技术终会前进、垄断不可能永远持续,此前芯片市场的平静不过是在等待技术积累。

七天以来,一场围绕个人电脑的芯片战争在美国市场逐渐成型。至少六家市值数千亿美元的公司参与其中,向本来没有竞争关系的公司、甚至是合作伙伴发起进攻。

10 月 25 日,高通发布笔记本电脑芯片 Snapdragon X Elite,宣称其性能超过苹果的 M2 Max 和英特尔的同级别处理器,还说要为世界上其他笔记本电脑制造商提供 “与苹果竞争的领先解决方案”。

同一天,苹果预热了新的发布会,并在本周二推出新的 M3 系列处理器。以别无二家的 3 纳米技术,刷新了笔记本电脑的性能基准。

与此同时,多家美国媒体报道了英伟达和 AMD 的新计划:研发高性能、低功耗的笔记本电脑芯片方案,在两年内上市与苹果、高通竞争。

新的竞争正在向同级别市场扩散。英伟达要用最新的车用芯片 DRIVE Thor 解决从车内娱乐到自动驾驶的一切需求。特斯拉则像苹果一样,一颗一颗地将自家产品里的芯片换成自己的。

一场决定未来计算形态的芯片战争正在爆发,而战场又回到了硅谷。

共同的方向:手机芯片反攻电脑、汽车、服务器

不论苹果的 M3 系列、还是高通的 Snapdragon X Elite,它们的结构看上去都不像是传统电脑的芯片,而更像是手机芯片——虽然尺寸会大一些。

传统的电脑中,不同公司生产的 CPU、显卡、内存条等零件被送去工厂,焊接在电路板上。苹果和高通的处理器都是 SoC(System On a Chip,片上系统)——CPU、GPU、内存、控制器等处理器内核都被集成在一个芯片封装里。台积电的工厂里就可以完成大部分生产工作。

类似的,英伟达下一代汽车芯片 Thor 也转向 SoC 设计。对性能要求更高的服务器芯片则是下一个突破目标。

转折点发生在 2020 年底,苹果发布采用 SoC 设计的 M1 芯片。一开始苹果只在入门级的电脑里用了新处理器,但性能已经追上前一年的顶级配置英特尔处理器电脑,续航还多出几个小时。

此前 14 年,苹果一直在 Mac 电脑上使用英特尔的 CPU。从 2015 年起,英特尔处理器的性能提升跌入个位数的百分比。这一度被视为摩尔定律行将就木的必然结果。

“SoC 里,CPU、GPU、内存等计算单元距离最多不过 1 厘米,可以通过晶圆直接互通,相比传统通过外部的 PCB 板的电路的方式,信息传输效率会大幅提升,也能降低功耗。”《芯片简史》作者汪波博士说。

如果把电脑完成一项任务看做做菜,传统的电脑中调度芯片就像是去不同的超市、摊位买食材,再做菜。SoC 相当于从一个冰箱里拿食材做菜。而 M1 芯片的 “食材” 更丰富,苹果针对人工智能、音视频编码、加密存储等一系列特定用途订制了专用的计算单元,以更快解决常见问题。这些功能都需要和 CPU 协作,缩短信息传输距离颇为必要。

第二年,苹果陆续发布性能更好的 M1 Pro、M1 Max、M1 Ultra。《连线》杂志称这些产品 “让摩尔定律保持了活力”。

英特尔也早早意识到了行业向 SoC 转移的趋势,并在 2012 年推出了适用于智能手机和上网电脑的 SoC 平台 Atom,但它对英特尔 x86 架构、自身芯片代工厂的依赖,都让它与苹果、高通等公司支持的 Arm 架构 + 台积电竞争中捉襟见肘,最终在 2016 年放弃尝试。

“x86 属于复杂指令集,基于它的 CPU 性能强但功耗也大。GPU 同样是高功耗的处理器,把它们放一起做 SoC,散热会是一个极大麻烦。” 汪波说。

而且 Windows 笔记本电脑市场品牌众多、个人配置需求千变万化,一定程度上也限制了英特尔,它要尽可能提供同时满足多种需求、价格更低的 CPU,很难像苹果那样迅速迭代。

英特尔的 CEO 帕特·基辛格(Pat Gelsinger)同样意识到了苹果的威胁,他在 2021 年初告诉员工:“我们必须向 PC 生态系统提供比一家生活方式公司更好的产品”。

但它面临的对手不只有苹果。2020 年推出搭载 M1 芯片的 MacBook 后,苹果在笔记本电脑市场的销售份额翻了一倍到 11%。M1 的成功让高通等迫切想要进入的新公司们明确了接下来该怎么做,以及找谁做。

技术门槛降低:芯片设计民主化、台积电解决制造

回头看来,各种设备上的芯片向 SoC 进化是理所当然,但期间过程极其复杂。从组建芯片设计团队到推出 M1,苹果花了 12 年。

在此期间,苹果通过高薪和并购网罗了曾在英特尔、高通、博通、Imagination 等芯片公司工作过的人才,进而一步一步将芯片里的计算单元替换为自研产品。先是弃用 Arm 公开发售的 CPU 内核设计、再是以自己的 GPU 取代了 Imagination 的设计,并自研了处理图像、编解码音频和视频、加速人工智能算法、加密存储等各种专用计算单元,推动着 iPhone 芯片每两年实现一次性能飞跃,才有了 M1 超过英特尔芯片的可能。

一个伟大产品的诞生往往也是一场超长马拉松结束。苹果第一代 Mac 电脑和第一代 iPhone 发布后,大批工程师在短时间里离职。苹果创始人史蒂夫·乔布斯和微软创始人比尔·盖茨(微软深度参与第一代 Mac 的软件研发)都将不止一次在采访中提及这样的离职潮,来说明自己的团队付出了多么超常的努力,并最终工作到力竭。

苹果芯片工程师则发现,一场马拉松的结束是下一场的开始。

根据 The Information 报道,苹果内部的芯片项目数量在过去十年中从个位数增加到几十个,但员工人数却没有以同样的速度增长。

本周的发布会就是苹果工程师负担持续加重的例证。M1 系列芯片有四个规格,但苹果工程师只做了两个完整设计——M1 和 M1 Max,发布相隔近一年。M1 Pro 是 M1 Max 的缩水版,而 M1 Ultra 是 M1 Max 的拼接版。而本周苹果则同时发布了三个完全不同的设计——M3、M3 Pro、M3 Max。这让 M3 Pro 可以尺寸更小更便宜,M3 Max 可以追求极致性能。苹果的芯片更精确地服务了不同价位段的产品,但增加了芯片团队的工作量。

M1,M1 Pro/Max 是两个设计;M3、M3 Pro、M3 Max 用了三个设计。来源:X(@LuvLetter_moe)

一位苹果芯片工程师在接受采访时称,为了满足公司各个产品线迅速、稳定且大幅迭代芯片的需求,苹果的芯片工程师每周工作近 80 个小时——996 不过是 72 小时,通常还有午休——才能按时完成任务。

根据多家媒体统计,过去两年有数百名苹果芯片工程师离职。他们也把做高性能处理器的经验扩散开。

2019 年,苹果芯片部门平台架构高级总监杰拉德·威廉姆斯三世(Gerard Williams III)牵头创办了芯片公司 NUVIA。他于 2010 年加入苹果,此前在 Arm 工作了 12 年。在苹果的 9 年,带队开发了苹果所有 SoC 的 CPU,也是苹果 M1 Pro、M1 Max 的首席架构师。

与他一起创办 NUVIA 的另外两位芯片专家分别是:约翰·布鲁诺(John Bruno)和马努·古拉蒂(Manu Gulati),都有丰富的芯片工作履历。

根据 NUVIA 官网介绍,这批苹果芯片元老的目标是开发性能更强的 CPU,处理指数级增长的数据和不断增长的需求。他们的技术路线与苹果一致——从头设计一款兼容 Arm 生态的 CPU 内核。

M1 系列成功后,NUVIA 得到了一批大型科技公司的收购邀约。2021 年,高通从微软、英特尔、Meta 等公司竞争中胜出,花 14 亿美元收购。三位 NUVIA 创始人能从这笔交易中获得数亿美元收入——比苹果 CEO 蒂姆·库克(Tim Cook)的年收入还高。

NUVIA 团队带着上百名员工加入高通,其创始团队均担高通的高管。两年不到,高通新处理器的性能已经超过苹果 M2 系列。

曾经限制一家公司制造出高性能芯片的还有制造。在芯片 60 多年历史的大多数时间,掌控了芯片制造工厂基本上就等于掌控了芯片本身,英特尔一度靠着独占的先进晶圆厂垄断了芯片市场,竞争对手即使能设计出好的芯片,也没法用先进技术造出来。

直到 2017 年,英特尔建立的芯片垂直整合体系开始出现裂缝。靠着庞大的 iPhone 订单和苹果每两年大幅迭代芯片性能的要求,台积电的芯片制造工艺迅速超过英特尔。这一年,台积电造出 10 纳米制程芯片时,英特尔还在使用 14 纳米工艺。之后几年,台积电按照稳定节奏推动 7 纳米、5 纳米芯片变成现实,保持领先。

相同制程下英特尔的 x86 架构芯片性能好过 SoC 芯片中普遍使用的 Arm 架构,但双方制程的差距给 Arm 方案补上了性能短板。苹果在 2020 年发布的 M1 芯片使用了 5 纳米的工艺,而同年英特尔的笔记本电脑芯片还停留在 10 纳米(晶体管密度与台积电 7 纳米工艺相当)。

台积电的公开代工属性决定,任何一家希望做芯片的公司,不用大幅投入就能获得顶尖的制造工艺。高通的 X Elite 紧跟着苹果用上了 4 纳米工艺,虽然比最新的 M3 使用 3 纳米有一些差距,但已经超过了 M 系列的其他产品。

研发芯片不只得有钱,还得能靠芯片持续赚钱

芯片研发需要不间断的巨额投入,所以这也是为什么挑起竞争的总是那些巨头。巨头们不仅需要资深的芯片管理者,还需要成百上千的工程师团队。因此,研发人员和工程师的薪酬、福利是研发投入的一大部分。

2019 年开始,原本每年 “只” 愿意投 50 多亿美元做研发的高通,研发费用以大约每年 10 亿美元的规模递增。在截至今年三季度的 12 个月里,累计研发投入近 90 亿美元。

支撑这些公司如此密集投入的原因各不相同,但本质上它们都有非常稳定的 “税” 收,才有机会借着芯片技术带来的性能提升,带来更多收入,形成良性循环。

苹果每年卖出 2 亿多部 iPhone,每自研一个芯片不仅提升产品竞争力,还能拿走原本属于芯片供应商的利润。同时它的芯片又被用于电脑、手表、耳机、以及 Vision Pro。

高通依靠自己在移动通信领域拥有的大量专利和领先地位,从几乎每一部智能手机里收税 —— 也包括苹果。根据分析机构测算,苹果每卖出一部 iPhone 就要向高通支付 13 美元的无线专利授权费和 25 美元的基带芯片费用。每一年高通光是向苹果收的 “税” 差不多就撑得起全年研发费用。高通再把这些费用来研发更先进的骁龙芯片,让更多设备商离不开它。

类似的,AIGC 和大模型的需求爆发意味着,计算厂商和 AI 初创公司未来几年都需要大量采购英伟达 GPU。英伟达有了可靠的现金流,可以支持自研 CPU,在汽车和电脑市场更进一步。

一旦离开了如此高关联度的主业支撑,再有钱的大公司也要认真算账。Google 2016 年就想给自己的 Pixel 手机自研 SoC,之后从高通挖来 SoC 工程师史蒂夫·莫洛伊(Steve Molloy)担任芯片主管,在印度招聘了大量芯片工程师。

但 Pixel 系列手机发布至今 7 年,全球累计出货量为 3790 万部,还赶不上 iPhone 一个季度的销量。Google 的创始人们早已将权力分给 CFO,不会给没有回报前景无限资源。Google 自研 Pixel 芯片的量产计划已经推迟到 2025 年。

同样不顺的还有 Meta。Meta 于 2018 年组建了一个名为 Facebook Agile Silicon Team 的芯片团队,希望从易到难设计芯片,最终在 Quest 系列虚拟现实设备用上自研芯片。但 Quest 持续亏损,于是 Meta 将定制芯片的设计任务先后外包给了三星和联发科,最后放弃定制芯片,直接购买高通 XR 芯片。

Meta Quest 2 已经是迄今最畅销的 XR 设备,一年也不过卖 1000 万台左右。苹果即将发售的 Vision Pro 初期销量不会比它好,但其所需要的芯片研发成本,早已被年销 2 亿部的 iPhone 和 2600 万台的 Mac 摊薄。

AI、汽车和 XR,新的需求、新的税收机会

大约 60 年前,美国加州旧金山湾区南部的一串小城开始被称为 “硅谷”。这里一批企业推动了晶体管和集成电路的应用,催生芯片产业。他们的第一批客户是政府和军队。

1980 年代后,随着计算机普及、互联网诞生,消费者、企业取代政府机构成为硅谷的最大客户。苹果、英伟达、Google、Meta 等科技公司在此诞生。科技巨头们盘踞一方,赚走各自行业里的大多数利润,也离 “硅” 越来越远。一度,美国最重要的科技公司都专精于软件或互联网。

如果芯片需求依旧只停留在现有视频、表格、游戏,无论苹果、高通,还是英伟达、AMD,可能都不会如此全力以赴。但 AI、汽车和 XR 催生出新的计算需求,而消费电子市场的停滞则加剧了竞争的急迫性——每家公司都需要挤出更多利润。

目前 AI 已经有一些实际应用诞生。微软想把名为 “Copilot” 的 AI 助手塞进 Office 365、Bing 搜索、Outlook 邮件等几乎一切生产力工具里;苹果在用 Transformer 模型改进输入法(中文还不行);Adobe 的 AI 工具 Firefly 也将集成进 Photoshop、Illustrator、Premiere 等设计软件当中。

但是训练和推理大模型的算力资源消耗和成本非常夸张。无论是自己采购 GPU、还是向云计算商租用服务器,提供 AI 服务的公司们都面临严重的算力短缺和昂贵的运营成本。通过大模型普及的必经之路是用上每台电脑、每个手机的处理器。

这也是为什么从高通到苹果的发布会,都在强调新的芯片可以更好地支持移动设备本地跑大模型。苹果称 M3 Max 能够支持运行包含数十亿各参数规模的 Transformer 模型;高通则表示,首款搭载骁龙 X Elite 的 PC 将支持 130 亿参数模型的本地推理。

在可预见的未来,个人电脑依然是最重要的生产力工具。行业研究机构 Counterpoint 预计,AI 将为已经消沉多年的 PC 市场注入新的活力,到 2026 年,全球 AI PC 的渗透率将超过一半。在这个市场,苹果要用芯片留住最愿意花钱买电脑的顾客、高通要让 PC 厂商卖出更多电脑给自己交税、英伟达则要从 GPU 做到 CPU,拿走更多 PC 厂商的利润,三家公司在这里碰撞。

另一个潜在市场需求来自 XR。很难说这会是多大的市场,但苹果今年发布的 Vision Pro 已经为其它厂商指明了方向 —— 借助屏幕 “透视” 功能实现增强现实(AR)效果。要让它的视觉体验达到我们已经习惯的 “视网膜” 标准,需要单眼屏幕分辨率达到 6K。

Vision Pro 目前还只有 4K,已经需要把 M2 芯片戴在头上,再加一颗 R1 芯片实时处理传感器信息,内置风扇、外接电池。在 6K 精度下的实时渲染复杂画面,需要今天各家芯片所无法达到的性能和功耗。

汽车对于芯片算力的需求也在增长。随着电动化和智能化的加快,以及智能座舱和自动驾驶的普及,这些 “轮子上的数据中心” 吸引了一批芯片厂商的进入。汽车芯片也已经从原来通用、分散的单一功能芯片转向集成的多功能 SoC。

早前高通已经借骁龙 8155 将 7 纳米先进制程带入汽车芯片;而英伟达去年发布的下一代 SoC 芯片 Thor,单片算力最高可以达到 2000 TOPS,是其现款产品 Orin 的近 8 倍。高通要参与自动驾驶、英伟达则要做汽车的主芯片,特斯拉则不希望依赖其中任何一家。

新的环境驱动着这些科技公司转向芯片之争,而芯片之争很可能将决定之后谁才是科技公司。

题图:《晚点 LatePost》制图