1、英伟达:算力芯片巨头领跑 AI 时代
1.1 公司简介:全球领先的 GPU 龙头厂商
公司是全球 GPU 龙头,市场份额遥遥领先。英伟达(NVIDIA)是一家全球 知名的技术公司,成立于 1993 年,最初以图形处理器(GPU)起家,通过 不断的创新和发展,逐渐成为了高性能计算领域的领导者。根据 Jon Peddie Research 发布的 GPU 市场数据统计报告,英伟达 2022 年全年 PC GPU 出货量高达 3034 万块,是 AMD 的近 4.5 倍;截至 2022 年四季度,在独立 GPU 市场,英伟达占据 84%的市场份额,远超同业竞争公司。
【资料图】
英伟达的产品创新和迭代从未止步。自英伟达成立以来,其经历了多个重要 的发展时间点。其中包括 1999 年推出全球第一款 GPU、2006 年发布 Fermi 架构、2012 年发布 Kepler 架构、2016 年推出 AI 加速器 Tesla P100 和 Volta 架构、以及 2020 年发布 Ampere 架构等。这些重要时间点的创新和进步, 为英伟达在高性能计算、人工智能、虚拟现实等领域的发展奠定了坚实的基 础。
横向拓展丰富业务产品线,实现“CPU+GPU+DPU”三芯布局。英伟达的 三芯战略侧重于在数据中心市场实现 CPU、GPU和 DPU 三类硬件的布局, 旨在全面提升竞争力,满足云计算、人工智能及机器学习等高端应用领域的 需求。CPU 的加入使英伟达能够更好地应对各种计算任务,尤其是那些需 要快速逻辑判断和高度并行处理能力的应用。而 DPU 则针对数据中心和网 络设备的需求,具有高效处理数据包和协议的能力,为英伟达的产品线增添 了新的价值。通过将 CPU、GPU 和 DPU 集成到同一平台上,英伟达可以 为客户提供更加全面、高效的计算解决方案。目前 CPU+GPU 的产品组合 获得超级计算中心的采用并即将广泛部署于大型服务器,三芯战略初显成效。
芯片架构是英伟达的技术核心,快速迭代的新架构为产品带来不断的创 新与升级。自英伟达 GPU 问世以来,其架构经历了多个重要发展阶段。 2006 年,Fermi 架构在 GPU 计算领域实现了重大突破,Kepler 架构进 一步提高了能效比和 GPU 性能,并引入了动态并行处理技术。随后, Maxwell 架构实现了更加节能和高效的设计,Pascal 架构则引入了深度 学习计算中的 Tensor Core 和 NVLink 技术,以及更多的 AI 加速功能。 Volta 架构则实现了更高的计算能力和存储带宽,并引入了深度学习加速 器 Tensor Cores V100。Turing 架构则进一步提高了光线追踪和图形渲染 性能,而 Ampere 架构则在 AI 加速、性能和能效方面实现了重要进展。 每一代架构的创新和进步,都为 GPU 技术在高性能计算、人工智能、虚 拟现实等领域的应用奠定了坚实的基础。
1.2 公司产品:多元化产品矩阵助力公司长期增长
英伟达产业布局多元化,解决客户不同需求。GPU 产品为英伟达主要收入 来源,收入占比稳定在 80%以上。相比较于 CPU,GPU 在机器学习算法有 天生的优势。英伟达一直专注于 GPU 的设计,同时由于 GPU 的并行计算 能力,可以通过数千个计算核心进行深度学习,英伟达开始将服务和系统、 软硬件和可编程算法结合在一起,提出 CUDA 架构。从下游应用来看,英 伟达产品主要集中于游戏、专业可视化、数据中心以及自动驾驶领域: 1)游戏市场:英伟达提供的产品包括 PC 游戏的 GeForce RTX 和 GeForce GTX,用于游戏和流媒体的 SHIELD 设备,用于云端游戏的 GeForce NOW, 以及用于专门控制台游戏设备的平台和开发服务; 2)专业可视化市场:英伟达除了加速 GPU 计算解决方案,同时也为汽车、 娱乐、建筑工程、石油和天然气、医疗等行业引入新的解决方案; 3)数据中心市场:英伟达使用 NVlink 技术将多个 GPU 结合在一起,加速 神经网络训练和推理。同时开发出 DGX 超级计算机,进行科学计算、深度 学习和机器学习; 4)自动驾驶市场:英伟达 Drive 作为一个人工智能汽车平台,涵盖了从交 通拥堵到机器人出租车自动驾驶的所有领域。2018 年有超过 370 家自动驾 驶汽车公司开始使用 Drive,共同开发自动驾驶的人工智能系统。
游戏业务:是英伟达主要产品线,作为基本盘见证了其里程碑式的革新。 英伟达在游戏业务领域持续不断的技术升级,以应对玩家日益增长的画质需 求。游戏业务一直是英伟达的核心领域,每年都以引人注目的新产品展现其 持续的创新力。与前一代产品相比,每一代新显卡都带来了显著的性能提升。 从核心数量来看,英伟达显卡产品的 CUDA 核心数量已从最初的 640 颗增 长到现在的高达 16384 颗,技术上不断突破,包括实时光线追踪技术等。 另外,英伟达在游戏显卡市场上有着广泛的布局,从入门级到专业级,都提 供了相应的产品。这一策略允许英伟达满足从独立游戏玩家到专业电竞选手 的多元需求。
数据中心:持续发力,高市占率源自于英伟达持续不断的研发与创新。英 伟达长期占据高端 GPU 市场的领导地位,截至目前英伟达占据全球算力芯 片 90%的市场份额。高端芯片领域的霸主地位主要源自于公司不断的技术 提升所形成强大的技术壁垒。从 2017 到 2022 这五年间,公司先后推出了 Volta、Ampere、Hopper 等针对高性能计算和 AI 训练的架构,以此为基础 发布了 V100、A100、H100 等高端 GPU。通过不断的技术革新,英伟达 GPU 产品向量双精度浮点算力已从 7.8 TFLOPS 增至 30 TFLOPS。
英伟达数据中心 GPU 在 11 年间从制程工艺到核心数量,各参数全方位提 升。从 2011 年的 Tesla M2090 开始英伟达不断更新迭代数据中心产品,到了 2022 年发布的英伟达全新 GPU 产品 NVIDIA H100,性能上已经出现了 质的飞跃。此外,英伟达在数据中心的布局不仅仅停留在 GPU,在 CPU 方 面英伟达也全面发力,在 2022 年发布了首款 CPU 产品 Grace。Grace 内 臵下一代 Arm Neoverse 内核,采用第四代 NVIDIA NVLink,从 CPU 到 GPU 连接速度超过 900GB/s,相当于目前服务器 14 倍的带宽速度;从 CPU 到 CPU 的速度超过 600GB/s。并且 Grace 拥有最高的内存带宽, 采用的新内存 LPDDR5x 技术,带宽是 LPDDR4 的 2 倍,能源效率提高 了 10 倍,能提供更多计算能力。
自动驾驶业务:为英伟达提供中长期增长曲线。英伟达的自动驾驶 SoC 产 品线以其高性能、高能效和创新技术而著称,致力于满足不断增长的计算需 求。英伟达推出的自动驾驶 SoC 产品包括先进的 Atlan 和 Orin 芯片,它们 集成了安培架构 GPU 核心、基于 Arm 的 Grace CPU 核心、深度学习和计 算机视觉加速器单元以及 BlueField DPU 核心,以实现卓越的算力和性能。 英伟达的 SoC 产品线不断创新,为客户提供卓越的性能和可靠性,帮助推 动未来智能驾驶和高度互联的汽车发展。
最新款 Atlan SoC 算力获得指数级提升,为自动驾驶提供充足算力。2021 年, 英伟达推出了自动驾驶 SoC Atlan,其单颗算力高达 1000TOPS,是 上一代 Orin SoC(254TOPS)的近四倍。Altan 还支持 400Gbs(40 万兆) 网络和安全网关,可以满足高速通信需求。同时,Atlan 可与为上一代芯片 组编写的软件堆栈(如 Orin 或 Xavier)兼容,使得汽车制造商和 AV 开发 人员不需要重新设计软件就能利用新 SoC 的性能提升,大大提升使用的便 捷程度。
可视化业务:技术革新助力卓越视觉与计算体验。在过去几年,英伟达专业 可视化业务持续推出了一系列的技术革新,包括新的GPU架构(如Pascal、 Volta、Ampere、Ada Lovelace),更高效的显存技术(如 GDDR6X), 以及更加智能化的软件工具(如 RTX Studio)。这些创新大幅提升了英伟 达专业显卡在高性能计算、人工智能、虚拟现实等领域的性能和可靠性,为 专业用户提供了更加卓越的视觉体验和计算能力。
英伟达专业显卡技术不断进步,性能显著提升。随着英伟达专业可视化显卡 的不断升级,计算能力和相关性能得到了显著提升。从最初的几百万个 CUDA 核心、数百 GB/s 的显存带宽,到现在的数千万个 CUDA 核心、TB/s 级别的显存带宽,英伟达专业显卡已经成为高性能计算、人工智能、虚拟现 实等领域不可或缺的重要组成部分,为专业用户提供了更加卓越的视觉体验 和计算能力。
1.3 公司财务:财务状况良好,反哺研发投入上升
公司营业收入高速增长,1999-2023 财年 CAGR 24%。1996 年英伟达 的营业收入仅 391 万美元,净利润亏损超过 300 万美元。此后,英伟达 的体量快速增长,到 2023 财年营收和净利润分别达 270 亿美元和 44 亿美元,1999-2023 财年营收 CAGR 24%,净利润 CAGR 34%。
新兴市场成为英伟达主要收入来源地。分地区看,中国大陆在 2023 财 年营业收入达到 58 亿美元,占总收入的 21%,而在 2003 财年中国大 陆营业收入只有 2.4 亿美元,占总收入的比例仅为 13%。和中国大陆市 场一样,亚太其他地区以及美洲其他地区都出现了较大的增长幅度。相 反,中国台湾市场出现了较大的衰退。2003 财年,中国台湾市场占总营 收的比例为 45%,到 2023 财年下降到 32%,而美国市场收入则保持稳 定在 31%左右。
随人工智能发展,数据中心业务收入增速最高,逐步成为公司最大营收 占比。从业务板块看,英伟达下游应用包括游戏、数据中心、专业化视 觉、汽车、OEM 及其他。其中,数据中心业务收入在 2023 财年达到 150 亿美元,占据英伟达营业总收入的 56%,数据中心业务收入同比增长 41%,主要增长来源于 AI 发展及美国云服务提供商的推动。游戏业务收 入 90.7 亿美元,占总营业收入的 34%,受全球游戏行业需求下行影响 同比下降 27%。汽车、代工以及专业可视化业务都保持着低速增长。
英伟达净资产收益率周期波动,毛利率和净利率总体呈现上升趋势。 2000 财年之后,英伟达开始负责 Xbox(微软公司开发并于 2001 年发 售的一款家用电视游戏机)的芯片设计工作,因为 Xbox 相比较于英伟 达其他产品有着相对较少的利润率,所以 ROE 和净利率都呈现下降趋 势。在此之后英伟达依靠新产品的开发,使得 ROE 重新上升到 34%。 2008 财年英伟达已成长为全球图像处理器行业龙头,但因全球经济危机 影响,公司 ROE 和净利率创新低,至 2010 财年分别达-2.69%和-2.04%。 2010 年后,全球经济复苏,游戏市场在新兴市场蓬勃发展,英伟达游戏 部门业务及图形处理器收入平稳上升。2017 财年,英伟达迎来了新一轮 的增长期,产品全面发力,GeForce、Tesla、GRID 和 Quadro 销售收 入相较于 2016 年都出现大幅度增长。
良好的营收状况是公司增加研发投入的基本,研发投入也保障了公司营 收的持续健康成长。相比较于竞争对手 ATI 和 AMD,英伟达在竞争初期 都处于下风。随着研发投入的不断增长,英伟达通过技术进步降低成本 和产品价格,不断推出新的产品吸引更多消费者,优势逐渐凸显。在与 ATI 竞争的周期中,英伟达的研发费用从 1999 财年的 2507 万美元,以 年均 55%的增长率赶上 ATI 的研发费用,在 2005 财年达到 3.6 亿美元。 ATI 被 AMD 收购后,英伟达在独立显卡的竞争对手就变为了 AMD。2005 年,AMD 的研发费用为 11 亿美元,是英伟达的 3.2 倍左右,而到了 2022年,英伟达的研发费用达到了 73.4 亿美元(对应 2023 财年),是 AMD 的 1.47 倍。
研发费用率保持高位,不断吸引优秀人才加入。从早期的“三团队-两季 度”研发迭代模式开始,英伟达的研发目标就一直走在市场的前端。英 伟达研发团队分为软件工程、硬件工程、超大规模集成电路工程、工艺 工程、架构和算法团队,负责研究开发统一的硬件和软件架构,提供领 先市场的图像加速技术。英伟达研发人员数量持续增长,截至 2023 财 年达到 19532 人。
2、英伟达发展历程三部曲
2.1 1993-2000:初具规模,提升研发效率战胜对手
1993 年黄仁勋、克里斯〃马拉科夫斯基和柯蒂斯〃普利姆在美国加州创 立了英伟达。在创建之初,公司设想着个人电脑将会成为游戏、多媒体 的主流消费设备。90 年代初,高性能图像被使用在工作站和视频游戏机 上,在此之后,3 件独立事件改变了这样的情况,推动了 3D 图像市场 的发展:(1)微软推出的 Windows 95 包括了视频、音频功能,刺激了多媒体市 场发展。3D 图形逐渐增加的重要使得个人电脑制造商的差异性更加明显; (2)电脑仿真渲染动画出现,3D 动作游戏登陆 PC 平台; (3)在摩尔定律的推动下,IC 的集成度不断提高,能够将大量 3D 图 形处理器放在一个芯片上。半导体设计和制造的不断进步,使得以前只 能在工作站级别获得的高性能 3D 图形技术,现在能够以合理的价格获 得。而图形处理器的不断发展也带动英伟达整体规模不断增长。
推进“三团队-两季度”研发模式,新品不断迭代满足下游需求。一般图 形市场产品有两个开发周期:6-9 个月和 12-18 个月,英伟达执行了“三 团队-两季度”的运营模式,具体方式包括三个并行开发团队,专注于三 个独立的分阶段产品开发。一个在第一年秋季,一个是在第二年春季以 及第二年秋季。这样的运行方式允许公司每 6 个月推出一次新产品,与 图形市场产品周期一致,并且领先市场 1-2 个研发周期,从而满足下游 需求变化。
不断丰富产品矩阵满足下游客户不同需求。GeForce 系列是英伟达为台 式机提供图像处理的芯片。2002 年 11 月,英伟达推出为个人电脑市场 消费者开发的产品线 GeForce FX 系列。GeForce 系列的其他产品,比 如 GeForce2、GeForce3、GeForce4 都能够为不同价位的主流产品提 供最高的性能。
高研发带来技术水平不断升级,英伟达在 1996 年后接连推出旗舰产品, 击败行业竞争者。英伟达在 1996 年,推出 NV3 系列的 Riva 128 芯片, 在性能方面具有优势,并且芯片尺寸更小,因此结构成本更低,通过数 据对比,RIVA128 甚至优于下一年 Intel 推出的 i740,而且 i740 不支持 任何 OpenGL 驱动程序。在英伟达推出 RIVA TNT 时已经没有产品能够 和其匹敌。1999 年,Intel 宣布完全退出独立显卡芯片组业务。而在 2000 年英伟达推出 GeForce 256,全面超过当时行业最大竞争者 3dfx,最终 3dfx 宣布破产并且被英伟达收购。
2.2 2001-2006:寡头垄断,逐步成为独显市场霸主
英伟达在游戏市场率先取得突破。自 1999 年 Geforce 系列推出以来, 它一直在游戏性能的创新和提升方面保持领先地位。GeForce 系列显卡 被广大游戏爱好者和电子竞技玩家所推崇,因为它们能提供极高的图形 渲染能力和实时光线追踪技术,以实现更加真实的游戏体验。与此同时, Xbox 为代表的游戏主机兴起助力了英伟达在游戏 GPU 行业的发展。英 伟达为 Xbox 视频游戏系统设计的处理器利用双处理架构推动了其优秀 的图形、音频和网络功能,确立了英伟达在游戏机市场的稳固地位。虽 然后续英伟达未能持续成为 Xbox GPU 供应商,但是早期在 Xbox 上的 成功已经为英伟达在游戏市场的发展奠定基础。
通过收购,技术开发以及广纳人才,英伟达进一步开拓市场,增强自身 实力,保持市场领先地位。英伟达预测未来能够实现通话和多媒体功能 的手机半导体将会大放异彩,因此积极通过收购移动端公司来布局移动 端图像芯片产业,并紧密融合 Direct3D 和 OpenGL 以最大程度地支持 第三方软件。Direct3D 和 OpenGL 作为应用程序编程接口,使软件开发 人员能够在不需要深入了解硬件特性的情况下编写应用程序,从而在 3D 图形、视频媒体通信以及超低功耗方面保持其技术的领先地位。为了维 护市场的领导地位,英伟达积极地招募业界经验丰富的 3D 图形和通信 工程师,并持续开发新一代的 GPU、MCP 以及 UMP。
英伟达全面完善产品线,产品覆盖高中低端下游各应用市场。经过了不 断的发展,英伟达的产品线逐渐丰富,覆盖了多种不同的下游应用。首 当其冲的是 GeForce 系列显卡,主要针对的是个人电脑的游戏领域。同 时,为了满足科研和企业市场的需求,英伟达推出了 Tesla 和 Quadro 系列的 GPU,这些产品被广泛应用于机器学习、数据科学、计算机视觉 等领域。此外,英伟达还在汽车自动驾驶等前沿领域推出了专门的解决 方案,如 Jetson 和 DRIVE 系列。
2.3 2007-2023:重“芯”开始,引领人工智能计算
智能手机浪潮来临,但是由于时机和定位上的失误,英伟达错失机遇。 自苹果系列产品推出后,智能手机成为一大热点,引领时代风潮。在这样的背景下,Intel 推出了 Atom,英伟达推出了 Tegra。然而手机芯片市 场并没有像 PC 市场一样被这两个大场占领,相反高通依靠着基带技术 的垄断成为了移动端市场的主流。Tegra 系列在最初是依靠英伟达在图 像处理的优势为平板和游戏机研发的。当英伟达推出 Tegra 2 系列时, 3G/4G 技术开始成为移动端市场追逐的目标。但由于 Tegra 3 没有能够 整合基带技术从而失去了占领市场的必要条件,而 Tegra 4 迟迟没有发 布以及低性价比也失去了市场的青睐。
英伟达退出手机市场,转向汽车、人工智能市场,调整竞争策略。在经 历了手机市场的挑战后,英伟达进行了战略调整,从手机市场退出,并 将其研发重心转向了汽车和人工智能市场。这一转变对于英伟达来说, 不仅是其业务发展的一次机遇,更是对于行业趋势的敏锐洞察。在汽车 市场中,英伟达通过自己的技术优势,推出了一系列高效能的自动驾驶 处理器,逐渐在此领域确立了自己的领导地位。而在人工智能市场,英 伟达的 GPU 产品凭借其超强的并行计算能力,成为了支撑深度学习和 机器学习应用的核心设备,展现出强大的市场竞争力。
事实证明英伟达的转型抓住了市场需求的改变,英伟达 2015-2023 年营 收增速可观。在 2008 年全球经济危机爆发之后,英伟达的业务收入也 受到了经济危机的影响,在 2009 年和 2010 年财报中净利润呈现负值, 亏损达到三千万和六千万美元,但在之后的几年中,英伟达依靠着在游 戏行业中的基础,继续拓宽在可视化计算、人工智能业务,并且借助于 比特币和区块链对于显卡芯片的高增长需求,在 2016 年之后,保持着 高增长的营业收入增长趋势。高增长的净利润得益于英伟达每年研发费 用的投入,使得英伟达的产品领先同行业的竞争对手,更快地拓展新业 务,更早地形成进入壁垒。而净利润的增长又会使得英伟达有更多的资 金进行新产品的研发,从而达成良性循环,占据市场领先的地位。
具体从各终端来看,英伟达各方面业务保持收入增长,全面发展。从英 伟达终端用户划分来看,各终端产品收入都保持着稳定增长。数据中心 发展加速,游戏终端依旧是英伟达重要的业务收入基础。
英伟达不断更新产品技术, AI 市场成为主要目标,给英伟达带来新的 增长。随着 AI 市场的蓬勃发展,英伟达敏锐地将其定位为公司的主要发 展目标。英伟达开发了一系列专门针对 AI 应用的 GPU,如 Tesla、Titan 以及 Quadro 系列。这些产品能够高效处理深度学习和机器学习的大规 模并行计算,极大地推动了 AI 的发展。2020 年在 SC20 超级计算大会 上,NVIDIA 发布了新一代 DGX Station A100 以及 NVIDIA A100 80GB GPU 支持诸如 BERT Large 推理等复杂的对话式 AI 模型。此后在 2022 年 3 月,NVIDIA 又宣布推出第四代 NVIDIA® DGX™系统,是全球首个 基于全新 NVIDIA H100 Tensor Core GPU 的 AI 平台,彻底占据 AI 市场 领先地位。
总结:当 iPhone 出现后,全球智能手机市场的帷幕被拉开。移动端 GPU 市场逐渐成为了大家的焦点。但英伟达并没有能够在手机 GPU 市场取 得较打的成功,但英伟达将手机GPU芯片Tegra用在了其他应用领域, 为公司打开了新的业务市场。
3、英伟达发展历程总结,借鉴意义
3.1 深耕 GPU 算力领域,研发为导向不断提升产品竞争力
采用主流 API,借助微软推广产品。从英伟达创立时,公司就以市场需 求为导向。通过匹配主流 API,不断技术更新逐渐减低产品价格,达到 消费者需求,以此来达到一家初创公司占领市场的目的。英伟达在设计 NV2 后的产品时,都将微软推出的 DirectX 作为匹配的 API。凭借着微 软 Windows 系列在操作系统市场占有大量份额,同时对 DirectX 和 OpenGL 加速优化,使得英伟达的产品广受欢迎。
压缩开发周期领先市场,为下游厂商提供更好的产品。英伟达把握住了 从 2D 到 3D 过渡的风潮,通过成熟的研发体系,用速度甩开 2D 图形厂 商。英伟达图形业务的快速产品周期得益于其运营模式。一般图形市场 产品有两个开发周期:6-9 个月和 12-18 个月,英伟达执行了“三团队两季度”的运营模式,具体方式包括三个并行开发团队,专注于三个独 立的分阶段产品开发。一个在第一年秋季,一个是在第二年春季以及第 二年秋季。这样的运行方式允许公司每 6 个月推出一次新产品,与图形 市场产品周期一致,并且领先市场 1-2 个研发周期。此外为解决芯片硬 件开发比软件开发慢的问题(软件可以快速测试并经过调试,通常是每天或每周一次;相比之下,芯片硬件就必须构建掩模并在进行电子测试 之前完成初步制造),英伟达大力投资了仿真技术,从而提升效率。
在产品布局多元化初期,用产品交叉服务市场。英伟达在经历了手机端 芯片市场开拓的失败之后,并没有停止 Tegra 处理器的研发,而是改变 产品定位,将 Tegra 处理器运用在智能汽车、智慧城市和云端服务上。 于是英伟达初步奠定了“两产品条线-四市场”的商业模式。两产品条线 包括了英伟达传统产品 GPU 和 Tegra 处理器,而四市场则包括了游戏、 企业级、移动端、云端。
英伟达的商业模式战略很好的应对了图像处理器市场的发展趋势。当时 的图像处理器市场产品细化,主要分布在游戏玩家、企业级、平板电脑 和移动端用户,不同客户的需求差异化明显,针对不同下游英伟达推出 了对应的产品方案: (1)游戏市场:玩家希望能够在不同的平台无缝的进行游戏体验,英 伟达为此推出了端到端的服务:游戏能够在云端运行,不需要玩家拥有 足够高性能的电脑。大大提高了玩家碎片时间的利用率和娱乐的灵活性。 (2)企业级:产品则是为汽车、电影、天然气等行业提供可视化解决 方案,目的是提高行业生产力。英伟达面向企业市场的产品包括用于工 作站的 Quadro,用于高性能计算服务器的 Tesla 和用于企业 VDI 应用 程序的 GRID。 (3)移动端:英伟达不再将移动端客户拘泥于手机端用户,而是将移 动端扩展到移动智能设备市场,比如智能汽车、智能家居行业。英伟达 的移动战略转变为了将 Tegra 应用到需要视觉设计的设备中。 (4)云端服务:伴随着计算机行业的发展也成为了可视化计算服务的 重要一环。凭借云端技术,英伟达将 GPU 的应用从 PC 端拓展到服务器 和数据中心,使得更多的用户可以使用。英伟达开发的 GRID 使 Adobe Photoshop 远程运行,并与应用程序交互。
英伟达 AMD 双寡头垄断显卡市场。在 2009 年 Intel 取消 Larrabee 图形 显卡项目之后,独立显卡市场逐渐成为了双寡头市场。相较于行业的潜 在新进入者,英伟达和 AMD 拥有更长的经营历史、更大的客户基础、 更全面的知识产权和专利保护,以及更多的融资、销售、营销和分销资 源,二者共同构筑了行业新进入者无法逾越的天堑。研发方面,2005 年,AMD 的研发费用为 11 亿美元,是英伟达的 3.2 倍左右,而到了 2022 年,英伟达的研发费用达到了 73.4 亿美元(对应 2023 财年),是 AMD 的 1.47 倍。由于性能、构建、价格的不同,二者逐步产生差异化,形成 了错位竞争。至 2022 年第三季度,英伟达基本占据 88%市场份额,AMD 则降低至 8%。
研发投入带给英伟达高回报,在主流游戏和显卡天梯测评上,AMD 落 后于英伟达。英伟达在 2018 年推出的 Titan RTX 和 RTX 2080 Ti 全面 超过当时的 Radeon VII,其采取的策略是推出比 AMD 稍高的性能和价 格。即使技术比 AMD 领先,也会等到 AMD 推出更高性能的产品之后, 才会推出,以此来获得比 AMD 更高的收益。
专利数量方面英伟达逐步反超 AMD。AMD 此前在专利数量上一直多于 英伟达,但申请的数量呈现下降趋势。英伟达在 2011 年之后申请专利 数量开始爆发,主要因其在 2007 年之后开始研发移动端 GPU 和深度学 习领域,最终给 GPU 市场带来了新的框架和更高性能的芯片。
3.2 CUDA 自成体系:从单一产业到生态链,构建强护城河
CUDA 助力英伟达成长为 AI 产业龙头,构建强大生态护城河壁垒。 CUDA 是英伟达基于其生产的 GPUs 的一个并行计算平台和编程模型, 目的是便于更多的技术人员参与开发。开发人员可以通过 C/C++、 Fortran 等高级语言来调用 CUDA 的 API,来进行并行编程,达到高性 能计算目的。CUDA 平台的出现使得利用 GPU 来训练神经网络等高算 力模型的难度大大降低,将 GPU 的应用从 3D 游戏和图像处理拓展到科 学计算、大数据处理、机器学习等领域。这种生态系统的建立让很多开 发者依赖于 CUDA,进一步增加了英伟达的竞争优势。
CUDA 的低成本和兼容性成为其最重要的吸引点之一。英伟达的 CUDA 是一个免费、强大的并行计算平台和编程模型。安装过程简单且明确, 让开发者能够轻松快速地启动并行编程。CUDA 对新手极其友好,特别 是对 C 语言、C++和 Fortran 的开发者。同时为支持其他编程语言,如 Java、Python 等,CUDA 还提供第三方包装器进行扩展。为广大开发者 提供了极大的便利和高效的编程体验。操作系统方面,CUDA 在多种操 作系统上也都有良好的兼容性,包括 Windows、Linux 和 macOS。
CUDA 有着丰富的社区资源和代码库,为编程提供良好的支持。英伟达 的 CUDA 享有强大的社区资源,这个社区由专业的开发者和领域专家组 成,他们通过分享经验和解答疑难问题,为 CUDA 的学习和应用提供了 丰富的支持。另外,CUDA 的代码库资源涵盖各种计算应用,具有极高 的参考价值,为开发者在并行计算领域的创新和实践提供了宝贵的资源。 这两大特点共同推动了 CUDA 在并行计算领域的领先地位。
CUDA 借助燕尾服效应,搭配 GeForce 覆盖多元市场。CUDA 技术最 初是为了配合 GeForce 系列芯片而推出的,利用 GeForce 在游戏市场 的广泛覆盖率,作为一个技术杠杆,推动 CUDA 的普及和发展。作为一 项可以帮助 GeForce 拓展新的市场的重要技术,CUDA 极大地提高了视 频和图像应用(如 CyberLink、Motion DSP 和 Nero)的性能,实现了 多倍的效率提升。
创业公司的大量采用使得 CUDA 应用场景进一步得到拓展,游戏不再是 唯一应用领域。随着时间的推移,超过一百家创业公司开始利用 CUDA 的强大计算能力,使其应用领域得以扩展,不再局限于游戏方面。在视 频编码领域,英伟达与 Elemental 公司合作,利用并行计算技术加速了 高清视频的压缩、上传和存储速度。这一成功的合作不仅体现了 CUDA 在各种场景下的适用性,也进一步推动了 CUDA 技术的发展。当 Elemental 公司后被亚马逊收购,其基于 CUDA 的视频处理技术也成为 AWS 的服务组成部分,这一过程也让 CUDA 的使用场景得到了进一步 的丰富和拓宽。
CUDA 形成完整生态链,通过大学普及学习以推广 CUDA。英伟达将 CUDA 引入了大学的课堂中,从源头上扩大了 CUDA 的使用范围和受众 群体。早在 2010 年,已经有关于 CUDA 数千篇论文,超过 350 所大学 进行 CUDA 教学课程。在此基础之上,英伟达建立了 CUDA 认证计划、 研究中心、教学中心,不断完善 CUDA 的生态链。从结果看:2008 年 仅有 100 所大学教学 CUDA 课程,在 2010 年英伟达全球建立了 20 个 CUDA 研发中心后,2015 年已有 800 所大学开放 CUDA 课程。
对比 OpenCL,CUDA 是英伟达 GPU 编程的更优解。OpenCL 虽然具 有更广的兼容性,但 CUDA 由于与英伟达的硬件紧密结合,能更有效地 利用其 GPU 的性能。同时,CUDA 的编程模型相比 OpenCL 更加简洁, 易用,并提供完整的开发工具链。此外,CUDA 的社区资源丰富,代码 库多样,使得在科学计算、深度学习等领域的应用更为便捷。因此,对 英伟达 GPU 的开发者来说,CUDA 往往是更优的选择。
对比 ADM 的 CTM 编程模型,CUDA 拥有更广泛的应用和更高的操作 性。从操作性来说,由于 CTM 更接近硬件,因此开发者需要有更深入 的硬件知识才能进行开发,但是这也意味着 CTM 能够提供更精细的控 制和优化。对比之下,CUDA 提供了一套完整的开发工具链,包括编译 器、调试器和性能分析工具,以及丰富的库函数,为开发者提供了极大 的便利。从应用来说,CUDA 已经在各种领域获得了广泛的应用,尤其 是在科学计算和深度学习等领域,CUDA 拥有大量的优化库和开发工具。 而 CTM 的应用相对较少,但是由于它提供了对硬件的低级别控制,因 此在一些特定的应用场景中会具有优势。
对比微软的 DirectCompute, CUDA 胜 在配套设施的支持。 与 DirectCompute 相比,CUDA 由于其丰富的功能库,完善的开发工具和 广泛的应用支持,尤其在科学计算和深度学习领域,具有明显优势。 CUDA 在英伟达 GPU 上的性能优化也更为出色。而 DirectCompute 作 为跨平台工具,其优势在于与DirectX的兼容性以及对多种硬件的支持。 但从英伟达 GPU 的应用广泛度来看,使用 CUDA 才是开发者的首选。 总的来说,虽然 DirectCompute 的通用性更强,但英伟达的 CUDA 在功 能、性能和应用范围上提供了更强大的支持,对于使用英伟达硬件的开 发者来说是更优的选择。
CUDA 的开发提升了英伟达的品牌竞争力和影响力。CUDA 的开发使英 伟达的 GPU 超越了仅用于图形处理的传统角色,转变为通用的并行计 算设备,极大地提升了其在市场上的竞争力。英伟达因此能够满足广泛 的高性能计算和人工智能需求,使其产品得以进入新的市场领域。同时, 随着 CUDA 在各类高性能计算任务,特别是人工智能领域的广泛应用, 英伟达的品牌影响力得到了显著增强。越来越多的人开始认知和使用英 伟达的产品,这不仅加强了英伟达的市场地位,也为其未来的发展奠定 了坚实的基础。
CUDA 促进了英伟达的产品创新,激发更多可能性。CUDA 的开发推动 了英伟达在并行计算技术领域的创新,尤其在硬件架构方面。这不仅体 现在优化了的 GPU 架构上,例如将流多处理器(SM)配臵为处理并行 线程的方式,也在软件架构上如 CUDA 自身的持续更新和优化。为了更 有效地满足用户对于更高性能和更易用并行计算工具的需求,英伟达不 断创新,致力于提高 CUDA 的性能和用户体验。这一切不仅反映出英伟 达对创新的重视,也为其在并行计算技术领域的领导地位提供了坚实的 技术支撑。
英伟达的 CUDA 技术凭借其广泛应用和强大合作伙伴网络,巩固了英伟 达的领导地位。CUDA 技术在众多领域均有广泛应用,包括但不限于深 度学习、图像和自然语言处理、天气模拟、流体动力学、分子动力学、 量子化学以及天体物理模拟。因此,适配 CUDA 的应用程序数量繁多, 进而催生了对 CUDA 的广阔需求空间。英伟达与诸如 Dell、HP、联想 等知名 OEM 厂商,以及 Netapp、Pure Storage 等渠道合作伙伴和如埃 森哲等服务公司展开了深度合作。
CUDA 整合英伟达体系,培养了开发者和使用者的用户粘性。当开发者 融入 CUDA 的生态系统,他们往往会被其卓越的计算性能、充裕的库函 数和出色的易用性所吸引,因此更倾向于持续利用此技术。另一方面, 为 CUDA 优化的代码移植至其他平台通常需要消耗大量的精力和时间, 这进一步增强了客户的留存度。此外,英伟达不断推陈出新,发布新的 硬件产品及 CUDA 版本,从而维持用户对其技术的关注并持续使用。这 种深度使用使得用户在选购硬件产品时倾向于选择对 CUDA 有更好支 持的英伟达产品,进而建立起稳固的客户忠诚度。
3.3 抓住人工智能发展浪潮,顺利转型切入算力芯片领域
根据 IDC 的测算,全球数据总量将以每年 50%的增速不断增长,在 2025 年数据量会增加到 334ZB,在 2035 年则将达到 19267ZB。随着 5G 落地, 应用方案更加具象化,未来随之出现的数据总量和数据分析需求将会持 续上升。增长的数据量主要来源于 IoT、移动互联网、智慧城市、自动 驾驶。大数据的应用将会从商业分析向工业、交通、政府管理、医疗、 教育等等行业渗透,并且成为产业供应链中不可或缺的一部分。
从目前的测算来看,智能驾驶将是算力要求最高的应用层面。一方面汽 车驾驶对于安全可靠性性要求最高,另一方面 L5 级别的汽车会携带的 传感器将达到 32 个,据麦肯锡估算一辆自动驾驶汽车的数据量将达到 4TB/h,Intel 测算出的一天数据量将达到 4000GB。而英伟达的 Xavier 目前只有 1.3TFlops,还达不到处理 L5 的数据能力,自动驾驶和 ADAS 市场在接下来的 10 年之间有望保持较高增长的态势,因此智能驾驶以 及 ADAS 存在着巨大的算力缺口。
人工智能产业将拉动 GPU 行业发展。根据 Tractica 的数据,2018 年全 球 AI 硬件市场的收入为 196 亿美元,其中 GPU 的收入占 36.2%为 71 亿美元。而在 2025 年将达到 2349 亿美元,其中 GPU 的收入占 23.2% 为 545 亿美元。尽管 GPU 市场占比出现下滑,但是全球 AI 硬件市场在 不断上升,将会给 GPU 市场带来更多的增长空间。
CPU 受到摩尔定律约束,应用性能增幅下降。人工智能的到来没有因为 摩尔定律的放缓而停止到来。登纳德定律是通过缩小晶体管的尺寸和电 压让设计师在保持功率密度时提高晶体管的密度和速度。但目前受到物 理条件的限制,CPU 架构师需要大量增加电路和能量,获得有限的 ILP(指令级并行)。因此,在后摩尔定律时代,CPU 晶体管需要消耗更多 的性能导致应用性能的小幅提高。最近几年 CPU 的性能仅以每年 10% 的速度增长,而过去是每年 50%。
GPU 凭借超高运算速度成为高性能计算的宠儿,相比 CPU 提高了数倍 的计算效率。在人工智能领域,图形处理器(GPU)凭借其卓越的并行 计算能力和大规模处理单元,成为大数据运算的主力。这在深度学习模 型的训练和推断等任务中表现得尤为明显。尽管中央处理器(CPU)在 顺序化任务处理方面具有优势,但其并行计算性能远不如 GPU。自 2006 年亚马逊在卷积神经网络(CNN)中首次使用 GPU,其效率就已显著 优于 CPU。如今,随着技术不断发展和更新,GPU 在运算效率上进一 步超越 CPU,坚定地确立了其在 AI 时代的算力核心地位。
尽管 FPGA 具有编程灵活性,但 GPU 的处理效率却更胜一筹。FPGA 是专用集成电路(ASIC)中的一种半定制电路,被称为现场可编程门阵 列,其性能介于定制电路和可编程器件之间。可以通过硬件描述语言 (HDL)按照特定任务或者应用程序的需求来搭配相应的 HDL。相比较 于 ASIC,FPGA 能够使用 OpenCL 快速编程,更加具有成本效益。微 软预测基于 FPGA 的 BrainWave 推理平台可以在达到每秒约传输 500 张图像。但是对比这两种硬件,GPU 从效率上更显优势,例如英伟达的 Tesla P4 就能够在 75w 的能耗上一秒传输 1676 张图像。
英伟达以其创新力和高市场份额,在全球 GPU 市场中居于领导地位。 英伟达 GPU 领域享有显著的市场份额,在 2022 年 Q3 英伟达市场占有 率达到了历史新高 88%。这一优势体现了其在行业中的龙头地位。其持 续的技术创新和强大的研发实力,尤其是 CUDA 并行计算平台的推出, 进一步巩固了其在市场中的优越地位。在人工智能和机器学习的加速应 用下,英伟达的 GPU 已成为行业内的首选解决方案,广泛应用于各个 领域,从游戏和专业视觉应用到数据中心和自动驾驶汽车。
回顾英伟达的发展历程,其成功的经验在于以下几点: (1)英伟达持续十几年深耕 GPU 高性能计算潜力,产品矩阵丰富,抓 住下游人工智能和 5G 浪潮,推动 GPU 市场从游戏显卡转变为 AI 计算 加速处理器; (2)搭建 CUDA 生态,提高自身产品附加值,构建强大的软件护城河 壁垒。通过大学、研究院加快 CUDA 开发,吸引人工智能行业人员加入 CUDA,将其打造成英伟达 GPU 核心竞争力; (3)加大研发投入,强大的研发能力使英伟达能够实施创新技术,不断 更新 GPU 架构拓展业务范围,扩大 GPU 市场,提高营收和利润率,达 成产业链的良性循环。
解析复盘英伟达,借鉴算力龙头发展路径。伴随生成式 AI 火热,大模型 持续发展对算力提出更高要求,英伟达进入快速发展时期。我们认为复 盘英伟达能够学习海外龙头的成长经验,为国产厂商提供发展思路。此 外,随国内算力行业国产替代进程持续推进,看好国产供应链厂商发展 机遇。
4、算力是 AI 底层土壤,从英伟达看国产发展机遇
4.1 ChatGPT 激起 AI 浪潮,大模型升级推动算力提升
AI 人工智能的发展主要依赖两个领域的创新和演进:一是模仿人脑建立 起来的数学模型和算法,其次是半导体集成电路 AI 芯片。AI 的发展一 直伴随着半导体芯片的演进过程,20 世纪 90 年代,贝尔实验室的杨立昆(Yann LeCun)等人一起开发了可以通过训练来识别手写邮政编码的 神 经 网 络 , 但 在 那 个 时 期 , 训 练 一 个 深 度 学 习 卷 积 神 经 网 络 (Convolutional Neural Network,CNN)需要 3 天的时间,因此无法实 际使用,而硬件计算能力的不足,也导致了当时 AI 科技泡沫的破灭。
AI 芯片是 AI 发展的底层基石。英伟达早在 1999 年就发明出 GPU,但 直到2009年才由斯坦福大学发表论文介绍了如何利用现代 GPU远超过 多核 CPU 的计算能力(超过 70 倍),把 AI 训练时间从几周缩短到了 几小时。算力、模型、数据一直是 AI 发展的三大要素,而 AI 芯片所代 表的算力则是人工智能的底层基石。
ChatGPT 爆火的背后是人工智能大模型的迭代升级。ChatGPT 是基于 GPT-3.5 微调得到的新版本模型,能够借助人类反馈的强化学习(RLHF) 技术来指导模型训练,实现模型输出与人类预期的需求,使对话内容更 加人性化和富有逻辑性。从 2008 年第一代生成式预训练模型 GPT-1 诞 生以来,GPT 系列模型几乎按照每年一代的速度进行迭代升级,未来随 着大语言模型(LLM)技术的不断突破,AI 相关应用有望加速落地,AI 产业或将迎来新一轮发展机遇。
大模型发展将不断降低 AI 应用门槛,助力下游降本增效推动渗透率提 升。预训练大模型在海量数据的学习训练后具有良好的通用性和泛化性, 用户基于大模型通过零样本、小样本学习即可获得领先的效果,能够显 著降低 AI 应用的门槛,目前主流的大模型包括 Transformer、GAN、CNN 以及 RNN 等架构。
大语言模型(LLM)代表着 AI 领域的重大进步,并有望通过习得的知 识改变该领域。根据英伟达,在过去几年中,LLM 的规模每年增加 10 倍,而且随着这些模型的复杂程度和规模的增加,其性能也在不断发展。 大语言模型是一种基于深度学习的自然语言处理技术,其主要目的是通 过学习大量文本数据从而自动生成符合语言规则的语句、段落甚至文章。 基于 Transformer 架构,大语言模型的核心思想是利用深度神经网络来 学习自然语言的语法、语义等特征,从而能够预测下一个词汇的出现概 率,并根据这些概率生成新的语句。Transformer 架构在海量数据集上 并行处理数据排序的计算能力是大语言模型背后的最大驱动力。
基于 Transformer 架构,GPT 采用预训练的方法来学习语言的概率分 布模型,经过微调后可以解决各种自然语言处理任务、生成自然流畅的 文本。其工作原理如下: 1)数据收集和监督训练。模型用示例提示进行训练,由人类向模型演示 所需的输出。然后由人类对模型进行监督和微调,直到它能够进行满足 所需性能水平的输出。 2)可比数据集手机和模型的奖励训练。对于相同的示例,向模型演示多 个输出并从最好到最差排序。已经通过监督训练的模型将生成尽可能接 近预期结果的输出。用多组数据输出来训练模型以生成排名最高的输出。 3)使用强化学习来优化模型。当该模型产生一个排名最高的输出时,它 会得到奖励以强化这种积极的结果。训练过的模型生成输出后,奖励模 型计算奖励,如果新输出排名较高则模型策略会自动更新。
与传统人工智能不同,生成式 AI 具有创造性能力。传统的人工智能模 型建立在具有预测性的判别统计模型上,其侧重于从现有数据中识别模 式。而生成式模型则可以基于一组底层数据输入来生成新的数据实例。 生成式人工智能从底层数据集生成、创建新内容,以文本、图像、音频、 视频、代码等形式生成原始想法,超越了传统的模式检测和扭曲数据分 析。生成式 AI 能够打破人与机器之间的通信障碍,使得人类用自然语言 而不是编程语言与计算机进行通信。
Transformer架构已经成为神经网络学习中最重要的架构之一。传统上, 自然语言处理领域中使用的大多数模型都基于循环神经网络(RNN), 这些模型存在计算复杂度高、难以并行计算等众多局限性。而 Transformer 架构基于注意力机制,比传统的 RNN 和 CNN 更快、更稳 定,并且具有更高的准确率,更容易并行化。该技术大大减少了训练模 型的时间和对结构化数据集的依赖,提高了人工智能的自主学习能力。
生成式 AI 主要依赖于人工智能大模型,具有参数多、包含数据量大等 特点。这些模型通常包含数十亿至数万亿个参数,需要庞大的数据集进 行训练,根据《AIGC 发展报告 2023》数据,国外主要 AIGC 预训练模 型参数规模在 6.4 亿至 5400 亿之间,平均参数量高达 1541 亿。未来大 模型的训练数据不仅限于文字,还可以包括图像、视频等多种形式。与 自然语言处理模型相比,多模态模型训练数据为图像、视频等,规模远大 于语言类模型,因此需要更多的计算资源和算力来支持模型的训练和推 理。
4.2 算力芯片快速增长,GPU 占据 AI 芯片主流地位
算力需求激增,AI 应用发展仍需跨越当前算力鸿沟。根据 OpenAI 数据,2012-2018 年期间,人工智能训练任务中使用的算力正呈指数级增长, 速度为每3.5个月翻一倍,人们对于算力的需求增长了超过300,000倍。 相比之下,摩尔定律是每 18 个月翻倍,如果是以摩尔定律的速度,这 期间只会有 12 倍的增长。根据 IDC 数据,中国 AI 算力规模将保持高速 增长,预计到 2026 年将达 1271.4EFLOPS,CAGRA(2022-2026 年) 达 52.3%。
算力需求的快速增长与芯片计算能力的增长形成剪刀差,推动 AI 芯片 市场规模不断发展。当前模型计算量的增长远超人工智能硬件算力的增 长,二者性能增长之间的不匹配,剪刀差的扩大将带来对算力基础设施 供给需求的不断增长,以及算力硬件供给需求的快速增长。根据 Gartner 数据,2025 年人工智能芯片市场规模将从 2020 年的 101 亿美元增长至 726 亿美元,CAGR(2020-2025)为 48.4%。
AI 芯片是 AI 算力的核心,需求有望率先扩张。AI 芯片是用于加速人工 智能训练和推理任务的专用硬件,主要包括 GPU、FPGA、ASIC 等, 具有高度并行性和能够实现低功耗高效计算的特点。CPU 是 AI 计算的 基础,负责控制和协调所有的计算操作。在 AI 计算过程中,CPU 用于 读取和准备数据,并将数据来传输到 GPU 等协处理器进行计算,最后 输出计算结果,是整个计算过程的控制核心。根据 IDC 数据,CPU 在 基础型、高性能型、推理型、训练型服务器中成本占比分别为 32%、23.3%、 25%、9.8%,是各类服务器处理计算任务的基础硬件。
GPU、FPGA、ASIC 是 AI 计算的核心,作为加速芯片处理大规模并行 计算。具体来看,GPU 通用性较强,适合大规模并行计算,且设计及制 造工艺较成熟,目前占据 AI 芯片市场的主要份额;FPGA 具有开发周期 短、上市速度快、可配臵性等特点,目前被大量应用于线上数据处理中 心和军工单位;ASIC 根据特定需求进行设计,在性能、能效、成本均 极大的超越了标准芯片,非常适合 AI 计算场景,是当前大部分 AI 初创 公司开发的目标产品。
相比于少核心串行结构的 CPU,多核心的并行结构 GPU 更适合处理图 形图像(矩阵结构)信息。CPU 通常有 4 个、8 个或 16 个强力 ALU 核 心(arithmetic logic unit,算术逻辑单元),适合做复杂的通用串行任务。 GPU 是图形计算的重要元件,主要用来处理与图形图像相关的数据。与 CPU 不同的是,GPU 有数百甚至数千个简单 ALU 核心,单个 ALU 处 理能力相比 CPU 的更弱,但能够实现多个 ALU 并行计算,适合做简单 特定的并行任务。因此,对于复杂的单个计算任务来说,CPU 的执行效 率更高,通用性更强;而对于图形图像这种矩阵式多像素点的简单计算, 更适合用 GPU 来处理,但通用性较弱。
具有并行计算架构的 GPU 是 AI 算力的重要支撑,相较 CPU 在 AI 研究 和开发中具有更高的效率。21 世纪初期,研究人员意识到,由于机器学 习算法通常具有与图形处理算法相同类型的计算,因此 GPU 可以为机 器学习提供基于 CPU 计算的更有效的替代方案。GPU 能够提供卓越的 并行性能,由此可以有效加速 AI 计算,满足不断发展的算力需求。GPU 提供的计算效率不仅仅能够简化了分析过程,还能促进更广泛的模型训 练以获得更高的准确性,扩大了模型搜索过程的范围以防止替代规范, 使以前无法实现的某些模型变得可行,并允许对替代数据集增加额外的 敏感性以确保其稳健性。
GPU 在 AI 研究和开发中的重要性不断增加。AI 芯片中,GPU 占据主 要市场规模。根据 IDC 数据,2022 年国内人工智能芯片市场中,GPU 芯片所占市场份额达 89.0%。GPU 作为市场上 Al 计算最成熟、应用最 广泛的通用型芯片,应用潜力较大,其并行计算架构相较于其他 AI 芯片 更加适合于复杂数学计算场景,支持高度并行的工作负载。
英伟达是全球领先的 GPU 和 AI 芯片制造商之一。在国内 GPU 市场, 英伟达占据了主要份额。IDC 数据显示,2020 年英伟达在国内 GPU 服 务器市场几乎占据 95%左右的市场份额。通过研究英伟达的发展路径和 战略,能够帮助国内企业更好地了解 GPU 的应用和未来趋势,为国内 企业提供宝贵的借鉴和启示。
4.3 AI 芯片领域,国产芯片迅速崛起
全球GPU芯片市场主要由海外厂商占据垄断地位,国产厂商加速布局。 全球 GPU 市场被英伟达、英特尔和 AMD 三强垄断,英伟达凭借其自身 CUDA 生态在 AI 及高性能计算占据绝对主导地位;国内市场中,景嘉微 在图形渲染 GPU 领域持续深耕,另外天数智芯、壁仞科技、登临科技 等一批主打 AI 及高性能计算的 GPGPU 初创企业正加速涌入。
图形渲染 GPU:目前国内厂商在图形渲染 GPU 方面与国外龙头厂商差距不断缩小。芯动科技的“风华 2 号”GPU 采用 5nm 工艺制程,与 Nvidia 最新一代产品 RTX40 系列持平,实现国产图形渲染 GPU 破局。景嘉微 在工艺制程、核心频率、浮点性能等方面虽落后于 Nvidia 同代产品,但 差距正逐渐缩小。
ASIC 不同于 CPU、GPU、FPGA,目前全球 ASIC 市场并未形成明显 的头部厂商,国产厂商快速发展;通过产品对比发现,目前国产厂商集 中采用 7nm 工艺制程,与国外 ASIC 厂商相同;算力方面,海思的昇腾 910 在 BF16 浮点算力和 INT8 定点算力方面超越 Googel 最新一代产品 TPUv4,遂原科技和寒武纪的产品在整体性能上也与 Googel 比肩。未 来国产厂商有望在 ASIC 领域继续保持技术优势,突破国外厂商在 AI 芯 片的垄断格局。
4.4 国产算力公司梳理
龙芯中科:国产 CPU 设计标杆,自主研发 GPGPU
公司主要从事处理器(CPU)及配套芯片的研制、销售及服务。主要产 品包括龙芯 1 号、龙芯 2 号、龙芯 3 号三大系列处理器芯片及桥片 等配套芯片,系列产品在电子政务、能源、交通、金融、电信、教育等 行业领域已获得广泛运用。
龙芯成功构建独立信息技术体系的 CPU,不断推出基于 LoongArch 架 构的芯片。龙芯基于自主指令系统,决心构建独立于 Wintel 和 AA 体系 的开放信息技术体系的 CPU。龙芯技术上的持续积累使其成功地建立了 自己的指令系统架构 LoongArch。在 2021 年和 2022 年,公司相继推出 了多款基于 LA 架构的芯片产品,目前已经拥有 9 颗基于 LA 架构的芯片 产品。
海光信息:国产高端处理器龙头,CPU+DCU 双轮驱动
公司主营产品包括海光通用处理器(CPU)和海光协处理器(DCU)。 海光 CPU 主要面向复杂逻辑计算、多任务调度等通用处理器应用场景 需求,兼容国际主流 x86 处理器架构和技术路线。从应用场景看,海 光 CPU 分为 7000、5000、3000 三个系列,分别定位于高端服务器、 中低端服务器和边缘计算服务器。海光 DCU 是公司基于 GPGPU 架构 设计的一款协处理器,目前以 8000 系列为主,面向服务器集群或数据 中心。海光 DCU 全面兼容 ROCm GPU 计算生态,能够较好地适配国 际主流商业计算软件,解决了产品推广过程中的软件生态兼容性问题。
CPU 与 DPU 持续迭代,性能比肩国际主流厂商。CPU 方面,目前海光 一号和海光二号已经实现量产,海光三号已经正式发布,海光四号目前 进入研发阶段。海光 CPU 的性能在国内处于领先地位,但与国际厂商 在高端产品性能上有所差距,接近 Intel 中端产品水平;DCU 方面,深 算一号已实现商业化应用,深算二号已于 2020 年 1 月启动研发。在典 型应用场景下,公司深算一号指标达到国际上同类型高端产品的水平。
寒武纪:国产 AI 芯片领先者
寒武纪是 AI 芯片领域的独角兽。公司成立于 2016 年 3 月 15 日, 专注于人工智能芯片产品的研发与技术创新,产品广泛应用于消费电子、 数据中心、云计算等诸多场景。公司是 AI 芯片领域的独角兽:采用公 司终端智能处理器 IP 的终端设备已出货过亿台;云端智能芯片及加速 卡也已应用到国内主流服务器厂商的产品中,并已实现量产出货;边缘 智能芯片及加速卡的发布标志着公司已形成全面覆盖云端、边缘端和终 端场景的系列化智能芯片产品布局。
人工智能的各类应用场景,从云端溢出到边缘端,或下沉到终端,都离 不开智能芯片的高效支撑。公司面向云端、边缘端、终端推出了三个系 列不同品类的通用型智能芯片与处理器产品,分别为终端智能处理器 IP、 云端智能芯片及加速卡、边缘智能芯片及加速卡。
复旦微电:国内 FPGA 领军企业,多元化产品打开增长空间
24 年潜心钻研,高端芯片国产化的开创性先锋。公司成立两年后就成为 国内首家上市的 IC 设计公司,二十余年发展过程中又陆续成为首家获得 IC 制造商的国际注册代码,推出国内首个非接触卡等产品,打破国外厂 商垄断并在诸多领域取得突破。目前,复旦微的 RFID 芯片、智能卡芯 片、EEPROM、智能电表 MCU 等多类产品市占率都位列前茅。此外, 复旦微推出的亿门级 FPGA 产品已实现供货,填补了国产高端 FPGA 的 空白,具有取代进口 FPGA 产品的巨大潜力。
复旦微电产品应用广泛,获得业内认可。作为国内顶尖的集成电路设计 企业,公司以二十多年的深厚积淀构建了多元化的产品线。其 RFID 芯 片、智能卡芯片、EEPROM 以及智能电表 MCU 等多种产品在市场上享 有领先地位,获得了三星、LG、VIVO 等海内外知名厂商的高度认可。
FPGA 芯片国内技术领军者,国产替代种子选手。复旦微在国内 FPGA 领域处于领先地位,目前可提供千万门级、亿门级 FPGA 芯片以及嵌入 式可编程芯片等系列产品。研发方面,当前一方面基于 14/16nm 工艺制 程开发 10 亿门级产品,另一方面丰富 28nm 制程的 FPGA 及 PSoC 芯 片种类,继续保持在国产 FPGA 技术的领先地位。
安路科技:民用 FPGA 领先厂商,国产替代正当时
安路科技是国内领先的 FPGA 芯片设计企业。安路科技成立于 2011 年, 自成立至今,公司一直专注于 FPGA 芯片设计领域,通过多年的技术累 积,公司在 FPGA 芯片设计技术、SoC 系统集成技术、FPGA 专用 EDA 软 件技术、FPGA 芯片测试技术和 FPGA 应用解决方案等领域均有技术突破。 公司主要专注于 FPGA 芯片和专用 EDA 软件的研发、设计和销售。产品的 主要下游应用领域主要包括工业控制、网络通信、消费电子和数据中心 等。
公司主要向客户提供 FPGA 产品,包括 FPGA 芯片和专用 EDA 软件两部 分。基于目前的核心技术体系,公司成功构建了由 ELF 系列、EAGLE 系 列和 PHOENIX 系列 FPGA 芯片和 TangDynasty 系列专用 EDA 软件组成的 产品矩阵,2021 年,公司 FPSoC 产品新增了面向工业和视频接口的低功 耗 SWIFT 系列。公司产品覆盖 28nm-55nm 的工艺制程,形成了多种逻辑 规模 FPGA 芯片和软件的全产品线覆盖,并持续致力于高容量、高性能的 FPGA 和 FPSoC 芯片的研发与拓展。公司目前已成为国内领先的 FPGA 芯 片供应商,产品已广泛应用于工业控制、网络通信、数据中心、消费电 子等产业中。
布局卡位打造软硬件生态体系行业壁垒较高,公司未来成长逻辑清晰。 公司立足于中低端 CPLD 产品起步,产品从几十、几百 K 的高性价比产 品到目前 400K 的中高端产品全覆盖,客户积累深厚。公司采用软硬件 协同模式,软件配套构建良好生态,其自主开发的 FPGA 专用 EDA 软 件拥有较高技术水平,是国内目前拥有最多客户的国产 EDA 厂商,可以 立足于广大的客户群体,不断反馈完善自身软件和配套的生态体系,打 造自身软硬件护城河。正是因为 FPGA 芯片行业需要厂商同时具备较高 的硬件芯片设计能力以及软件开发能力,行业进入壁垒较高。公司作为 目前国产 FPGA 芯片行业的领先厂商,立足 FPGA 行业快速增长,拥有 广阔国产替代空间,提前布局卡位未来竞争优势明显,稀缺性成长性兼 备,伴随中高端产品放量,未来成长逻辑清晰。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)