
本文由半导体产业纵横(ID:ICVIEWS)编译自tomshardware人妖 h漫
通过销售H20,赚了数百亿好意思元。
英伟达在 2023 年和 2024 年的飙升收获于东谈主工智能领域对 GPU 的爆炸性需求,主如果在好意思国、中东国度和中国。
为了将AI GPU加快器卖给中国,NVIDIA接连打造了多款缩水的特供版,从早期的A800、H800到自后的H20、L20、L2。
其中,H20是最让中国客户清闲的,因为它基于新的Hopper架构,主要作念锻真金不怕火(L20/L2齐是中国不太需要的Ada架构推理卡),销量亦然节节攀升。
由于好意思国存在出口铁心,何况英伟达无法在莫得政府出口许可的情况下将其最高端的 Hopper H100、H200 和 H800 处理器出售给中国,因此它转而将其削减版的HGX H20 GPU 出售给中国实体。
然而,分析师Claus Aasholm暗示,尽管削减了,但 HGX H20 的销售进展却畸形出色。
好看的日本av
Aasholm 写谈:“通过了中国禁令的左迁版 H20 系统进展畸形好,环比增长 50%,这是英伟达最成效的家具。H100 业务仅环比增长 25%。”
阐述 Claus Aasholm 的发现,尽管 HGX H20 GPU 的性能与熟习的 H100 比拟大幅下落,但英伟达仍通过销售该 GPU 赚取了数百亿好意思元。东谈主工智能如实是推进真的所有类型的数据中心硬件销售的大趋势,包括英伟达的 Hopper GPU,包括 HGX H20。
寰球主要经济体——好意思国和中国——正在竞相取得最大的东谈主工智能武艺。关于好意思国来说,增长或多或少是当然而然的:更多的资金和更多的硬件即是更高的武艺,但这还不够。OpenAI 本身就赚了数十亿好意思元,但它需要更多的钱来取得更多的硬件,从而取得东谈主工智能锻真金不怕火和推理武艺。
尽管存在各样铁心,但中国的东谈主工智能武艺(无论是硬件如故大型模子建树)仍在握住扩大。就在上周,中国东谈主工智能公司 Deepseek 在一篇论文中知道,它还是在 2,048 个英伟达H800 GPU 集群上锻真金不怕火了其 6710 亿参数的 DeepSeek-V3 搀杂巨匠 (MoE) 说话模子,耗时两个月,揣测 280 万个 GPU 小时。
比拟之下,Meta 插足了 11 倍的狡计资源(3080 万个 GPU 小时)来锻真金不怕火领有 4050 亿个参数的 Llama 3,耗时 54 天,使用了 16,384 个 H100 GPU。
跟着时候的推移,中邦原土的 Biren Technologies 和 Moore Threads 等公司推出的加快器可能会蚕食英伟达刻下在中国数据中心的近乎摆布地位。然而,这不成能一蹴而就。
英伟达年终大礼,最强AI GPU曝光
阐述SemiAnalysis的最新爆料,B300 GPU对狡计芯片的假想进行了优化,并吸收了全新的TSMC 4NP工艺节点进行流片。
比拟于B200,其性能的耕作主要在以下两个方面:
1. 算力
FLOPS性能耕作50%
功耗加多200W(GB300和B300 HGX的TDP分手达到1.4KW和1.2KW;前代则为1.2KW和1KW)
架构改造和系统级增强,举例CPU和GPU之间的动态功率分派(power sloshing)
2. 内存
HBM容量加多50%,从192GB耕作至288GB
堆叠决议从8层HBM3E升级为12层
针脚速率保捏不变,带宽仍为8TB/s
序列长度的加多,导致KV Cache也随之扩大,从而铁心了关节批处理大小和蔓延。
因此,显存的改造关于OpenAI o3这类大模子的锻真金不怕火和推理至关蹙迫。
下图展示了英伟达H100和H200在处理1,000个输入token和19,000个输出token时的效率耕作,这与OpenAI的o1和o3模子中的念念维链(CoT)形式相似。

H100到H200的升级,主要在于更大、更快的显存:
更高的带宽使交互性能大批耕作了43%(H200为4.8TB/s,而H100为3.35TB/s)
更大的批处理规模,使每秒token生成量耕作了3倍,进而使老本也镌汰了约3倍
而对运营商而言,这H100和H200之间的性能与经济各异,远远卓绝时刻参数的数字那么简便。
起初,此前的推理模子经常因肯求反馈时候长而影响体验,而当今有了更快的推理速率后,用户的使宅心愿和付费倾向齐将显赫提高。
其次,老本镌汰3倍的效益,然而极为可不雅的。仅通过中期显存升级,硬件就能达成3倍性能耕作,这种打破性进展远远卓绝了摩尔定律、黄氏定律或任何已知的硬件高出速率。
临了,性能最顶尖、具有显赫各异化上风的模子,能因此取得更高溢价。
SOTA模子的毛利率还是卓绝70%,而靠近开源竞争的次级模子利润率仅有20%以下。推理模子可打破单一念念维链铁心,通过彭胀搜索功能耕作性能(如o1 Pro和o3),从而使模子更智能地处置问题,提高GPU收益。
SemiAnalysis 暗示,英伟达筹商来岁推出的 B300 Tensor Core GPU 对假想进行了相似,将在台积电 4NP 定制节点上重新流片,举座来看可较 B200 GPU 耕作 50% 算力。

经济日报发布博文,英伟达(Nvidia)联袂台积电(TSMC)等供应链相助伙伴,为管待新一轮 AI 高潮,同期亦然为平定其在 AI 领域的起初地位,已提前驱动下一代 Rubin 平台研发职责,原定 2026 年亮相的芯片有望提前 6 个月推出。
Rubin 是继 Blackwell 之后的下一代 AI GPU 架构,原筹商于 2026 年发布,最新音尘称将提前至 2025 年下半年,将吸收台积电 3nm 工艺和下一代 HBM4 显存,大幅耕作 AI 狡计性能。
音尘称英伟达正与供应链相助伙伴边远相助,共同建树基于 R100 的 AI 做事器,与此同期台积电筹商扩大 CoWoS 先进封装产能,以知足 Rubin 芯片的预期需求,指标是在 2025 年第四季度将 CoWoS 月产能耕作至 8 万片。
*声明:本文系原作家创作。著作骨子系其个东谈主不雅点,本身转载仅为共享与盘问,不代表本身赞赏或招供,如有异议,请关系后台。