DeepSeek 风靡全球。过去一周,DeepSeek 成为全世界唯一一个人们愿意谈论的话题。目前,DeepSeek 的每日流量远高于 Claude、Perplexity 甚至 Gemini。以下是SemiAnalysis的一篇对DeepSeek的最新分析。文中”我们“指代SemiAnalysis。
对于密切关注该领域的人来说,DeepSeek 并不是什么“新”消息。几个月来,我们一直在谈论 DeepSeek(每个链接都是一个例子)。这家公司并不新,但狂热的炒作却是新的。SemiAnalysis 长期以来一直认为 DeepSeek 非常有才华,但美国广大公众并不关心。
我们想要强调的是,情况与上个月相比已经发生了变化,当Scaling Laws被打破时,我们消除了这个神话,现在算法改进太快了,这对 Nvidia 和 GPU 来说也是不利的。
现在的说法是 DeepSeek 非常高效,我们不需要更多计算,而且由于模型的变化,现在一切都出现了严重的产能过剩。虽然杰文斯悖论也被夸大了,但杰文斯悖论更接近现实,这些模型已经引发了需求,对 H100 和 H200 的定价产生了切实的影响。
DeepSeek 和 High-Flyer
High-Flyer (幻方)是一家中国对冲基金,也是在交易算法中使用人工智能的早期采用者。他们很早就意识到人工智能在金融以外领域的潜力以及扩展的关键洞察力。因此,他们不断增加 GPU 的供应。在对具有数千个 GPU 集群的模型进行实验后,High Flyer 在 2021 年投资了 10,000 个 A100 GPU,当时还没有出口限制。这笔投资获得了回报。
随着 High-Flyer 的不断进步,他们意识到是时候在 2023 年 5 月分拆“DeepSeek”了,目标是更加专注地追求进一步的人工智能能力。High-Flyer 自筹资金,因为当时外部投资者对人工智能兴趣不大,缺乏商业模式是主要问题。如今,High-Flyer 和 DeepSeek 经常共享资源,包括人力和计算资源。
DeepSeek 现已发展成为一项严肃、协调一致的努力,绝不是许多媒体声称的“附带项目”。我们相信,即使考虑到出口管制,他们的 GPU 投资也超过 5 亿美元。
GPU 的情况
我们认为他们拥有大约 50,000 个Hopper GPU,这与某些人声称的 50,000 个 H100 并不相同。Nvidia 按照不同的规定制造了不同的 H100 变体(H800、H20),目前只有 H20 可供中国型号供应商使用。请注意,H800 具有与 H100 相同的计算能力,但网络带宽较低。
我们认为 DeepSeek 拥有大约 10,000 台 H800 和大约 10,000 台 H100。此外,他们还订购了更多 H20,Nvidia 在过去 9 个月内生产了超过 100 万台中国专用 GPU。这些 GPU 由 High-Flyer 和 DeepSeek 共享。它们用于交易、推理、培训和研究。
我们的分析显示,DeepSeek 的总服务器资本支出接近 13 亿美元,其中运营此类集群的成本高达 7.15 亿美元。
DeepSeek 招聘的人才全部来自中国,不考虑以前的资历,重点关注能力和好奇心。DeepSeek 定期在北大和浙江大学等顶尖大学举办招聘活动,许多员工都毕业于这些大学。职位不一定是预先定义的,而且招聘具有灵活性,招聘广告甚至宣称可以使用 10,000 个 GPU,且没有使用限制。他们的竞争力非常强,据称为有前途的应聘者提供超过 130 万美元的薪水,远远超过中国大型科技公司。他们有大约 150 名员工,但发展迅速。
历史表明,资金充足、专注的小型初创公司往往能够突破极限。DeepSeek 不像 Google 那样官僚作风,而且由于资金自足,因此可以快速实施创意。然而,与 Google 一样,DeepSeek(大部分)运营自己的数据中心,不依赖外部方或提供商。这为实验开辟了更多空间,使他们能够在整个堆栈中进行创新。
我们相信他们是当今最好的“开源权重”实验室,击败了 Meta 的 Llama、Mistral 和其他实验室。
DeepSeek 的成本和性能
DeepSeek 的价格和效率在本周引起了轩然大波,头条新闻是 DeepSeek V3 的“600 万美元”训练成本。这是错误的。这类似于指出物料清单中的特定(且很大)部分并将其归为全部成本。预训练成本只是总成本中很小的一部分。
训练费用
我们认为,预训练数字与模型实际花费的金额相去甚远。我们确信,在公司历史上,他们的硬件支出远高于 5 亿美元。为了开发新的架构创新,在模型开发过程中,需要花费大量资金来测试新想法、新架构想法和消融。多头潜在注意力是 DeepSeek 的一项关键创新,花了几个月的时间才开发出来,耗费了整个团队的人力和 GPU 小时。
论文中提到的 600 万美元成本仅仅是预训练运行的 GPU 成本,这只是模型总成本的一部分。不包括硬件本身的研发和 TCO 等重要部分。作为参考,Claude 3.5 Sonnet 的训练成本为数千万美元,如果这就是 Anthropic 所需的总成本,那么他们就不会从谷歌筹集数十亿美元,也不会从亚马逊筹集数百亿美元。这是因为他们必须进行实验,提出新的架构,收集和清理数据,支付员工工资等等。
那么 DeepSeek 是如何拥有如此庞大的集群的呢?出口管制的滞后是关键,我们将在下面的出口部分进行讨论。
缩小差距 – V3 的性能
V3 无疑是一个令人印象深刻的模型,但值得强调的是相对于什么而言令人印象深刻。许多人将 V3 与 GPT-4o 进行了比较,并强调 V3 如何超越 4o。这是真的,但 GPT-4o 于2024 年 5 月发布。人工智能发展迅速,2024 年 5 月是算法改进的另一个时代。此外,我们并不惊讶地看到在给定的时间后,更少的计算就能实现相当或更强大的功能。推理成本下降是人工智能改进的标志。
例如,可以在笔记本电脑上运行的小型模型具有与 GPT-3 相当的性能,后者需要超级计算机进行训练和多个 GPU 进行推理。换句话说,算法改进允许使用较少的计算量来训练和推理具有相同能力的模型,这种模式一再出现。这一次,全世界都注意到了,因为它来自中国的一个实验室。但小型模型越来越好并不是什么新鲜事。
到目前为止,我们看到这种模式的结果是,人工智能实验室花费了更多的绝对资金,以获得更智能的产品。据估计,算法的进步速度为每年 4 倍,这意味着每过一年,实现相同功能所需的计算量就会减少 4 倍。Anthropic 首席执行官 Dario 认为,算法的进步速度更快,可以带来10 倍的改进。就 GPT-3 质量的推理定价而言,成本已下降了 1200 倍。
在研究 GPT-4 的成本时,我们发现成本也有类似的下降,尽管在曲线的早期阶段。而成本随时间变化的差异减小可以用不再像上图那样保持能力不变来解释。在这种情况下,我们看到算法的改进和优化使成本降低了 10 倍,而能力提高了。
需要明确的是,DeepSeek 的独特之处在于他们率先实现了这一成本和功能水平。他们的独特之处在于发布了开放重量,但之前的 Mistral 和 Llama 型号过去也做到了这一点。DeepSeek 已经实现了这一成本水平,但到今年年底,成本再次下降 5 倍也不要感到惊讶。
R1 的表现能与 o1 相媲美吗?
反观R1,能够取得与o1相当的成绩,而o1才9月份才公布,DeepSeek凭什么能追得上这么快?
答案是,推理是一种新的范式,它具有更快的迭代速度和更低的收益,与以前的范式相比,只需较少的计算量就能获得有意义的收益。正如我们在扩展定律报告中概述的那样,以前的范式依赖于预训练,而这变得越来越昂贵,也越来越难以实现稳健的收益。
新范式专注于通过合成数据生成和强化学习在现有模型上进行后期训练来提高推理能力,从而以更低的价格实现更快的收益。较低的进入门槛加上简单的优化意味着 DeepSeek 能够比平时更快地复制 o1 方法。随着玩家弄清楚如何在这个新范式中进一步扩展,我们预计匹配能力之间的时间差距将会增加。
请注意,R1 论文没有提及所使用的计算量。这并非偶然——需要大量计算来为训练后的 R1 生成合成数据。这还不包括强化学习。R1 是一个非常好的模型,我们对此没有异议,而且如此迅速地赶上推理前沿客观上令人印象深刻。DeepSeek 是中国公司,而且用更少的资源赶上来,这一事实让它更加令人印象深刻。
但 R1 提到的一些基准也具有误导性。将 R1 与 o1 进行比较很棘手,因为 R1 并未明确提及它们不领先的基准。尽管 R1 的推理性能与之相匹配,但它并不是每个指标都明显胜出,而且在很多情况下它比 o1 更差。
我们还没有提到 o3。o3 的能力明显高于 R1 或 o1。事实上,OpenAI 最近分享了 o3 的结果,基准扩展是垂直的。“深度学习遇到了瓶颈”,但类型不同。
谷歌的推理模型也不错
正当 R1 被疯狂炒作时,一家市值 2.5 万亿美元的美国公司在一个月前发布了一款更便宜的推理模型:谷歌的 Gemini Flash 2.0 Thinking。该模型可供使用,而且比 R1 便宜得多,即使通过 API 为模型提供更大的上下文长度。
根据报告的基准测试,Flash 2.0 Thinking 击败了 R1,尽管基准测试并不能说明全部情况。Google 只发布了 3 个基准测试,因此情况并不完整。不过,我们认为 Google 的模式很强大,在许多方面都与 R1 相媲美,但并没有受到任何炒作。这可能是因为 Google 的市场策略乏善可陈,用户体验不佳,但 R1 也是来自中国的惊喜。
需要明确的是,这些都无损于 DeepSeek 的卓越成就。DeepSeek 是一家发展迅速、资金充足、聪明且专注的初创公司,其结构正是其在发布推理模型方面击败Meta等巨头的原因,这是值得称赞的。
技术成果
DeepSeek 破解了密码,并解锁了领先实验室尚未实现的创新。我们预计,任何已发布的 DeepSeek 改进都将立即被西方实验室复制。
这些改进是什么?大多数架构成就都与 V3 有关,而 V3 也是 R1 的基础模型。让我们详细介绍这些创新。
训练(前期和后期)
DeepSeek V3 以前所未有的规模使用了多标记预测 (MTP),这些是附加的注意力模块,可以预测接下来的几个标记,而不是单个标记。这提高了训练期间的模型性能,并且可以在推理期间丢弃。这是一个算法创新的例子,它能够以较低的计算量提高性能。
还有一些额外的考虑,例如在训练中进行 FP8 准确度,但美国领先的实验室已经进行 FP8 训练一段时间了。
DeepSeek v3 也是专家模型的混合体,这是一个由许多其他专门研究不同事物的较小模型组成的大型模型。MoE 模型面临的一个难题是如何确定哪个 token 属于哪个子模型或“专家”。DeepSeek 实现了一个“门控网络”,以平衡的方式将 token 路由到正确的专家,而不会降低模型性能。这意味着路由非常高效,并且相对于模型的整体大小,每个 token 在训练期间只会更改几个参数。这增加了训练效率并降低了推理成本。
尽管有人担心混合专家 (MoE) 效率提升可能会减少投资,但Dario指出,更强大的 AI 模型的经济效益非常可观,任何成本节省都会很快被重新投资到构建更大的模型中。MoE 的效率提升不会减少总体投资,反而会加速 AI 的扩展工作。这些公司专注于扩展模型以进行更多计算,并使其在算法上更高效。
就 R1 而言,它从拥有强大的基础模型 (v3) 中受益匪浅。这部分归功于强化学习 (RL)。RL 有两个重点:格式化(以确保它提供连贯的输出)以及有用性和无害性(以确保模型有用)。在对合成数据集进行模型微调期间,推理能力应运而生。正如我们在Scaling Laws文章中提到的,这就是 o1 所发生的情况。请注意,在 R1 论文中没有提到计算,这是因为提到使用了多少计算会表明他们拥有的 GPU 比他们的叙述所暗示的要多。这种规模的 RL 需要大量的计算,尤其是在生成合成数据时。
此外,OpenAI 称 DeepSeek 蒸馏了来自 OpenAI 的模型,我们认为这将对输出数据提取政策产生影响。未来的新趋势可能是采用 KYC(了解你的客户)来阻止数据提取。
说到蒸馏,R1 论文中最有趣的部分可能是能够通过使用推理模型的输出对非推理小型模型进行微调,将其转变为推理模型。数据集策展总共包含 80 万个样本,现在任何人都可以使用 R1 的 CoT 输出来制作自己的数据集,并在这些输出的帮助下制作推理模型。我们可能会看到更多小型模型展示推理能力,从而增强小型模型的性能。
多头潜在注意力(MLA)
MLA 是一项关键创新,它显著降低了 DeepSeek 的推理成本。原因是 MLA 与标准注意力机制相比,将每个查询所需的 KV 缓存量减少了约93.3%。KV 缓存是 Transformer 模型中的一种内存机制,用于存储表示对话上下文的数据,从而减少不必要的计算。
正如我们在Scaling Laws文章中所讨论的那样,KV 缓存会随着对话上下文的增长而增长,并产生相当大的内存限制。大幅减少每个查询所需的 KV 缓存量会减少每个查询所需的硬件量,从而降低成本。然而,我们认为 DeepSeek 以成本价提供推理是为了获得市场份额,而实际上并没有赚到钱。Google Gemini Flash 2 Thinking 仍然更便宜,谷歌不太可能以成本价提供这种服务。MLA 特别引起了许多美国领先实验室的关注。MLA 在 2024 年 5 月发布的 DeepSeek V2 中发布。
DeepSeek 还利用 H20 实现了更高的推理效率,因为与 H100 相比,H20 具有更高的内存和带宽容量。他们还宣布与华为建立合作伙伴关系,但到目前为止,在 Ascend 计算方面与华为的合作还很少。
参考资料:
[1] DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts, https://semianalysis.com/2025/01/31/deepseek-debates/
欢迎扫码加群参与讨论
---------END--------
我们相信认知能够跨越阶层,
致力于为年轻人提供高质量的科技和财经内容。
???? 我们正在招募新一期的Z Explorer
友情提示
本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!
联系邮箱:1042463605@qq.com