外媒拆解DeepSeek制胜秘籍

作者 | 程茜
编辑 | 漠影

大年初四,当之无愧的春节顶流DeepSeek仍在持续刷屏霸榜,热度不减。

前脚,DeepSeek面临的巨头企业官宣加入vs多国政府下场质疑的冰火两重天局势尚未平静(DeepSeek在美两重天:五大巨头接入,政府诚惶诚恐);后脚,OpenAI被逼急,凌晨亮出全新推理模型o3-mini,并在ChatGPT首次向所有用户免费提供推理模型,不过o3-mini的API定价还是高于DeepSeek模型(重磅!OpenAI推o3-mini新模型,被DeepSeek逼急?定价仍打不过)。

o3-mini发布后,OpenAI CEO萨姆·阿尔特曼(Sam Altman)在Reddit上提到,要学习DeepSeek将推理模型的思考过程公开;OpenAI的闭源策略使他们站到了历史错误的一边,将重新思考OpenAI的开源策略;并坦言他们的领先优势已经不如之前大了。

继美国两大云巨头后,华为云今日宣布与硅基流动联合推出并上线基于华为云昇腾云服务的DeepSeek R1/V3推理服务。

外媒拆解DeepSeek制胜秘籍

o3-mini的发布并没有分散DeepSeek的讨论度。昨天,半导体研究和咨询公司SemiAnalysis的一项新报告揭秘了DeepSeek成功的关键因素及推测:

DeepSeek拥有至少大约5万块Hopper架构的GPU,且GPU投资已超过5亿美元

600万美元成本只包含其预训练运行的GPU成本,不包括硬件本身的研发和总体拥有成本(TCO)等重要部分;

为了吸纳人才给有前途的候选人提供超过130万美元(折合约942万人民币)的年薪;

关键创新多头潜注意力(MLA)将每个查询KV量减少93.3%,显著降低了推理价格。

DeepSeek的成功在硅谷掀起波澜,今日上午,英伟达创始人兼CEO黄仁勋被紧急召进美国白宫,与美国总统Donald Trump(唐纳德·特朗普)讨论了DeepSeek以及收紧AI芯片出口。

知情人士透露,特朗普认为这家中国公司的出现意味着“美国公司不必花费大量资金来构建低成本AI替代品”。此外,其会议上还提到,政府将在今年春天进一步限制AI芯片出口,以确保美国及其盟友继续拥有先进的计算能力。

昨晚,国内AI产品分析平台AI产品榜发布的数据显示,上线18天的DeepSeek日活已经达到1500万,ChatGPT过1500万花了244天,DeepSeek增速是ChatGPT的13倍

外媒拆解DeepSeek制胜秘籍

截止当前DeepSeek依然霸榜,位列苹果应用商店157个国家/地区的第一名。

这场关于DeepSeek的争吵仍然没有停下。Meta首席科学家杨立昆发文锐评,他认为硅谷圈子中的“常见病”是:错位的优越感。病症的高级阶段是,认为自己的小圈子已经垄断了好的想法,病症末期是,假设来自其他地方的创新都是通过作弊获得的。

外媒拆解DeepSeek制胜秘籍

一、OpenAI回应定价、针对开源策略认错、剧透GPT-5、坦言领先优势变小

阿尔特曼和OpenAI首席研究官Mark Chen、OpenAI首席产品官Kevin Weil等现身Reddit,在回复用户问题时多次提到DeepSeek,并且剧透了OpenAI的新研究进展。

OpenAI首次回应了o3-Mini价格没有竞争力,OpenAI API研究主管Michelle Pokrass称,o3-Mini相比于美国托管版本的DeepSeek具有竞争力。

外媒拆解DeepSeek制胜秘籍

阿尔特曼称赞DeepSeek是一个非常好的模型,并且称“我们将保持比往年更少的领先优势”。

外媒拆解DeepSeek制胜秘籍

看到开源的DeepSeek发布,阿尔特曼对OpenAI的闭源策略进行了反思。他透露,OpenAI正在讨论(发布一些模型权重等)。他说:“我个人认为我们在这里站在了历史错误的一边,需要找出不同的开源策略,但并非OpenAI的每个人都同意这种观点,这也不是我们目前的首要任务。”

外媒拆解DeepSeek制胜秘籍

DeepSeek的R1模型可以向用户显示模型中间的思考过程,阿尔特曼称OpenAI将效仿DeepSeek的做法:“是的,我们很快会展示一个更有用、更详细的版本。感谢R1让我们有所更新。”OpenAI可能更多地揭示其所谓的推理模型的“思考过程”。

外媒拆解DeepSeek制胜秘籍

OpenAI首席产品官Kevin Weil还剧透了OpenAI的新进展。

4o的图像生成功能可能要几个月后推出。

外媒拆解DeepSeek制胜秘籍

高级语音更新即将推出,GPT-5的发布还没有时间表。

外媒拆解DeepSeek制胜秘籍

OpenAI计划将文件附加功能添加到推理模型中。

外媒拆解DeepSeek制胜秘籍

完整的o3模型将在几周、不到几个月的时间内完整亮相。

外媒拆解DeepSeek制胜秘籍

二、DeepSeek的制胜秘籍:手握6万块GPU,千万年薪招人

半导体研究和咨询公司SemiAnalysis的一项新报告揭秘了DeepSeek成功的关键因素及推测。

其研究显示,DeepSeek不是外界所传的“副业”,其GPU投资已经超过5亿美元

DeepSeek拥有至少大约5万块Hopper架构的GPU,其中可能大约有1万块H800、1万块H100、3万块H20、1万块A100。这些GPU在幻方量化和DeepSeek之间共享,用于交易、推理、训练和研究。

外媒拆解DeepSeek制胜秘籍

报告分析表明,DeepSeek的总服务器资本支出约为16亿美元(折合约116亿人民币),运营此类集群的成本高达9.44亿美元(折合约68亿人民币)

DeepSeek的价格和效率在本周引起了业界的狂热讨论:DeepSeek用不到600万美元的成本,干翻了硅谷巨头们花费数十亿美金训练的AI模型。

但SemiAnalysis的报告提到,这个说法存在错误,这类似于将产品物料清单的特定部分并将其归因为全部成本,预训练成本在总成本中只占很小的一部分。

600万美元只包含其预训练运行的GPU成本,只是模型总成本的一部分,不包括硬件本身的研发和总体拥有成本(TCO)等重要部分。

作为参考,Claude 3.5 Sonnet的训练成本为数千万美元,但这并不是Anthropic所需的总成本,他们还需要资金进行实验、提出新架构、收集和清理数据、支付员工工资等。

其报告还提到,DeepSeek在寻找人才方面也投入了大量资金。

目前,该公司的员工人数在150人左右,且公司岗位并没有被预先定义,会根据招聘人员灵活定义。

DeepSeek选择在国内寻找人才,并且不考虑其此前的资历,非常注重能力和好奇心。这家公司会定期在北京大学和浙江大学等顶尖大学举办招聘活动,其许多员工都毕业于浙江大学。

报告提到,该公司此前还为有前途的候选人提供超过130万美元(折合约942万人民币)的年薪,这一薪资水平远高于国内大型科技公司以及大模型创企。

在第三方招聘软件BOSS直聘中,DeepSeek公开的在招职位有37个,核心系统研发工程师、深度学习研究员薪资水平最高为50-80K、60-90K,除实习生其他岗位均为14薪。大多数情况下,DeepSeek不依赖外部方或提供商,运行自己的数据中心,不依赖外部方或提供商。这为实验开辟了更多领域,使他们能够跨堆栈进行创新。

三、推理成本下降,多token预测、多头潜注意力两大创新

推理成本骤降是AI进步的一个显著特征。

一个明显的例子就是,笔记本电脑上运行的小模型目前已经与GPT-3性能相当,而后者需要一台超级计算机进行训练和多个GPU进行推理。换句话说,算法改进允许使用较少的计算量来训练和推理具有相同能力的模型,而且这种模式正一遍又一遍上演。

外媒拆解DeepSeek制胜秘籍

到目前为止,在这种模式下AI实验室的策略是花费更多钱来获得更多智能。据估计,算法的进步是每年提升4倍,这意味着每过一年实现相同能力所需的计算量就会减少到1/4。Anthropic的首席执行官达里奥·阿莫迪(Dario Amodei)认为,算法的进步甚至更快,可以产生10倍的改进。就GPT-3质量的推理定价而言,成本下降到1/1200。

该报告还调查了GPT-4的成本,在曲线早期也有类似的成本下降趋势。虽然随着时间的推移成本差异减少,但在这种情况下,我们看到算法改进和优化使成本降低到1/10,能力提高了。

外媒拆解DeepSeek制胜秘籍

需要明确的是,DeepSeek率先达到了这个级别的成本和能力,并且其独特之处还在于发布了开放权重,SemiAnalysis认为其成本甚至会继续降低到1/5。

DeepSeek是如何如此迅速地赶上来的?

答案是,推理具有更快的迭代速度和更低成本唾手可得的成果,且与以前的范式相比,计算量更小。但以前的范式依赖于预训练,因价格昂贵难以实现稳健的收益。

新范式侧重于通过合成数据生成和现有模型后训练中的强化学习进行推理能力,从而以更低的价格获得更快的收益。较低的进入门槛与简单的优化相结合,意味着DeepSeek能够比平时更快地复制o1方法。

未来,随着研发人员弄清楚如何在这一新模式中实现更大规模的发展/应用等,预计不同模型之间能力匹配的时间差距将会拉大。

DeepSeek的爆火在于其破解了架构创新的密码并解锁了领先实验室尚未能够实现的创新,其中包括Training (Pre and Post) 模型预训练和后训练以及多头潜在注意力(MLA)1、Training(Pre and Post)模型预训练和后训练DeepSeek V3以前所未有的规模利用了多标记预测(MTP),其添加的注意力模块可以预测接下来的几个Token,而不是单个Token。这提高了模型在训练期间的性能,并且可以在推理期间丢弃。这一方法以较低的计算能力提高了性能。还有一些额外的考虑因素,例如在训练中采用FP8精度。

此外,该模型也是混合专家模型,由许多其他专注于不同事物的较小专家模型组成。MoE模型面临的一个难题是如何确定哪个Token属于哪个子模型。

DeepSeek基于门控网络(Gating Network),以不降低模型性能的平衡方式将Token路由到正确的子模型,这提升了训练效率并降低了推理成本。

尽管业界有人担心混合专家模型使得效率提高可能会减少该领域的相关投资,但Dario指出,功能更强大的模型经济效益非常可观,以至于任何节省的成本都会迅速重新投资于构建更大的模型。MoE的效率提高不会减少整体投资,而是会加速AI扩展工作。

R1的强大能力得益于基础模型V3,强化学习提供了两大能力,一是Formatting(确保它提供连贯输出)二是有用性和无害性(确保模型有用)。推理能力是在合成数据集上对模型进行微调期间出现的。

不过R1论文中没有提到计算,这是因为提到使用了多少计算会表明他们的GPU比他们的叙述所暗示的要多。这种规模的强化学习需要大量的计算,尤其是生成合成数据。

R1论文中还提到,能使用推理模型的输出对其进行微调,将非推理的较小模型转换为推理模型。数据集管理总共包含800k个样本,现在任何人都可以使用R1的思维链输出来制作自己的数据集,并在这些输出的帮助下制作推理模型。未来,我们可能会看到更多较小的模型展示推理能力,从而使得小型模型的性能提高。2、Multi-head Latent Attention(MLA)多头潜在注意力另外一项关键创新是MLA,负责显著降低DeepSeek的推理价格。

其原因是MLA将每个查询所需的KV Cache(键-值缓存)数量减少了约93.3%。KV Cache是Transformer中的一种内存机制,它存储代表对话上下文的数据,从而减少不必要的计算。

KV Cache会随着对话上下文的增长而增长,并产生相当大的内存限制,大幅减少每个查询所需的 KV Cache 数量会减少每个查询所需的硬件数量,从而降低成本。报告认为,DeepSeek是在以成本价提供推理服务来获取市场份额,实际上并没有盈利。

结语:DeepSeek发布,中美AI竞争格局大洗牌

DeepSeek的发布对整个行业产生了全方位、深层次的影响。从OpenAI新发布的o3-mini也可以看出,中美之间的AI竞争格局正在改变,中国企业在开源领域的积极作为,让美国不得不重新审视其限制开源的策略。

从产业竞争格局来看,DeepSeek的横空出世重塑了全球AI产业的竞争版图,这或许也将促使各国重新审视AI发展战略,加强在AI领域的投入和合作,共同推动AI技术的进步。

春节期间DeepSeek掀起的这场AI风暴仍在中美乃至全球科技、政金界产生持续影响,并不断发酵,已经成为改变AI科技产业趋势的风向标事件,智东西将持续跟进相关进展和报道,敬请关注。

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com