主页 › 阅读 › 热点 › 分不清9.11和9.9大小，暴露大模型逻辑推理能力短板 | 新京报快评

分不清9.11和9.9大小，暴露大模型逻辑推理能力短板 | 新京报快评

新京报评论发布于 4月前

7 0

▲某款大模型关于“9.11和9.9两个数字哪个更大”的回答。图/某款大模型截图

文 | 王晓凯

一道小学数学题，成功难倒了超过一半的大模型。近日，据第一财经报道，经测试，在“9.11和9.9两个数字哪个更大”这个基础的数学题上，国内外12个大模型之中只有4个答对了，剩下8个全都回答错误。在答错者中，还包括了知名的ChatGPT-4o。

数学相关的逻辑推理能力一直是当下大模型的短板。但一道小学生级别的数学题，却成了各家标榜成为“生产力升级”的大模型面前的绊脚石，这在公众舆论之中引发了不小争议。究其原因，是近期公众对于“大模型无所不能”的传统认知与大模型当下仍处在测试探索期的现实之间产生了冲突。

实际上种种迹象显示，大模型当前在纯数学问题上的真实能力应该就处在小学水平的区间。2023年底，OpenAI（美国人工智能研究公司）内部曾被曝光有一个代码为Q的“绝密大项目”，该项目正是致力于解决大模型在数学运算能力上的问题。

这一项目被曝光后在行业内引发了激烈争论。马斯克曾公开表示，“该项目对人类造成了威胁”。但经媒体报道，这样一个“威胁人类”的项目，其真实的纯数学逻辑运算能力只是小学生水平。

今年高考期间，有媒体同样用高考数学题“考验”了大模型，参与测试的7个大模型在高考数学上全部“不及格”，最高分也只有75分。

综合上述大模型真实的数学能力来看，这并不能理解为大模型有了高考数学75分的水平。更为准确的理解是，大模型是一个“不怎么懂数学运算、但懂得大量搜索文字资料分析”的主体，而75分是其可以通过资料搜集比对分析所能取得的最好成绩。

从这个角度看，外界认为大模型是“文科生”似乎也不算是一种偏见。当前用户可以感知到的大模型，是基于海量文本的相关性进行训练分析，从而达到文本生成的人类平均水平。

但是，除了文本的分析和生成之外，人类对信息的搜集分析处理中最重要的是推理能力，包括了逻辑推理、认知推理等。

数学运算是典型的逻辑推理能力。即根据前提条件给出符合逻辑或潜在逻辑关系的结论，而数学运算是用精确的语言和符号进行纯逻辑的推演，因此，如此理解的话，更能直观地感受到大模型的逻辑推理能力。

逻辑推理被认为是当前大模型最难攻克的一道关卡。而除了逻辑推理之外，对有限的碎片信息进行不断重组、搜寻以找到信息全貌等，类似于传统侦探推理小说所呈现的“碎片信息拼凑分析”，也在大模型当前的能力范围之外。

逻辑推理对于大模型的未来发展为什么重要？从应用场景上看，推理能力意味着可靠性和适配性的问题。

目前，大模型所展现的应用场景主要局限在资料分析、内容生成等领域，而在涉及数字分析、逻辑推演等行业领域，大模型的想象空间依然有限。很难想象，一个难以判断小数点后数字大小的大模型，能够在工业生产制造、金融计算等领域有广泛应用前景。

因此，国内外的大模型企业已经开始有意识地探索“如何训练大模型在特定条件下的推理能力”。此前所提及的OpenAI的内部项目，这几天也传出了新消息，该项目旨在提高大模型的“自主浏览和深度研究”能力，目前已经确认更名为“草莓”，并在行业内引发了进一步的讨论。

从消费者的角度看，如果希望大模型能够在数理分析、逻辑推理等领域成为有效助手，或许还有赖于大模型在推理训练上的下一阶段突破。但或许更值得思考的问题是：当大模型掌握了推理能力，那么，距离进一步攻破人类的思维活动或许就真的不远了。一些人对此有所担忧，人类真的做好准备了吗？

撰稿 / 王晓凯（媒体人）

编辑 / 马小龙

校对 / 杨利

661分报丽水学院，职业认同与定向招生同等重要 | 新京报快评

欢迎投稿：

新京报评论，欢迎读者朋友投稿。投稿邮箱：xjbpl2009@sina.com

评论选题须是机构媒体当天报道的新闻。来稿将择优发表，有稿酬。

投稿请在邮件主题栏写明文章标题，并在文末按照我们的发稿规范，附上作者署名、身份职业、身份证号码、电话号码以及银行账户（包括户名、开户行支行名称）等信息，如用笔名，则需要备注真实姓名，以便发表后支付稿酬。

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

#新京报#

分不清9.11和9.9大小，暴露大模型逻辑推理能力短板 | 新京报快评

友情提示

菲律宾一家火锅店发生枪击案一名中国人中枪？我使馆：已介入处理

警惕短剧精准“围猎”老年人｜新京报社论

警惕短剧精准“围猎”老年人|新京报社论

新京报2024年Q3剧集榜：从凡人到楷模，现实题材山花烂漫

陈梦夺金后遭不敬行为，官方点名二人，果断表态：严惩无赦！

熟食在室温存放最好不超两小时，烹饪海鲜、菜豆要烧熟煮透

珠海驾车冲撞市民重大恶性案件造成35人死亡43人受伤

传递爱国正能量，从我做起，刘老师好样的！

国务院关于修改《全国年节及纪念日放假办法》的决定

秦琼落魄到要卖马，开价50两被嘲笑，下秒竟有人白给他送钱

特朗普很清楚谁是大腿，当选后很老实，立马报答金主

卢比奥或将担任美国国务卿，鹰派内阁上台，中美硬仗将无可避免？

官方通报良品铺子被举报事件

国足战日本期待“新惊喜”

肖钢坚定看好中国经济

北京房山南大街现场查出4大类20余个障碍点请使用人“点单并验收”无障碍改造

家族分工、声称自用……新型走私行为难逃法眼

湖南农妇挖塘养鱼被控非法占用农地罪二审宣判：犯罪情节轻微免于刑事处罚