国产大模型互评高考作文，真“学霸”竟然是它？

撰文 | 李信马

题图 | 图虫创意

人工智能又一次重量级的“破圈”，是成为了高考作文的题目。

2024年新课标 I 卷的作文题目是：

随着互联网的普及、人工智能的应用，越来越多的问题能很快得到答案。那么，我们的问题是否会越来越少？

以上材料引发了你怎样的联想和思考？请写一篇文章。

要求：选准角度，确定立意，明确文体，自拟标题；不要套作，不得抄袭；不得泄露个人信息；不少于800字。

作为高考中最重要、分值最高的主观题，每年的高考作文都会引起全社会的广泛关注。对大模型来说，这也是它们最擅长的领域，不过，写作文容易评分难，所以DoNews决定，让目前国内五家主流的大模型分别写一篇高考作文，然后让它们作为考官，对5篇文章的合集进行评分，通过自评和互评的方式，来看看哪家大模型的综合评分最高。

以下是打分的Prompt——

假如你是一名高考阅卷老师，针对刚刚的作文题，对于下面5篇文章，满分60分的情况下，你会分别打多少分？并给出理由：

闲话少说，我们直接来看结果。令人有些意外的是，五家大模型都将最高分（绿色）给到了通义大模型，通义也获得了53.8分的最高平均分，与其他大模型明显拉开差距；文心大模型和混元大模型都在51分的档位，几乎没有差距；而豆包大模型和星火大模型的平均分不到50分，豆包更是收获了3个最低分（黄色）。

从结果上来说，五家大模型的打分都比较“公正”，虽然可能多少有点“主观意识”，没有哪家大模型自评最低分，像是星火给了豆包最低分，而豆包也把最低分给了星火，但整体还是比较令人信服。

不过，为什么会出现这样的差别？我们摘取了五家大模型分别对五篇作文的评价进行对比。

百度文心是“老好人”，对五篇作文的打分很接近，不过对通义作文的评价是“整篇文章论据充分，论述有力”，对混元作文的评价则是“在论证过程中，部分观点略显重复，稍显遗憾”，对最低分的星火作文的评价则有“部分观点阐述不够深入，部分内容略显表面化，因此在分数上稍逊一筹”。

阿里通义对五篇作文的点评就犀利的多，文心的作文“略显保守”，混元的作文“深度和广度上略显不足，且创新点不够突出”，星火的作文缺少“论述的深度和语言的艺术性”，豆包的作文则是论述常规缺乏亮点。

通义大模型对作文的自评图片来源：通义

腾讯混元认为除了通义，自己和文心、星火的作文都有些文采不足，而豆包的作文则是“在逻辑性和条理性方面略显不足，部分观点未能充分展开”，得分最低。

讯飞星火则最“挑剔”，打分都偏低而且更抠细节，得分最高的通义，也有“少量语法错误需要修正”，而得分最低的豆包“论证上缺乏深度，并且有些句子表述不够清晰”。

最后，字节豆包对通义、文心和混元都是正面的评价，但认为星火的作文“结尾部分的措施略显单薄”，自己的作文“在文采方面还有提升的空间”。

豆包大模型对作文的自评图片来源：豆包

不难发现，五家大模型对不同文章的看法，颇有类似之处，比如都“diss”了豆包的文采，还有认为星火的论述缺乏深度等。值得一提的是，最“年轻”的豆包拿到了最低分可以理解，而通义的脱颖而出，侧面印证了其实力日益强大。

在6月7日，通义千问正式发布了 Qwen2 大模型，在十几项国际权威测评中，Qwen2-72B 得分都超过了开源标杆 Llama3-70B，发布两小时就冲上了 HggingFace 开源大模型榜单第一。可以预见，未来一小段时间里，通义在各个榜单的名次还会有所进步。

最后，比完了分数也看过了点评，我们也按照分数由高到低，将五篇作文都附在结尾。大家可以看下，大模型写作文究竟写的如何？它们打出的分数，又是否靠谱呢？

阿里通义大模型的高考作文：

腾讯混元大模型的高考作文：

百度文心大模型的高考作文：

讯飞星火大模型的高考作文：

字节豆包大模型的高考作文：

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

国产大模型互评高考作文，真“学霸”竟然是它？

友情提示

最会做题的大模型平台星火大模型V4.0中高考表现领先

科幻成高考命题热点，看看在《太空之城》，都隐藏了哪些知识点？

看完董宇辉分手信，我理解“小作文事件”的小编辑为啥义愤填膺了

热搜第一！被擦妆5次艺考生被中传录取？校方回应

《北上》：一部严重失真的年代剧，六大槽点一个比一个不靠谱

《北上》只有交白卷的马思艺知道，邵星池撕准考证的真实原因

老大爷从拖拉机上跌落，上了岁数被压真是够揪心的

还是好人多啊#搞笑#看一遍笑一遍

银行取钱：说出了全国人的心声,必须给这位女士点赞

银行取钱：说出了全国人的心声,必须给这位女士点赞

银行取钱：说出了全国人的心声,必须给这位女士点赞

银行取钱：说出了全国人的心声,必须给这位女士点赞

中金公司：“对等关税”冲击超预期

日专家：美或借对等关税实现4个目的

胡歌被传得二胎后露面

河北一动物园有熊出逃后紧急闭园

突发！特朗普宣布国家紧急状态，全面征关税：欧盟20%，日本24%，印度26%，越南46%！美元跳水，美股期货全线大跌，多方表态

特朗普关税是怎么算出来的

国产大模型互评高考作文，真“学霸”竟然是它？

友情提示

最会做题的大模型平台 星火大模型V4.0中高考表现领先

科幻成高考命题热点，看看在《太空之城》，都隐藏了哪些知识点？

看完董宇辉分手信，我理解“小作文事件”的小编辑为啥义愤填膺了

热搜第一！被擦妆5次艺考生被中传录取？校方回应

《北上》：一部严重失真的年代剧，六大槽点一个比一个不靠谱

《北上》只有交白卷的马思艺知道，邵星池撕准考证的真实原因

老大爷从拖拉机上跌落，上了岁数被压真是够揪心的

还是好人多啊#搞笑#看一遍笑一遍

银行取钱：说出了全国人的心声,必须给这位女士点赞

银行取钱：说出了全国人的心声,必须给这位女士点赞

银行取钱：说出了全国人的心声,必须给这位女士点赞

银行取钱：说出了全国人的心声,必须给这位女士点赞

中金公司：“对等关税”冲击超预期

日专家：美或借对等关税实现4个目的

胡歌被传得二胎后露面

河北一动物园有熊出逃后紧急闭园

突发！特朗普宣布国家紧急状态，全面征关税：欧盟20%，日本24%，印度26%，越南46%！美元跳水，美股期货全线大跌，多方表态

特朗普关税是怎么算出来的

最会做题的大模型平台星火大模型V4.0中高考表现领先