开博-谁是最会做题大模型？“高考评测”来了—新闻

开博-谁是最会做题大模型？“高考评测”来了—新闻—科学网

发布日期：2024-08-26 作者：开博

2024年全国高考的“硝烟”方才散去不久，“年夜模子考生”就被抓回来从头“做题”了。市道上出现出的年夜模子产物让人目炫狼籍，环绕“年夜模子手艺哪家强”的会商不停在耳，各色名目标年夜模子评测应运而生。作为国内最权势巨子的测验之一，高考笼盖各类学科和题型，同时在开考前属在“绝密”，很是合适用来作为考核年夜模子智能程度的评测东西，可谓年夜模子综合能力的“试金石”。连日来，一些专业机构纷纭下场，利用市道上常见的年夜模子产物如通义千问、字节豆包、讯飞星火、文心一言、腾讯元宝、Kimi等作为“考生”，环绕“年夜模子高考测试”得出了一系列成果，为人们更好地领会年夜模子产物的机能和特点供给了参考样本。动静出自上海人工智能尝试室旗下司南评测系统OpenCompass对7个开源年夜模子进行的高考“语数外”全卷能力测试。据OpenCompass在6月19日发布的评测成果，年夜模子的语文、英语测验程度还不错，但数学都不和格，最高分也只有75分（满分150分）。加入OpenCompass此次高考测试的年夜模子，别离来自阿里巴巴、零一万物、智谱AI、上海人工智能尝试室、法国Mistral的开源模子。OpenCompass称，因没法肯定闭源模子的更新时候，此次评测没有纳入商用闭源模子，仅引入GPT-4o作为评测参考。不外，复旦年夜学天然说话处置（NLP）尝试室LLMEVAL团队主持的高考数学评测显示，年夜模子数学成就欠安的成果，可能缘在“打开体例不合错误”。起首，LLMEVAL团队拔取了2024年高考新I卷、新II卷数学试卷的客不雅题（单选、多选和填空题，共73分）来评测，得出了分歧的结论。利用客不雅题测试年夜模子的益处是，对就是对，错就是错，成果一目了然。同时主不雅题因为解题方式、思绪存在差别，具有必然的主不雅性，假如成果不准确，很难客不雅地评出步调分。其次，此次年夜模子“考生”增添到12个：阿里巴巴Qwen2-72b、讯飞星火、GPT-4o、字节豆包、智谱GLM4-0520、百川智能Baichuan4、谷歌Gemini-1.5-Pro、文心一言4.0、MiniMax海螺、腾讯元宝、月之暗面Kimi、DeepSeek-V2-Chat。别的，他们在评测中发现，数学问题的分歧格局的提醒输入（Prompt）对年夜模子机能影响很年夜。在最初的评测中，LLMEVAL团队对数学标题问题中的公式部门采取了经由过程光学字符辨认（OCR）后输出的格局（转义符格局），最新一次评测则利用了Latex格局进行了横向对照评测。成果显示，年夜大都模子两次测试成果呈现较年夜差别，不外利用Latex格局后，年夜模子整体表示更佳：2024年全国高考新I卷、新II卷数学测试中，得分率跨越50%的年夜模子产物数目由此前的5个和6个升至7个和9个。斟酌到Latex格局更合适人类现实利用年夜模子时所采取的格局，LLMEVAL团队建议后续测试首要基在此格局。具体而言，LLME开博体育VAL团队利用Latex格局Prompt的测试成果显示，在2024全国高考新I卷数学测试中，阿里巴巴Qwen2-72b、讯飞星火的得分率均跨越和格线（60%），别离为78.08%和71.23%；在2024年全国高考新II卷数学测试中，讯飞星火、阿里巴巴Qwen2-72b和GPT-4o的得分率也超越了和格线，别离为65.07%、63.70%、62.33%。

因而可知，年夜模子在数学方面并不是热搜所说那般完全不和格，讯飞星火、阿里巴巴Qwen2-72b等国产年夜模子在高考数学客不雅题中具有较高的正确率，使人面前一亮。固然，LLMEVAL团队在评测后也指出，年夜模子在数学推理使命中的鲁棒性与正确性仍有很年夜的晋升空间。对考生而言，作文测验首要考核学生应用说话成文的能力，考核的是识字环境、用词组句的能力和表达事实、思惟或不雅点的能力。事实上，作文也是最能考验年夜模子说话理解能力和文本生成能力的测评东西，这两项能力恰是时下年夜模子最为倚重的。 2024年全国高评语文科目测验一竣事，就有很多场外师生利用市道上的年夜模子产物“写作文”。环绕新课标I卷高考作文题“谜底与问题”、新课标II卷“抵达未知之境”、北京高考（1）（2）卷的作文题“耐久弥新”和“打开”等标题问题，文心一言、讯飞星火等多家年夜模子产物纷纭化身“写手”，并纷纭交出“作品”。一些年夜模子作文使人面前一亮。以全国新高考I卷的作文题为例，在这个具有思辩性的标题问题指导下，年夜模子提交的部门作文题不但贴题，更显奇妙，如《问，岂可少？》《疑问如春芽，谜底似铰剪》《在无疑处生疑，方是进矣》《问题不止，聪明无限》《智涌将来，问海无涯》，等等。近日，全国中小学生作文比赛评委、中学语文教研专家吕政嘉和河南省根本教育讲授专家库成员李来明配合对市道上7款年夜模子产物的上述4张试卷的作文进行了评测打分。从打分环境来看，讯飞星火、文心一言4.0、腾讯元宝在4张试卷的作文题上均有不俗表示，最高平均得分接近50分。能拿50分的AI作文长啥样？讯飞星火作出的《问，岂可少？》获得均分51.5的评分。李来明对该文的考语为，“全文布局完全，思绪清楚，论证层层递进，布局框架清楚了然。全文多处扣题生发群情，入木三分，阐发适当。但在一些处所，可以恰当增添一些论证手法，使文章加倍活泼有趣。” 在高考英文作文标题问题“帮李华写邮件”中，中国外语教育研究中间特约研究员、知名教研筹谋专家周国荣和广东国度级示范校教师杨菁菁也对上述7款年夜模子产物的英语作文进行了评测和打分。他们将2024年高考真题作文要求输入7款年夜模子产物，生成作文后，由教研双评发生评分和最高分点评。全国高考卷的英语利用文写作题中，7款年夜模子产物均能完成试题划定的写作使命，布局上也能做到逻辑清楚、布局公道。此中不乏作品可以或许利用复杂句式，在说话表达上有多处亮点。但这些文章也有一些较着的扣分项，如利用超纲辞汇、跨越字数上限等。打分方面，7款产物均有跨越12分（满分15分）的表示，且得分相对不变。在难度更高的全国高考英语卷“读后续写”标题问题和北京卷英语作文题中，7款年夜模子产物的表示最先有了不同。周国荣和杨菁菁的打分和点评显示，讯飞星火、腾讯元宝在“读后续写”标题问题中高分领先；在北京卷英语作文题中，讯飞星火、Kimi、文心一言4.0排前三位。综合来看，国产年夜模子在中国高考的表示其实不落下风，有着教育行业布景的讯飞星火年夜模子还在一众年夜模子中表示抢眼，可谓“更会做题的年夜模子”。评测作为对机械理解、处置、利用天然说话能力的一种评估和量化手段，是年夜模子范畴手艺程度和研究进展的直不雅表现，是相干研究的东西和主要驱动力。北京年夜学计较说话学研究所传授穗志方在日前“年夜模子+计较说话”专题论坛上的陈述中暗示，年夜模子在人类尺度化测验中如中国高考、公事员测验、美国SAT测验等的表示，可以或许为其在真实世界中的能力供给评估参考，但仍存在一些问题。如一些模子在诸如SAT数学测试等使命中表示优良，但在复杂推理或特定常识范畴中的表示却又不敷超卓。截然相反的表示，让人无从评判。 “在年夜模子内涵机理没有探讨清晰的环境下，我们今朝的评测路径只能依托从外部表示来猜测内涵能力。”穗志方说，现有评测仍存在规范性、系统性和科学性方面的问题，评测的深度和广度方面有待改良。她提出，将来年夜模子评测该当以具有综合考核能力的类人机械说话能力评测为方针，在参考信度、难度、效度三年夜原则的根本上，应成长更系统的评测纲领、更具挑战的评测使命、更科学的评测方式，采纳更多样、更鲁棒的评测手段，科学高效地为年夜模子供给客不雅、公允、类人的评测成果。如斯，方能引领和鞭策人工智能范畴各类模子、方式的提出和立异。特殊声明：本文转载仅仅是出在传布信息的需要，其实不意味着代表本网站不雅点或证实其内容的真实性；如其他媒体、网站或小我从本网站转载利用，须保存本网站注明的“来历”，并自大版权等法令责任；作者假如不但愿被转载或联系转载稿费等事宜，请与我们联系。

18755199984/0551-82601881

( 服务咨询热线 )