您好,欢迎访问开博网站!

集团动态

联系开博

开博
联系人:杜经理
手机:18755199984
电话:0551-82601881
邮箱:sale.zcjd@qq.com
地址:合肥市巢湖市团结路与东塘路交口东方国际大厦8层
开博首页>>开博新闻>>集团动态>>开博-AI参加高考,为何偏科严重—新闻—科学网

开博-AI参加高考,为何偏科严重—新闻—科学网

发布日期:2024-08-16 作者:开博

年夜模子加入高考,能考几多分?近日,科技立异交换平台极客公园发布高考新课标Ⅰ卷年夜模子评测陈述,在参试年夜模子中,GPT-4o以562分的成就排名文科第一。加入评测的8款国产年夜模子中,字节跳动旗下的豆包成就是542.5分,厥后顺次是百度文心一言4.0的537.5分和百川智能“百小应”的521分。本次年夜模子高考评测与河南省考卷完全不异,以上3款国产年夜模子均跨越河南文科一本线521分。GPT-4o的562分在河南文科考生中可排名8811名,相当在前2.45%;豆包处在前4.27%,接近顶尖年夜模子的程度。

文综评测中,GPT-4o获237分,优在大都人类考生。国产年夜模子中,豆包文综成就最高,得分224.5分,此中汗青到达82.5分,在所有9款年夜模子中排第一。地舆考卷有年夜量图片考题,图象理解能力较强的GPT-4o获得最高分,但唯一68分。

语文、英语评测中,多家年夜模子在客不雅题上拿满分。但写作文是弱项。屡次加入全国高评语文阅卷的北京市级主干教师、怀柔区语文学科带头人夏教员是本次评测的作文阅卷人。她认为,“AI作文有清楚完全的布局,有逻辑性,说话通顺流利,但缺少豪情和传染力”。同理,在40分的英语写作测验中,年夜模子的最高分只有29分,首要丢分在表达空洞、贫乏细节上。

值得留意的是,年夜模子高考显现出严重的偏科现象:数学、物理、化学等数理学科全线不和格,总分最高分不到480。而河南理科一本线是511分。最顶尖的年夜模子没法进入理科考生的前30%。

数学评测中,仅GPT-4o、文心一言4.0和豆包取得60分以上成就(满分150分)。年夜模子能正确应用求导公式和三角函数定理,但面临较为复杂的推导和证实问题就很可贵分。物理有一道送分的选择题,人类考生按照“时候不会倒流”可以等闲选对谜底,年夜模子则三军覆没。

“今朝的年夜说话模子素质上是文字接龙,基在海量资料,猜测下一个最可能呈现的文句。经由过程不竭猜测,生成联贯和完全的文本。应对文科测验,年夜模子的用词禁绝或用了近义词,不太影响评分。但理科测验考验推理和计较,好比一道题有五步推理,年夜模子走偏一步,谜底就全错。并且年夜模子的练习数据中,文科语料要远弘远在理科语料。”国内一名年夜模子研发专家告知科技日报记者。

近期,有一些国表里年夜模子在奥数题评测(非奥数现场角逐)上拿到不错的成就。对此,该专家注释,用大师都练习过的公然数据集评测,年夜模子的正确率很高;但用比力新的数据集去测试,正确率就年夜年夜降落。最新的高考题是哪家年夜模子都没有练习过的,考验的是数学推理和计较的泛化能力,这就表露了年夜模子的短板。

北京年夜学计较说话学研究所传授穗志方近日也暗示,年夜模子在中国高考、公事员测验和美国SAT测验等尺度化测验中的表示是好坏兼具的。一些年夜模子在SAT数学测试中表示优良,但在复杂推理或特定常识范畴中的表示不敷超卓。

“在年夜模子内涵机理没有探讨清晰的环境下,我们今朝的评测路径只能依托从外部表示来猜测内涵能力。”穗志方说,将来应成长更系统的评测纲领、更具挑战的评测使命、更科学的评测方式。AI是不是比人类更合适测验?还没有可定论。

特殊声明:本文转载仅仅是出在传布信息的需要,其实不意味着代表本网站不雅点或证实其内容的真实性;如其他媒体、网站或小我从本网站转载开博体育利用,须保存本网站注明的“来历”,并自大版权等法令责任;作者假如不但愿被转载或联系转载稿费等事宜,请与我们联系。


开博
专业 规范 诚信 共赢 创新 发展

18755199984/0551-82601881

( 服务咨询热线 )
地址:合肥市巢湖市团结路与东塘路交口东方国际大厦8层
Copyright © 2022 All Rights Reserved.
技术支持:无忧资源网   皖ICP备2023013513号-1