您好,欢迎访问开博网站!

集团动态

联系开博

开博
联系人:杜经理
手机:18755199984
电话:0551-82601881
邮箱:sale.zcjd@qq.com
地址:合肥市巢湖市团结路与东塘路交口东方国际大厦8层
开博首页>>开博新闻>>集团动态>>开博-985博士耗时4年“打假”:领域内“开山之作”是瞎编的?—新闻—科学网

开博-985博士耗时4年“打假”:领域内“开山之作”是瞎编的?—新闻—科学网

发布日期:2024-08-24 作者:开博

“本相只有一个”,这是陈路最爱的动漫《名侦察柯南》中的一句标记性台词。上百集的番剧,陈路刷过不止一遍,连微信头像都换成了主人公“新一”。他是个不那末典型的“二次元”,酷好日本动漫,但性情恬静、内向,骨子里有点“抱负主义”。

2022年9月,还在中国人平易近年夜学信息学院读博二的陈路在知乎上讲了个故事,布满戏剧性——他研究了4年的一篇范畴内“开山”级论文居然是“假”的。

开初,这篇帖子并未引发几多存眷,直到陈路的复现陈述被ICASSP2023领受。一多量网友涌入这片本来无人问津的评论区,竖起年夜拇指。原帖还被一些微博年夜V、知名公家号转载。至此,这个颇具怪诞色采的“打假”故事才被更多人领会:

一篇源自世界顶尖名校麻省理工学院(MIT)的范畴内“开山之作”被质疑造假。而举起这把长矛的人,恰是名不见经传的陈路——一名自称“天资平淡”的二次元“土博”。

“该不会是假的吧”

当质疑的动机第一次呈现在脑海,陈路乃至有些不自傲。那是2020年秋季的一个深夜,读博3个月的陈路丧气地躺在床上,望着天花板。硕士卒业一年后,他抛却了一份国字头的“铁饭碗”和顿时得手的北京户口,背城借一般地回到人年夜继续读博。

因为和硕士阶段是统一位指点教员,陈路很天然地捡起了那时未完成的项目。2018年6月,研一行将竣事,陈路的导师让他去研究一个名为“语音向量”的前沿范畴。该范畴的“开山之作”在2017年问世,第一作者是来自MIT的Yu-An Chung,后者曾是中国台湾年夜学知名传授李宏毅的学生。

MIT的“开山之作”

因为作者身世顶级名校,且其文章中的尝试结果极佳,陈路在接办该使命之初,并未对尝试的真实性和权势巨子性有过思疑。究竟,那时的他才接触AI范畴不久,是个资格不足的“生瓜蛋子”。

最最先的一年,陈路像极了滚石上山的西西弗斯。“循环往复,堕入困局”,他在回想贴中如斯形容道。“阿谁时辰首要是想复现Yu-An Chung的论文,也缺少经验,就把所有的精神都投入尝试中,天天就是闷头做尝试,今天改改这儿,明天调调那儿。”陈路说。

他将每周的尝试成果都汇总成陈述,整整洁齐摆列在文件夹。可比及研究生快卒业了,尝试依然没有任何结果。那时,陈路的两位博士师兄都做出了“十分了得”的功效,连还没有入学的硕士师弟也是“携paper进组”。陈路夹在中心,“比上不足,比下也不足”。

他其实想不大白,为何这个尝试就是复现不出来,感受恰似眼前横着一堵墙。见陈路天天忙繁忙碌却没有进展,连导师都质疑他,“是否是心思不在上面”。对此,陈路深感歉疚。他准许导师,工作后仍会继续这项研究。

陈路和女伴侣都很喜好“二次元”文化。在女友心目中,陈路是那种比力抱负主义、富有冒险精力的人。“那时,她认为我应当去一些年夜公司,做一些更有挑战性的工作。”陈路回想道。但他最后仍是畏缩了。为稳妥起见,他接下了一份国字头的体系体例内工作。为此女伴侣有些掉望——“她感觉我应当去争夺那些成为‘英雄’的机遇,那样我会更兴奋”。

进入单元后,陈路被实际上了一课。他发现,之前对方许诺的良多工具都没法兑现。身处非焦点营业岗亭,陈路被置在一种“身心俱疲,赚不到钱,成长又很受限”的为难地步。不出一个月,他就向单元递交了告退申请,逃离这个“围城”。同时丢失落的,还行将进入流程的北京户口和珍贵的“应届生身份”。

但陈路那时并没有多想。他只知道,有些选项必需采取解除法。

从单元去职后,陈路进入一家校友成立的创业公司,渡过了一段自由欢愉的职场光阴。但溟溟当中,他老是不甘愿宁可。后来,陈路得知硕士阶段的室友正在申请博士,在是便抱着破釜沉舟的心态和他一路申请了博士。出乎料想的是,他收到了好几位导师抛来的橄榄枝。终究,陈路选择回到人年夜,回到曾的硕导身旁。由于他知道,有件工作一向在等他画上句号。

2020年炎天,陈路重返校园。彼时,对两年前没能复现的那篇“开山之作”,陈路蠢蠢欲动,下定决心要弄出个成果。开学后,陈路把本身关在尝试室,又闷头研究了3个月。为此,他乃至自费采办了一台尝试装备。

中国人平易近年夜学,2020年秋。受访者供图

仍是没有用果。陈路的信心趋在崩塌,他整晚整晚睡不着觉。假如说硕士阶段是由于经验不足、不敷专注做不出来,此刻又全身心投入3个多月,却仍然不见起色,到底怎样了?

“像我的同窗们,哪怕他们是做一个新范畴,快的话也就两三个月便可以把尝试做出来,乃至论文都写好了。而我,前前后后整了一年半。”陈路深夜独自躺在床上,百思不得其解,“就算他人比我伶俐4倍,我也支出了4倍的尽力,却连最根基的尝试都做不出来。为何?”

忽然,一个动机不受节制地冒了出来:

“那篇文章该不会是假的吧?”

关在假的论证

第一作者世界顶尖名校卒业、身世闻名传授尝试室,论文被奉为范畴内“开山之作”,乃至荣获Interspeech2020的“Best Student Paper Award”……怎样看,这些都是可托的壮大背书。但除这些“title”以外,周路其实找不出其他可以或许验证其真实性的有力证据。“打假”,成了独一的选项。

很快,陈路就想好了验证思绪。“验证尝试有无造假,思绪现实上很是简单,乃至没有任何手艺含量。”他欠好意思地挠挠头。

比拟操纵语音生成词向量,在AI范畴还一种相对成熟的词向量发生路子,叫做“文本词向量”。陈路思疑,这篇论文供给的“语音向量”方式底子不成立,作者是用“文本向量”做的数据。

他对《中国科学报》讲述了本身的验证思绪。

起首,在语音中存在同音异义词。例如“ate”和“eight”这两个单词,在发音上很是附近。对论文作者所提出的模子而言,输入一致,输出成果就一定一致。是以,两个同音异义词的输出成果也必然会很是附近。相反,文本的类似性则会很是低。陈路取了一些同音异义词向量组,对其做了类似性概算,发现和用文本向量得出的成果几近如出一辙。

“这也能注释他的尝试结果为何那末好了,就是用文本做的。”

另外,陈路还对文章中语料的词表组成做了核对。“语音语料在预处置进程中相较文本语料多了一个音频切分进程,这个进程其实不完善,使得最后得出的辞汇组成产生转变,不像文本那般逐一对应,这意味着最后得出的辞汇数是有损的。”

陈路发现,文中的词表仿佛其实不合适语音处置的一般逻辑。在是,他最先测验考试用文本作为语料,辅助一些特定处置法则,验证会不会获得与文中不异的辞汇数。“最后我还真找到了他是怎样处置的。”陈路用这类文本处置方式获得的词数,居然与作者发布的数目完全不异!

固然,陈路也联系过作者。事实上,他在2018年头次接办该复现工作时,就邮件联系过Yu-An Chung。那时,陈路抱着虚心就教的立场,向作者列出了本身在尝试中碰到的各种问题。Yu-An Chung答复邮件很和时,对陈路进行了指点。两人有来有往,甚是友爱。

做过类似性和辞汇数比对后,陈路出在稳妥斟酌,还切换了一个“小号”,用一个外国人的化名字给Yu-An Chung发去了邮件,但愿他可以或许供给代码作为参考。不测的是,Yu-An Chung竟爽利地发来了代码。陈路抱着最后一丝但愿,从头用作者供给的代码,严酷依照作者的尝试步调,却仍然没法实现文章中的结果。

事已至此,陈路根基在心里定结案——原文绝对有问题。但迫在博士卒业的压力,陈路没法继续全力投入这项“打假”工作,他必需做出其他更标致的功效,先让本身顺遂卒业。

接下来的一年多时候,陈路便将精神全数投入在新课题上。直到2022年下半年,才得空从头回归“打假”。他将完全的复现进程清算成陈述,这时候身旁也最先呈现一些劝阻的声音。

同窗劝陈路,这类工作耗时耗神,又不具有甚么手艺立异点,不管对做学术仍是找工作而言,都“欠好用”。

但陈路不想草草了事。在这件工作上,他花费了整整4年。读研之初,他满怀但愿,对女友许下许诺:“硕士卒业前我要把语音向量弄出来,然后去找个算法方面的工作!”他看起来像位行将出征的骑士,身旁有着最崇敬本身的小公主。“那时,我打心眼里认为这项研究是‘伟年夜且富有价值’的。”

等他真正拿到“成果”,已经是4年后。而所谓的“成果”,也其实不是想象中那般堂皇、闪烁,布满气势。

这是陈路最难捱的4年,也是实现自我演变的4年。他发现,在良多研究中,特殊在AI这类疯狂进击的前沿范畴,良开博体育多人早已不在乎一项工作是不是做得扎实、做得没有缝隙,只在意它有多“标致”,跑得有多快。

他对尺度发生了思疑。“做科研有时辰越fancy越好。而我其实更像一个工程师,做工程无所谓fancy与否,一个小缝隙都能决议其是不是成功。”

为了给本身的4年画上一个完全的句号,陈路判断将本身的复现陈述发布在了arXiv预印本网站上。发布前,陈路再一次给第一作者Yu-An Chung和通信作者发去了邮件,扣问可否注释一下本身的复现成果。“我想再给他一个机遇。”但发出的邮件却石沉年夜海。

反常的缄默在陈路的料想当中,这进一步印证了他的判定。

不测之喜

陈述呈现在预印本网站后,有良多来自全球各地的研究人员对陈路暗示感激。他们和陈路一样,都是苦苦复现原论文中的尝试却没有成果的人。陈路的陈述让一些人恍然年夜悟,避免在这个或许底子不成立的研究标的目的上,投入更年夜的“沉没本钱”。

在预印本网站收成正向反馈后,陈路决议投稿。投出前,陈路和导师做了周全的会商,“屡次论证我是不是会误伤对方,但最后会商的成果是‘不会’。”出在关心,导师也曾劝陈路:“今后还要在一个圈子里混,这类工作要稳重。”

可陈路铁了心要投。为了给本身一个说法,也为曾陪同本身好久、终究遗憾分隔的女友。“我心里下定决心,不管能不克不及投中,最少我要投十个会议,不给本身留遗憾。”

2023年2月,陈路欣喜地收到了ICASSP2023的领受通知。这篇论文需要做poster陈述,地址在希腊。但因为距离太远,陈路没去成。

ICASSP2023会议

“我印象比力深入的是最后ICASSP的评委主席也给了定见。他说这篇陈述虽然在学术上没有供给甚么比力立异的设法,但它是一项很是有价值的工作,可以或许帮忙反思我们之前获得的一些成果。”陈路说。

他将投稿成果更新在知乎原帖的开首,帖子刹时爆了。热度最高的留言是如许说的:

“我小我很是appreciate如许的工作,这类发现可让良多人避免进坑,不感觉你华侈了四年。我感受你这几年的掉败让你有这个结论,远比弄出两三个成功的算法对学术界更成心义和影响力……”

事实上,陈路的这项工作简直为他带来了不测之喜。帖子被更多人看到后,有位来自微软的资深研究员向他抛来了橄榄枝,为他供给了一份含金量很高的练习;博士卒业前不久,一家新兴AI公司的负责人也找到陈路,称对他所做的工作很是赏识,并供给了一份标致的offer。

微软亚洲研究院。受访者供图

在全部进程中,还呈现过一个宿命般的小插曲。2023年6月,陈路的文章被ICASSP2023领受后,曾收到过一封来自中国台湾的邮件。

对方自称是中国台湾年夜学李宏毅传授尝试室的一位学生。他向陈路流露,他们尝试室有好几位同窗都曾测验考试复现过Yu-An Chung的那篇论文研究进程,皆一无所得,乃至还一人是以差点毕不了业。陈路的文章颁发后,尝试室有同窗将他的文章放入meeting的排程中,李宏毅本人还为此写下“这篇太劲爆了!必然要有人来说一下”的批注。同窗讲授终了后,李宏毅还冲动地暗示他曾也复现掉败,有良多人是以受害等。

“您的文章让我们尝试室为之震动,我们很服气您有如许的勇气与决心经由过程完全尝试将整件工作公诸在世。”对方在邮件中写道。

陈路答复:“我此刻感受,这篇文章仍是成心义的。”

没错。由于,本相比一切都主要。

(文中陈路为假名)

参考链接:

arXiv链接:https://arxiv.org/abs/2209.10791

知乎来历:https://zhuanlan.zhihu.com/p/568280879?utm_psn=1775837834060181504

特殊声明:本文转载仅仅是出在传布信息的需要,其实不意味着代表本网站不雅点或证实其内容的真实性;如其他媒体、网站或小我从本网站转载利用,须保存本网站注明的“来历”,并自大版权等法令责任;作者假如不但愿被转载或联系转载稿费等事宜,请与我们联系。


开博
专业 规范 诚信 共赢 创新 发展

18755199984/0551-82601881

( 服务咨询热线 )
地址:合肥市巢湖市团结路与东塘路交口东方国际大厦8层
Copyright © 2022 All Rights Reserved.
技术支持:无忧资源网   皖ICP备2023013513号-1