您好,欢迎访问开博网站!

集团动态

联系开博

开博
联系人:杜经理
手机:18755199984
电话:0551-82601881
邮箱:sale.zcjd@qq.com
地址:合肥市巢湖市团结路与东塘路交口东方国际大厦8层
开博首页>>开博新闻>>集团动态>>开博-一个神奇的北大专业:同级只有她从开学坚持到了毕业—新闻—科学网

开博-一个神奇的北大专业:同级只有她从开学坚持到了毕业—新闻—科学网

发布日期:2024-07-15 作者:开博

“吟过诗词文赋,熬太高数线代,品过经史子集,研过算法布局,啃过句法文法,train过神经收集。”

这是林子对本身本科生活生计的速写。她的专业过在迷你,是北年夜中文系4个专业中最没有存在感的利用说话学(中文信息处置)。存在感有多低呢?每一年卒业生不外4、5个,一些同窗由于没法对峙转了出去,也有同窗对中文专业情有独钟而转了进来,而林子是2015级学生中独一从头至尾读下来的阿谁。

在这个文理交叉专业,她既要进修古代汉语、理论说话学和现代汉语语法研究,又要进修高档数学、法式设计和数据布局与算法。割裂,成了她的年夜学要害词。

图片

林子。图源:受访者供图

林子闯出了一条本身的路径。

年夜二最先,她在信息科学手艺学院(下称信科)尝试室练习,年夜三发了两篇AI顶会一作论文;卒业后去了硅谷的谷歌总部,在天然说话处置(NLP)研究部分从事了两年的全职工作,其工作还被收录进谷歌研究科学家Kevin Murphy的机械进修教科书;2021年,她回到了学术界,在美国加州年夜学圣地亚哥分校最先攻读计较机科学博士,3年来的论文被援用次数跨越2000次。

这是一个如何奇异的专业呢?

固然高中是理科生开博体育,但林子很喜好文学,她还拿过新概念作文角逐的一等奖,由此获得了北年夜中文系自立招生的名额,并经由过程笔试和面试,终究取得降分登科。

怙恃其实但愿她读经济专业,今后从事金融,最少就业比力好。但林子感觉仍是要从心所欲,在是果断地扎进了中文系。只是没想到由于本身理科生的身份,被主动分到了利用说话学这个文理交叉专业,一个由中文系和信科共建的专业。

刚听闻本身的专业是利用说话学那会儿,林子有点蒙,究竟之前连说话学都没传闻过,更没必要提利用说话学和中文信息处置这几个辞汇了。

后来大师才熟悉到,正如卒业证书上英文“ Computational and Applied Linguistics”(计较与利用说话学)所昭示的:计较才是更素质的,这是一个计较机科学和说话学交叉的专业。

第一年的课业对大师就有庞大的杀伤力。年夜一并没有专业课,而是根本课。

林子发现,在上说话学课程的时辰,有的同窗就对需要背诵且闭卷测验的课程不顺应,特别是写满繁体字的古代汉语课,不但需要去理解还要溯源那些字;计较说话学模块的课程需要他们学编程说话和算法;至在数学,更是需要进修微积分、线性代数和几率统计。

有的同窗没法接管这份割裂,就申请转到本身的初志文学专业或纯说话学专业,而有的同窗发现本身更酷爱数学专业和计较机科学专业,在是也转走了。

在文理交叉中碰撞一段时候后,他们仍然在这个专业带来的割裂感中云里雾里。再探问,师兄师姐的卒业去向八门五花,有人去了年夜厂,有人做了传授,也有人去做中小学数学教育,仿佛没有一个明白的指路明灯。就如许,林子像瞽者开夜车一样试探了一年。

只依托上课,她其实没法子将说话学和计较融会起来。好在,林子从年夜二最先找到了科研的乐趣,这在很年夜水平上帮忙她体味到了这个专业的魅力地点。

她终究看到,这个专业可以接触文学又能练习逻辑思惟,本来鱼和熊掌真能兼得。

据这个迷你专业的负责人、中文系传授兼计较说话研究所副所长詹卫东介绍,以2005年为界,之前利用说话学的专业课程系统是“ 以文为主,以理为辅”,以后则过渡到“ 文理并重,畅通领悟贯通”的轨道上。不外,这些学生年夜部门“学着学着都偏计较了”。

詹卫东是这个专业从无到有的见证者和扶植者。他教学“天然说话处置导论”(此刻改成“天然说话处置”)和“说话工程与中文信息处置”两门课。此中后者是利用说话学专业的必修课,但由于学生太少,两年才开一次。

林子发现,这个专业合适对说话文字有很年夜爱好且筹算继续理科课程练习的理科生,或对计较说话学和天然说话处置感爱好并想培育理科思惟的文科生。

林子就是学着学着方向了计较。

她从年夜二就介入到计较说话所的一些科研工作中,此中有两项工作别离颁发在天然说话处置范畴很有影响力的两个国际会议上:一项工作是摸索了汉语中介语语料库的语义脚色主动标注;另外一项工作是提出一种新的方式,将人工构建的关在汉语语素的说话学常识库跟深度神经收集中的词向量暗示连系起来,改良了词向量暗示在词义类似度计较使命上的结果。

走到今天,林子感觉固然对这个专业有了必然理解,但还不敷。

她说,交叉学科的魅力就在在它是一个并集,而不是一个交集,它需要同时把握两方面的常识,但就像做菜一样,哪一个调料多放一点,实际上是你可以本身决议的。

说起做菜,2009级的北京女孩艾琦才是专业人士,她在利用说话学专业卒业后进修了西方餐饮,现在在芝加哥从事餐饮工作。

而2007级顾森,就是阿谁在本科卒业后从事中小学数学教育的。他给詹卫东的印象是,常识贮备、思惟体例“远远超越平均程度”。詹卫东曾建议他出国进修,在人工智能范畴成长,但他同时看到,顾森确切善于教师的脚色,他曾在讲堂上作过一次演讲,能将某个问题剥洋葱般讲授得畅快淋漓,那是“一种与生俱来的思惟习惯”。

孙薇薇是利用说话学专业的2002级暨第一届卒业生,也是林子的另外一位年夜学教员,教学情势语法导论。她在2020年去了英国剑桥年夜学任教。

图片

2006年6月,北京年夜学中文系利用说话学本科专业第一届学生卒业。左四为詹卫东,右一为孙薇薇。图源:北年夜中文系

除孙薇薇,2005级本科生彭楠赟在北年夜计较说话所硕士卒业后去了美国约翰斯 霍普金斯年夜学计较机系攻读博士,此刻加州年夜学洛杉矶分校计较机科学系任职。

林子也找到了本身的路径。

当被问和假设当初直接进入计较机系是不是会做得更好,她的思虑是:由于没有人告知本身应当怎样前行,所以她一向在不竭优化本身的选择,假如学了其他专业反而“可能就没有那末有趣了”,究竟其他专业学子的成长路径相对成熟。

林子说,由于利用说话学的范围过在小,大师的成长没有一个固定的可以鉴戒的范式,如许你反而“更可以或许理解本身,摸索本身的需求是甚么,也能想大白本身为何终究会选择继续读博士”。

林子还加入了北年夜信科本科生的科研评选,她和别的两个信科的同窗拿到了一等奖。“我记适当时教员还挺惊奇的”,她说。这时候候信科的同窗才知道一个来自中文系的林子的存在。

现在林子正在做的课题与天然说话年夜模子相干,触及年夜模子平安性和可注释性的深度测评。但她更感爱好的是,年夜模子跟人类说话进修的机制之间有无类似度?这是一个深入的科学问题:小孩子天天听怙恃很少许的说话陶冶就可以学会措辞,这跟年夜说话模子的练习进程长短常纷歧样的。

跟林子比拟,詹卫东已然将本身视作“前浪”。当年夜模子时期到临,詹卫东对这个专业也有了新的熟悉。

詹卫东自1993年9月进入北年夜攻读硕士和博士。至今,他已在说话与计较的交叉中碰撞了跨越30年时候。

为了开辟机械翻译系统,詹卫东曾自学C++说话,法式中的良多问题都由他亲身解决。他的博士论文《面向中文信息处置的现代汉语短语布局法则研究》恰是出自他在机械翻译中的工作总结与提炼,并取得了2001年全国百篇优异博士论文奖。

入门计较说话学30年来,詹卫东一向在试图拆解说话,提炼说话纪律,然后再组装归去利用。就像一向以来的还原论,这个进程是透明清楚的。

但是,横空出生避世的年夜模子摆荡了计较说话学家们的信心,说话常识的提炼在年夜模子这里毫无用武之地——只需要投喂足够的数据,辅以壮大算力,就可以获得鲜活的说话输出。

詹卫东说,比来范畴内专家常常会商这一环境,但并没有明白应对之道。同业们对年夜模子仍是领会得太少了,“客岁一年大师都处在一种懵的状况,我们内部其实还缺少加倍深切的、更多的交换”。

詹卫东的导师、说话学家陆俭明并没有那末灰心。他在客岁的一篇文章中谈到,人工智能是靠数据、算力、算法这“三驾马车”驱动,假如“说话常识”能插手到数据中,将必定会年夜年夜推动人工智能事业。陆俭明也是利用说话学专业建立的首要倡议者。

詹卫东说,当说话学家把这些常识归纳以后,也许便可以酿成计较机可以用的更有用的常识。

不外,让詹卫东尤其忧愁的是,一批老学者正在纷纭退休,留下的职位空白却迟迟找不到新人填充。

一方面,好的天然说话模子人材已被工业界垄断,那边有更高的薪水和更好的资本(算力和数据);另外一方面,既熟习说话学,又懂年夜模子手艺的人材少之又少。

就在2023年年底,受詹卫东约请,林子回到母校给学弟学妹们作了专业进修的经验分享。他们这些“后浪”也被詹卫东寄与了厚望:万一哪天回来报效母校呢?

图片

图为2023年12月27日,林子回北年夜讲座后合影。前排中心是林子,后排左二为詹卫东。受访者供图。

特殊声明:本文转载仅仅是出在传布信息的需要,其实不意味着代表本网站不雅点或证实其内容的真实性;如其他媒体、网站或小我从本网站转载利用,须保存本网站注明的“来历”,并自大版权等法令责任;作者假如不但愿被转载或联系转载稿费等事宜,请与我们联系。


开博
专业 规范 诚信 共赢 创新 发展

18755199984/0551-82601881

( 服务咨询热线 )
地址:合肥市巢湖市团结路与东塘路交口东方国际大厦8层
Copyright © 2022 All Rights Reserved.
技术支持:无忧资源网   皖ICP备2023013513号-1