您好,欢迎访问开博网站!

集团动态

联系开博

开博
联系人:杜经理
手机:18755199984
电话:0551-82601881
邮箱:sale.zcjd@qq.com
地址:合肥市巢湖市团结路与东塘路交口东方国际大厦8层
开博首页>>开博新闻>>集团动态>>开博-大模型又整活,照片也能唱歌说话—新闻—科学网

开博-大模型又整活,照片也能唱歌说话—新闻—科学网

发布日期:2024-07-09 作者:开博

文 | 《中国科学报》记者 赵广立

不得了,沉睡两千多年的秦陵戎马俑竟然“唱”起秦腔来了!

在近似的几段视频中,戎马俑不但能启齿唱歌,就连脸部脸色也活灵活现;细心看,还能看到他的喉结在动、胸腔共识……

不但有戎马俑,还蒙娜丽莎、奥黛丽 赫本、孔子、鲁迅……只要一张照片和一段音频,他们就可以启齿措辞、唱歌、来上一段Rap。还记得视频生成年夜模子Sora演示视频中东京陌头的那位时尚女郎吗?她此刻也启齿“献唱”了。

这一切都来历在通义尝试室研发的人工智能年夜模子EMO—— Emote Portrait Alive(脸色肖像视频)。EMO模子只需一张肖像照、一段音频,便可生成绘声绘色的照片措辞(talking head)视频。

4月26日,EMO模子正式上线通义APP,并开放给所有效户免费利用。今朝,借助这一功能,用户可以在唱歌、热梗、脸色包中任选一模板,经由过程上传一张肖像照片就可以get一段同款唱作。

EMO分歧在Sora,更有别在换脸和数字替身

EMO其实早在生成式AI的圈子里就“火”了一把。

本年2月底,通义尝试室就在开放获得平台arXiv上发布了EMO模子的手艺论文,并在开源社区GitHub上展现了项目主页。论文发布后,引发外媒普遍存眷,被认为是“继Sora以后最热点的AI视频模子之一”。

今朝,EMO在Github上热度不减,已有跨越6700颗星标标识表记标帜。

两个月以后的今天,基在EMO的产物即告上线通义APP,最先免费开博体育让公家体验——这类干事效力也为EMO赢来很多点赞。

EMO模子的手艺论文题目——《EMO:在弱前提下利用“音频生视频”的分散模子生成富有表示力的肖像视频》(Emote Portrait Alive -Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions),简练了然地推介EMO——一款由音频驱动的肖像视频生成框架。

具体到手艺道理,论文称,练习阶段,研究团队构建了一个包括跨越250小时视频和跨越1500万张图象的、多样化的音视频数据集作为练习数据。在生成阶段,EMO模子起首从参考图象和视频的帧中提取特点,进行“帧编码”,以后最先“分散”:预练习的音频编码器处置音频嵌入,人脸区域掩模与多帧噪声相连系来节制人脸图象的生成。随后,主干收集履行“去噪”操作,别离利用“参考留意力”和“音频留意力”感化在连结脚色的身份一致性和调理脚色的活动。

这明显与文生视频年夜模子Sora的手艺线路分歧。比拟给一段文字描写生成一段视频,EMO更重视在让照片“活”起来。

阿里巴巴通义尝试室XR尝试室负责人、论文作者之一薄列峰告知《中国科学报》,EMO与此前已有的“换脸”、AI数字替身等手艺完全分歧。

薄列峰

“换脸”手艺凡是是将一小我的面部特点替代到另外一小我的脸上,这类手艺更多地存眷在面部特点的替代和合成;而数字替身手艺则是经由过程计较机图形学、动作捕获等手艺建立一个数字化的虚拟人物,它可以摹拟真实人类的行动和脸色,但条件是需要输入一段要替换的人物的视频供模子进修。

“想象一下,你乃至可以跟分歧春秋段的本身对话,是否是很有趣?”薄列峰谈道,EMO专注在视频场景中最为普遍的肖像视频,有很多利用场景和想象空间。

“弱节制”让Talking Head更普惠

论文题目中有一组要害词耐人寻味:弱前提(Weak Conditions)和强表示力(Expressive)。薄列峰告知《中国科学报》,“弱前提”(他更喜好称之为“弱节制”)恰是这项手艺的精华地点。

人在讲话时的脸部脸色、头部动作、肢体说话等与声音是联系关系的,分歧的声音和情感,对应着分歧的脸色或动作,这也是声音所“裹挟”的表示力。

“我们但愿模子可以或许‘学到’对回声音的情感和脸色动作,这就是我们所说的‘弱节制’。”他注释说,对应地,“强节制”一般需要经由过程针对脸部要害点或脸色动作进行显示表征建模,然后经由过程所建模子对声音匹配生成视频的每帧画面。

通义尝试室的作者团队在业界初次剔除针对人脸或身体部门的显示表征建模,就是但愿EMO经由过程弱节制(前提)也能获得较强的表示力。

依薄列峰所言,EMO模子生成的视频中,人物的脸色、动作能与音频所表达的情感连结一致,是模子经由过程练习“习得”、主动化地发生的。

没有“强节制”,它若何做到?

“我们对声音做了编码,全部收集架构都用到了声音这个持续的旌旗灯号,这包管了在时域上的持续性;在表示力部门,我们依托模子对高质量数据的理解,做到音频与视频表达的相辅相成。”薄列峰回覆道。

他进一步注释说,EMO模子在海量的人物讲话视频长进行了练习,不但可以或许找到音频中具体发音与人像口型的匹配关系,更主要的是能发现音频中的语气特点与人物脸色的联系关系性,从而将音频暗含的情感色采反应到人物微脸色上。

“可以说,EMO在练习中渐渐进修并编码了人类表达情感的能力。”他介绍,在练习中,EMO模子经由过程操纵Audio-Attention模块找到音频特点与图象中像素的对应关系,并放年夜音频特点对嘴部、眉眼等位置像素的影响,把音频中的情感特点外化到人脸上。

从今朝生成的视频结果来看,EMO不负众望。从通义尝试室供给的演示视频来看,EMO撑持各类说话的扳谈与唱歌(演示中包罗通俗话、广东话、英语、日语、韩语等),也撑持分歧气概(照片、传统绘画、漫画、3D衬着、AI数字人、雕塑)的艺术表达。

“强节制固然有其特点和用处,但我们感觉,弱节制能让更普遍的人群享遭到手艺盈利,让大师都能玩、都能用起来。”薄列峰说,强节制需要依靠一些专业的估量方式,“门坎相对高一些”;而EMO仅仅只需要一张图片与一段音频,便可以生成具有高表示力的讲话视频,“有助在鞭策Talking Head手艺的年夜范围利用”。

视频加倍真假难辨?EMO有平安斟酌

从“换脸”到AI替身,再到Sora、EMO这些视频生成东西,收集上的视频内容愈来愈难辨真假了。有网友感慨:“今后除面临面看到活人,视频我是不信了。”

《中国科学报》也把这个问题提给了薄列峰。

“作为负责任的视频生成,我们会在生成的视频中打上生成水印,包罗肉眼可视的和肉眼不成视的,以便利大师甄别。”薄列峰说。

他告知记者,AI视频生成和AI视频辨别实际上是一对“攻—防”手艺,也是相辅相成成长的。他但愿人们不要过分忧心,“有良多手艺手段和路径去分辨视频是不是为AI所生成”。

不外,为避免EMO手艺被滥用,薄列峰暗示,通义尝试室团队在通义APP内预置了颠末审核的音频模板,暂不开放用户在EMO中自界说音频。是以,今朝用户在通义APP上的体验中,只能经由过程上传合适规范的照片来生成视频,且需严酷遵照平台和谈。同时,平台会对用户生成内容进行算法和人工两道审核,以确保内容平安。

别的,一样出在平安方面考量,今朝,EMO暂不开放API,团队将对平安策略进行充实论证后再推出下一步动作。

“通义尝试室也接待社会各界集思广益,供给更好的平安建议,以便在平安可控的条件下鞭策年夜模子手艺和利用的成长。”薄列峰说。

自2023年ChatGPT掀起生成式人工智能的高潮以来,年夜模子在中国敏捷成长,遭到了史无前例的存眷。进入2024年,Sora、EMO等视频生成模子的呈现,AI视频生成的“山头”最先热烈起来。从生成文本到AI作图、生成视频,人工智能手艺正给这个时期带来愈来愈多的变化。面临转变,你,预备好了吗?

相干论文信息:

https://arxiv.org/pdf/2402.17485.pdf

https://github.com/HumanAIGC/EMO

特殊声明:本文转载仅仅是出在传布信息的需要,其实不意味着代表本网站不雅点或证实其内容的真实性;如其他媒体、网站或小我从本网站转载利用,须保存本网站注明的“来历”,并自大版权等法令责任;作者假如不但愿被转载或联系转载稿费等事宜,请与我们联系。


开博
专业 规范 诚信 共赢 创新 发展

18755199984/0551-82601881

( 服务咨询热线 )
地址:合肥市巢湖市团结路与东塘路交口东方国际大厦8层
Copyright © 2022 All Rights Reserved.
技术支持:无忧资源网   皖ICP备2023013513号-1