2024年4月7日,在赵光哲教授和王雪平讲师的指导下,北京建筑大学百家家乐在线官网研究生刘亚楠的论文CMFF-Face: Attention-Based Cross-Modal Feature Fusion for High-Quality Audio-Driven Talking Face Generation在第14届多媒体检索国际会议(The 14th International Conference on Multimedia Retrieval)中被接收。该论文主要研究内容是基于音频驱动的说话人脸生成。论文作者为赵光哲、刘亚楠、王雪平(通信作者)和闫飞虎,作者单位均为北京建筑大学。
基于音频驱动的说话人脸生成在虚拟人、游戏动画、电影制作、在线教育等领域有着广泛的应用,已成为研究领域的热点。然而,由于音频和人脸图像之间固有的模态差距,从音频生成高质量、唇形同步的人脸图像具有挑战性。为了解决上述问题,作者提出了一种基于注意力的跨模态特征融合网络,称为CMFF-Face。首先,引入了一个跨模态特征融合生成器,它在每个卷积编码器层中合并了一个融合过程,允许交互式音频和面部特征的分层融合,以生成高质量的说话面部。此外,唇形同步判别器旨在改进音频唇形同步,它使用双分支交叉注意机制来更有效地捕获同步音频和面部之间的关联。最后,采用基于CLIP的音频唇形同步损失,有助于区分正样本对和负样本对,以增强唇形同步。对LRS2和LRW数据集的综合实验表明,我们的方法在唇形同步和视觉质量方面优于最先进的方法。
大会介绍:
多媒体检索国际会议(ACM International Conference on Multimedia Retrieval,ICMR)是美国计算机协会(ACM)的系列会议,是多媒体领域的顶级国际会议,自2011年起由历史悠久的图像和视频检索国际会议(International Conference on Image and Video Retrieval,CIVR)与多媒体信息检索国际会议(International Conference on Multimedia Information Retrieval,MIR)合并而成。ICMR会议聚焦于多媒体检索领域的最新研究成果、技术进展和应用实践,涵盖了图像、视频、音频、文本等多种媒体类型的检索技术。现已成为中国计算机学会CCF推荐的“计算机图形学与多媒体”领域B类会议。ICMR 2024作为第14届多媒体检索国际会议,将于2024年6月10日至14日在泰国普吉岛举行。
作者介绍:
赵光哲,男,博士,教授,博士生导师。主要研究方向为计算机视觉与图像处理、模式识别、人工智能。模式识别与智能系统学科负责人,机器人仿生与功能研究北京市重点实验室副主任,建大杰青。主持国家自然科学基金项目3项,教育部科研项目2项,参与国家自然科学基金重点项目1项,科技部基础资源调查专项1项;授权发明专利6项;独著学术专著2部,主编教材2部;第一作者或通讯作者发表SCI期刊论文30余篇。团队研究课题:医学影像处理(肺部、胰腺);人体动作识别与姿态分析;行人运动轨迹预测;图像分割;人脸表情识别等。目前正在指导研究生20余名。
刘亚楠,女,1999年出生,就读于百家家乐在线官网,控制科学与工程专业硕士研究生二年级,导师为赵光哲教授。研究方向为计算机视觉与图像处理,模式识别等。在ICMR 2024(CCF B类会议)发表论文1篇。
王雪平,女,博士,讲师,硕士生导师,主要研究方向为模式识别与图像处理、情感计算等。2021年毕业于北京航空航天大学计算机应用技术专业,获博士学位,目前就职于北京建筑大学百家家乐在线官网。在国际国内著名期刊会议上以第一作者或通信作者身份发表论文10余篇,目前正在指导研究生2名。
闫飞虎,男,博士,讲师,主要研究方向为计算机视觉、场景建模与场景理解等。2021年毕业于北京航空航天大学计算机应用技术专业,获博士学位,目前就职于北京建筑大学百家家乐在线官网。参与国家自然科学基金面上项目2项;在国际国内著名期刊会议上以第一作者或通信作者身份发表论文10余篇。