【会员风采】北京大学深圳研究生院邹月娴教授团队在2024年Interspeech国际顶级语音会议斩获最佳论文奖

转自:北京大学信息工程学院

在2024年国际语音通信协会(ISCA)主办的全球旗舰语音会议Interspeech 2024上,由邹月娴教授带领的现代信号与数据处理实验室(下称ADSP实验室)的研究团队荣获显著成绩。Interspeech 2024共录用1029篇学术论文,评选出最佳论文(Best Paper Award)2篇和最佳学生论文(Best Student Paper Award)3篇。ADSP实验室21级辛逸飞同学为一作的论文“DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval”荣获Interspeech 2024 最佳论文奖(Best Paper Award);在香港中文大学攻读博士学位的ADSP实验室2023届毕业生杨东超为一作的论文“SimpleSpeech: Towards Simple and Efficient Text-to-Speech with Scalar Latent Transformer Diffusion Models ”荣获Interspeech 2024 最佳学生论文奖(Best Student Paper Award);在约翰霍普金斯大学攻读博士学位的ADSP实验室2022届毕业生王赫麟为一作的论文“Noise-robust Speech Separation with Fast Generative Correction”荣获最佳论文提名奖(Best Paper ShortList)。这一系列研究成果和荣誉获得了语音科技界同行的高度评价与祝贺,充分彰显了ADSP实验室在语音技术前沿研究领域的影响力与贡献。

本次获得Interspeech 2024最佳论文的“DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval”(下简称DiffATR)面向音频-文本检索(Audio-Text Retrieval, ATR)任务开展研究,是机器听觉领域的重要课题。ATR任务旨在输入单模态查询(text or audio query),从目标模态数据库中检索出语义相似的数据实例。ATR技术在深度学习时代取得了长足进步,但由于跨模态配对数据标注困难和缺乏超大规模训练数据集,ATR深度模型尚不能满足商业应用需求。在这项工作中,获奖论文创新地设计了DiffATR,一个基于扩散的音频-文本检索生成模型,为充分利用生成模型的强大能力和有效建模音频-文本联合概率提供了新框架。在主流标准数据集(AudioCaps和Clotho)上,DiffATR展示了卓越的域内数据集检索性能。实验结果也表明,在未采用域外目标数据集微调的情况下,DiffATR在域外数据上也保持了出色的检索性能。上述实验结果表明了DiffATR技术路线的有效性。DiffATR的探索性研究为基于生成式模型进一步提升ATR的性能提供了新的技术路径。

生成式DiffATR框架

DiffATR去噪模块

域内数据集检索实验结果

域外数据集检索实验结果

邹月娴教授带领的ADSP实验室语音小组一直积极参与语音技术领域前沿课题的研究,让机器听懂世界是大家共同的追求,推动AI赋能产业,解决行业痛点是ADSP实验室长期的奋斗目标。

ADSP实验室今日所取得的优秀研究成果,源于导师与学生间的密切协作,团队成员所秉持的坚韧不拔的研究精神、自由探索的学术态度和跨学科合作的开放理念。这种独特的科研氛围不仅激发了创新,更为实验室的持续进步奠定了坚实基础。

在Interspeech这一全球顶尖的语音技术会议上,ADSP实验室的亮眼表现不仅展示了团队在语音技术前沿研究领域的最新突破,更彰显北京大学深圳研究生院在前沿技术领域的国际影响力。这些成绩的取得无疑将激励ADSP语音研究团队继续在科技强国时代砥砺前行,为推动语音技术的发展和培养优秀专业人才做出更大贡献。

实验室博士生尹永康代团队领取获奖证书

深圳市人工智能学会(Shenzhen Association for Artificial Intelligence,简称SAAI),是由深圳市人工智能科学与技术领域科技工作者和相关企事业单位自愿组成,依照国家有关法律法规登记的深圳市地方性、非营利性学术社团组织。中国科学院深圳先进技术研究院是SAAI理事长单位,北京大学深圳研究生院、清华大学深圳国际研究生院、华为技术有限公司、深圳市腾讯计算机系统有限公司、中兴通讯股份有限公司等21个高等院校和高新技术企业为SAAI副理事长单位。SAAI积极推动专业委员会和工作委员会建设,现已成立九个专业委员会:1)机器人智能系统专业委员会;2)自然语言理解专业委员会;3)智能金融专业委员会;4)认知系统与智能信息处理专业委员会;5)法律人工智能专业委员会;6)智慧空间专业委员会;7)元宇宙专业委员会;8) AI伦理治理专业委员会;9)自动驾驶专业委员会(筹)。以及四个工作委员会:1) 女性AI科技工作者委员会;2)青年工作委员会;3)AI城市治理工作委员会;4)财经人工智能工作委员会。

SAAI是产学研政投的非营利科技服务公共平台,旨在以“持续推进人工智能前沿基础理论和前沿技术研究”以及“大力推动中国新兴产业的可持续发展”为战略愿景,确立“学术高地、引领知识、赋能产业”三大核心价值,倾力打造“深圳人工智能奖”、“信息科技女性精英论坛(Women’s Elite Forum of Information Technology,简称WeFit)”、“深圳市人工智能学会科普基地”、“深圳市优秀科技学术论文遴选”、“SAAI-产学研政投沙龙”、“SAAI-博士论坛”、“SAAI-高质量科技探索营”、“SAAI-青年研享论坛”和“SAAI-新兴产业智库”等系列专业品牌。SAAI基于专业优势和人才优势,积极开展国内外学术交流、科学普及、学术教育、科技会展、学术出版、人才推荐、学术评价、学术咨询、技术评审与奖励、专家咨询和建言献策等活动;加速推动人工智能科研成果转换,赋能我国新兴产业升级和发展新质生产力,吸引各地人工智能人才、技术、资源向深圳聚集,提升深圳在全国以及全球人工智能领域的影响力。

欢迎大家关注深圳市人工智能学会公众号

发表评论

电子邮件地址不会被公开。 必填项已用*标注

The maximum upload file size: 50 MB. You can upload: image, audio, video, document, spreadsheet, interactive, text, archive, code, other. Links to YouTube, Facebook, Twitter and other services inserted in the comment text will be automatically embedded. Drop file here