【学会活动】SAAI-青年研享论坛:ICASSP 2024论文预讲会,聚焦语音大模型新挑战

2024年3月24日,由深圳市人工智能学会(Shenzhen Association for Artificial Intelligence,简称SAAI)主办的ICASSP 2024论文预讲会在深圳市南山智园崇文园区1号楼4楼405深圳市人工智能学会科普基地成功举办。本次论坛主席为香港中文大学(深圳)副教授、博士生导师武执政博士和AISHELL&SpeechHome创始人兼CEO卜辉先生。

本次活动由SAAI机器人智能系统专业委员会、深圳市跨模态认知计算重点实验室、北京希尔贝壳科技有限公司联合承办,支持单位为西丽湖人才服务中心。活动邀请了来自香港中文大学(深圳)、武汉大学、腾讯人工智能实验室、北京大学深圳研究生院等多所高校和企业的专家学者进行主题报告和交流,围绕“语音大模型时代”这一主题展开了精彩分享和热烈讨论,为推进语音人工智能技术发展建言献策,会议现场气氛热烈。

邹月娴博士致开幕词

本次活动由论坛主席武执政博士主持。论坛伊始,北京大学教授、深圳市人工智能学会常务副理事长兼秘书长邹月娴博士致开幕词。她指出,自2022年发布ChatGPT以来,大模型技术快速迭代,语音大模型技术的研究也取得长足进步,有望为口语人机交互提供支撑技术。她鼓励与会者积极探索语音大模型技术发展路径,并深入探讨面向垂域应用的语音大模型技术。

李海洲院士作报告

香港中文大学(深圳)教授,数据科学学院执行院长、IEEE fellow、新加坡工程院院士李海洲院士进行题为“大模型时代的语音处理”的院士寄语演讲。他回顾了语音处理与人工智能的历史,详细介绍了语音处理学科怎样引领数据驱动、语言模型和人工智能的发展进程。李院士指出,生成式和交互式大模型的出现,促进了人工智能的广泛应用,语音处理是生成式和交互式的前沿学科。在大模型时代,如何有效扩大模型规模、挖掘多模态协同潜力是关键,需要算法工作者在这些方向上下功夫。

黄公平教授作报告

随后是主题演讲环节。第一位进行报告的是武汉大学教授黄公平博士。黄博士分享了“面向语音增强的差分麦克风阵列设计与波束形成方法”的研究成果。他指出,提高远场语音拾音性能、增强语音信号感知质量是前沿领域的重要挑战。黄博士阐释了通过设计麦克风阵列形式和波束形成算法,结合智能信号处理技术,来提升远场语音拾音和降噪等能力的思路和方法。

余剑威博士作报告

随后,腾讯人工智能实验室语音语义中心高级研究员余剑威博士为大家带来主题为“AutoPrep语音自动处理框架”的最新研究进展。该框架利用降噪、语音分割、说话人识别、自动语音识别等环节,可以将野生音频长数据自动处理为标准语音数据,大幅降低了人工标注成本,有望推动语音数据的规模化获取。

王远程同学作报告

第三位进行报告的是香港中文大学(深圳)博士研究生王远程,他带来“Naturalspeech3大数据时代的语音解耦和零样本语音合成”的分享。王同学介绍了一种名为FACodec的新型语音表示方法,能够将语音解耦为内容、韵律、音色、音频细节三方面特征,为大模型时代语音生成和编辑等新兴应用开辟了新路径。

圆桌讨论场景

接下来是圆桌讨论环节,主持人由香港中文大学(深圳)副教授武执政博士担任。参与讨论的嘉宾包括北京大学教授、深圳市人工智能学会常务副理事长兼秘书长邹月娴博士;武汉大学教授黄公平博士和腾讯Al Lab研究员余剑威博士。

与会专家们就语音大模型发展面临的数据标注成本高昂、缺乏强大基座模型等难题展开了热烈探讨。大家一致认为,提升语音数据的信息密度、完整性和质量,培养健康的语音数据生态是突破的关键。

武执政博士提出,语音作为人类最自然的交流方式,在数据构建时可以考虑以段落、对话为单位,使模型获取更丰富的语义和语用线索,有望进一步提高语音理解和生成能力。邹月娴博士补充道,对话历史和语境信息的建模也是值得关注的重点。余剑威博士则表示,尽管语音领域目前缺少一个强大通用的基座模型,但这正是机遇所在,也是未来的主攻方向。他认为,应当立足语音信号处理领域的基础理论,结合多模态学习、知识引导等前沿技术,探索更符合语音规律的专用大模型架构。黄公平博士指出,不同语音任务是否都缺乏“规模效应”。余剑威博士提到,尽管语音领域整体缺乏明确的“定律”,但在语音合成的韵律建模等特定任务上已有“规模效应”的影子,这为开发大规模语音模型提供了经验参考。

学术海报交流

最后是学术海报交流环节。深圳市大数据研究院的李俊杰展示了“面向稀疏重叠多说话人语音场景的多模态语音分离”的最新研究成果;香港中文大学(深圳)的顾毅骋介绍了“用于高保真度语音声码器的多尺度子带常数Q变换判别器”的工作;香港中文大学(深圳)的李珈祺探讨了“对使用神经网络回放模拟器对抗攻击声纹识别系统的初步探索”。中国科学院深圳先进技术研究院的杨毓栋展示了“用于将语音信号转换为超声舌成像数据的音频-文本扩散模型”工作;香港中文大学(深圳)的王力带来“面向说话人验证的重放对抗攻击数据集”的研究成果。与会者在海报区热烈交流,就各自的技术方案和创新点进行了深入的探讨,加深了对语音人工智能前沿的认识。

通过此次高峰论坛,与会人员加深了对语音大模型发展现状和前景的认识,对未来机遇和挑战也有了更清晰的展望,为推动语音人工智能技术创新贡献了集思广益的智慧。相信在业界和学界的共同努力下,语音大模型将在不久的将来取得突破性进展,造福人类生活。

与会嘉宾合影

深圳市人工智能学会 Shenzhen Association for Artificial Intelligence,简称SAAI,是由深圳市人工智能科学与技术领域科技工作者和相关企事业单位自愿组成,依照国家有关法律法规登记的深圳市地方性、非营利性学术社团组织。中国科学院深圳先进技术研究院是SAAI理事长单位,北京大学深圳研究生院、清华大学深圳国际研究生院、华为技术有限公司、深圳市腾讯计算机系统有限公司、中兴通讯股份有限公司等21个高等院校和高新技术企业为SAAI副理事长单位。SAAI积极推动专业委员会和工作委员会建设,现已成立九个专业委员会:1)机器人智能系统专业委员会;2)自然语言理解专业委员会;3)智能金融专业委员会;4)认知系统与智能信息处理专业委员会;5)法律人工智能专业委员会;6)智慧空间专业委员会;7)元宇宙专业委员会;8) AI伦理治理专业委员会;9)自动驾驶专业委员会(筹)。以及四个工作委员会:1) 女性AI科技工作委员会;2)青年工作委员会;3)AI城市治理工作委员会;4)财经人工智能工作委员会。

SAAI是产学研政投的非营利科技服务公共平台,旨在以“持续推进人工智能前沿基础理论和前沿技术研究”以及“大力推动中国新兴产业的可持续发展”为战略愿景,确立“学术高地、引领知识、赋能产业”三大核心价值,倾力打造“深圳人工智能奖”、“信息科技女性精英论坛(Women’s Elite Forum of Information Technology,简称WeFit)”、“深圳市人工智能学会科普基地”、“深圳市优秀科技学术论文遴选”、“SAAI-产学研政投沙龙”、“SAAI-博士论坛”、“SAAI-高质量科技探索营”、“SAAI-青年研享论坛”和“SAAI-新兴产业智库”等系列专业品牌。

SAAI基于专业优势和人才优势,积极开展国内外学术交流、科学普及、学术教育、科技会展、学术出版、人才推荐、学术评价、学术咨询、技术评审与奖励、专家咨询和建言献策等活动;加速推动人工智能科研成果转换,赋能我国新兴产业升级和发展新质生产力,吸引各地人工智能人才、技术、资源向深圳聚集,提升深圳在全国以及全球人工智能领域的影响力。

欢迎大家关注深圳市人工智能学会公众号

发表评论

电子邮件地址不会被公开。 必填项已用*标注

The maximum upload file size: 50 MB. You can upload: image, audio, video, document, spreadsheet, interactive, text, archive, code, other. Links to YouTube, Facebook, Twitter and other services inserted in the comment text will be automatically embedded. Drop file here