【学会活动】SAAI-博士论坛:2023大模型背景下语音技术的机遇与挑战论坛

11月12日上午,SAAI-博士论坛“2023大模型背景下语音技术的机遇与挑战论坛”在深圳市南山智园崇文园区T2-国际会议厅成功举办。论坛聚焦如何把握大模型时代契机,进一步探索语音技术的未来发展之路。香港中文大学(深圳)副教授/博士生导师武执政博士和清华大学深圳国际研究生院副研究员/博士生导师吴志勇博士为论坛主席,邀请来自微软、中国科学院、北京大学深圳研究生院、清华大学深圳国际研究生院、哈尔滨工业大学(深圳)、南方科技大学、深圳大学、香港中文大学(深圳)等多位语音技术专家学者齐聚一堂,以特邀报告、研究生主题报告和专家圆桌讨论等形式多角度阐释和探讨在大模型层出不穷的当下,语音技术如何谋求更好发展进步。

本次论坛是在深圳市科学技术协会、深圳市科技创新委员会的指导下,由深圳市南山区科学技术协会主办,深圳市人工智能学会、香港中文大学(深圳)、清华大学深圳国际研究生院、深圳市大数据研究院和中国计算机学会语音对话与听觉专业委员会联合承办,支持单位为深圳市阳光智普科技有限公司、西丽湖人才服务中心。活动吸引了线下来自粤港澳大湾区多所高等院校的学生及企业研发人员出席交流,同时活动现场采用多平台直播的方式,供线上观众共同参与。

与会嘉宾大合影

论坛主席武执政博士作为开场主持人,向来宾介绍了本次论坛的主题,对各位嘉宾的到来表示热烈欢迎。

武执政博士主持开场

深圳市人工智能学会秘书长兼常务副理事长邹月娴博士作致辞。邹月娴博士对语音技术各界人才的到来表示热烈欢迎,简要介绍了深圳市人工智能学会,同时表达希望借助深圳市人工智能学会的平台,促进大湾区人才交流、互学互鉴的美好愿景。

邹月娴博士致辞

随后,来自微软首席研发经理谭旭带来主题为《UniAudio:通用的音频生成基座模型》的特邀报告。基于大模型环境下,着眼音频研究的同学,谭旭首先发问:大模型与音频领域有什么关系?音频领域是否要拥抱大模型?作为音频领域的专业人员,他认为目前大众对此问题偏向不一。此外,谭旭介绍了最新的通用音频生成基座模型UniAudio,探讨通用音频生成的研究机会,展望未来可能的音频和多模态大一统模型。他也希望借此给前述问题带来一些启发,能与在座专家学者进行深入探讨。

谭旭作报告

接下来的环节是由论坛主席吴志勇博士主持的学生报告环节。首先是来自清华大学深圳国际研究生院吴志勇博士团队的雷舜带来题目为《基于层级上下文信息的多尺度语音合成风格建模》的报告。雷舜讲述其工作致力于解决表现力语音合成和篇章语音合成中的问题。、

雷舜《基于层级上下文信息的多尺度语音合成风格建模》

来自香港中文大学(深圳)武执政博士团队的王远程带来题目为《AUDIT: Audio Editing by Following Instructions with Latent Diffusion Models》的报告。王远程从语音的模态引入,阐述对Audio Editing概念和划分的理解,其团队以扩散模型为基础,针对音频编辑多种问题,开发了能够通过自然语言控制的音频编辑模型。

王远程《AUDIT: Audio Editing by Following Instructions with Latent Diffusion Models》

来自深圳大学郑能恒博士团队的孔繁慧带来题目为《人工耳蜗和语音冗余度操控》的报告。孔繁慧深入浅出地讲述其研究从人工耳蜗的声学仿真出发,基于人工耳蜗的脉冲化刺激特点,探讨了脉冲化语音在电刺激和正常声刺激中的感知规律和应用。

孔繁慧《人工耳蜗和语音冗余度操控》

来自深圳大学丁惠君博士团队的唐钰涵带来题目为《基于声门波特征的ADSD和MTD自动检测》的报告。唐钰涵向大家介绍了自动诊断内收肌痉挛性发声障碍(Adductor spasmodic dysphonia,ADSD)和肌紧张性发声障碍(Muscle Tension Dysphonia,MTD)的工作。

唐钰涵《基于声门波特征的ADSD和MTD自动检测》

来自南方科技大学陈霏博士团队的李铭韬带来题目为《Research on Asynchronous Brain-Computer Interface system based on Mandarin Speech Imagery》的报告。李明韬先简单介绍了脑机接口的概念,其中异步脑机接口允许用户实时接入系统,而言语想象则降低了用户使用脑机接口的门槛,总结基于汉语言语想象的异步脑机接口系统的初步进展。

李铭韬《Research on Asynchronous Brain-Computer Interface system based on Mandarin Speech Imagery》

    来自中国科学院深圳先进技术研究院燕楠博士和王岚博士团队的刘小康带来题目为《Automatic Assessment of Dysarthria Using Vowel Attention Network》的报告。刘小康从构音障碍的病理原因和研究现状出发,研究中提出了一种元音注意力网络,该网络能够有效地结合专家知识和深度学习的优势。、

刘小康《Automatic Assessment of Dysarthria Using Vowel Attention Network》

来自北京大学深圳研究生院邹月娴博士团队的尹永康带来题目为《Speaker Diarization with Multimodal and LM》的报告。尹永康表明speaker diarization(说话人日志)技术在很多情景下有着很高实际应用价值,着重介绍音视频说话人日志技术的发展现状,主流工作以及一些研究成果。

尹永康《Speaker Diarization with Multimodal and LM》

每位汇报者汇报完毕后,都会有现场的嘉宾朋友进行提问,嘉宾根据汇报内容进行相应提问,汇报者认真作答,场面十分活跃。其他在座来宾也认真聆听,积极参与问答环节。

现场嘉宾朋友提问

现场来宾认真聆听

汇报环节结束后,我们迎来了本次论坛最后的圆桌会议环节。圆桌会议的主持人由武执政博士担任,参与圆桌会议嘉宾包括北京大学教授/博士生导师邹月娴博士,南方科技大学电子与电气工程系教授陈霏博士,中国科学院特聘研究员燕楠博士,清华大学深圳国际研究生院副研究员/博士生导师吴志勇博士,深圳大学副教授/博士生导师郑能恒博士,深圳大学医学部生物医学工程学院副教授丁惠君博士,哈尔滨工业大学(深圳)教授/博士生导师徐增林博士。

圆桌会议参与嘉宾

本次圆桌会议围绕“在大模型时代,语音技术的机遇和挑战在哪里”以及“大模型时代,传统的语音技术如何发展”两个问题展开,各位嘉宾各抒己见,表达自己的想法和观点。邹月娴博士表示,提到语音技术最重要的机会就是即将到来的具身智能和元宇宙,人类要跟机器交互或者机器里面的虚拟人物自身交互,最自然的交互工具就是语音,对于语音技术的发展和进步保持信心。郑能恒博士认为结合信号处理和机器学习方法将进一步推动各项语音技术性能提升;陈霏博士则指出在充分认可大模型优势的同时,要加强大模型背后机理的研究;燕楠博士建议大模型结构应该借鉴神经认知科学相关理论和观点,做到类脑智能;丁惠君博士认为传统语音技术和大模型可以交融并进,在生物医学领域低资源小样本量的情况下,传统语音技术同样可以借助大模型实现针对性和个性化技术突破;徐增林博士谈到大模型可以让语音与其他模态方面更好地对齐,特别是像利用呼气来检测肌紧张性发声障碍(MTD)这样的仅有小数据的技术场景需要更多地去研究大模型辅助的机理;吴志勇博士认为在大模型时代,海量数据和新模型方法为语音技术的发展带来了巨大机遇、提供了新的解决方案,但传统语音技术基础知识依然不可或缺,需要重视问题的可解释性以发挥传统技术的潜力;武执政博士认为大模型能够以基座模型的形式整合分散的技术任务,不仅能大大提高生产效率,也给学术界提供了新的研究课题。嘉宾们也认为深圳是全球著名的科技创新城市,具有完整的产业链条,有充分的产业应用场景,在大模型技术落地方面大有可为。

论坛结束现场大合影

据悉,SAAI-博士论坛已成功举办四届,是深圳市人工智能学会打造的一个交流互动的平台,旨在通过研究成果的展示和友好充分的交流,碰撞思想的火花,拓宽学术的视野,激发科研的灵感。

深圳市人工智能学会(Shenzhen Association for Artificial Intelligence,简称SAAI),是由深圳市人工智能科学与技术领域科技工作者和相关企事业单位自愿组成,依照国家有关法律法规登记的深圳市地方性、非营利性学术社团组织。中国科学院深圳先进技术研究院是SAAI理事长单位,北京大学深圳研究生院、清华大学国际研究生院、华为技术有限公司、深圳市腾讯计算机系统有限公司、中兴通讯股份有限公司等21个高等院校和高新技术企业为SAAI副理事长单位。现有十一个专业委员会和三个工作委员会,其中专业委员会包括:1)信息与生物科技专业委员会;2)机器人智能系统专业委员会;3)自然语言理解专业委员会;4)智能网联汽车专业委员会;5)智能金融专业委员会;6)认知系统与智能信息处理专业委员会;7)法律人工智能专业委员会;8)智慧空间专业委员会、9)元宇宙专业委员会、10)AI伦理治理专业委员会、11)自动驾驶专业委员会(筹);另外,工作委员会包括:1)女性科技工作委员会;2)青年工作委员会;3)产学研转化工作委员会(筹)。

SAAI是产学研政投的非营利科技服务公共平台,旨在以“持续推进人工智能前沿基础理论和前沿技术研究”和“大力推动中国战略性新兴产业的可持续发展”为战略愿景,确立“学术高地、引领知识、创造价值”三大核心价值,倾力打造“深圳人工智能奖”、“信息科技女性精英论坛(Women’s Elite Forum of Information Technology,简称WeFit)”、“深圳市人工智能学会科普基地”、“深圳市优秀科技学术论文成果遴选”、“SAAI-产学研政投沙龙”、“SAAI-博士论坛”、“SAAI-高质量科技探索营”、“SAAI-青年研享论坛”和“SAAI-新兴产业智库”等系列专业活动品牌。

    SAAI基于专业优势和人才优势,积极开展国内外学术交流、科学普及、学术教育、科技会展、学术出版、人才推荐、学术评价、学术咨询、技术评审与奖励、专家咨询和建言献策等活动;加速推动人工智能科研成果转换,赋能我国新兴产业升级,吸引各地人工智能人才、技术、资源向深圳聚集,提升深圳在全国以及全球人工智能领域的影响力。

欢迎大家关注深圳市人工智能学会公众号

文字:肖燕慧

发表评论

电子邮件地址不会被公开。 必填项已用*标注

The maximum upload file size: 50 MB. You can upload: image, audio, video, document, spreadsheet, interactive, text, archive, code, other. Links to YouTube, Facebook, Twitter and other services inserted in the comment text will be automatically embedded. Drop file here