【学会动态】深圳市人工智能学会机器人智能系统专业委员会在南山智慧广场成功举办机器听觉技术沙龙

2025年10月20日下午,由深圳市科学技术协会指导,深圳市人工智能学会主办,深圳市人工智能学会机器人智能系统专业委员会和语音之家联合承办,深圳市华睿欣能投资控股集团有限公司支持的“机器听觉技术沙龙”在南山区智慧广场D栋二楼咖啡厅圆满举办。本次活动吸引了来自高校、科研院所、知名企业的专家学者和产业代表,共同探讨机器听觉技术的最新进展与应用实践。

本次机器听觉技术沙龙旨在推动机器听觉前沿技术的产学研融合与创新实践。深圳市龙岗区人工智能(机器人)署署长赵冰冰先生、北京大学教授,深圳市人工智能学会常务副理事长兼秘书长邹月娴博士,语音之家、AISHELL创始人卜辉先生,腾讯AI Lab研究员崔明宇博士,时空壶CTO石伟先生,广州视源电子科技股份有限公司中央研究院语音技术部负责人雷延强博士等多位专家出席活动。沙龙吸引了来自北京大学深圳研究生院、世生万物(深圳)、平安科技等十余家科研与产业单位的代表参会,近五十位专家学者、工程师及青年科研人员齐聚一堂,共同探讨语音大模型、多模态感知及机器听觉产业化的未来发展方向。

活动现场合影

活动由邹月娴教授主持并致辞。她代表深圳市人工智能学会简要地介绍了学会的整体情况,特别阐明了学会以“推动人工智能前沿理论与关键技术研究、促进人工智能赋能产业发展、推广人工智能科普教育”为核心使命,经过五年多的发展现已成立十个专业委员会和五个工作委员会,形成了优秀的人工智能相关学术与产业智库支撑体系。近年来,学会持续举办高水平论坛与研讨会,搭建政产学研交流平台,成为推动深圳人工智能高质量发展的重要力量。

邹月娴教授致辞

在报告环节,语音之家、AISHELL创始人卜辉先生分享了题为《高质量开源数据助力语音模型落地应用》的主题报告,他系统回顾了AI数据发展的历程,鲜明地提出了“数据即AI”的核心观点。他详细介绍了如何构建多模态高质量数据集,重点分享了数据工程的全生命周期。在数据集评价方面,提出了一套涵盖基础质量和高阶质量的多维评价体系。他还介绍了希尔贝壳构建的开源数据生态,其AISHELL系列开源数据集已成为全球语音领域的重要基准,被500多家高校与企业使用,推动了中文语音技术的普及与落地,并呼吁业界共同推动数据标准化与开放共享生态建设。

卜辉先生主题报告

腾讯AI Lab研究员崔明宇博士在题为《近期语音大模型构想及实践》的报告中,分享了AI Lab在语音生成与理解方面的最新研究进展。他首先梳理了当前语音大模型的三大技术架构范式:连续输入离散输出、离散输入离散输出以及连续输入连续输出,并分析了各类架构的优缺点,深入剖析了Mini-Omni、GLM-4-Voice、Step-Audio 2、Kimi-Audio等代表性模型的技术特点。他认为未来语音大模型将更注重低延迟、多模态交互与端到端优化,以实现更自然的人机语音对话体验。

崔明宇博士主题报告

时空壶CTO石伟先生带来了《AI技术进步推动实时翻译体验达到PMF》的报告,系统展示了公司在实时语音翻译领域的创新成果。作为全球领先的AI同传设备品牌,时空壶以“让科幻照进现实”为使命,自主研发了“骨声纹识别、声学矢量降噪、HybridComm超能译引擎、巴别系统(Babel OS)”等核心技术,实现了翻译的“快、准、稳、自然”。

石伟先生主题报告

广州视源电子科技股份有限公司中央研究院语音技术部负责人雷延强博士分享了CVTE在语音唤醒与语音识别工程化中的实践经验,重点介绍了基于Kaldi与WeNet框架的语音识别系统搭建、数据清洗与模型微调方案。通过大规模场景数据构建与端到端模型训练,CVTE成功将语音技术应用于电视、会议系统、教育终端等多元场景,实现了性能与用户体验的双提升。

雷延强博士主题报告

专题研讨环节,由邹月娴教授主持,与会嘉宾围绕中国语音技术开源现状、深圳开源社区建设中的学会桥梁作用,以及语音与视觉技术的产业化协同发展三大议题展开了热烈讨论。大家从技术、产业、政策等多个维度进行了深入交流,共同探讨了机器听觉技术的未来发展方向与产业化路径。

专题沙龙现场

经过充分讨论,研讨会最终形成了重要共识。与会专家认为,机器听觉技术的发展趋势正朝着以多模态大模型为核心、实现端云协同的智能泛在化方向迈进,语音与视觉技术的边界正在被打破,未来将通过统一建模与融合训练实现更深层次的跨模态理解与生成、语音交互技术的重要性突显。在产业化路径方面,专家指出,应以场景化解决方案为突破口,聚焦垂直行业的深度赋能与规模化落地,推动语音技术从实验室研究走向可复制、可商业化的广泛应用。同时,构建安全可信的创新生态被视为产业持续发展的关键,必须以数据要素流通为基础,加快建立合规高效的数据共享机制。数据作为人工智能的核心要素,应与算力、算法并列为AI发展的三大支柱。为此,政府、科研机构与企业需共同发力,通过开源社区建设、产学研用协同与数据互信协议的建立,促进高质量训练数据的安全流转,为语音与视觉技术的持续迭代注入新动能。

邹月娴教授主持专题研讨环节

本次机器听觉技术沙龙不仅全面展示了语音技术从数据构建、模型创新到产品应用的最新进展,也为学术界、产业界与开发者搭建了一个高质量的思维碰撞与合作交流平台。

参会者积极提问交流

展望未来,深圳市人工智能学会将积极探索在机器听觉技术领域的三大桥梁作用:连接产学研用,加速技术转化;建立规范标准,构筑产业信任;培育激励人才,积蓄发展动能。凝聚各界力量,推动技术突破与产业协同,为深圳打造人工智能产业高地提供核心支撑。

深圳市人工智能学会(Shenzhen Association for Artificial Intelligence,英文简称SAAI),是由深圳市人工智能科学与技术领域科技工作者和相关企事业单位自愿组成,依照国家有关法律法规登记的深圳市地方性、非营利性学术社团组织。中国科学院深圳先进技术研究院是SAAI理事长单位,北京大学深圳研究生院、清华大学深圳国际研究生院、哈尔滨工业大学(深圳)、南方科技大学、香港中文大学(深圳)、深圳理工大学、深圳大学、深圳技术大学、深圳职业技术大学、华为技术有限公司、深圳市腾讯计算机系统有限公司、中兴通讯股份有限公司等21个高等院校、科研机构和高新技术企业为SAAI副理事长单位。SAAI积极推动专业委员会和工作委员会建设,现已成立十一个专业委员会:1) 机器人智能系统专业委员会;2) 自然语言理解专业委员会(Technical Committee of Natural Language Understanding,英文简称SAAI TCNLU);3) 智能金融专业委员会;4) 认知系统与智能信息处理专业委员会(Technical Committee of Cognitive Systems & Intelligent Information Processing,英文简称SAAI TCCSIIP);5) 法律人工智能专业委员会;6) 智慧空间专业委员会;7) 元宇宙专业委员会;8) AI伦理治理专业委员会(Technical Committee of AI Ethics Governance,英文简称SAAI TCAIEG);9) AI红树林专业委员会(Technical Committee of AI for Mangrove,英文简称SAAI TCAIM);10) 智慧海洋专业委员会(Technical Committee of Intelligent Ocean,英文简称SAAI TCIO);11) 大模型技术及应用专业委员会(Technical Committee of Large Model Technology & Applications,英文简称SAAI TCLMTA);12) 言语与认知智能专业委员会(筹);13) 自动驾驶专业委员会(筹)。以及五个工作委员会:1) 女性AI科技工作者委员会(Women in Artificial Intelligence Committee,英文简称SAAI WAIC);2) 青年工作委员会;3) AI城市治理工作委员会;4) 财经人工智能工作委员会;5) 教育工作委员会(AI Education Committee,英文简称SAAI AIEC)。SAAI作为非营利之产学研政投的科技服务公共平台,旨在以“持续推进人工智能前沿基础理论和前沿技术研究”,以及“大力推动中国新兴产业的可持续发展”,面向国家科教兴国战略愿景,确立了“学术高地、引领知识、赋能产业”三大核心价值。SAAI全力打造了一系列专业品牌活动,包括:“深圳人工智能奖”、“信息科技女性精英论坛 (Women’s Elite Forum of Information Technology, 简称WeFIT)”、“人工智能科普基地”、“深圳市优秀科技学术论文遴选”、“SAAI -产学研政投沙龙”、“SAAI -博士论坛”、“SAAI -高质量科技探索营”、“SAAI -青年研享论坛”、和“SAAI -新兴产业智库”等。依托丰富的专业资源与人才优势,SAAI积极开展国内外学术交流、科学普及、专业培训、学术出版、人才推荐、学术评价、成果鉴定、评优评奖、专家咨询、建言献策以及科技会展等工作;加速推动深圳市和广东省人工智能科研成果产业转化,助力我国新兴产业升级与新质生产力提升,吸引世界各地的人工智能人才、技术与资源,向深圳及广东聚集,提升深圳市在全国以及全球人工智能领域的技术标准制定权和产业降本增效影响力。

SAAI的三服务SAAI的三支持
服务支撑国家战略
服务助力创新知识和创新技术
服务粤港澳大湾区人工智能技术及应用的可持续发展
支持产学研政投的发展需求
支持会员个人的发展需求
支持会员单位的发展需求

发表评论

电子邮件地址不会被公开。 必填项已用*标注

The maximum upload file size: 50 MB. You can upload: image, audio, video, document, spreadsheet, interactive, text, archive, code, other. Links to YouTube, Facebook, Twitter and other services inserted in the comment text will be automatically embedded. Drop file here