【新闻】助力人工智能技术持续创新发展:开放算料联盟成立

2023年7月25日,“2023数字经济与实体经济深度融合全国行·深圳站”在深圳市龙华区成功举办。深圳数据交易所、深圳市华傲数据技术有限公司、深圳市人工智能学会、深圳市现代服务外包产业促进会、和深圳市龙华数据有限公司等近50家单位共同发起成立了“开放算料联盟”!

从左到右:岳建伟(深圳市现代服务外包产业促进会秘书长)、龚健(华傲数据技术有限公司副总裁)、李红光(深圳数据交易所有限公司董事长)、邹月娴(深圳市人工智能学会秘书长)、任重(深圳市龙华数据有限公司总经理)

2022年12月,《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”)的发布,为数据要素在数字经济中更好发挥作用提供了政策和制度保障。

自2023年起,以大模型、多模态、生成式为特征的新一轮人工智能浪潮席卷全球,在人工智能(Artificial Intelligence,简称AI)“三驾马车”中,算法(algorithm)和模型是AI的关键技术,算力(computing power)是训练和推理的基础设施,数据是关键生产要素和生产资料,也可以说是AI的算料(data)。算法、算力和算料(简称三算)三者层层递进,协同发展。只有做好三算要素和应用场景(business scene),才能促成人工智能产业的蓬勃生态。算法、算力、算料、应用场景已经成为人工智能产业链上的关键链条——ABCD“三算一景”。

作为计算材料和训练材料的数据要素,不仅是数字经济的生产资料,而且正在成为AI大模型的胜负手。只有持续提供高质量训练数据,打破AI多模态算料数据瓶颈,才能让中国的人工智能产业和数字经济发展不落人后。

统计数据表明,到2026年人类社会用于大模型训练的自然生成之文本数据将会被用光,人工智能产业将会面临数据的荒芜瓶颈。如果说全球的数据荒正在临近,高质量中文训练数据则更加奇缺。正如中国工程院院士在演讲中提到,全球通用的50亿大模型数据训练集里,中文语料的占比仅为1.3%。

解决数据瓶颈问题迫在眉睫。正是因为看到了数据要素,也就是AI算料,对人工智能乃至数字经济的重要作用,在深圳及大湾区的一批学会、协会、大学、智库和AI企业中的有识之士,紧跟AI技术在多模态技术方面的进展,从2023年4月开始提出了构建多模态训练数据和中文训练数据共同体的构想,这个构想在2023年7月25日成为了现实。“开放算料联盟”的成立,是国内在释放数据要素价值、培育生成式人工智能产业、助推数字经济高质量发展路上的一个筑基之举。

作为业内先驱倡导者,“开放算料联盟”集结了来自学会、协会、大学、智库、企业等方面的近50家单位发起机构,在数据要素和大模型训练数据方面争取凝聚开放共识,共同贡献、整理、倡导贡献自然语言、图像视频、语音音乐、程序代码、生物信息、合成数据等多模态训练数据,为解决AI和数字经济的数据荒瓶颈问题,特别是解决多模态数据荒、中文数据荒、中国文化、中国价值观数据荒等问题提供强有力支撑。

深圳市人工智能学会将积极参与和推动开放算料联盟的工作。接下来开放算料联盟将紧紧围绕高质量中文训练数据和多模态训练数据,联合成员中的数据标准相关机构,协调数据要素、数据治理、训练数据、数据标注、合成数据等相关团体标准及其他标准的制定、大数据质量评测,推动数据交易、促进赋能产业应用。

欢迎大家关注深圳市人工智能学:

深圳市人工智能学会(Shenzhen Association for Artificial Intelligence,SAAI)是由深圳市科学技术协会指导、深圳市人工智能科学与技术领域科技工作者和相关企事业单位自愿组成,依照国家有关法律法规并在深圳市民政局合法登记的深圳市地方性、非营利性学术社团组织。

作为产学研政投的非盈利科技服务公共平台,深圳市人工智能学会积极响应政府号召,充分发挥自身优势和利用自身较强的链接资本、链接政府、链接企业、链接科研院所、链接大专院校、链接发明、链接专利、链接人工智能领域各种人才,在深圳市积极探索开展高端人才服务和人工智能领域智库咨询等社会服务工作。为此,深圳市人工智能学会旨在以“大力推动中国战略性新兴产业的可持续发展”为战略愿景,打造“学术高地、引领知识、创造价值”三大核心价值。

深圳市人工智能会公众号:

发表评论

电子邮件地址不会被公开。 必填项已用*标注

The maximum upload file size: 50 MB. You can upload: image, audio, video, document, spreadsheet, interactive, text, archive, code, other. Links to YouTube, Facebook, Twitter and other services inserted in the comment text will be automatically embedded. Drop file here