会员风采 | 深圳市人工智能学会副理事长单位深圳云天励飞技术股份有限公司研发产品YMIR之YMIR开源前发生了什么

在 YMIR 代码正式开源之前,介绍 YMIR 产品的初衷、产品理念和底层产品设计的论文就已经被 Andrew Ng 主办的 NeurIPS Data Centric AI Workshop 接收并进行了宣讲。这个 Workshop 是干什么的,这篇文章又是干什么的,今天花5分钟时间带你速度品品。

什么是DCAI

以数据为中心的 AI (DCAI) 代表了从关注AI建模算法到关注用于训练和评估模型的基础数据的转变。过去几年,通用模型架构在各类任务开发中受到大量关注,也取得了快速的进展,并且出现了可预测的模型扩展规则 (Scaling Rules),从而为复杂算法提升模型性能提供了理论参考。虽然构建和使用数据集对这些算法的成功至关重要,但数据集通常是手工构建和维护的——既辛苦又昂贵(比如“有算法人员吐槽80%的时间在编写和修改数据准备工作的脚本”)。AI 社区中缺乏高生产力和高效的开放数据工程工具来使构建、维护和评估数据集更容易、更便宜和更可重复。DCAI 的提出,就是想解决现代机器学习系统中数据管理工具缺乏、最佳实践缺乏和基础设施缺乏的三大问题。

▲本次 Workshop由人工智能和机器学习领域国际上最权威的学者之一、在线教育平台Coursera的联合创始人Andrew Ng 发起。更多信息请访问官网 https://datacentricai.org/n

为什么YMIR是DCAI模式的开发工具

YMIR 能在 DCAI 中亮相,主要是因为 YMIR 的开发初衷和 DCAI 想法的提出不谋而合,都是期望从数据开发的视角来推动AI的发展。YMIR 开发团队总结前期各种AI应用开发的经验,提出将研发流程规范化、标准化、平台化,使用软件系统而非人力来满足大量常见算法的开发需求,将算法工程师从大量的数据清理,格式转换等繁复工作中解放出来,并充分利用数据挖掘、主动学习等算法技术,通过聚焦并提升数据的管理、挖掘和标注效率,降低算法研发的人力成本和数据标注成本,实现规模化、低成本的算法开发。值得注意的是,虽然市场上存在多种号称一站式的模型开发平台,但真正将模型的开发迭代像开发大规模软件一样进行全流程管理的,除了YMIR外并不多见。YMIR能将模型和对应数据的开发、迭代等全流程管理起来的根本,在于其产品设计时就考虑了模型和数据的版本化管理理念,在设计底层系统架构时,实现了类似Git代码版本管理的模型和数据版本管理模型,从而能够在上层应用中轻松的解决同一个项目的模型和数据标注存在多个版本、关联关系混乱等工业AI模型开发时真实遇到的问题。

在模型和数据管理版本化的基础上,YMIR还支持数据挖掘、主动学习、数据预标注等功能,减少数据标注,尤其是长尾应用相关的算法的数据标注成本高的问题。进一步帮助采用该系统的企业降低整体算法开发成本,提高生产效率。

最后,也是最香的一点,YMIR 工具是完全免费和开源的,中小企业采用这套系统不会出现因软件现有功能的限制,阻碍自身业务和产品技术升级的现象。还等啥呢,快来下载试用吧!

  • github传送门:https://github.com/IndustryEssentials/ymir
  • 试用申请地址:https://github.com/IndustryEssentials/ymir#12-apply-for-trial
  • 部署或试用过程中有任何问题都可以联系我们:contact.viesc@gmail

​转自:公众号“挖米匠”

编辑:SAAI秘书处

发表评论

电子邮件地址不会被公开。 必填项已用*标注