文章经授权转载自”AI科技评论”,作者:青暮
南京大学计算机科学与技术系副教授田臣谈到研究中经常会遇到的困难:“我们在做相关实验的时候遇到了很多问题。首先很难获得资源;其次,即使获取了资源,也很难满足实验设置的真实性;第三,我们为了验证一个新想法,首先需要把之前所有的相关研究全部实现一遍,而且还要实现得比较靠谱,之后再来跟自己的实验做对比。最后,没有真实的数据,很多时候也是要靠自己创造一些数据集。”在2019年的时候田臣碰到了他此前在微软亚洲研究院实习时的老师,老师向田臣提起了OpenNetLab平台这个项目,两人一拍即合。
一、全球联盟
2020年12月18日,微软亚洲研究院宣布联合清华大学、北京大学、南京大学、兰州大学、新加坡国立大学、首尔国立大学等多所亚洲地区高校,成立 OpenNetLab 开放网络平台联盟。OpenNetLab平台旨在通过为研究人员提供通用的分布式网络测试平台,以及真实的网络评测数据集,推动人工智能(AI)在网络研究中的应用与发展,构建健康、可持续的网络研究生态系统。
田臣认为,这个平台刚好能解决他一直困扰的问题。“通过建立一个新的平台,把上述痛点解决掉,从而降低未来的研究门槛,吸引更多的研究者进入广域网网络研究的领域。另外对于已有的研究者来说,也是一样。降低门槛后,才能构建完整的生态。我们通过构建这个基础设施来促进生态,让生态圈越来越大。这是我们当时想要加入的原因,还有其他很多学校都意识到这一点,一起加入了这个计划,希望能够把我们自己的生态圈建立起来。”微软亚洲研究院常务副院长周礼栋介绍道:“在疫情期间,实时通讯/会议工具变得非常的重要。从某种意义上来说,这些应用就像火车、汽车、飞机,而它们对应的基建是公路、铁路、公路、航空路线。那么,通讯工具对应的基建就是网络。随着 5G 时代来临,应用越来越多样,网络环境也更加复杂(包括设备端、基站等),加上今年在线会议、在线教育、网络直播等实时通信需求的激增,都对底层的网络基础提出巨大挑战。此外,网络本身也遇到了很多发展的瓶颈。网络的构成越来越复杂,实时变化性非常大,复杂性也非常高。人们也对传统的网络研究或者设计的一些理念提出了质疑。而且网络本身就是一个开放的、共享的资源,牵涉到所有参与这个网络的群体。网络产生的问题都不能由个体单独去解决,所以需要整个社区去搭建一个公共的基础设施,大家才能够看到这些问题,才能够有效地去解决这些问题。在以上种种趋势的推动下,将人工智能技术用于应对网络这种前所未有的复杂性成为大势所趋的一种必然。这也是我们成立OpenNetLab最主要的初衷,我们要以开放、共享、合作的方式,而且和各个高校一起来做这件事情。因为网络本身的多样性,所以我们必须不光要有地域上足够的覆盖,我们还需要能够有不同的网络特性,都能够在这样一个开放的网络平台上得到体现,这样我们才能提供非常真实的网络环境,来促进网络上的一些研究。”OpenNetLab 开放网络平台通过构建分布式节点收集不同区域、形态、场景的网络数据。现阶段,微软亚洲研究院计划将与合作高校一起在亚洲范围内建设40多个分布式异构节点。现在已经有17个节点完成建设,每个节点都分布在不同的地点,还有28个节点正在建设中。“我们希望这些节点分布在各个地方,目前主要还是集中在亚太地区,包括有中国、韩国、新加坡,中国的南方、北方、西部都有节点。我们希望未来能扩展到全球的更多地区。”周礼栋说道。每个节点将由服务器、笔记本电脑、智能设备等组件构成,同时提供有线宽带、无线局域网和 4G/5G 移动网络的接入能力,数据存储、集成、分享的标准化接口,以及适用于不同网络环境的AI模型运行、训练和验证工具,帮助研究人员专注于网络AI算法和模型。今后,这些节点将在平台用户同意的情况下,实时收集网络状态、数据包跟踪等非隐私/非敏感数据,为各类网络AI模型的训练及验证提供支持。
二、意义
那么这个平台将会发挥哪些重要的作用呢?田臣告诉我们,从研究院、高校的角度来看,主要关心教学、研究和协作。“首先是教学,我们的首要任务是培养人才,为国家的新基建贡献力量。我负责教授南京大学的计算机网络课程,我们很多的大实验,都是在仿真的环境下,是不直观的。有了OpenNetLab以后,我们最重要的一件事情就是能够尽快让学生在OpenNetLab上做真实的实验,感受真实的互联网特性。这对于后备力量的培养,对于研究的工作是非常重要的。在研究方面,我们现在正在跟中国顶尖的设备商、内容提供商在进行网络内容分发的各种研究,我们希望下一步能够在OpenNetLab上去做实验。”周礼栋则表示,“OpenNetLab最主要的功能就是提供一个分布式的网络测试平台,可以在这个平台上针对不同的应用做很多网络方面的测试跟研究。其中一个很重要的目标是,创建一个真实的网络评测数据集,就像计算机视觉领域的ImageNet。”“最后是协作,OpenNetLab基于现有的因特网构建起来,是全球规模的部署。如何在这些实验设施环境中构建出一个合作的关系?如何能够为我们的网络研究人员提供最好的实验环境?这是我们下一步着重思考的一个问题。”田臣说道。此外,田臣也提到了OpenNetLab对在线教学的潜在推动作用,“今年由于疫情的原因,在线教学整个产业被迫进行了一次大规模的升级。应该来说,目前的在线教学体验还是有很多问题的,以我们在线授课的经历,经常出现断线、没有声音、不同步等各种各样的问题。举个例子,很多在线教育课程需要从国外往这边传视频,就会遇到很多问题。无论是从容量还是从技术角度,还没有完全为在线教育做好完全的准备。OpenNetLab的准备是从2019年年中开始的,可以说我们很前瞻性地赶在了这个风口,我们也希望这样一个研究能够为未来几年的实时视频通讯提供更多的技术输入,能够给大家的在线教育、公司的在线交流,提供更好的支持。”被问及许多网络厂商或者运营商也在构建类似的平台时,田臣指出,高校相对于企业有着独特的优势,“企业是互相独立的机构,它的实验环境是很受限的。计算机体系结构的三大要素:计算、存储和网络。对于计算和存储,企业可以在本地去构建服务器、本地的存储。而网络是分布式的,无论对做研究,还是做产业,网络都是一个最难验证的部分。全球的高校处在各种不同的地理位置,通过各种各样的资源节点加入,我们能够构建出来一个小的近似全球广域范围的实验场。但这件事情对于设备商、运营商是很难做到的。反而是我们作为教育机构,可以更顺利地构建一个全球的实验网,通过来自不同的国家、不同的网络的节点加入,我们可以创造一个更全面、更有代表性的网络实验环境。此外,高校和研究机构的资源主要是面向科研单位的。一个产品从开发到落地有很多阶段,要开发很多版本,而中间的原型验证阶段目前是缺失的。我们就给大家提供了一个原型验证的环境,这个环境是必不可少的。在环境验证之后,产品的开发就由企业自己完成。产品开发的资源需求不建议在做科研的实验网上进行,因为资源很有限,我们主要还是希望满足研究的需求,产业的需求还是让企业在产品网上去解决,因为产品的测试要求规模太大了。”周礼栋最后总结道,“我们的目标是,让每个人都可以关注于他们感兴趣的研究课题,而不必担心研究门槛的问题。”
三、研究已经起步
目前,参与该项目的各大高校已经开始在OpenNetLab上践行一些研究项目。该平台已完成了多个节点的建设及小规模部署测试,并且正在逐步进入大规模测试阶段。OpenNetLab 平台的真实数据集不仅为高校提供了丰富的实验资源,也使得相关课程教学及实验更加接近现实世界的网络应用情况。多所合作高校已基于该平台展开了相关研究。田臣介绍道:“我们现在正在做的一个项目是针对更广范围的内容分发,以及点播和直播的拥塞控制的研究。拥塞控制是一个比较老的课题了,而我们现在是基于数据驱动的方式、机器学习的方式去进行广域网的拥塞控制。我们接下来计划和其它高校合作扩大这个研究项目。另外就是,我们将更新课程里的实验设计,准备基于OpenNetLab做广域网实验。”周礼栋则补充了其他合作院校的研究情况:“北京大学做关于针对机器学习的网络测量;清华大学做针对异构网络带宽的测量;首尔国立大学研究如何保证机器学习实验中降低网络压力;新加坡国立大学更多针对硬件加速的研究。另外值得一提的是,该平台已经支持常用的深度学习框架,比如TensorFlow、PyTorch。”
四、三大挑战
从网络层面来看,OpenNetLab目前面临的主要挑战包括哪些维度呢?周礼栋表示:“第一,网络的多样性,比如无线、有线,4G、5G等,而且它们相互连接,最后构造这个计算机网络本身的特性设计的人可能都不太清楚它会有什么样的行为。第二,从时间维度看,网络的动态性是非常高的。第三,应用上对网络的需求和要求越来越高,而且多个应用相互之间对资源的竞争、要求都会对网络产生很大的影响。”
五、人工智能和网络互相推动
人工智能和网络的关系今后将在哪些方面进一步加深呢?周礼栋认为:“我觉得人工智能跟网络相互影响的部分现在越来越大,有两个方面。第一,是网络对人工智能的影响,随着人工智能的模型越来越大,将需要很多机器联合去支持。这些机器可能由一个数据中心提供,也可能由分布式节点提供。第二,人工智能对网络的研究会起到很大的推动作用,这个也是OpenNetLab主要针对的场景。现在网络的复杂性越来越高,而且它的动态性也非常高。如果用人工的方法去设置网络,对网络的可靠性和效率的保障存在很大困难。而人工智能能够利用大数据训练以及灵活应对变化的特点,为网络的发展提供了一个契机,能够把网络中很具有挑战性的这类问题真正地解决。未来,我们希望利用技术非常系统化地在底层解决这些问题,让我们感受不到网络的存在。”
六、未来
OpenNetLab目前的成员大部分是高校,那么这个群体接下来是否会继续扩大?对于未来发展,周礼栋表示:”实际上,我们开放网络平台是本着开放的思路去做的,所以将来会吸引更多的高校跟科研机构。我们开发OpenNetLab,很大的原因是要促进新的以数据为中心的网络研究模式,这种模式现在还不是人人都已经接受的状态。我们现阶段更多的是探索性的布局,刚开始就很容易跟高校、科研机构秉持共同的理念做这件事情。在将来,我认为这些研究成果会对整个社会、企业产生很大影响,目前我们还是以支持研究为主要目标,不过一旦它的影响力起来了,新一代的网络研究模式会普及得非常快。”未来,OpenNetLab 平台的网络状态数据集将在 GitHub 上发布,为网络研究提供日渐丰富的训练数据和验证数据。“OpenNetLab 平台的节点覆盖区域也计划逐步扩展至亚洲以外地区。OpenNetLab 开放网络平台联盟面向网络、多媒体、人工智能等多领域的科研组织和研究人员开放,希望更多志同道合的科研工作者加入,一起推动网络研究的发展。”OpenNetLab平台地址:http://opennetlab.org
附:联盟成员发言
北京大学计算机科学技术系副教授边凯归表示,“互联网的不确定性和很强的随机性,让研究者和开发人员很难找到某种理论或工具去描述和预测网络中的变化。OpenNetLab 平台不仅能够帮助研究者准确、实时地刻画互联网应用在网络服务质量、网络体验质量的变化规律,也为在线视频会议、在线教育等业务应用的开发者提供了客观的、统一的参考依据和行业标准,从而更好地优化这些应用。”清华大学计算机科学与技术系教授任丰原表示,“OpenNetLab 为不同国家及地区的高校与科研机构进行研究和教学提供了一个良好的开放平台。研究者们可以利用该平台在真实的网络环境中评测研究结果;同时也可以在真实网络上组织与开展相关的教学实验活动。我们相信随着 OpenNetLab 平台的不断成长与壮大,将对计算机网络领域的研究和教学实践等产生变革性影响。”新加坡国立大学计算机学院计算机科学系副教授何丙胜表示,“我希望这个开放式的研究项目能产生理论和实践上的影响。我们希望利用 OpenNetLab 中的数据集来评估我们的开源机器学习系统,如用于图神经网络的 G3、用于 SVM 训练的 ThunderVM 和用于 GBDT 的 ThunderGBM,以及研究新的机器学习系统。对网络流量进行实时预测有着巨大的研究机会和影响。我期待着与 OpenNetLab 的研究人员进行更深入和更广泛的合作。” 首尔国立大学计算机科学与工程系副教授 Byung-Gon Chun 表示,“OpenNetLab 对推动网络研究将起到里程碑式的作用。检验实验室里创意想法需要有像 OpenNetLab 这样全球化的测试平台。OpenNetLab 将加速全球网络服务、协议和基础架构的研究。此外,对于广域网教学,OpenNetLab 将是巨大财富,学生们可以在这个平台上部署系统,测试他们在课堂上的想法。很高兴看到亚洲地区的研究员们齐心协力共同致力于推动网络研究,我很荣幸参与其中。”韩国科学技术院(KAIST)电气工程学院副教授 KyoungSoo Park 表示,“OpenNetLab 为未来网络和系统的创新研究提供了可能。这个全新平台让亚太地区顶尖研究者们得以相互合作,基于真实的网络测试平台开展影响深远的研究。疫情当下,无接触的社交活动致使网络作用愈加重要,该平台将有助于产生许多新的方法来解决网络计算领域的关键问题。此外,高校学生在这个基于真实网络数据的平台上测试、运行他们自己的实验性应用,将受益匪浅。我坚信,OpenNetLab 分布式网络平台让高校和研究机构的研究者们以全新的方式展开合作,将极大提升网络研究和教育的质量。”
参考资料