位置:首页历史解密>阿里达摩院获KDD 2022最佳论文,国内企业首次获奖

阿里达摩院获KDD 2022最佳论文,国内企业首次获奖

所属分类:历史解密 编辑:机器之心Pro 访问量:3836 更新时间:2023/12/29 11:20:00

机器之心发布

机器之心编辑部

8 月 18 日,全球数据挖掘领域顶级会议 KDD 2022 大奖公布,里巴巴达摩院团队斩获应用科学方“最佳论奖”,这是中国企业首次获得该重磅奖项。

KDD(ACM SIGKDD)是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是全球录取率最低的计算机顶会之一,在知识发现、数据挖掘、人工智能等领域具有重大影响力。KDD 组委会对达摩院获奖的联邦图学习开源工作 FederatedScope-GNN 给予充分肯定,评语提到,该工作“推动了联邦图学习技术的发展,并树立了优秀平台工作的榜样”。

KDD会议分为研究应用科学两个方向,本年度共收到2448篇投稿,仅接受449篇。包括阿里巴巴、华为、腾讯、百度等多家中国科技企业均有论文被收录,其中阿里巴巴今年共34篇论文入选,是全球入选论文数量最多的企业之一,同时阿里巴巴独立获得了大会应用科学方向唯一的“最佳论文奖”。历年荣摘桂冠的包括来自谷歌、亚马逊、卡内基梅隆大学等海外知名机构的研究团队,国内企业此前从未获得该奖。

阿里巴巴达摩院获奖论文《FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning》聚焦联邦学习中应用广泛且技术复杂的联邦图学习方向,针对现有框架及算法库对图数据支持有限的情况,提出了包含丰富数据集及创新算法的易用平台,为该领域后续研究奠定坚实基础。

论文链接:https://arxiv.org/pdf/2204.05562.pdf

今年以来,阿里巴巴达摩院在全球顶级学术会议上多次荣获大奖,目前已斩获 KDD 最佳论文、ACL 杰出论文、CVPR 最佳学生论文等奖项。

值得注意的是,今年 5 月份,阿里巴巴达摩院发布新型联邦学习框架 FederatedScope,通过事件驱动的编程范式构建联邦学习,大幅降低了相关技术的开发部署难度。本次 KDD 获奖工作即为该开源项目的一部分,其关注的对象是具有复杂链接关系的图数据类型,在科学探索、知识表示、互联网、金融等科研及工业领域均有广阔应用需求。

以下为达摩院作者团队对 FederatedScope-GNN 工作的详细解读:

联邦图学习在社交、金融、科研等领域前景广阔

图(graph)是一种用于描述对象间关系的数据类型,在现实生活中无处不在。例如在互联网领域,微博等社交网络将每个用户账号视为节点(node/vertex),根据好友关系给节点连边(edge);在金融领域,银行将每个账户视为一个节点,将转账关系视为节点间的边,即两个节点间有边表示对应的两个账户间发生过转账;在自然科学领域,科学家有时候将分子描述为一个图,其中节点象征原子,边象征原子间的化学键;在知识表示领域,人们习惯于将实体表示为节点,两个实体间存在关联关系则对其建立连边。

根据场景不同,图上的任务往往分为节点级别(node-level)、连接级别(link-level)和图级别(graph-level)。例如银行在反洗钱任务中需要预测每个账户是否是风险账户,即进行节点分类,这是一个典型的节点级别的任务;社交网络中的好友推荐,是预测两个节点之间是否存在连边,所以是连接级别的任务;而分子属性预测中,目标是预测每个分子图的某种属性,所以是图级别的任务。

在图数据上的各种任务中,近年来兴起的图神经网络(graph neural networks)得到学术界和工业界的广泛关注并取得了显著的成功。这些成功一方面得益于图神经网络强大的表示能力与泛化能力,同时也受益于上述各类现实场景中图数据的收集与积累。作为一种数据驱动的机器学习方法,更充足的图数据往往能引导图神经网络得到更优秀的性能。

因此,各个机构往往具有强烈的意愿去基于各方的图数据共同训练图神经网络。例如,若干银行共同训练反洗钱模型往往能得到分类准确率更高的图神经网络(如图一所示);多个研究机构希望能融合各自拥有的知识图谱来更准确地补全缺失的知识;多家药企已经开始尝试基于大家各自拥有的分子标注联合训练用于新药发现的图神经网络。

图一:银行反洗钱场景

然而,考虑到数据隐私保护和商业竞争等因素,机构之间不能直接把原始的数据集中起来进行模型训练。如在符合监管要求,即严格保护各方数据隐私的前提下进行合作,共同训练图神经网络,成为了研究和应用的焦点。联邦图学习给出了一种可行的解法,即在 “数据可用而不可见” 的设定下,各方图数据不出域而只交互模型参数等信息来进行合作式的模型训练。

现有联邦学习框架及算法库对图数据支持有限

近年来,在全社会对隐私保护日益重视的背景下,联邦学习的研究和应用得到了长足发展。这一进步在很大程度上得益于联邦学习框架(framework)及算法库(package)的支持。这类基础设施和开箱即用的模块使得研究人员能够专注于理论和算法的创新而不需要过度关心实现的细节,同时使得工程师能高效开发、仿真、部署,大大加快了联邦学习在现实应用中的落地。具有代表性的联邦学习框架包括 Google 公司的 TensorFlow Federated (TFF)、微众银行的 FATE 等。

当前,这类框架对联邦学习中各个参与方的通信、计算图的描述和拆分调度、模型的部署与推理等一般性的基础设施均有完整丰富的支持。但是,现有联邦学习相关的框架和库对图联邦的支持相对有限,框架中提供的现成图数据集、图神经网络架构、专门针对图学习设计的联邦学习算法等也还不够全面,难以基于这些已有工作去建立联邦图学习的基准。这导致当前流行的若干联邦优化算法工作和广泛采用的基准,如 LEAF,更多地关注视觉和自然语言领域的基准,但是尚缺少对图神经网络在图数据上的性能评估。

而且,针对图数据的联邦学习算法有别于规算法简单的聚合行为,对算法实现提出了更多要求。一方面是参与者间交换的数据更多种多样,比如近期发表的 FedSage + 算法需要在参与者间交换节点的嵌入式表示以及一个关于邻居特征的生成模型。同时,更多样的信息交换导致各个参与者需要有更丰富的行为去处理收到的信息,例如 GCFL + 算法中 server 需要动态地对收集到的梯度进行聚类操作。现有框架大多以中心化的视角,让开发者以声明式的编程范式描述计算图来表达算法流程。这种方式虽然适用于实现常规的联邦学习算法(例如 FedAvg),却对实现上述联邦图学习算法带来了较高的开发门槛。

在这个背景下,学术界和工业界都对一款功能全面且对实现联邦图学习算法友好的框架具有强烈需求。

FederatedScope-GNN:为联邦图学习建立丰富基准

为了更好地满足上述需求,阿里巴巴达摩院智能计算实验室提出并基于联邦学习框架 FederatedScope 实现了针对图学习的库 FederatedScope-GNN,并以此工作形成了本次获奖论文《FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning》。

FederatedScope-GNN 针对图学习提供了 DataZoo 和 ModelZoo,分别为用户提供了丰富多样的联邦图数据集和相应的模型与算法。DataZoo 既包含若干新引入的数据集,也实现了大量不同类型的 splitters,用于通过单机图数据集来构造联邦图数据集。DataZoo 提供的大量数据集涵盖了不同领域、不同任务类型、不同统计异质性的联邦图数据,大大方便了使用者对所关注算法进行全面的评估。

ModelZoo 提供了丰富的图神经网络实现,既包含传统的 GCN、GIN、GAT、GraphSage 等架构,也提供了最新的 GPRGNN 等拆分了特征变换与消息传播的架构。同时,ModelZoo 也包含了像 FedSage + 和 GCFL + 这样最新的联邦图学习算法的实现。其中,得益于底层框架事件驱动(event-driven)的编程范式,参与者间多样的消息交换和参与者丰富的行为得以模块化地进行拆分实现(如图二所示)。ModelZoo 给研究人员复现相关工作以及建立新的基准带来了更多便利。

图二:基于事件驱动的底层框架 FederatedScope 来实现联邦图学习算法 FedSage+。

与此同时,针对联邦图学习对超参数敏感的现象,FederatedScope-GNN 还实现了模型调优 (model tuning) 相关的模块,包括多保真度的 Successive Halving Algorithm 和新近提出的联邦超参优化算法 FedEx,以及针对联邦异质任务的个性化(如图三所示,各个参与者被允许使用独立的特有神经架构而只聚合学习共享部分)。考虑到诸如 FedSage + 这类联邦图学习算法交换节点嵌入式表示等信息的特点,FederatedScope-GNN 提供了丰富的隐私评估算法对算法在隐私保护方面的能力进行检验。

图三:一个个性化图神经网络的示例,其中各参与方仅共享模型的一部分参数。

基于上述功能和特性,该获奖论文建立了全面丰富的关于联邦图学习的基准,包含不同图上任务、不同图神经网络架构、不同的联邦优化算法等,为该领域后续的研究奠定了坚实基础。同时,关于联邦设定下对图神经网络训练进行超参优化的实验,展示了对不同保真度维度进行权衡的潜在优势;关于个性化的实验,展示了应对各参与方同配度差异的有效性。

联邦学习下图数据补全值得关注

FederatedScope-GNN 给相关领域的研究和应用带来了极大的便利,其对应论文的获奖不仅反映了各位相关专家学者对这一工作的肯定,同时也体现了学界对联邦图学习领域未来长足发展的期冀。

一个值得指出且被广泛注意的研究方向是在保护好各参与方隐私的前提下,关注各参与方如何对其图数据进行补全,使得图神经网络能基于完整图结构进行消息传播。FederatedScope-GNN 所提供的功能和特性将支持研究与开发人员开展更多的相关研究、落地更多的实际应用。

论文作者简介

第一作者

桢,阿里巴巴达摩院智能计算实验室算法专家。2017 年博士毕业于中山大学数据科学与计算机学院,读博期间以一作身份发表知识图谱补全算法 TransH,单篇引用量超 2500 次。毕业后加入阿里巴巴,曾任阿里云高级算法工程师,专注于强化学习方向。在达摩院工作期间,致力于联邦图学习等领域前沿研究,多次在 KDD Cup 比赛中取得高排名成绩,发表多篇国际顶级会议论文,并作为核心设计与开发人员参与开源 FederatedScope 平台。

通讯作者

雅亮,阿里巴巴达摩院智能计算实验室高级算法专家,2017 年于纽约州立大学布法罗分校计算机科学与工程系取得博士学位。研究领域包括数据融合、因果推断、自动机器学习、隐私计算,研究成果发表于 KDD、ACL、SIGIR、NeurIPS、WWW、TKDE 等多个领域的顶尖国际会议与期刊。他担任了 NeurIPS'21、NeurIPS'22、AAAI'22 的领域主席,在 IJCAI 和 NeurIPS 上三次组织 workshop,在 CIKM'22 上组织了 AnalytiCup 比赛,并在 KDD、AAAI 上多次做了 Tutorial。

北京时间8月22日20:30-21:30,本文作者王桢将在机器之心视频号线上解读此研究,感兴趣的读者可以关注视频号观看直播。

标签: 论文达摩院数据挖掘算法kdd

更多文章

  • 达摩身上谜团太多,他究竟是多少岁圆寂的?至今也争论不休!

    历史解密编辑:文史鉴赏观标签:佛法,般若,佛教,梁武帝,小说家,菩提达摩

    公元5世纪在古印度,佛教诞生了,印度佛法对于人的命运有着不同的见解,认为每个人当下的行为,善或者恶都会对未来的命运产生影响,这种禅宗思想在中华大地也得到极大的认同。因此,印度佛教在进入中华大地之后,受到大部分人的接受,特别是二入四行,这是达摩禅法的核心内容,对中华民族有着重大的思想影响,将这禅法引入

  • 一位前达摩院员工的自白:达摩院为什么“放弃”自动驾驶?

    历史解密编辑:汽车十三行标签:马云,达摩院,智能驾驶,国际标准,互联网公司,自动驾驶技术

    2017年10月,马云用富有诗意的名字明阿里研究院为“达摩院”,他希望用自己对武侠的爱好修炼阿里,让阿里从一家“互联网公司”进化成一家“科技公司”。马云对达摩院提出三个要求:“活得比阿里巴巴长;服务全世界至少20亿人口;必须面向未来、用科技解决未来的问题”。现在看,马云对达摩院的第一个期望已经开始瓦

  • 阿里巴巴达摩院,一专家被裁员了,裁员当下拿了是30多万的补偿金

    历史解密编辑:点滴娱综标签:裁员,月供,补偿金,阿里巴巴集团,阿里巴巴达摩院

    高薪高脆弱。阿里巴巴达摩院,一个专家被裁员了,裁员当下拿了是30多万的补偿金。它被裁员之后,短期内没有找到更好的工作。于是它给杭州市的市长写了一封信。在这封信里面表达了自己的焦虑感。他毕业的浙江大学,然后在达摩院干了很长的时间,他18年的时候买了一套房,月供大概是3万多块钱,而且是签了30年的房贷,

  • 张宇新作《呼吸》:用最平常的话说明白达摩

    历史解密编辑:东风新闻标签:张宇,呼吸,方丈,佛学,庄子,少林寺,小说家,菩提达摩,华语音乐,华语歌手,星云大师

    与袁振洋执导的香港电影《达摩祖师》相比,张宇新作、达摩传记小说《呼吸》没有以宫斗之类的戏剧冲突来吸引读者,而是将达摩的多个人生波澜在一呼一吸之间自然化解。与道家学派创始人老子的西出函谷关“莫知其所踪”相比,达摩少室山中九年面壁,熊耳山下活死人墓,只履西归绝迹江湖,同样是“事了拂衣去,深藏功与名”。作

  • 王者荣耀达摩,就算被白起肉到,依旧强势对抗

    历史解密编辑:枝桠游戏说标签:白起,刘备,刘邦,达摩,李白,王者荣耀,艾琳,腾讯游戏,网络游戏,战略游戏,天美工作室群游戏

    经上次一役,对面直接换线,不是,白起你怎么还在这,直接上墙二技能破甲,不是吧,我五层破甲打满你还有600的护甲,刘备来了,只能击飞两人,双双抬走,哎,守约又上来了,还想狙我?说实话打守约比打白起容易多了,我来了你还敢收塔?交不交大招?好,一套组合拳带走。怎么这么多人,救我,闪现!一技能,骗出白起大招

  • 纽约大学教授达摩达兰警告:还会有更多美国银行如“多米诺骨牌”般倒下

    历史解密编辑:海外网标签:存款,银行业,达摩达兰,美国银行,纽约大学,硅谷银行,多米诺骨牌

    中国日报网5月8日电 由3月份硅谷银行倒闭引发的银行业危机尚未结束,几家地区银行正面临大量恐慌性提款和股价暴跌的压力。就在几天前,美国第一共和国银行倒闭,被摩根大通收购。估值大师、纽约大学金融学教授阿斯沃斯·达摩达兰5月6日表示,还会有更多美国银行如“多米诺骨牌”般倒下,但相比于对其他行业的影响,这

  • 杀死灰鲸,口吞大白鲨的虎鲸没有天敌,却最怕半米长的达摩鲨

    历史解密编辑:度婉容说动物标签:虎鲸,海豚,灰鲸,鲨鱼,捕食,鼠鲨,大白鲨,达摩鲨,水生动物

    2017年5月3日,南非开普省度假区的海滩上,一条长约5米,体重超过一吨的大白鲨尸体被冲上海滩,苍白的身体上只有一个外科手术般精准的伤口,位于胸鳍根部,海洋动物学家们经过检查后震惊了,因为整条鲨鱼什么都不缺,唯独少了肝脏!此后几天又有几条鲨鱼身体被冲上海滩,第二条鲨长3.4米,身体侧面撕裂了一个大口

  • 福建龙眼木雕,持经达摩

    历史解密编辑:闲适斋标签:木雕,龙眼,达摩,佛像,福建

    龙眼木|持经达摩规格:19*15*54cm龙眼木雕发源于福建,因其使用的雕刻材料是福建盛产的龙眼木而得名。龙眼木雕是用天然长成的龙眼木雕刻而出名。龙眼木的材质坚硬,而且木质纹理非常细腻,色泽也是比较柔和的,雕刻成木雕工艺品之后,非常具有艺术美感。是中国木雕艺术中,独具特色风格的汉族传统工艺品,也是福

  • 钢企头上的“达摩克利斯之剑”

    历史解密编辑:金融界标签:钢企,钢厂,钢材,钢铁行业,达摩克利斯之剑

    行业数据据国家统计局数据显示,2022年1-11月,黑色金属冶炼和压延加工业实现营业收入79836.6亿元,同比下降9.8%;营业成本76444.0亿元,同比下降5.5%;实现利润总额229.2亿元,同比下降94.5%。兰格点评11月份,虽然焦炭价格有所下滑,但铁矿石和废钢价格明显上涨,从而带动了整

  • 账面自动驾驶:新势力头顶高悬的达摩克里斯之剑

    历史解密编辑:智车科技标签:自动驾驶,智能驾驶,新势力,汽车,雷达

    饱受车祸事件困扰的2021~20222021年8月12日,福建企业家林文钦(昵称“萌剑客”),驾驶蔚来ES8汽车启用NOP领航辅助后,在沈海高速涵江段发生交通事故。时隔整整一年的2022年8月11日,宁波一辆小鹏P7在辅助驾驶状态下,在某高架桥路段撞向前方故障车辆,导致一名疑似正在处理事故的人员被撞