第四范式荣获国内首个迁移学习算法大赛冠军
2017-06-08

【2017年6月3日,北京】由前海征信主办、科赛网承办的“好信杯”大数据算法大赛落下帷幕,该赛事将赛题锁定在迁移学习方向。仅由第四范式机器学习工程师罗远飞一人组成的dandange团队利用第四范式自主研发的分布式并行计算框架GDBT,在显著减少特征工程工作量的情况下,取得了出色的模型效果。并在决赛答辩中展现了丰富的知识储备,以精湛的算法和稳定的现场表现获得大赛冠军。


据悉,该赛事历时两个月,共吸引242支队伍共600多位选手参赛,选手们共提交145份模型作品、17份算法方案,最终10支团队入围决赛。


正是看准了迁移学习的巨大潜能,本次算法大赛将迁移学习设为主题,参赛选手依据给定的4万条业务信用贷款数据及4千条现金贷数据,建立现金贷业务的信用评分模型,将信用贷款数据所获得的知识迁移到现金贷业务中。


迁移学习的核心难点在于如何发现共同点,即如果发现源数据领域A和目标领域B之间的共同特征。此次在建模中,dandange通过多任务学习、TrAdaBoost(第四范式创始人兼首席执行官戴文渊于2007年发表的《Boosting for Transfer Learning》论文中提及)等不同的方法建模,最后通过加权平均的方式对多个模型进行融合,从而提升算法的精度和稳定性。


由于特征工程和业务紧密相关,所以单纯依赖特征工程来提升建模效果的迁移学习方案并不具备可扩展性。此次dandange在减少特征工程工作量的前提下,基于GDBT平台,实现了完整的迁移学习解决方案。因该方案并未针对具体业务实施特征工程,而是更侧重于迁移学习算法的优化,使该方案有较强的可扩展性,从而让迁移学习的能力应用到不同的领域中。


与其他参赛选手使用开源工具如XGBoost不同,dandange使用的算法均基于GDBT平台。GDBT平台是第四范式针对机器学习计算任务自主设计开发的分布式并行计算框架,在计算、通讯、存储、灾备等方面针对机器学习任务进行了深入优化,兼顾了开发效率和运行效率。且随着计算能力的提升,该架构使模型的复杂度与投入的计算资源呈线性增长,与以往的架构相比,节省了大量的计算资源。


此前,第四范式联合创始人兼首席科学家杨强教授认为,迁移学习将是人工智能下一个重大技术风口之一。首先,机器学习需要在大量的数据中学习,因此数据的规模和质量非常重要。但在实际的商业及生活中,部分场景的数据样本量较小,该类场景就需要迁移学习技术实现“AI化”。其次,迁移学习可以实现可靠性强的系统处理能力,做到举一反三,融会贯通。如同我们掌握了一个知识,可以把它再推广到其他的领域中去应用。第三,未来个性化的数据愈加重要,我们面临如何能够把一个通用的系统加上个性化的小数据,迁移到不同的个性化的场景中,因此迁移学习是必不可少的工具。DeepMind创始人Demis Hassabis也曾在《经济学人》上公开表示Google正在探索迁移学习技术。


目前,第四范式在迁移学习领域保持着全球绝对领先的优势,作为迁移学习技术的全球领军者——杨强教授在迁移学习领域的单篇论文引用数世界第一,戴文渊的论文引用数世界第三,也正因如此迁移学习被新华社等权威媒体称为是“中国技术追赶发达国家的重要契机”。