作为全球优秀科技青年的沟通桥梁,剑桥国际青年学术论坛围绕人工智能、光电信息技术、新能源、生物医药等全球应用广阔的新兴技术展开,邀请了英国皇家工程院院士David Cardwell、中科院外籍院士王中林以及来自哈佛大学、帝国理工、诺丁汉大学、清华大学等高校极具影响力的教授学者与学术代表汇聚一堂,共话技术革新,吸引全球数千名学者观看讨论。
近日,以“技术革新,十年可期”为主题的首届剑桥国际青年学术论坛开幕。第四范式、华为、Google DeepMind作为仅有的三家AI企业代表,分享了AI领域最新的学术成果及前沿趋势。其中,第四范式副总裁、主任科学家涂威威发表了题为Towards AI for Everyone的主题演讲,并详细介绍了第四范式在推动人工智能应用普及过程中的思考与实践。
涂威威观察到,近年来,机器学习在推荐系统、在线广告、金融市场分析、计算机视觉、语言学、生物信息学等领域都取得了成功。但其背后,顶尖的机器学习专家团队参与了包括定义问题、收集数据、数据预处理、特征工程、选择或设计模型架构、调整模型超参数、性能评估等机器学习的所有阶段。极高的技术门槛、人才匮乏、专家经验难以复制、高成本投入等因素成为阻碍AI在各领域落地的“绊脚石”。
为了推动机器学习技术在更广泛的场景得以应用,AutoML(自动机器学习)成为了学术界和工业界的研究重点。其目的是将机器学习过程自动化,以低门槛的形式实现AI构建和应用。而真正让AutoML从学术走向应用,解决真实业务场景需求,则需要从性能、效率等方面着手,提高模型精度与计算效率,降低计算成本,扩展AutoML应用范围。
目前,以Google为首的AutoML主要以非结构化数据自动化技术为研究方向,覆盖了语音、图像、文本、NLP等领域。事实上,表数据等结构化数据在AutoML应用方面同样具有广阔应用范围,并带来了极高的业务价值。且随着业务需求的飞速发展与急速扩张,半结构化数据(异构信息网络、知识图谱等)也在AutoML技术探索应用中占据一席之地。
现如今,AutoML算法层出不穷,AI头部公司以及研究机构都将其列为重要研究方向。第四范式已实现结构化数据(自动特征组合、自动时序特征、自动半监督学习等)、半结构化数据、非结构化数据(AutoCV、AutoSpeech、AutoNLP等)、自动决策优化(AutoRL、AutoDFO等)的AutoML算法全覆盖。然而,在实际落地中,算法只是其中一环,解决业务问题,还面临数据、模型应用系统等诸多挑战。以数据为例,仅依靠高质量标注数据远远不够,离线数据分析时数据不一致,也会极大影响算法效果。此外,AutoML技术在落地过程中还需进一步解决多目标优化、可解释性等问题。
在涂威威看来,人机结合的交互式AutoML能有效解决上述挑战,正在成为AutoML落地的新路径。该理念采取人与机器协作的方式优化目标与配置空间,各自负责擅长的领域,通过人的少量辅助提高AutoML在业务应用的效果和落地效率。具体来说,企业业务人员基于业务经验定义问题,设定目标,使AutoML始终朝向效果提升的方向迭代。机器则负责计算,算出特定目标下的较优配置选择。这样的组合可以使AutoML快速高效应用于各业务场景中。
在计算效率方面,除了提升配置优化算法效率以外,还需要在底层计算架构上进行深度优化,其原因在于目前主流计算框架(如 Tensorflow、PyTorch 等)只为单次机器学习模型训练优化,而非针对AutoML重复迭代的计算方式所优化,这影响了AutoML在主流计算框架的计算效率。第四范式则为AutoML设计了专属的底层计算架构,对多次模型学习提供了配置评估和横向、纵向的动态计算,同时在参数上探索共享计算,只用增加单次模型学习60%左右的计算代价,就可获得数十次的配置评估,极大提高了计算效率。此外,算法与底层硬件的深度融合同样重要,需从在计算、存储、网络、调度等方面进行软硬一体化设计,进一步降低AI算力投入。
通过持续不断的研究和投入,第四范式已覆盖了多方向的AutoML算法研究,并在效率、泛化性、动态环境AutoML、安全性、可解释性等方面取得了突破。未来,第四范式还将从学术、应用两个角度出发,在算法层面有更深层次研究的同时,更好地解决数据治理、模型应用等AutoML上下游问题,推动技术在更多行业、更多场景中落地应用。