第四范式陈雨强:提高机器学习维度的两大法宝

2017.5.27

2017年5月27日,由人工智能顶尖媒体“机器之心”主办的2017全球机器智能峰会(GMIS 2017)在京正式召开。大会邀请了来自中、美、欧等众多顶级专家参会,以专业化及全球化的视角为该领域的从业者及爱好者奉上了一场人工智能盛宴。第四范式联合创始人、首席研究科学家陈雨强受邀出席,并发表了主题演讲、分享了机器学习在工业界应用发展的新思考。

陈雨强认为,过去五年,人工智能在工业界的火热程度正以指数的方式增长,而“VC维”便是衡量人工智能应用水平的关键。VC维理论是由Vapnik和Chervonenkis于1960年代至1990年代建立的统计学习理论,它反映了函数集的学习能力——VC维越大则模型或函数越复杂,学习能力就越强。举个例子,如果人类的智商水平可以用大脑的脑细胞数来衡量,那么机器的智商水平就可以用VC维来衡量,即超高智商的人工智能,需要超高维度的机器学习模型来实现。

陈雨强表示,第四范式在提高模型维度方面可谓下足了功夫,高维度模型在实际应用中的效果亦十分出众。以第四范式与某银行信用卡中心的合作案例为例,该银行需要通过数据精准识别出所有客户当中的信用卡账单分期客户。在短短两个月内,经过第四范式和卡中心的共同努力,该信用卡账单分期模型从此前的两百多维,提升至“五千万维”,使账单分期推荐短信的响应率提升了68%,卡中心的账单分期手续费提升61%。取得如此显著的效果,陈雨强为与会者解密了第四范式的机器学习产品前瞻的研发思路。

打造深度稀疏网络(DSN),兼顾“宽”与“深”的算法

众所周知,机器学习包含数据、特征、模型三个方面。特征分为宏观(描述的统计类特征)、微观(如个性化ID特征)两类,模型也分为简单、复杂两类。在数据足够充足的情况下,沿着模型优化和特征优化的两条路径切入,可以有效地提高机器学习的模型维度。

沿着模型优化——即走 “深”的路径是由学术界主导,优化模型的科学家们为了方便实验,降低了工程实现能力的要求,大部分模型可单机加载。工业界在按照该思路优化时,往往采用观察数据、找到规律、根据规律做模型假设、对模型假设中的参数用数据拟合、将拟合的结果上线测试等步骤。这条路径需要解决数据分布式以及通讯overhead等问题。

沿着特征优化——即走“宽”的路径是由工业界主导,无论是模型还是算法,均采取分布式的策略,在保证高效分布式的同时兼顾快速收敛。针对具体问题,采用较为成熟的线性模型,将观察到的所有微观特征进行建模。该优化路径的模型简单粗暴,且对工程挑战极大。

两种路径在工业界都有非常成功的应用案例,但双方的劣势同样明显。崇尚“宽”路径的阵营认为深度模型在某些问题上从来没有发挥出数据的全部价值,离真正的个性化尚有差距;而宽度模型则在推理能力上略逊一筹。

Deep Model与DSN对比

Deep Model与DSN对比

近年来,宽与深的结合已经逐渐成为一个研究热点。2016年6月,Google研究院发表论文称,正在研发Wide&Deep Model,并表示其在搜索、广告与推荐等领域均十分有效。同年7月,第四范式发布了新一代的模型算法——深度稀疏网络DSN(Deep Sparse Network)。Wide&Deep Model利用深度窄网络刻画宏观特征之间的关系,利用宽度浅层网络记忆微观特征,但无法刻画微观特征之间的复杂关系,由于Wide&Deep Model将“宽”和“深”分离,导致微观和宏观特征之间的关系也无法刻画。与Wide&Deep Model不同,第四范式的DSN将“宽”和“深”做了更全面的融合,算法底层是上千亿大小的宽度网络,上层是一个全连接的网络,这样既可以记住更多信息,又能刻画所有特征(包括宏观特征和微观特征)之间更复杂的关系。在参数规模上,Wide&Deep Model支持的参数规模为十亿级, DSN支持的参数规模已达到十万亿级,模型“VC维”更高,这意味着随着数据量的增大,模型效果有更大的提升空间。

重塑大规模分布式机器学习系统架构,兼顾开发和执行的效率

在工业界应用中,由于模型维度的增加,对机器学习的系统架构提出了更高的要求。

第一,由于功率墙(Power Wall,即芯片密度不能无限增长)和延迟墙(Latency Wall,即受光速限制,芯片规模和时钟频率不能无限增长)的限制,摩尔定律正在慢慢失效。目前,提升计算能力的方式主要是依靠并行计算,从早期的以降低执行延迟为主到现在的以提升吞吐量为主。在模型训练的高性能计算要求下,单机在I/O、存储、计算等方面显得力不从心。因此,第四范式针对此问题设计了分布式并行化的机器学习模型训练系统。

Power Wall,功耗随着集成电路密度指数提升

Power Wall,功耗随着集成电路密度指数提升

第二,在机器学习的领域中,一个著名的定理叫No Free Lunch(Wolpert和Macready于1997年提出),是指任意算法(包括随机算法)在所有问题上的期望性能一样,不存在通用的算法,因此需要针对不同的实际问题,研发出不同的机器学习算法。这对于机器学习计算框架的开发效率要求极高。

典型的机器学习建模过程

典型的机器学习建模过程

第三,在面对实际问题时,需要对数据、特征表达、模型、模型参数等进行多种尝试,且每一次尝试,都需要单独做模型训练。所以,模型训练是整个机器学习建模过程中被重复执行最多的模块,执行效率也就成为了重中之重。

机器学习核心系统对计算资源的需求对比

机器学习核心系统对计算资源的需求对比

除此之外,由于对计算问题、计算模式和计算资源的需求都有所不同,因此在所有问题上,没有最好的架构,只有最适合实际问题的架构。针对机器学习任务的特性进行框架设计才能更有效地解决大规模机器学习模型训练的计算问题。第四范式的机器学习系统兼顾了开发效率和执行效率,具备高效、智能、易开发、易部署、易运维、易扩展、覆盖场景广泛等优势,且随着计算能力的提升,该架构使模型的复杂度与投入的计算资源呈线性增长,与以往的架构相比,节省了大量的计算资源。

在通过技术层面提高模型维度的同时,第四范式也在积极降低机器学习的使用门槛,让更多的技术、业务等非专业建模人员能够使用机器学习,建立适合各个业务的高维模型。陈雨强介绍说,2017年初,第四范式内部举行了全球首个面向非专业人士的机器学习建模比赛——“一颗赛艇建模大赛”。所有参赛选手均由第四范式内部行政、人事、市场、商务等非机器学习专业的员工构成。比赛结果按照参赛选手所建模型的AUC(笔者注:AUC是衡量模型准确度的专业指标,取值在0到1之间)指标衡量。以往,专业数据科学家的建模AUC在0.8以上。通过两周的简单培训,有70%的“业余”参赛选手的模型AUC达到了0.8以上的优异成绩。值得一提的是,在内部建模比赛之后,第四范式创立了“范式大学”人才培养计划,通过培养非专业人士利用“第四范式先知”建模,“批量生产”数据科学家,进一步解决AI人才高门槛的问题。