supportFAQ

一站式入门指导 提供最佳实践

One - Stop Guide for Beginners
Best Practice for Users

  • “第四范式先知”平台对上传的数据有大小限制吗?

    目前对用户单次上传数据的是没有大小限制的,但是管理员可以在后台管理中分配各个用户存储空间的大小。若用...

    目前对用户单次上传数据的是没有大小限制的,但是管理员可以在后台管理中分配各个用户存储空间的大小。若用户上传的数据大于这个限制,那么将会上传失败。

  • 通过本地上传的数据一定要有列名称吗?

    上传的数据没有要求必须包含字段名,但是如果数据的首行存放了字段名,则必须要予以声明。

    上传的数据没有要求必须包含字段名,但是如果数据的首行存放了字段名,则必须要予以声明。

  • “第四范式先知”是否支持用户自定义时间运行计划?

    支持,我们可以通过修改任意一个计划的DAG图右侧的计划属性,将计划的运行方式设为自动运行,然后指定计...

    支持,我们可以通过修改任意一个计划的DAG图右侧的计划属性,将计划的运行方式设为自动运行,然后指定计划运行的周期、开始时间、结束时间。

  • “第四范式先知”是否支持单任务运行或部分任务运行?

    “第四范式先知”平台目前支持单任务运行,同时也支持运行到当前任务、从当前任务开始运行这2种部分任务运...

    “第四范式先知”平台目前支持单任务运行,同时也支持运行到当前任务、从当前任务开始运行这2种部分任务运行的方式。选中任意算子后,右键即可选择运行的方式。

  • 当出现算子运行失败的情况该怎么查看日志?

    算子的日志分为DAG图前端日志和任务运行日志,通常任务失败后可以通过查看日志来获取一些信息。有些算子...

    算子的日志分为DAG图前端日志和任务运行日志,通常任务失败后可以通过查看日志来获取一些信息。有些算子在运行时会拆分为多个任务提交运行,因此会针对不同的任务产生多份application日志。如果存在多个log日志,请从后往前(不包括node日志)查看并定位问题。

  • 模型训练会产生上亿特征,为什么会有这么多?

    上亿特征主要是通过三个途径产生的:
    1)使用精细到ID级的特征,比如每个内容...

    上亿特征主要是通过三个途径产生的:
    1)使用精细到ID级的特征,比如每个内容ID、每个用户ID都会作为特征,这样模型就有对每个内容、每个用户的个性化分类、排序、识别的能力;
    2)组合特征,比如说用户的手机机型有10种,推荐的新闻有10万个,那么所有的手机机型组合上新闻ID就会产生100万个特征;这种组合特征可以使模型能够判断拥有不同手机机型的用户对新闻的不同偏好;
    连续型特征的分桶,比如已知价格是一个很重要的特征,但是购买率和价格的关系是非线性的,直接用价格作为特征就相当于用一条直线来拟合这个非线性函数,效果会打折;把价格分成100段,每一段做特征,通过一个分段非常细的折线来拟合,就能达到更好的效果。

  • 特征组合是一种什么样的组合方式?

    特征组合是一种加强特征描述能力,提升个性化预测效果的方法。比如一个模型有两个特征,一个特征是新闻类型...

    特征组合是一种加强特征描述能力,提升个性化预测效果的方法。比如一个模型有两个特征,一个特征是新闻类型,另一个特征是用户ID。现在只用新闻类型和用户ID做特征,那么模型会学到对于不同新闻类型和不同用户ID对当前预测点击率的影响。但是这个模型存在缺陷,就是模型对新闻类型的影响是在整体数据上的。显然,每个用户在新闻类型上的偏好和影响是不一样的。因此加入一个组合特征:新闻类型 x 用户ID。这样对于每个用户,只要数据足够多,就能让模型学习到该用户对于不同新闻的偏好,从而使模型的个性化预测能力得到提高。

  • 什么样的数据适合通过本地进行上传?

    相对较小的数据文件,即小于1GB的数据比较适合通过“本地文件”来上传;大于1GB的数据建议通过“HD...

    相对较小的数据文件,即小于1GB的数据比较适合通过“本地文件”来上传;大于1GB的数据建议通过“HDFS数据源”来引入。

  • 为什么数据会出现上传失败的情况?

    可以按照下列几种情况来确认上传失败的原因,如果依然无法确认原因,请联系管理员:
    ...

    可以按照下列几种情况来确认上传失败的原因,如果依然无法确认原因,请联系管理员:
    1)如果引入的是“HDFS数据源”,并且输入的HDFS路径不是末级目录,即目录下还包含其他子目录,那么该数据会引入失败;
    2)与“第四范式先知”建模平台进行交互的Hadoop集群可能出现了异常;
    3)“第四范式先知”建模平台与相交互的hadoop集群之间的网络通信可能出现了异常。

  • “第四范式先知”DAG图中算子之间的连接标准是什么?

    算子之间是否可以连接,是由上游算子的输出文件类型和下游算子的输入文件类型来共同决定的。比如特征抽取算...

    算子之间是否可以连接,是由上游算子的输出文件类型和下游算子的输入文件类型来共同决定的。比如特征抽取算子的输出文件类型为样本表,那么特征抽取算子下游可连接的算子就会是特征重要性分析以及其它各种算法。

  • A项目内训练的模型怎么才能运用到B项目?

    可以将A项目内训练好的模型通过右键,选择”导出到我的模型“中,此时这份模型会被复制到“我的模型”空间...

    可以将A项目内训练好的模型通过右键,选择”导出到我的模型“中,此时这份模型会被复制到“我的模型”空间中;当需要在B项目内使用该模型时,只需进入B项目中的”项目模型“内,添加之前导出的该模型即可。

  • K-Means运行失败是什么原因造成的?

    “第四范式先知”2.4版本的聚类分析目前只能处理连续型数据。若输入的数据中包含较多离散型数据,并且连...

    “第四范式先知”2.4版本的聚类分析目前只能处理连续型数据。若输入的数据中包含较多离散型数据,并且连续型数据的类别小于设置的聚类中心数K时,会导致运行失败。

  • 模型训练使用这么多特征究竟有什么好处?

    使用的特征数量代表模型对数据中包含的对于目标有价值的信息的维度。维度越高,模型包含的信息就越多,预测...

    使用的特征数量代表模型对数据中包含的对于目标有价值的信息的维度。维度越高,模型包含的信息就越多,预测的能力就越强,个性化能力就越好。通过不断加入特征,就可以获得越来越多的信息,从而让模型的预测越来越准确。

  • 组合特征应该如何实现特征的组合?

    1)选取业务上具有意义的组合,比如用户ID x 新闻类型;
    2)组合特征的层...

    1)选取业务上具有意义的组合,比如用户ID x 新闻类型;
    2)组合特征的层次化,比如构造 新闻信息 x 用户信息 的组合时,最细粒度是新闻ID x 用户ID,但是这个特征的泛化能力比较弱,所以应当逐渐构造更粗粒度的 TagScore x 用户ID -> 新闻ID x UserTagScore -> TagScore x UserTagScore -> Catgory_ID x 用户ID;又比如构造 IP地址 x 新闻信息 的特征时,逐步用3级IP地址到2级地址再到1级地址去组合。