【解决办法】
基于森林的分类训练算子是基于Spark ML实现的。所以依赖于Spark环境,编程数据模型为FeatureRDD。
1、数据集可以是点数据集或属性表数据集。
2、连接方式不能填写,需要接入“读取矢量数据集”算子,填写连接参数,结果featureRDD作为分类训练算子的数据集输入参数。
3、Spark环境可以用默认local模式,也可以用自己搭建的Spark集群。
注:训练数据集过大或解释字段过多,可能local模式默认的内存资源不足导致训练失败。需要调优 Spark的driver和excutor进程的内存资源分配。