数据集成组件 汇总节点是对记录(行)进行操作的节点,作用是对各字段进行 于> 加总、合计、取均值等操作,在处理汇总操作后可以增加新的字 段,但是在汇总之前要对记录进行预处理,将缺失值进行处理, 否则对汇总结果造成影响,最终分析结论产生较大误差 合并节点的作用是合并多个输入数据,并输出包含某些关 键字段数据的输出。合并节点被广泛使用在不同数据源的合并 和集成,避免重复数据。 追加节点是将一个源中的数据传递到下游流程中,作用是连接 各组记录,合并类似结构的数据,所以各源的字段类型需要 致,即分类类别无法追加到连续字段中。如果是数据结构不同 的数据集,则没太大作用
议程数据集成组件 汇总节点是对记录(行)进行操作的节点,作用是对各字段进行 加总、合计、取均值等操作,在处理汇总操作后可以增加新的字 段,但是在汇总之前要对记录进行预处理,将缺失值进行处理, 否则对汇总结果造成影响,最终分析结论产生较大误差。 合并节点的作用是合并多个输入数据,并输出包含某些关 键字段数据的输出。合并节点被广泛使用在不同数据源的合并 和集成,避免重复数据。 追加节点是将一个源中的数据传递到下游流程中,作用是连接 各组记录,合并类似结构的数据,所以各源的字段类型需要一 致,即分类类别无法追加到连续字段中。如果是数据结构不同 的数据集,则没太大作用
数据选择组件 数据选择得到数据集的简化表示。它可以用来得到数据集的简化表示,虽 然数据容量上小得多,但是能够保持数据的完整性,规避数据冗余,并产 生同样的分析效果
议程数据选择组件 • 数据选择得到数据集的简化表示。它可以用来得到数据集的简化表示,虽 然数据容量上小得多,但是能够保持数据的完整性,规避数据冗余,并产 生同样的分析效果
数据选择组件 选择节点可以从一些数据库(或数据流)中,根据特定的某个 条件,选择出一些符合特定要求的数据,独立地呈现在输出中 。选择条件可以用CLEM进行指定,在窗口中可以输入函数 来选择符合条件的数据。 样本节点可对庞大的数据进行抽样,用于提高计算性能和选择 对应数据进行专门地分析,以此提高效率。其优势是在条件允 许的情况下,对抽样样本评估可以提髙运行效率;可以选择特 定的记录或者交易组进行分析,例如,对偏离值分析,或者对 购物车的分析;可以对指定数据或者观测值进行随机数据分析
议程数据选择组件 选择节点可以从一些数据库(或数据流)中,根据特定的某个 条件,选择出一些符合特定要求的数据,独立地呈现在输出中 。选择条件可以用CLEM进行指定,在窗口中可以输入函数, 来选择符合条件的数据。 样本节点可对庞大的数据进行抽样,用于提高计算性能和选择 对应数据进行专门地分析,以此提高效率。其优势是在条件允 许的情况下,对抽样样本评估可以提高运行效率;可以选择特 定的记录或者交易组进行分析,例如,对偏离值分析,或者对 购物车的分析;可以对指定数据或者观测值进行随机数据分析
数据变换组件 在数据预处理中,数据通常被变换或者统一格式,使挖掘过程耗费时间更 短,更有效,更精确。通常,数据变换的方式有以下几种:光滑、构造特 征、聚集、规范化、分门别类
议程数据变换组件 • 在数据预处理中,数据通常被变换或者统一格式,使挖掘过程耗费时间更 短,更有效,更精确。通常,数据变换的方式有以下几种:光滑、构造特 征、聚集、规范化、分门别类
数据变换组件 类型节点是非常重要的节点,其作用是对指定的字段元数据和 相应的属性进行更改,可以对数据的测量级别和属性,进行过 滤、修改,此外还可以设置控制选项、字段建模、制定标签、 指定值等 平衡节点主要针对数据特别分散的数据,可以遵循指定的系数 条件,调整数据不集中的比例。平衡是通过复制记录或随机删 除的方法来实现的,所以每次运行其结果集并不固定。一般情 况下要选中“仅平衡训练数据”,特别是在遇到不平衡检验或 验证分区得分时,当然,如果流中不存在分区字段,则此选项 无效
议程数据变换组件 类型节点是非常重要的节点,其作用是对指定的字段元数据和 相应的属性进行更改,可以对数据的测量级别和属性,进行过 滤、修改,此外还可以设置控制选项、字段建模、制定标签、 指定值等。 平衡节点主要针对数据特别分散的数据,可以遵循指定的系数 条件,调整数据不集中的比例。平衡是通过复制记录或随机删 除的方法来实现的,所以每次运行其结果集并不固定。一般情 况下要选中“仅平衡训练数据”,特别是在遇到不平衡检验或 验证分区得分时,当然,如果流中不存在分区字段,则此选项 无效