数据采集后,如果记录数较大,可以对数据进行抽样,以减少样本含量,通常还需要对数据集进行分区,将样本进一步分为训练样本、测试样本和(或)验证样本。本例先对从“数据采集”超节点输出的数据集进行抽样,抽样比例为20% ,再对抽样后的数据集对半分为训练样本和测试样本。由于数据集中“费别”为1的记录数仅为“费别”为2的记录数的1 / 4 ,因此,分区后,训练样本中“费别”为1的记录数也只有“费别”为2的数据集的1 / 4 。假定后续分析需要训练样本和测试样本有大致相同的样本含量,故对分区后的数据集进行平衡处理,平衡 ......