权威医学专著速查系统

(三)数据记录处理

数据采集后,如果记录数较大,可以对数据进行抽样,以减少样本含量,通常还需要对数据集进行分区,将样本进一步分为训练样本、测试样本和(或)验证样本。本例先对从“数据采集”超节点输出的数据集进行抽样,抽样比例为20% ,再对抽样后的数据集对半分为训练样本和测试样本。由于数据集中“费别”为1的记录数仅为“费别”为2的记录数的1 / 4 ,因此,分区后,训练样本中“费别”为1的记录数也只有“费别”为2的数据集的1 / 4 。假定后续分析需要训练样本和测试样本有大致相同的样本含量,故对分区后的数据集进行平衡处理,平衡 ......

——《医学科学研究与设计》
书名:《医学科学研究与设计》
栏目:医学科学研究与设计 > 第七章 医学科学研究数据管理 > 第二节 数据处理 > 三、Clementine数据处理功能实例
作者:孙振球
参编:曾小敏,曾小敏,马骏,黄鹏,熊国强
页码:168-172
版本:1
出版社:人民卫生出版社
出版时间:2008-08-01
© 2015-2019 天山医学院 XiaBBY#VIP.QQ.COM