基因表达谱数据最大的一个特点是样本(观测)较少,而变量(基因)非常多。通常这些基因只有少部分是对分析结果起作用的,大部分基因是无意义的。因此首先应对数据进行降维,即从众多变量当中选择出对分类有作用的少数变量,筛选出差异表达基因。差异表达基因就是在若干实验组中表达水平有统计学差异的基因,有的文献也称之为“显著性基因(或有统计学意义基因)”。针对COLON数据,根据已有疾病分类信息,对2000个基因进行初步筛选,保留对结果影响较为有意义的几十个基因。专业结论:初步筛选,得出对结果有一定意义的30个基因,利用这 ......