聚类算法主要包括有:分割算法(如k均值聚类、SOM聚类等)、分层算法(如层次聚类等)、基于密度算法、基于网格算法等。这里主要介绍基因芯片数据中常用的层次聚类、k均值聚类、SOM聚类,以及基于子空间内的相似性进行基因和样本耦合的双向聚类算法。下面以一个例子说明自底向上的层次聚类算法的过程,该算法采用了欧氏距离衡量样本间的相似性,最小距离衡量待合并的两类间的相似性。聚类分析应用于基因表达谱数据,为复杂疾病的亚型识别、致病机制及分子标记的识别提供了有效的工具。 ......