聚类算法通常采用两种具有代表性的数据结构,一个是数据矩阵,一个是相似性测度矩阵。为了考察数据集中观察对象(样本点)的相似性,通过相似性测度矩阵的引入来进行度量。相似性测度矩阵是一个n × n的矩阵,如下所示:上式为相似性测度矩阵。其中d(i,j)表示观察对象(样本点)i和观察对象(样本点)j之间相似性,通常应具有如下特性,测度值非负数,d(i,j)= d(j,i),d(i,i)= 0,观察对象i和观察对象j越相似,则d(i,j)越接近于0。评价观察对象之间的相似程度时很难定义“足够相似了”,只能凭主观确定 ......