二、聚类处理的数据结构

聚类算法通常采用两种具有代表性的数据结构，一个是数据矩阵，一个是相似性测度矩阵。为了考察数据集中观察对象（样本点）的相似性，通过相似性测度矩阵的引入来进行度量。相似性测度矩阵是一个n × n的矩阵，如下所示：上式为相似性测度矩阵。其中d（i，j）表示观察对象（样本点）i和观察对象（样本点）j之间相似性，通常应具有如下特性，测度值非负数，d（i，j）＝ d（j，i），d（i，i）＝ 0，观察对象i和观察对象j越相似，则d（i，j）越接近于0。评价观察对象之间的相似程度时很难定义“足够相似了”，只能凭主观确定 ......

——《卫生统计方法与应用进展第2卷》

书名：《卫生统计方法与应用进展第2卷》