五种常用系统聚类分析方法及其比较

详细介绍层次聚类的各种方法

●经济研究

五种常用系统聚类分析方法及其比较

一、系统聚类分析概述

聚类分析是研究如何将对象按照多个方面的特征进行综合分类的一种统计方法…。然而在以往的分类学中,人们主要靠经验和专业知识作定性分类处理,许多分类不可避免地带有主观性和任意性,不能揭示客观事物内在的本质差别和联系;或者人们只根据事物单方面的特征进行分类,这些分类虽然可以反映事物某些方面的区别,但却往往难以反映各类事物之间的综合差异。聚类分析方法有效地解决了科学研究中多因素、多指标的分类问题团。

在目前的实际应用中,系统聚类法和K均值聚类法是聚类分析中最常用的两种方法。其中,K均值聚类法虽计算速度快,但需要事先根据样本空间分布指定分类的数目,而当样本的变量数超过3个时,该方法的可行性就较差。

而系统聚类法(Hierarchicalclusteringmethods,也称层次聚类法)由于类与类之间的距离计算方法灵活多样,使其适应不同的要求。该方法是目前实践中使用最多的。这该方法的基本思想是:先将n个样本各自看成一类,并规定样本与样本之间的距离和类与类之间的距离??际?,因每个样本自成一类,类与类之间的距离与样本之间的距离是相同的。然后,在所有的类中,选择距离最小的两个类合并成一个新类,并计算出所得新类和其它各类的距离;接着再将距离最近的两类合并,这样每次合并两类,直至将所有的样本都合并成一类为止。这样一种连续并类的过程可用一种类似于树状结构的图形即聚类谱系图(俗称树状图)来表示,由聚类谱系图可清楚地看出全部样本的聚集过

万 

方数据胡雷芳

二、五种常用系统聚类分析方法

系统聚类法在进行聚类的过程中,需要计算类与类之间的1.单连接法(Singlelinkage)

单连接法又称最短距离法。该方法首先将距离最近的样本用d.。表示样本i和样本j的距离,G,、G:、…表示类,在单连Dpq2=i。Gmp,iJl"。1Gqdn

(1)

由于单连接法每次并类后都是将该类与其它类中距离最近但是单连接方法认为,只要单个样本之间的相异度小,就认11

程,从而可做出对全部样本的分类[31。

距离。根据类与类之间的距离计算方法的不同,我们可以将系统聚类法分为单连接法、完全连接法、平均连接法、组平均连接法与离差平方和法等。

归入一类,即合并的前两个样本是它们之间有最小距离和最大相似性;然后计算新类和单个样本间的距离作为单个样本和类中的样本间的最小距离,尚未合并的样本间的距离并未改变。在每一步,两类之间的距离是它们两个最近点间的距离。

接法定义类G。与类G。之间的距离为两类最近样本问的距离,用D。表示G-与G。的距离,则有式(1):

的两个样本之间的距离作为该类与其它类的距离,所以此聚类方法的逐次并类距离之间的差距一般来说可能会越来越小。因此,该方法具有距离收缩的性质。

为两个组就是紧密靠拢的,而不管组间其他样本的相异度如何。这倾向于合并由一系列本身位置(原始数据集中样本的排列)靠近的样本。这种现象称为“链条”(chainning)心,常常被认为

你可能喜欢

  • 汽车聚类分析
  • 聚类分析案例
  • 系统分析
  • 系统可行性分析
  • 聚类算法
  • 层次聚类
  • 聚类案例
  • 有限元分析法

五种常用系统聚类分析方法及其比较相关文档

最新文档

返回顶部

北京pk10开奖