3种聚类算法性能比较分析

3种聚类算法性能比较分析

3种聚类算法性能比较分析

250

2009年6月第6卷第2期:理工长江大学学报(自然科学版) 

JournalofYangtzeUniversity(NatSciEdit) Jun12009,Vol16No12:Sci&Eng

3种聚类算法性能比较分析

  张丽芳 (长江大学信息与数学学院数学系,

湖北荆州434023)

[摘要]对3种著名的聚类算法进行了对比分析,在多类高维UCI数据集上进行了试验,最后对试验结果

进行了分析?! ?/p>

[关键词]聚类;K2MEANS算法;COBWEB算法;DENCLUE算法[中图分类号]TP311

[文献标识码]A  [文章编号]1673

1409(2009)02

N250

02

1 3种算法简介

聚类算法众多,其中著名的算法有K2MEANS算法、COBWEB算法和DUE算法。

K2MEANS算法最早由MacQueen提出来的。示。K2MEANS算法非常简单,在解决一些实际问题时,型的聚类中效果很好。由于其时间复杂度是O(,k;t为迭代次数),因[1]COBWEB。COBWEB算法用分类树的形式来表现层次聚类。,需要利用一个匹配函数来寻找“最佳的路径”,COBWEB,将分类效用CU(categoryutility)来指导树的建立过程。该算法能够自动调整类的数目的大小,而不像其他算法那样自己设定类的个数,但COBWEB算法中的2种操作对于记录的顺序很敏感,为了降低这种敏感性,该算法引入2个附加操作:合并和分解??梢愿軨U值来确定合并和分解操作,从而达到双向搜索的目的。COBWEB算法的缺点是:①它假设每个属性上的概率分布是彼此独立的,由于属性间经常是相关的,这个假设并不总是成立。这给该方法带来一定的局限性。②聚类的概率分布表示更新和存储聚类相当繁复,因为时间和空间复杂度不只依赖于属性的数目,还取决于每个属性的值的数目,所以当属性有大量的取值时情况变得很复杂。③分类树对于偏斜的输入数据不是高度平衡的,它可能导致时间和空间复杂性的剧烈变化[2]。

DENCLUE(Density2basedClustering)算法是一个基于一组密度分布函数的聚类算法。DENCLUE算法的优点是:①它有一个坚实的数学基础,概括了其他的聚类方法,包括基于分割的、层次的以及基于位置的方法。②对于有大量“噪声”的数据集合,它有良好的聚类特性。③对高维数据集合的任意形状的聚类,它给出了简洁的数学描述。④它使用了网格单元,只保存实际包含数据点的网格单元的信息。它以一个基于树的存取结构来管理这些单元,因此比其他算法(如DBSCAN算法等)的速度要快。DENCLUE算法的缺点是:要求对密度参数σ和噪声阈值ξ进行仔细的选择,因为这样的参数选择可能明显地影响聚类结果的质量,即对参数比较敏感[3]。

2 3种算法试验

211 试验数据

  本试验所使用的数据集Glass从UCI数据库(国际通用机器学习训练数据库)中获得,该数据集的详细描述见表1。从表1中可看出,该数据集是多类高维数据。

表1 数据集Glass的描述表

数据集

Glass

样本总数

214

类别数

6

属性数

9

 [收稿日期]20090319

 [作者简介]张丽芳(1981),女,2003年大学毕业,硕士,助教,现主要从事数据分析方面的研究工作。

Word文档免费下载Word文档免费下载:3种聚类算法性能比较分析 (共2页,当前第1页)

你可能喜欢

  • 大学课件
  • 算法研究
  • K均值聚类算法
  • 算法分析
  • SPSS聚类分析
  • 系统聚类分析
  • 模糊聚类分析
  • sas聚类分析

3种聚类算法性能比较分析相关文档

最新文档

返回顶部

北京pk10开奖