聚类分析法(什么是聚类分析?聚类分析方法的类别)

2022-09-15 22:23:02 发布:网友投稿
热度:121

聚类分析(什么是聚类分析?聚类分析方法的分类)

聚类分析是指将一组数据对象分组到由相似对象组成的多个类中的分析过程。

基本概念

聚类是一种发现数据之间内部结构的技术。集群将所有数据实例组织成一些相似的组,这些相似的组称为集群。同一集群中的数据实例彼此相同,而不同集群中的实例彼此不同。聚类技术通常被称为无监督学习。与监督学习不同,聚类中没有表示数据类别的分类或分组信息。通过定义距离或相似系数来判断数据之间的相似性。图1显示了一个根据数据对象之间的距离进行聚类的例子。具有相似距离的数据对象被分成一个簇。

图1聚类分析示意图。

聚类分析可以应用于数据预处理过程。对于结构复杂的多维数据,可以利用聚类分析对数据进行聚合,从而对结构复杂的数据进行标准化。聚类分析还可以用来发现数据项之间的依赖关系,从而去除或合并依赖关系密切的数据项。聚类分析还可以为一些数据挖掘方法(如关联规则和粗糙集方法)提供预处理功能。在商业上,聚类分析是市场细分的有效工具,用于发现不同的客户群体,通过刻画不同客户群体的特征来研究消费者行为,发现新的潜在市场。在生物学中,聚类分析用于对动物、植物和基因进行分类,从而了解种群的内在结构。在保险行业,聚类分析可以通过平均消费识别汽车保险保单持有人的分组,同时可以根据住宅类型、价值和地理位置识别城市房地产的分组。在互联网应用中,聚类分析用于对互联网上的文档进行分类。在电子商务中,聚类分析通过分组的方式对浏览行为相似的客户进行聚类,分析客户的共同特征,从而帮助电子商务企业了解自己的客户,为客户提供更合适的服务。

聚类分析方法分类。

目前有大量的聚类算法,算法的选择取决于数据的类型、聚类的目的以及具体的应用。聚类算法主要分为五类:基于划分的聚类方法、层次聚类方法、基于密度的聚类方法、基于网格的聚类方法和基于模型的聚类方法。

1.基于划分的聚类方法。

基于分区的聚类是一种自上而下的方法。对于N个数据对象的给定数据集D,数据对象被组织成k(k≤n)个分区,其中每个分区代表一个簇。图2是基于划分的聚类方法示意图。

图2分层聚类算法示意图。

在基于划分的聚类方法中,最经典的是k- means算法和k-med oid算法,许多算法都是在这两种算法的基础上改进而来的。基于划分的聚类方法的优点是收敛速度快,缺点是需要合理估计类k的个数,初始中心和噪声的选取会对聚类结果产生很大影响。

2.基于层次的聚类方法。

层次聚类法是指对给定的数据进行层次分解,直到满足一定的条件。根据层次分解的顺序,算法分为自下而上法和自上而下法,即浓缩层次聚类算法和拆分层次聚类算法。

1)自下而上的方法。

首先,每个数据对象是一个聚类,计算数据对象之间的距离,每次将最近的点合并到同一个聚类中。然后计算聚类之间的距离,将最近的聚类合并成一个大的聚类。继续合并,直到合成一个簇或达到某个终止条件。聚类之间的距离可以通过最短距离法、中间距离法和类平均法来计算,其中最短距离法将聚类之间的距离定义为聚类与数据对象之间的最短距离。自下而上方法的代表算法是AGNES(aggregatevensing)算法。

2)自上而下的方法。

在这种方法中,所有个体一开始都属于一个簇,然后逐渐细分为更小的簇,直到每个数据对象都在不同的簇中或者达到某个终止条件。自顶向下法的代表算法是DIANA(division veanalysis)算法。层次聚类算法的主要优点包括:距离和规则之间的相似性易于定义,限制少,无需预先设置聚类数就能找到聚类的层次关系。层次聚类算法的主要缺点包括计算复杂度过高,奇异值也会有很大的影响,算法很可能聚类成链。

3.基于密度的聚类方法。

基于密度的聚类方法的主要目标是寻找由低密度区域分隔的高密度区域。与基于距离的聚类算法不同,基于距离的聚类算法的聚类结果是球形聚类,而基于密度的聚类算法可以找到任意形状的聚类。基于密度的聚类方法从数据对象分布区域的密度出发。如果给定类中的数据对象在给定的范围内,如果数据对象的密度超过某个阈值,聚类将继续。这种方法可以通过连接高密度的区域形成不同形状的聚类,可以消除孤立点和噪声对聚类质量的影响,找到任意形状的聚类,如图3所示。最具代表性的基于密度的聚类方法有DBSAN算法、OPTICS算法和DENCLUE算法。图2是分层聚类算法的示意图。AGNES算法的步骤显示在顶部,DIANA算法显示在底部。两种方法没有优劣之分,但在实际应用中,要根据数据特征和期望聚类数,考虑是自下而上更快还是自上而下更快。

图3密度聚类算法示意图。

4.基于网格的聚类方法。

基于网格的聚类方法将空量化为有限数量的单元,可以形成网格结构,所有的聚类都在网格上进行。基本思想是将每个属性的可能值分成许多相邻的区间,并创建一组网格单元。每个对象都属于一个网格单元,与网格单元对应的属性空包含对象的值,如图4所示。

图4基于网格的聚类算法示意图。

基于网格的聚类方法的主要优点是处理速度快,处理时间与数据对象的数量无关,而仅取决于量化空中每个维度的单元数量。这类算法的缺点是只能找到水平或垂直边界的聚类,而无法检测到倾斜边界。另外,在处理高维数据时,网格单元的数量会随着属性维数的增加呈指数级增长。

5.基于模型的聚类方法。

基于模型的聚类方法试图优化给定数据和一些数学模型之间的适应性。该方法假设每个集群都有一个模型,然后找到数据与给定模型的最佳匹配。假设的模型可以是密度函数或其他表示资源网络中数据对象在空之间分布的函数。该方法的基本资源网络原理是假设目标数据集由一系列潜在的概率分布决定。图5比较了基于分区的聚类方法和基于模型的聚类方法。左边给出的结果是一种基于距离的聚类方法,核心原理是对彼此接近的点进行聚类。右侧给出了基于概率分布模型的聚类方法。这里使用的概率分布模型是具有一定弧度的椭圆。在图5中,标记了两个非常接近的实心点。在基于距离的聚类方法中,它们被聚类在一个聚类中,但是在基于概率分布模型的聚类方法中,它们被分组在不同的聚类中,以满足特定的概率分布模型。

图5资源网络中聚类方法的比较。

在基于模型的聚类方法中,基于标准统计自动确定聚类的数量,并且还通过统计分析噪声或孤立点。基于模型的聚类方法试图优化给定数据和某些数据模型之间的适应性。

下一篇:鱼油软胶囊的功效与作用(鱼油到底有什么作用?)
上一篇:口臭如何治疗(口臭要怎么治疗最好)