AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


聚类分析综述
发布日期:2024-05-07 05:51:21 浏览次数: 1823


聚类分析综述

Cluster Analysis

文/小只


这是小只的第208篇文章


聚类是什么


直观理解

将观测按照某种标准分为几类,“组内最大化相似,组间最大化差异”。

(图片由AI生成)


统计理解

将“相近”与“相异”的程度数量化,大致可以分为:

相似度视角:Person相关系数等。

距离视角:欧氏距离、曼哈顿距离等。

二者本质上相同,无非是相“近”的凑为一类,“远”的作为“异类”。

根据不同的数据选取策略和不同的聚类算法,系统会给出不同的分类模型,属于探索性的数据分析方法。


商业理解

在市场研究中,聚类分析被用来划分不同消费群体,研究消费者行为,寻找新的潜在市场、选择试验的市场,把有限资源策略性地倾斜到目标群体上。

聚类分析在其他很多领域亦有广泛应用,此处不做详细介绍,后续在聚类分析系列文章中会有所提及。


但聚类不是分类

分类是在已有划分标准上,按照标准进行分组就可以了。

聚类则并不知道具体划分标准,要靠算法判断数据之间的相似性

哪个模型是贴合研究实际的“最优解”,需要研究者自行决定。


聚类分析步骤


① 数据预处理

主要包括缺失值的检测和填补,描述性分析等过程。

② 数据标准化

数据标准化由于变量数量级相差较大会对聚类过程产生较大影响,所以一般需要对数据进行标准化。

③ 检测异常值

一般而言,距离/相似系数的计算对异常值都十分敏感,因此分析前应该检测并处理异常值。

④ 选择聚类算法


聚类算法有哪些


聚类对象划分

① R型聚类

含义:是一种针对变量进行的聚类分析方法,处理变量数量较多、且变量间存在较强相关性的数据集。其主要目标是实现变量的降维和简化,有助于后续的数据分析和建模。

方法:常用统计量为相似系数,常用的算法包括变量间的相关系数矩阵、距离度量、层次聚类法以及更高级的统计或机器学习方法。

应用:在市场研究中,可能对大量的产品属性进行R型聚类,识别出几组核心属性,以便更好地理解产品的差异化特征。

(图片由AI生成)

② Q型聚类

含义:关注于样本(数据点)的分类,将数据集中性质相似的个体归入同一类,将差异显著的个体分配到不同的类别中。

方法:常用统计量为距离,常见的算法包括K-means、层次聚类、DBSCAN、谱聚类、混合高斯模型等。

应用:应用领域如客户细分、疾病分型、图像分割等。

(图片由AI生成)


一般性划分

① 层次聚类

系统聚类=层次聚类不需要事先指定类别数,而是根据距离/相似系数逐个进行两两合并,是一种典型的非监督学习过程。计算量大,适合小规模数据(如n<100)。


② 划分聚类

划分聚类=动态聚类=快速聚类,需要先指定待分的类别数K,典型方法有K-means等,速度较快,一般大规模数据使用。


③ 密度聚类

密度&紧密程度中发现聚类结构,进一步将观测聚为几类。典型如DBSCAN算法、OPTICS算法、DENCLUE算法。

(图片由AI生成)


④ 网格聚类

将数据空间划分为一系列网格单元,每个数据点被分配到对应的网格单元中。通过对网格单元的密度进行计算,可以识别出高密度区域(潜在的聚类)。常见的网格聚类算法如STING。

(图片来源于网络)


⑤ 模型聚类

一种高级的聚类方法,是指使用基于统计模型或机器学习模型的框架来进行数据的聚类分析。强调对数据生成过程的建模,能够捕捉更为复杂的数据分布模式和簇间关系。典型方法有混合高斯模型、隐马尔科夫模型聚类。

在市场调研中,K-means层次聚类最基础且应用广泛的两种方法,它们分别适用于处理结构清晰、簇数量已知&未知的情况。

DBSCAN两步聚类则提供了更灵活的解决方案,适应于处理复杂数据结构和混合数据类型,尤其是在需要自动识别簇数或处理非球形簇、噪声数据时。

(图片来源于网络)


良好聚类算法的特征


良好的可伸缩性

当数据量从几百上升到几百万时,聚类结果的准确度能一致。


处理不同类型数据的能力

许多算法针对的数值类型的数据。但是实际应用场景中,会遇到二元类型数据,分类/标称类型数据,序数型数据。


处理噪声数据的能力

噪声数据通常可以理解为影响聚类结果的干扰数据,包含孤立点,错误数据等,一些算法对这些噪声数据非常敏感,会导致低质量的聚类。


增量聚类和对输入次序的不敏感性

一些算法不能将新加入的数据快速插入到已有的聚类结果中,还有一些算法针对不同次序的数据输入,产生的聚类结果差异很大。


高维性

有些算法只能处理2到3维的低纬度数据,而处理高维数据的能力很弱,高维空间中的数据分布十分稀疏,且高度倾斜。


易解释性和易用性

我们希望得到的聚类结果都能用特定的语义、知识进行解释,和实际的应用场景相联系。


聚类分析 vs 主成分分析 vs 因子分析


最后作为附录回顾一下三种统计分析方法的异同

聚类分析、主成分分析和因子分析是多元数据分析中常用的三种统计方法,虽然都涉及数据降维或简化,但各自有所区别。


目的

① 聚类分析专注于将样本分组,揭示数据的自然聚类结构。

② 主成分分析侧重于通过线性变换减少数据维度,保留数据的主要变异信息。

③ 因子分析则旨在通过识别潜在因子解释变量间的共变关系,提供更深层次的数据简化和结构解读。


数据类型

① 聚类分析适用于各种类型的数据,包括连续型、离散型、有序型等。

② 主成分分析和因子分析适用于连续型数据


自变量和因变量

聚类分析不需要指定因变量或自变量。

主成分分析和因子分析需要指定自变量


数据处理

通常均需要对数据进行标准化或归一化处理。


举个例子

① 聚类分析:市场细分中,发现消费者之间的相似性和差异性。

② 主成分分析:收集关于消费者行为和偏好数据,将这些数据合并为几个主成分,以便更好地理解不同消费者之间的相似性和差异性。

③ 因子分析:了解消费者行为和偏好背后的潜在因素和结构。



END




53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询