我要投稿

聚类分析综述

发布日期：2024-05-07 05:51:21 浏览次数： 3229

作者：小只ing

微信搜一搜，关注“小只ing”

聚类分析综述

（Cluster Analysis）

文/小只

这是小只的第208篇文章

聚类是什么

直观理解

将观测按照某种标准分为几类，“组内最大化相似，组间最大化差异”。

（图片由AI生成）

统计理解

将“相近”与“相异”的程度数量化，大致可以分为：

① 相似度视角：Person相关系数等。

② 距离视角：欧氏距离、曼哈顿距离等。

二者本质上相同，无非是相“近”的凑为一类，“远”的作为“异类”。

根据不同的数据选取策略和不同的聚类算法，系统会给出不同的分类模型，属于探索性的数据分析方法。

商业理解

在市场研究中，聚类分析被用来划分不同消费群体，研究消费者行为，寻找新的潜在市场、选择试验的市场，把有限资源策略性地倾斜到目标群体上。

聚类分析在其他很多领域亦有广泛应用，此处不做详细介绍，后续在聚类分析系列文章中会有所提及。

但聚类不是分类

分类是在已有划分标准上，按照标准进行分组就可以了。

聚类则并不知道具体划分标准，要靠算法判断数据之间的相似性。

哪个模型是贴合研究实际的“最优解”，需要研究者自行决定。

聚类分析步骤

① 数据预处理

主要包括缺失值的检测和填补，描述性分析等过程。

② 数据标准化

数据标准化由于变量数量级相差较大会对聚类过程产生较大影响，所以一般需要对数据进行标准化。

③ 检测异常值

一般而言，距离/相似系数的计算对异常值都十分敏感，因此分析前应该检测并处理异常值。

④ 选择聚类算法

聚类算法有哪些

聚类对象划分

① R型聚类

含义：是一种针对变量进行的聚类分析方法，处理变量数量较多、且变量间存在较强相关性的数据集。其主要目标是实现变量的降维和简化，有助于后续的数据分析和建模。

方法：常用统计量为相似系数，常用的算法包括变量间的相关系数矩阵、距离度量、层次聚类法以及更高级的统计或机器学习方法。

应用：在市场研究中，可能对大量的产品属性进行R型聚类，识别出几组核心属性，以便更好地理解产品的差异化特征。

（图片由AI生成）

② Q型聚类

含义：关注于样本（数据点）的分类，将数据集中性质相似的个体归入同一类，将差异显著的个体分配到不同的类别中。

方法：常用统计量为距离，常见的算法包括K-means、层次聚类、DBSCAN、谱聚类、混合高斯模型等。

应用：应用领域如客户细分、疾病分型、图像分割等。

（图片由AI生成）

一般性划分

① 层次聚类

系统聚类=层次聚类，不需要事先指定类别数，而是根据距离/相似系数逐个进行两两合并，是一种典型的非监督学习过程。计算量大，适合小规模数据(如n<100)。

② 划分聚类

划分聚类=动态聚类=快速聚类，需要先指定待分的类别数K，典型方法有K-means等，速度较快，一般大规模数据使用。

③ 密度聚类

从密度&紧密程度中发现聚类结构，进一步将观测聚为几类。典型如DBSCAN算法、OPTICS算法、DENCLUE算法。

（图片由AI生成）

④ 网格聚类

将数据空间划分为一系列网格单元，每个数据点被分配到对应的网格单元中。通过对网格单元的密度进行计算，可以识别出高密度区域（潜在的聚类）。常见的网格聚类算法如STING。

（图片来源于网络）

⑤ 模型聚类

一种高级的聚类方法，是指使用基于统计模型或机器学习模型的框架来进行数据的聚类分析。强调对数据生成过程的建模，能够捕捉更为复杂的数据分布模式和簇间关系。典型方法有混合高斯模型、隐马尔科夫模型聚类。

在市场调研中，K-means和层次聚类是最基础且应用广泛的两种方法，它们分别适用于处理结构清晰、簇数量已知&未知的情况。

DBSCAN和两步聚类则提供了更灵活的解决方案，适应于处理复杂数据结构和混合数据类型，尤其是在需要自动识别簇数或处理非球形簇、噪声数据时。