支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


聚类分析 | 步骤与分类

发布日期:2025-04-05 16:40:31 浏览次数: 1528 作者:护理万花筒
推荐语

掌握聚类分析,洞察数据集的内在结构。

核心内容:
1. 聚类分析的定义及其应用实例
2. 聚类方法的分类及算法介绍
3. 聚类分析的详细步骤与实施要点

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
     
     聚类分析是一种数据归纳技术,旨在揭露一个数据集中观测值的子集。“类”为若干个观测值组成的群组。如抑郁症亚型、消费者人群聚类等都是聚类分析应用实例。
                             一、分类
     常用的聚类方法有层次聚类划分聚类
     (一)层次聚类中,每一个观测值自成一类,这些类每次两两合并,直到所有的类被聚成一类为止。常用的聚类算法有:单联动、全联动、平均联动、质心、Ward方法。
      (二)划分聚类中,首先指定类的个数K,然后观测值被随机分为K类,再重新形成聚合的类。最常用的算法为K均值、围绕中心点的划分(PAM)。

                            二、步骤
      有效的聚类分析是一个多步骤的过程,每一次决策都可能影响结果的质量和有效性。一个全面的聚类分析通常包括11个典型步骤。
    (一)选择合适的变量:选择可能对识别和理解数据中不同观测数值分组有重要影响的变量,这一步非常重要,高级的聚类方法也不能弥补聚类变量选不好的问题。
    (二)缩放数据:最常用的方法是将每个变量标准化为均值为0和标准差为1的变量。
   (三)寻找异常点:可以通过outliers包中的函数筛选(和删除)异常单变量离群点。
   (四)计算距离:两个观测值之间最常用的距离亮度是欧几里得距离。
   (五)选择聚类算法:层次聚类对于小样本(如150个观测值或更少)很实用;大数据量的聚类选用划分聚类更好。
   (六)使用步骤(五)选择方法,获得一种或多种聚类方法。
   (七)确定类的数目。常用方法是尝试不同的类属(2~K)并比较解的质量。
   (八)获得最终的聚类解决方案:一旦类的个数确定下来,就可以提取出子群,形成最终的聚类方案。
    (九)结果可视化。层次聚类的结果通常表示为一个树状图,划分聚类的结果通常利用可视化双变量聚类图来表示。
   (十)解读类:一旦聚类方案确定,必须命名并解释类。
   (十一)验证结果:fpc、clv和clvalid包包含了评估聚类解的稳定性的函数。

参考文献:
[1]R语言实战.  Rober I. Kabacoff著,王小宁等译.
[2]王冰花,张梦霞,汪晖.文献计量学视角下国内老年住院病人跌倒的研究现状[J].护理研究,2019,33(11):1914-1917.
[3]林可,吴利俊,辛继宾,等.文献计量视角下的长新冠研究现状、热点与趋势[J].复旦学报(医学版),2024,51(02):181-190.

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询