案例:线上消费行为分析 – 客户属性细分 本文以客户线上消费数据为例,介绍一种高维数据降维与聚类方法——自组织映射(Self-Organizing Map, SOM)。 SOM 概述 SOM 是一种无监督神经网络,用于高维数据的降维、聚类与可视化。它将高维输入映射到二维网格,同时保留数据的拓扑关系,使复杂数据结构在低维空间中直观呈现。 SOM 的优势 1. 降维与可视化:将高维复杂数据投影到二维,便于直观展示模式与关系。 2. 拓扑保持:相似数据点会被映射到相邻节点,反映数据的内在结构。 3. 聚类与模式识别:SOM 本质上通过竞争学习实现数据聚类,可揭示潜在分组与模式。 4. 鲁棒性:对噪声敏感度低,能更好捕捉真实结构。 应用领域 1. 数据挖掘:客户细分、市场分析、欺诈检测。 2. 图像与信号处理:模式识别、特征提取、压缩。 3. 生物信息学:基因表达、蛋白质序列分析。 4. 文本挖掘:文档聚类、语义检索。 5. 材料科学与环境科学:复杂特征可视化、污染模式识别。 6. 金融分析:市场模式发现、风险评估。 SOM 的可视化方式 1. 编码图(Codebook Map):每个节点对应一个权重向量,由归一化变量构成,类似于该位置的“代表样本”。 常用颜色表示变量类别,扇形图表示变量权重大小,直观展示节点间差异与变量分布模式。 2. 聚类图(Clustering Map):节点按照拓扑结构排列,权重向量可视为“原型点”。 相似节点聚集形成簇群,不同颜色标记不同聚类结果。可进一步用于分析客户群体差异与行为特征。 总结 SOM 将高维数据有效映射到低维空间,既实现可视化,又保留结构特征,是处理复杂数据的有力工具。在 R 中结合实际数据与可视化,可实现客户细分、模式探索等多种应用。 PS: 本文提供了部分R代码。 #数据可视化 #科研绘图 #科研 #数据分析 #生信分析 #金融 #大数据 #风险管理 #市场 #信息可视化