聚类分析笔记-K均值matlab算法（一）-白红宇

聚类分析笔记-K均值matlab算法（一）

阅读量：221 次

发布时间：2019-02-28

本文共 1440 字，大约阅读时间需要 4 分钟。

一：聚类分析的动态聚类算法

聚类分析是一种无监督学习方法，用于将数据点按一定规则分组。常见的动态聚类算法之一是K均值算法（K-means），其思想是通过迭代优化聚类中心，使得每个样本点离其聚类中心的距离平方和最小。

K均值算法的思想

初始聚类中心：随机选取K个样本作为初始聚类中心。

迭代优化：

对每个样本点计算其到各个聚类中心的距离。

根据距离将样本点分配到最近的聚类中心。

计算每个聚类中心的新坐标（均值）。

比较当前聚类中心与新聚类中心的差异，若收敛则终止，否则继续迭代。

收敛判断：若聚类中心向量变化小，视为收敛。

K均值算法的常用方法

K均值算法：适用于已知类别数的情况，效果较好。

ISODATA算法（迭代自组织数据分析算法）：动态调整类别数，适合未知类别数的情况，常用Matlab实现。

K均值算法的优点与注意事项

优点：
- 简单易实现。
- 适用于已知类别数的聚类问题。
- 计算结果具有几何意义。

注意事项：
- 初始聚类中心的选择会影响结果，需合理选择。
- 对于高维数据，计算量较大，需注意性能优化。
- 数据的顺序可能影响聚类结果。

二：Matlab程序实现示例

以下是基于K均值算法的Matlab程序实现，用于两类聚类问题：

function mean = k_means_new% 生成模拟数据num = 100; % 样本总数x1 = rand(1, num) * 5; % 类型1y1 = rand(1, num) * 5;x2 = rand(1, num) * 5 + 3; % 类型2y2 = rand(1, num) * 5 + 3;cities = [x1, y1; x2, y2];% 随机选择初始聚类中心m = round(rand(1, num) * num); % 随机选取一个样本作为聚类中心while true    m2 = round(rand(1, num) * num);    if m ~= m2        break    else        m2    endendu1 = cities(:, m);u2 = cities(:, m2);u_old = [u1, u2];u_new = [u2, u1];while true    diff = u_old ~= u_new    if ~diff        break    end    u_old = u_new;    [c, ~] = min(distances(cities, u_old), 2);    index1 = find(c == 1);    index2 = find(c == 2);    u1 = mean(cities(:, index1), 2);    u2 = mean(cities(:, index2), 2);    u_new = [u1, u2];endmean = u_new;end

三：实验结果与分析

通过实验验证，K均值算法在已知类别数的情况下表现良好。随着初始样本数量的增加，聚类精度有所提升。以下是不同初始点数量下的聚类效果对比：

10个初始点：聚类效果较为分散。

20个初始点：聚类效果有所改善，分类准确率提高。

50个初始点：聚类效果更为稳定，分类准确率显著提升。

100个初始点：聚类效果最为理想，分类准确率接近100%。

实验结果表明，K均值算法在已知类别数的情况下表现出色，适合用于分类问题。

转载地址：http://sowi.baihongyu.com/

你可能感兴趣的文章