人工智能

导航菜单



当前位置: 首页  /  AI概论  /  正文

聚类分析之-Kmeans算法(一)

阅读:20

聚类分析之-Kmeans算法(一)

聚类分析是一种静态数据分析方法,常被用于数据挖掘、机器学习、模式识别等领域,聚类是一种无监督式的学习方法。它是在未知样本类别的情况下,通过计算样本彼此间的距离(欧式距离,马式距离,汉明距离,余弦距离等)来估计样本所属类别。从结构性来划分,聚类方法分为自上而下和自下而上两种方法。聚类的算法有很多种,大约几十种,K-means算法是十大经典数据挖掘算法之一。

K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。它是一种自下而上的聚类方法。K-means算法最大的优点是好理解、简单、运行速度快,但只能应用于连续性的数据;缺点是聚类的结果与我们初始设置的中心点的选择有直接关系,并且需要我们自己提供聚类的数目,但是可以通过多次聚类取最佳的结果来设定初始的聚类数目,如果当我们不知道样本集将要聚成多少个类别的时候,那么这时候不适合用kmeans算法,推荐使用其他方法来聚类,如(hierarchical 或meanshift)。

K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果,大概就是这个意思,“物以类聚、人以群分”。具体流程如下:

数据分析交流:283296032

  1. 首先输入一个k的值,此值是我们自己设定的,k表示将数据集经过聚类得到的分组个数。

  2. 从数据集中随机选择k个数据点作为初始中心点。

  3. 对集合中每一个数据点,分别计算与每一个初始中心点的距离,数据点离哪一个中心的越近,就归类此类。

  4. 通过均值等方法对聚成的类再进行新的中心点确定。

  5. 若新的中心点与原来的中心点之间的距离小于一个阈值(设置好的一个阈值),说明比较稳定,那么此聚类达到了我们的期望,算法结束。

  6. 如果新的中心点与原来的中心点之间的距离很大,那么需要迭代以上的3-5步骤。


聚类基本流程图


K-means算法的关键点在于初始中心的选择和距离公式。

KMeans的应用场景非常多,除了一般的聚类场景(例如对用户进行分群组等)外,我们还可以用KMeans实现单变量的离散化,因为一般的等频和等距的离散化方法往往会忽略变量中潜在的分布特征,而基于聚类的离散化可以一定程度地保留变量的分布特征。


标签

分析Kmeans算法


相关文章列表

kmeans优化算法:二分Kmeans聚类算法

kmeans优化算法:二分Kmeans聚类算法

算法的理解​ Bi这里是的意思就是Binary,二进制的意思,所以有时候叫这个算法为二进Kmeans算法。为什么我们需要用BiKmeans呢,就是为了解决初始化k个随机的质心点时其中一个或者多个点由于...


AI(机器学习)聚类分析Kmeans算法实战

AI(机器学习)聚类分析Kmeans算法实战

人工智能机器学习分为无监督学习、有监督学习和强化学习。无监督学习一般分为聚类分析、降维、关联规则分析,其实现不需要目标的参与,而是在输入变量中寻找某些规律。聚类分析最直观的理解就是“物以类聚”,即数据...


无监督学习:MATLAB代码实现K-均值算法,详细分析

无监督学习:MATLAB代码实现K-均值算法,详细分析

K-均值是一种无监督的聚类算法。首先我们要知道什么是无监督,无监督就是说在数据集中,数据是没有标签的。在有监督的数据集中,数据的形式可能是这样:{(x(1),y(1)),(x(2),y(2)),......


大数据算法助力生猪价格分析预测,揭示数“智”未来

大数据算法助力生猪价格分析预测,揭示数“智”未来

03月23日,第十一届(2023)李曼中国养猪大会在长沙国际博览中心开幕,与此同时,大数据算法在生猪价格分析预测上的应用暨玄田生猪价格数据产品发布会在长沙国际会展中心第二会议室隆重召开,会议由中国养猪...


基于Kmeans算法的文档聚类

基于Kmeans算法的文档聚类

介绍给定多篇文档,如何对文档进行聚类。我使用的是k-means聚类方法。关于k-means网络上有很多资料介绍其算法思想和其数学公式。针对文档聚类,首先要讲文档进行向量化,也就是说要对文档进行编码。可...


根因分析初探:一种报警聚类算法在业务系统的落地实施

根因分析初探:一种报警聚类算法在业务系统的落地实施

背景众所周知,日志是记录应用程序运行状态的一种重要工具,在业务服务中,日志更是十分重要。通常情况下,日志主要是记录关键执行点、程序执行错误时的现场信息等。系统出现故障时,运维人员一般先查看错误日志,定...


友情链接