当前位置:首页 > 默认分类 > 正文内容

【算法】机器学习算法之Kmeans算法(K均值算法)

virtualman4年前 (2021-02-06)默认分类3028

Kmeans算法(K均值算法)

KMeans算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。

如何定义两个样本的相似:

两个样本在欧式空间中的距离

引入新概念:

Cluster: 表示一个簇
centroid: 表示当前簇的中心

算法步骤 :

1.随机从数据集中选取k个样本当做centroid
2.对于数据集中的每个点,计算它距离每个centroid的距离,并把它归为距离最近打那个cluster
3.更新新的centroid位置
4.重复2和2,直到centroid的位置不再改变

KMEANS 的优缺点

Pros:

1. 非监督类的算法不需要样本的标注信息

CONS:

1. 不能利用到数据的标注信息,意味着模型的性能不如其他监督学习

2. 对于K的取值,也就是你认为数据集中的样本应该分为几类,这个参数的设置极为敏感!
不同的K值,导致完全不同的分类结果!

3. 对于数据集本身样本的分布也很敏感

和KNN的区别:

KNN:

  1.只关注待测样本的局部分布
  
  2.K:K个最近邻 
  
  3.监督类模型

KMeans:

  1.关注样本的全局分布
  
  2.k:K个簇


相关文章

【动态规划】基础背包问题

  1159. 背包问题一 (Standard IO) 时间限制: 1000 ms  空间限制: 262144 KB  具体限制   题目描述 有个背包可承受重量N,现有T件物品每件物品重量为...

【NOIP初赛 】哈夫曼树

【NOIP初赛 】哈夫曼树

根据我已刷的初赛题中基本每套的倒数第五或第六个不定项选择题就有一个关于哈夫曼树及其各种应用的题,占:0—1.5分;然而我针对这个类型的题也多次不会做,so,今晚好好研究下哈夫曼树;  概念:  给定n个权值作为n个叶子结点,构造一棵二叉树,若带权路径长度达到最小,称这样的二...

【算法】位运算与优化

刚刚学算法的时候,看到dalao处处用位运算,感觉真的太玄学了,然后直到今天才深入理解了下位运算的操作,其实并没有多么玄学,只不过是利用了计算机本身的性质罢了。基本概念:真值:带符号位的机器数对应的真正数值称为机器数的真值0000 0001的真值 = +000 0001 = +1,1000 0001...

python实现对简单的运算型验证码的识别【不使用OpenCV】

python实现对简单的运算型验证码的识别【不使用OpenCV】

最近在写我们学校的教务系统的手机版,在前端用户执行绑定操作后,服务器将执行登录,但在登录过程中,教务系统中有个运算型的验证码,大致是这个样子的: 下面我们开始实现这个验证码的识别。1、图片读取从网站上下载大量同类型的验证码,人工标记上每个验证码的识别结果2、图片灰度化、二值化灰度化,在RGB模型中...

Python中的selenium库的基本用法

Selenium是一个用于测试网站的自动化测试工具,支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器,同时也支持phantomJS无界面浏览器。通过此行代码可以快速在Python中安装selenium库pip install Selenium另外,我们仍需要安装浏览器驱动...

【疑难杂症】记录一次定位并修复涉及支付、转账的系统性BUG

【疑难杂症】记录一次定位并修复涉及支付、转账的系统性BUG

在某个线上的项目上,突然收到用户反馈,存在转账连续转两次的情况。一开始接到反款后并没有太在意,因为这个项目已经在线上稳定运行了近两年的时间,期间也并没有对订单或者支付系统进行修改。支付的接口也没有发生变化,因此,第一次反馈认为是一次用户的误报。但是,今天下午,有个开发者用户给我再一次反馈了这个BUG...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。