当前位置:首页 > 默认分类 > 正文内容

【算法】机器学习算法之Kmeans算法(K均值算法)

virtualman5年前 (2021-02-06)默认分类4307

Kmeans算法(K均值算法)

KMeans算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。

如何定义两个样本的相似:

两个样本在欧式空间中的距离

引入新概念:

Cluster: 表示一个簇
centroid: 表示当前簇的中心

算法步骤 :

1.随机从数据集中选取k个样本当做centroid
2.对于数据集中的每个点,计算它距离每个centroid的距离,并把它归为距离最近打那个cluster
3.更新新的centroid位置
4.重复2和2,直到centroid的位置不再改变

KMEANS 的优缺点

Pros:

1. 非监督类的算法不需要样本的标注信息

CONS:

1. 不能利用到数据的标注信息,意味着模型的性能不如其他监督学习

2. 对于K的取值,也就是你认为数据集中的样本应该分为几类,这个参数的设置极为敏感!
不同的K值,导致完全不同的分类结果!

3. 对于数据集本身样本的分布也很敏感

和KNN的区别:

KNN:

  1.只关注待测样本的局部分布
  
  2.K:K个最近邻 
  
  3.监督类模型

KMeans:

  1.关注样本的全局分布
  
  2.k:K个簇


相关文章

常见License代码开源要求

  常见许可证类型 典型软件 触发代码开源义务前提要求 开源要求和范围 BSD类 如:Apache/BSD/MIT等 Tomcat;OpenSSL 无 无 MPL类 如:MPL/EPL等 FirFox,Eclips...

解决!!!关于微信小程序中无法正常显示uview-plus的up-tabs组件样式的问题

解决!!!关于微信小程序中无法正常显示uview-plus的up-tabs组件样式的问题

一.问题背景uview-plus3.0是基于uView2.x修改的vue3版本,提供了很多好用的移动端组件。点击访问最近在使用uview-plus的tabs标签组件时,需要对标签的背景颜色等样式进行自定义,查看官方文档发现提供了参数activeStyle、inactiveStyle、itemStyl...

【随笔】关于开发一个既能日常记账,又能拥有资产管理功能的APP的Idea

随便写了,想到哪里写哪里。最近一直在市面找一款记账APP,但是感觉都不满足我的需求。我的想法是,在普通账本程序的基础上,再加上多人管理。资产管理。资产管理一定要把价格接口对接好。我举个例子,比如有虚拟货币资产ETH 1个,那么就应该在统计的时候,按实时市值进行统计。又或者按照当天的市值统计。关于资产...

GIT文件名大小写修改后,提交不上去?

可执行以下命令更改 git 设置,使其区分文件名的大小写。但如果你已经提交了有问题的,会造成仓库上有大写、小写两份,一定要先回退提交后,重新提交。 git config core.ignorecase false...

量化交易策略随笔

1、请先掉用jin10接口,获取截止到当前时间的资讯,资讯条数:flashNumber;2、每个flash LLM生成score作为单条资讯的影响因子。3、总资讯情绪影响因子 = ∑score^3 / flashNumber4、查询多空比,多空比大于1,代表投资情绪积极。小于1则代码投资情绪消极。5...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。