网络公司免费做网站,嘉兴网红桥,企业网站建设源码HTML,上海自贸区注册公司有什么好处什么是聚类
聚类就是对大量未知标注的数据集#xff0c;按照数据 内部存在的数据特征 将数据集划分为 多个不同的类别 #xff0c;使 类别内的数据比较相似#xff0c;类别之间的数据相似度比较小#xff1b;属于 无监督学习。
聚类算法的重点是计算样本项之间的 相似度按照数据 内部存在的数据特征 将数据集划分为 多个不同的类别 使 类别内的数据比较相似类别之间的数据相似度比较小属于 无监督学习。
聚类算法的重点是计算样本项之间的 相似度有时候也称为样本间的 距离。
和分类算法的区别
分类算法是有监督学习基于有标注的历史数据进行算法模型构建聚类算法是无监督学习数据集中的数据是没有标注的
有个成语到“物以类聚”说的就是聚类的概念。直白来讲就是把认为是一类的物体聚在一起也就是归为一类聚在一起的叫一个 簇。
聚类的思想
给定一个有M个对象的数据集构建一个具有k个 簇 的模型其中kM这是肯定的不可能有3个对象我划分成4个类吧。满足以下条件
每个簇至少包含一个对象每个对象属于且仅属于一个簇将满足上述条件的k个簇成为一个合理的聚类划分
总的一个思路就是对于给定的类别数目k首先给定初始划分通过迭代改变样本和簇的隶属关系使的每次处理后得到的划分方式 比上一次的好 (总的数据集之间的距离和变小了)
相似度/距离公式
上面一直提到什么相似度或距离特征空间中两个实例点的距离就是两个实例点相似程度的反映。我们也经常用到欧式距离除此之外还有哪些这里罗列一些相关公式因为好多不常用所以只做简要介绍或者仅仅提及一下。
1. 闵可夫斯基距离(Minkowski)也叫范式
对于两个 n 维的数据 X,Y 这里
也就是先求各维度的差值然后把这些差值都取 p 次方接着累加起来最后把累加的结果开p次方。
1 当 p1 p1p1 时称为曼哈顿距离 Manhattan distance也称为曼哈顿城市距离也叫1范式即 以两维的数据为例 上面的图就像我们的城市公路比如说从左下角到右上角我们可以按红线就是两点间的曼哈顿距离、蓝线或黄线走最终都可等效成红线。而绿线就是下面说的欧氏距离。
2当 p2 p2p2 时称为欧氏距离 (Euclidean distance) 也叫2范式即 3当 p∞ 时称为切比雪夫距离(Chebyshev distance) 也就是上图中如果横轴的差值大于纵轴的差值则就为红线中的横线部分反之就是纵线部分。即只关心主要的忽略次要的。
2 . 标准化欧式距离(Standardized Euclidean Distance) 这是进行标准化在数据处理时经常用到。s 表示方差
标准的欧式距离 3 . 夹角余弦相似度(Cosine) 其实就是利用了我们中学所学的余弦定理。
4 . KL距离(相对熵)
KL距离在信息检索领域以及自然语言方面有重要的运用。具体内容可以参考《【ML算法】KL距离》
5 . 杰卡德相似系数(Jaccard) 目标检测中经常遇到的IOU就是这种形式。 很显然杰卡德距离是用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。
6 . Pearson相关系数 Pearson相关系数是统计学三大相关系数之一具体内容可以参考《如何理解皮尔逊相关系数Pearson Correlation Coefficient》
常见聚类算法
常见的算法按照不同的思想可进行以下划分当然还会有一些相应的优化算法随后的博客也会一一介绍。 实际中用的比较多的是划分聚类尤其k-means。在古典目标识别中经常用到Selective Search选择搜索这种图像bouding boxes提取算法本质就是层次聚类。
相关文章: