机器学习公开课笔记第七周之K均值法

一,无监督学习(Unsupervised learning)

 无监督学习就是给定一系列没有标签的训练数据,找出训练数据之间的关系,最典型的就是聚类算法(Clustering Algorithm)

机器学习公开课笔记第七周之K均值法

无监督学习的工程应用

机器学习公开课笔记第七周之K均值法

二,K均值法(K Means Algorithm),

1,K均值法是常用聚类算法之一,把训练数据分为K个聚类

机器学习公开课笔记第七周之K均值法

机器学习公开课笔记第七周之K均值法

 2,算法过程

1),随机寻找K个数据作为聚类中心

2),给每个数据分配一个离它最近的聚类中心

3),计算分配给同一个聚类中心的所有数据的均值,聚类中心更改至均值

4),如果所有聚类中心都等于均值,结束,否则跳至第2步

P.S 如果某个聚类中心没有其他数据分配给它,移除该中心

3,市场细分的一个例子

机器学习公开课笔记第七周之K均值法

4,代价函数

K均值法的优化目标是使所有数据到各自的聚类中心的距离的和最小

 机器学习公开课笔记第七周之K均值法

 K均值法的算法过程其实就是求使代价函数最小的聚类中心的过程

机器学习公开课笔记第七周之K均值法

随机寻找K个数据作为聚类中心,有可能会找到代价函数的局部最小值,

机器学习公开课笔记第七周之K均值法

所以需要多次随机初始化运行K均值法,计算代价函数最小值

机器学习公开课笔记第七周之K均值法

5,如何选择聚类中心数量K

肘部方法(Elbow Method),画出K和代价函数J的二次图,选用使斜率急剧变化(肘部)的K,但如第二幅图所示,斜率变化不大,肘部方法就就没用

机器学习公开课笔记第七周之K均值法

T我们还应该根据聚类的目的来决定聚类的数量K,以制造T恤为例,我们是想制造更多的尺寸类型来使顾客更满意,还是更少的尺寸类型使T恤卖的更便宜

机器学习公开课笔记第七周之K均值法