《菜鸟搞科研》3:聚类分析——教授教你如何科学地选择备胎

备胎还要选,越多越好啊?!NO,NO,NO,教授告诉你备胎需要品种齐全,数量合理才行。聚类分析(Clustering)可以将备胎自动分组,使得同组的备胎之间特征相似度达到最大,同时不同组之间的备胎特征相似度最小。同时它帮助用户掌握备胎的种类和分布情况,从而做出最优的决策。Yeah!麻麻再也不用帮我去相亲了!

视频地址

http://v.youku.com/v_show/id_XMzA0ODA4ODU4OA==.html?spm=a2h3j.8428770.3416059.1

代码地址

http://7xl8wi.com1.z0.glb.clouddn.com/03-clustering-code.zip

 

03-01

各位网友大家好 我是砖家魏骁勇

03-02

今天我跟大家一起继续搬砖。大家在前面的特征空间看到,把对象的特征向量投射到特征空间以后,相似的对象之间就发生了聚集的现象。就好像我们说的“物以类聚,人以群分”。其实生活中很多情况下我们都需要进行分组,比如: 一家公司想知道他自己的客户主要由什么样人组成,简单的说高富帅有多少,土豪有多少,屌丝有多少,文艺青年有多少

03-03

如果只是小规模的数据,例如几百个客户,我们可以手工来归类

03-04

但是如果我们上千万,上亿的客户时就几乎不可能通过手工来完成。更有甚者,我们需要细分的目标人群可能不只4个,可能还有初级屌丝,中级屌丝,高级屌丝,带有文艺青年气质的屌丝等等。这个归类的规模就不是纯人工可以掌控的了。

03-05

今天我们要介绍一块新的板砖叫聚类分析, 它就可以帮我们完成这个任务。

03-06

我们来看看聚类分析的黑盒子模型。输入是一组对象和指定的归类个数K,输出是K个分组,它是由输入对象划分而来的。需要专门提一下的是,虽然这里我们输入了一个归类数目K,但是实际聚类算法并不能保证能帮你把对象分为你心目中想象的那K个类,聚类算法只能根据输入对象在特征空间中的分布情况来客观地帮你聚集出K个类来,而这K个类的具体意义是什么,需要在后期分析中得到。

03-07

这是一个关于聚类很重要也经常被误解的概念,我们先举一个理想情况下的例子。比如你输入了一组客户数据,和聚类数目4,你希望它帮你分出屌丝,高富帅,土豪,文艺青年4个组来。如果你输入的数据确实完整地涵盖了这4个类别,而且你所使用的特征在客观上的可区分性跟你的想法一致。那么最终的结果就会如你所愿。

03-08

但是,如果你的数据本身就没有完全包含这4个人群,也就是说采样不完全,那么结果可能不如你所想。例如,你的数据里面本身就只有土豪人群,最后分出的4个类可能是,初级土豪,中级土豪,高级土豪,高富帅土豪。总之,聚类是一种客观分组的工具,聚类结果的意义是聚类完成以后人为分析出来的。这种分析可以帮你查看你的采样是否完整,也可以用来发现新的,有意思的族群。

03-09

为了加深大家的理解,我们钻到黑盒子里面去看一下,因为其实聚类算法并没有那么神秘。首先,聚类算法需要其他几个砖块,前面我们已经介绍过。

03-10

让我们以最常用的K-Means为例吧。K-Means算法把输入的对象聚为K个组的思想是这样的

03-11

首先随机选定K个对象作为K个组的代表,叫做初始中心;用我们的示例数据做一下,假设K=4,现在这4个对象被选为初始的中心了,

03-12

然后把剩下未归类的对象都都加入到离它最近的那个代表对象的组中去,这里我们可以采用距离度量来做这件事情。

03-13

经过这个过程,我们的示例数据分组情况就成为这样

03-14

之后,对每个组,我们需要计算出每个组的新中心来,这个中心在几何上就是组内所有点的几何中心,或者说重心,计算方法很简单,其实就是把该组内每一个对象在每一维算一个平均值,回到我们的特征表格就是把求出相应列的平均值,然后用这些平均值构成一个虚拟的中心特征向量来代表整个组。

03-15

大家看到,经过计算,中心发生了一定的偏移,能更好地代表整个组。

03-16

然后我们再重复之前的过程,把剩下的对象加入到离它们最近的中心去。如此往复,理论上会达到一个收敛的状态,此时4个最佳中心被找到,也产生最佳的划分。

03-17

好了,聚类算法就此完成,我们来做一个实际的例子。比如小芳同学有20多个备胎,但是小芳是个很有头脑的菇娘,她知道数量多不一定保险,你需要有各种类型的备胎保持队伍的多样性才能可持续性发展。

03-18

于是聪明的小芳把总结出了几个特征,帅,有钱,说话风趣,会写作业,xx,然后对20个对象打分。

03-19

03-20

最后使用聚类算法把备胎们聚成5个类。她惊奇的发现队伍里面屌丝太多了,需要削减,同时学霸类备胎奇缺,需要继续引进。有了方向,小芳再也不用迷茫了。。。。

03-21

好了,时间到了,今天暂且说这么多,对我们这个系列有兴趣的工友请关注我们的微博 @搬砖搞科研,欢迎大家提出宝贵的意见。另外,为了提高这个系列的观赏性,如果有懂动画和美工的工友请与我们联系。

Leave a Reply

Your email address will not be published. Required fields are marked *