机器理解大数据的秘密：聚类算法深度详解

本文对一些聚类算法进行了基本介绍，并经由过程简单而具体的例证对其工作过程进行了解释解释。

看看下面这张图，有各类各样的虫子和蜗牛，你尝尝将它们分成不合的组别?

不是很难吧，先大年夜找出个中的蜘蛛开端吧!

完成了吗?尽管这里并不必定有所谓的「精确谜底」，但一般来说我们可以将这些虫子分成四组：蜘蛛、蜗牛、蝴蝶/飞蛾、蜜蜂/黄蜂。

很简单吧?即使虫子数量再多一倍你也能把它们分清跋扈，对吗?你只须要一点时光以及对虫豸学的热忱就够了——其实就算有成千上万只虫子你也能将它们分开。

但对于一台机械而言，将这 10 个对象分类成就个有意义的分组却并不简单——在一门叫做组合学(combinatorics)的数学分支的赞助下，我们知道对于这 10 只虫子，我们可以有 115,975 种不合的分组方法。如不雅虫子数量增长到 20，那它们可能的分组办法将跨越 50 万亿种。如果虫子数量达到 100，那可能的筹划数量将跨越已知宇宙中的粒子的数量。跨越若干呢?据我计算，大年夜约多 500,000,000,000,000,000,000,000,000,000,000,000 倍，已是不可思议的超天文数字!

假设我们已经将该收集聚类成了一些集团。我们就可以应用该模块性分数来评估这个聚类的质量。分数更高表示我们将该收集瓜分成了「精确的(accurate)」集团，而低分则表示我们的聚类更接近随机。如下图所示：

但个中大年夜多半分组筹划都是无意义的，在那些浩如烟海的分组选择中，你只能找到少量有效的虫壮辗书的办法。

而我们仁攀类可以做得很快，我们往往会把本身快速分组和懂得大年夜量数据的才能看作是理所当然。不管那是一段文本，照样屏幕上图像，或是对象序列，仁攀类平日都能有效地舆解本身所面对的数据。

鉴于人工智能和机械进修的关键就是快速懂得大年夜量输入数据，那在开辟这些技巧方面有什么捷径呢?在本文中，你将浏览到三种聚类算法——机械可以用其来快速懂得大年夜型数据集。当然，除此之外还有其它的算法，但欲望这里的介绍能给你一个优胜的开端!

3 个齐整的聚类，K=3

K-均值聚类(K-means clustering)

何时应用?

模块性可以应用以下公式进行计算：

当你事先知道你将找到若干个分组的时刻

工作方法

该算法可以随机将每个不雅察(observation)分派到 k 类中的一类，然后计算每个类的平均。接下来，它从新将每个不雅察分派到与其最接近的均值的类别，然后再从新寂?驿均值。这一步赓续反复，直到不再须要新的分派为止。

返回到步调 1，枷⒚鹇的距离矩阵，个中座头鲸与长须鲸已经归并为一项。

有效案例

假设有一组 9 位足球活动员，他们中每小我都在这一赛季进了必定命量的球(假设在 3-30 之间)。然后我们要将他们分成就组——比如 3 组。

第一步：须要我们将这些活动员随机分成 3 组并计算每一组的均值。

第 1 组

活动员 A(5 个球)、活动员 B(20 个球)、活动员 C(11 个球)

该组平均=(5 + 20 + 11) / 3 = 12

第 2 组

当我们欲望进一步发掘不雅测数据的潜在关系，可以应用层次聚类算法。

活动员 D(5 个球)、活动员 E(9 个球)、活动员 F(19 个球)

该组平均=11

第 3 组

活动员 G(30 个球)、活动员 H(3 个球)、活动员 I(15 个球)

该组平均=16

第二步：对于每一位活动员，将他们从新分派到与他们的分数最接近的均值的那一组;比如，活动员 A(5 个球)被从新分派到第 2 组(均值=11)。然后再枷⒚鹇的均值。

第 1 组(本来的均值=12)

活动员 C(11 个球)、活动员 E(9 个球)

新的平均=(11 + 9) / 2 = 10

第 2 组(本来的均值=11)

活动员 A(5 个球)、活动员 D(5 个球)、活动员 H(3 个球)

新的平均=4.33

第 3 组(本来的均值=16)

活动员 B(20 个球)、活动员 F(19 个球)、活动员 G(30 个球)、活动员 I(15 个球)

新的平均=21

赓续反复第二步，直到每一组的均值不再变更。对于这个简单的义务，下一次迭代就能达到我们的目标。如今就完成了，你已经大年夜原数据集获得了 3 个聚类!

第 1 组(本来的均值=10)

活动员 C(11 个球)、活动员 E(9 个球)、活动员 I(15 个球)

最终平均=11.3

第 2 组(本来的均值=4.33)

活动员 A(5 个球)、活动员 D(5 个球)、活动员 H(3 个球)

最终平均=4.33

第 3 组(本来的均值=21)

活动员 B(20 个球)、活动员 F(19 个球)、活动员 G(30 个球)、

最终平均=23

经由过程这个例子，该聚类可能可以或许对应这些活动员在球场上的地位——比如戍守、中场和进攻。K-均值袈溱这里有效，是因为我们可以合理地猜测这些数据会天然地落到这三个分组中。

加倍细微的细节：

膳绫擎所描述的算法还有一些变体。最初的「种子」聚类可以经由过程多种方法完成。这里，我们随机将每位活动员分成了一组，然后计算该组的均值。这会导致最初的均值可能会彼此接近，这会增长后面的步调。

1/4 1 2 3 4 下一页尾页

　　推荐阅读

　　工业机器人四种编程技术，你知道几种？

一、概述当前机械人广泛应用于焊接、装配、搬运、喷漆及打磨等范畴，义务的复杂程度赓续增长，而用户对产品的质量、效力的寻求越来越高。在这种情势下，机械人的编程方法、编程效力和质量>>>详细阅读

本文标题：机器理解大数据的秘密：聚类算法深度详解

地址：http://www.17bianji.com/lsqh/34643.html

1/2 1