作家
登录

数据缺失的坑,无监督学习这样帮你补了

作者: 来源: 2017-11-09 16:11:46 阅读 我要评论

Tech Neo技巧沙龙 | 11月25号,九州云/ZStack与您一路商量云时代收集界线治理实践


无监督进修(UL)有很多没开辟的潜力。它是一门大年夜“未标记”数据中推导一个函数来描述其隐蔽构造的艺术。但起首,大年夜数据中找到其构造是什么意思呢? 让我们来看以下两个例子:

数据缺掉的坑,无监督进修如许帮你补了

Blobs

气泡状分布:这个简单。任何人看到这张图都邑认为它是由三个不合的簇构成的。如不雅你对统计学异常熟悉,你可能还会猜想它由三个隐蔽的高斯分布构成。对一个新的数据样本,查看它的地位,人们就能揣摸出它属于哪一簇。

数据缺掉的坑,无监督进修如许帮你补了

波浪分布:这个就有难度了。它有明白的构造,但我怎么教计算机提掏出这一构造呢?为了让你更好地舆解这个问题,想象一下我找来1000人,问他们在这张图中看到了几钢簇。结不雅很可能是如许,答复2的人最多,也有人答复3、4,甚至1!

同时,天然的,当缺掉数据占比增长时,评分与基线分数的差距越来越大年夜。

所以说对数据的构造,连人都无法杀青共鸣,那怎么可能教计算机学会呢?这里的关键在于,对于什么是簇,或者广义地说什么是“构造”,没有同一的定义。人们可以研究一下日常生活的某个方面,看它有没有构造,但这也会根据情况或个中涉及的人的变更而变更。

很多有名的无监督进修算法,比如层次聚类,K-Means,混淆高斯模型或隐马尔可夫模型,对同一问题可能获得不合的谜底,依我拙见,对于找构造问题,没有所谓更好的或更精确的普适办法(真的吗?又是没有免费的午餐定理?)

那么让我们着手摸索吧——

用K-Means算法产生簇平日被称为“硬划分”,因为对一个样本和一个簇,只有属于和不属于两种关系。K-Means的改进版模糊K-Means算法是“软划分”或“模糊”,因为一个样本对每个簇都有附属度。基于这些附属度来更新簇的质心。

混淆高斯模型https://github.com/abriosi/gmm-mml

这个包是论文Unsupervised learning of finite mixture models(有限混淆模型的无监督进修)中提出的办法,用一个算法实现估计和模型选择。

数据集

结论

1. 占领率检测:

这是一个没出缺掉值的时光序列数据集,是以要工资克意地进行空白数据补全。

这一数据集相对较小,有20560个样本和7个特点,个一一个模型猜测变量为是否占领。(二元分类问题)。

2. Sberbank俄罗斯房价市场数据集:

这也是一个时序数据集,来自数月前停止的Kaggle比赛。

将练习数据与俄罗斯宏不雅经济和金融部分的数据归并后,获得30471个样本,389个特点,个一一个是要猜测的价格(回归问题)。

它有93列出缺掉数据,有些NaNs(非指定类型数据)占比很大年夜(> 90%)。

3.子宫颈癌(危险身分)数据集:

这一数据集有858个样本和32个特点,4个目标变量(不合医学测试指标的二元输出)取众数转化成1个目标变量。

它有26个特点有空白值,有些NaNs(非指定类型数据)占比很大年夜(> 90%)。

数据缺掉值补全过程

先删去练习集和测试集中所有含出缺掉数据的特点。应用留下的特点,对练习集应用聚类算法,并猜测两组中每个样本的簇。加上删去的列,计算按照簇分组后每个特点的平均值(或均值,如不雅是定性的话)。所以如今我们有了每个簇未补全时的特点的平均值。

数据缺掉的坑,无监督进修如许帮你补了

后续工作

“通俗”和加权补全办法:

  • 这里“通俗补全”指的是每个样本都用以寂?驿所属簇的平均值/众数。
  • 加权方轨则悠揭捉?本对每个簇的“归属度”。比如,在混淆高斯模型(GMM)中,归属度是样本属于各个簇的可能性,在K-Means办法中,归属度基于样本与各个簇的质心的距离。

聚类办法

  • K-Means(scikit learn)
  • 模糊K-Means(scikit fuzzy)
  • 混淆高斯模型(scikit learn)

评分办法

  • 除标准化之外,几乎没对数据集做任何处理。
  • 对于时光序列数据集,大年夜第一个样本算起对时光标记排序,在占领率检测数据集中转化成按秒计数,同理在俄罗斯房价市场数据集中按天计数。
  • 完成插补后,用XGBoost在测试集进行评分。用负对数损掉和均方误差作为评分度量。

获得簇的数量

最初推敲了“肘”或者说“膝”办法。当簇的数量取值袈溱必定范围内时,画出不合聚簇办法的得分并大年夜图中寻找肘部。

数据缺掉的坑,无监督进修如许帮你补了

数据缺掉的坑,无监督进修如许帮你补了


  推荐阅读

  MongoDB的水平扩展,你做对了吗?

Tech Neo技巧沙龙 | 11月25号,九州云/ZStack与您一路商量云时代收集界线治理实践分布式数据库的前世此生当人们一开端应用数据库体系的时刻,所稀有据都是跑在一台办事器上,即所谓的单机数据库办事器。>>>详细阅读


本文标题:数据缺失的坑,无监督学习这样帮你补了

地址:http://www.17bianji.com/lsqh/38683.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)