那么集成办法若何工作?并且为什么它们要优于单个模型?
- 它们平均了单个模型的误差:如不雅你将平易近主党的平易近意查询拜访和共和党的平易近意查询拜访在一路平均化,那么你将获得一个均衡的结不雅,不偏向任何一方。
- 它们削减了方差:一组模型的总体看法比个中任何一个模型的单一看法加倍同一。在金融范畴,这就是所谓的多元化,有很多股票的组合比一个零丁的股票的不肯定性更少,这也为什么你的模型在数据多的情况下会更好的原因。
- 它们不太可能过拟合:如不雅你有单个的模型没有过拟合,那么把这些模型的猜测简单结合起来(平均、加权平均、逻辑回归),那么最后获得的模型也不会过拟合。
无监督进修
7. 聚类算法(Clustering Algorithms)
聚类是将一系列对铣辗书的义务,目标是使雷同组(集群)中的对象之间比其他组的对象更类似。
每一种聚类算法都不雷同,下面是一些例子:基于质心的算法
- 基于连接的算法
- 基于密度的算法
- 概率
- 降维
- 神经收集/深度进修
8. 主成分分析(Principal Component Analysis,PCA)
PCA 是一个统计学过程,它经由过程应用正交变换将一组可能存在相干性的变量的不雅测值转换为一组线性不相干的变量的值,转换后的变量就是所谓的主分量。
PCA 的一些应用包含紧缩、简化数据便于进修、可视化等。请留意,范畴常识在选择是否持续应用 PCA 时异常重要。 数据嘈杂的情况(PCA 的所有成分具有很高的方差)并不实用。
9. 奇怪值分化(Singular Value Decomposition,SVD)
在线性代数中,SVD 是复杂矩阵的因式分化。对于给定的 m * n 矩阵 M,存在分化使得 M=UΣV,个中 U 和 V 是酉矩阵,Σ是对角矩阵。
实际上,PCA 是 SVD 的一个简荡竽暌功用。在计算机视觉中,第一小我脸辨认算法应用 PCA 和 SVD 来将面部表示为“特点面”的线性组合,进行降维,然后经由过程简单的办法将面部匹配到身份,固然现代办法更复杂,但很多方面仍然依附于类似的技巧。
10. 自力成分分析(Independent Component Analysis,ICA)
ICA 是一种统计技巧,重要用于揭示随机变量、测量值或旌旗灯号集中的隐蔽身分。ICA 对不雅测到的多变量数据定义了一个生成模型,这平日是作为样本的一个大年夜的数据库。在模型中,假设数据变量由一些未知的潜在变量线性混淆,混淆方法也是未知的。潜在变量被假定为非高斯分布并且互相自力,它们被称为不雅测数据的自力分量。
ICA 与 PCA 有关,然则当这些经典办法完全掉效时,它是一种更强大年夜的技巧,可以或许找出源的潜在身分。 其应用包含数字图像、文档数据库、经济指标和心理测量。如今应用你对这些算法的懂得去创造机械进修应用,为世界各地的人们带来更好的体验吧。
【编辑推荐】
- 机械进修大年夜用户社交媒体资估中窥得的五种机密
- 机械进修难在哪
- 机械懂得大年夜数据的机密:聚类算法深度详解
- 有望代替Spark的实机会械进修框架Ray
- 进修机械进修时须要尽早知道的三件事
如不雅你懂统计学的话,你可能以前据说过线性回归。最小二乘法是一种计算线性回归的办法。你可以将线性回归看做经由过程一组点来拟合一条直线。实现这个有很多种办法,“最小二乘法”就像如许:你可以画一条直线,然后对于每一个数据点,计算每个获得直线的垂直距离,然后把它们加起来,那么最后获得的拟合直线就是距离和尽可能小的直线。
推荐阅读
使用Visual Studio Code对Node.js进行断点调试
在开辟的过程中,几乎弗成能一次性就能写出毫无马脚的法度榜样,断点底时菌码是一个广泛的需求。作为前端开辟工程师,以往我们开辟的JavaScript法度榜样都运行在浏览器端,应用Chrome供给>>>详细阅读
本文标题:机器学习工程师必知的十大算法
地址:http://www.17bianji.com/lsqh/34824.html
1/2 1