平日对于线性模型,通俗最小二乘法是推敲将它们合适于数据的重要标准。接下来的3种办法是可认为线性模型的拟合供给更好的猜测精度和模许可解释性的替代办法。
4 - 子集选择:
这种办法肯定了我们认为与锾螃相干的p猜测因子的一个子集。然后,我们应用子集特点的最小二乘拟合模型。
统计进修和机械进修之间的差别在于:
- 机械进修是人工智能的一个子范畴。
- 统计进修是统计学的一个分支。
- 机械进修更强调大年夜范围应用和猜测的精确性。
- 统计进修强调模型及其可解释性,精确性和不肯定性。
最佳子集选择:这里我们对每个可能的p猜测因子组合进行零丁的OLS回归,然后查看最终的模型拟合。算法分为2个阶段:(1)拟合所有包含k猜测因子的模型,个中k是模型的最大年夜长度;(2)应用交叉验证的猜测误差选择单个模型。应用测试或验证缺点异常重要,而不是练习缺点来评估模型拟合,因为RSS和R 2单调增长更多的变量。最好的办法是在测试误差估计值上交叉验证并选择具有最高R 2和最低RSS的模型。
向前慢慢选择推敲猜测因子的一个小得多的子集。它大年夜不含猜测因子的模型开端,然后在模型中添加猜测因子,直到所有猜测因子都在模型中。被添加变量的次序是变量,其给出对拟合的最大年夜的加法改进,直到没有更多的变量应用交叉验证的猜测误差来改进模型拟合。
向后慢慢选择开端将模型中的所有猜测因子,然后迭代去除最不有效的猜测因子。
混淆办法遵守向前慢慢回归办法,然则,在添加每个新变量之后,该办法还可以去除对模型拟号绫腔有供献的变量。
5 - 紧缩:
这种办法合适一个涉及所有p猜测因子的模型,然而,估计系数相对于最小二乘估计向零紧缩。这种缩水,又称正规化,具有削减方差的感化。取决于履行什么类型的紧缩,个一一些系数可能正好被估计为零。是以这个办法也履行变量选择。将系数估计紧缩为零的两个最有名的技巧是岭回归和Lasso。
岭回归类似于最小二乘,经由过程最小化一个稍微不合的数量估计系数。像OLS一样,岭回归寻求降低RSS的系数估计值,然则当系数接近于零时,它们也会有紧缩处罚。这个处罚的感化是将系数估计紧缩到零。不消进入数学计算,知道岭回归缩小列空间方差最小的特点是有效的。像在主成分分析一一样,岭回归将数据投影到双向空间,然后比高方差分量紧缩低方差分量的系数,这相当于最大年夜和最小主分量。
岭回归至少有一个缺点:它包含最终模型中的所有p猜测值。律例条目将使它们中典范茕居近于零,但不完全为零。这对于猜测精确性来说平日不是问题,但它可能使模型更难以解释结不雅。 Lasso克服了这个缺点,并且可以或许迫使一些系数归零,只要s足够小。因为s = 1导致针砭律的OLS回归,当s接近0时,系数紧缩为零。是以,Lasso回归也履行变量选择。
6 - 维度降低:
维数削减将估计p + 1个系数的问题简化为M + 1个系数的简单问题,个中M
可以将主成分回归描述为大年夜大年夜量变量中导出低维特点集合的办法。数据的第一个重要构成偏向是不雅测值变更最大年夜的。换句话说,第一台PC是尽可能接近数据的一条线。人们可以适应不合的重要构成部分。第二个PC是与第一个PC不相干的变量的线性组合,并且受这个束缚的变更最大年夜。这个设法主意是重要的构成部分应用随后正交偏向的数据的线性组合捕获数据中最大年夜的变更。经由过程这种方法,我们也可以结合相干变量的效不雅,大年夜可用数据中获取更多信息,而在正则最小二乘中,我们将不得不放弃个一一个相干变量。
我们膳绫擎描述的PCR办法包含肯定最能代表猜测因子的X的线性组合。这些组合(偏向)以无监督的方法被辨认,因为响应Y不消于赞助肯定重要组件偏向。也就是说,响应Y不监督主成分的辨认,是以不克不及包管最能解释猜测因子的偏向对于猜测响应(即使经常假设)也是最好的。偏最小二乘法(PLS)是一个监督的替代PCR。与PCR一样,PLS是一种降维办法,它起首辨认一组新的较小的特点,这些特点是原始特点的线性组合,然后经由过程最小二乘法拟合一个线性模型到新的M特点。然而,与PCR不合的是,PLS应用响应变量来辨认新的特点。
7 - 非线性模型:
8 - 基于树的办法:
基于树的办法可以用于回归和分类问题。这些涉及将猜测空间分层或瓜分成若干简单区域。因为用于瓜分猜测变量空间的决裂规矩集合可以在树中进行概括,所以这些类型的办法被称为决定计划树办法。下面的办法生成多个树,然后结合在一路产生一个单一的共鸣猜测。
- 套袋(Bagging)是削减猜测方差的办法,经由过程应用反复组合来生成原始数据集中的练习数据,大年夜而生成与原始数据雷同的多样性。经由过程增长你的练习集的大年夜小,你不克不及进步模型的猜测力,只是削减方差,勉强把猜测调剂到预期的结不雅。
- 晋升(Boosting)是一种应用几种不合的模型计算产出的办法,然后应用加权平举办法对结不雅进行平均。经由过程改变你的加权公式,结合这些办法的长处和缺点,你可以应用不合的狭义调剂模型,为更广泛的输入数据供给一个很好的猜测力。
- 随机丛林(random forest )算法实际上异常类似于套袋。你也可以绘制练习集的随机bootstrap样本。然则,除了自举样本之外,还可以绘制随机子集来练习单个树;在套袋中,你给每个树一套完全功能。因为随机特点选择,与惯例套袋比拟,树木之间的互相自力性更高,这平日会带来更好的猜测机能(因为更好的方差误差衡量),并且速度更快,因为每棵树只能大年夜功能的一个子集。
9 - 支撑向量机:
SVM是机械进修中监督进修模型中的一种分类技巧。通俗地说,它涉及于找到超平面(2D中的线,3D中的平面和更高维中的超平面,更正式地说,超平面是n维空间中的n维空间)最大年夜包管金大年夜本质上讲,它是一个束缚优化问题,其界线被最大年夜化,受限于它对数据进行了完美的分类(硬边沿)。
推荐阅读
Tech Neo技巧沙龙 | 11月25号,九州云/ZStack与您一路商量云时代收集界线治理实践 引用如不雅让你大年夜数百种的编程说话中选择一小我门说话?你会选择哪一个?是应用率最高、经久占据排行榜的常青藤 >>>详细阅读
本文标题:数据科学家需要掌握的10个基本统计技术
地址:http://www.17bianji.com/lsqh/39102.html
1/2 1