沙龙晃荡 | 3月31日 京东、微博、华为拭魅战专家与你合营商量容器技巧实践!
原文来源:towardsdatascience
作者:Shashank Gupta
「雷克世界」编译:嗯~是阿童木呀、KABUDA、EVA
1.主成分分析(PCA)/ SVD
PCA是一种无监督的办法,用于对由向量构成的数据集的全局属性进行懂得。本文分析了数据点的协方差矩阵,以懂得哪些维度(大年夜部分情况)/数据点(少数情况)更为重要,即它们之间具有很多的变更,但与其他变量之间的协变性较低)。推敲一个矩阵顶级主成分(PC)的一种方法是推敲它的具有最高特点值的特点向量。奇怪值分化(SVD)本质上也是计算有序组件的一种办法,但你在没有获得点的协方差矩阵的情况下也可以获得它。
该算法经由过程获取维度缩小的数据点的方法来资世人们克服维度难题。
库:
https://docs.scipy.org/doc/scipy/reference/generated/scipy.linalg.svd.html
http://scikitlearn.org/stable/modules/generated/sklearn.decomposition.PCA.html
入门教程:
https://arxiv.org/pdf/1404.1100.pdf
2a.最小二乘法和多项式拟合
如上图所示,很明显,应用这种算法对简单的曲线/回归进行拟合是异常便利的。
可以说,机械进修大年夜颐魅者都是个性迥异的。固然个一一些人会说“我是X方面的专家,X可以在任何类型的数据长进行练习”,个中,X =某种算法;而其他一些人则是“可以或许在合适的工作中发挥其才干”。他们中的很多人承认“浏览所有行业,而是个一一个范畴的专家”策略,即他们在一个范畴内拥有一个深挚的专业常识,并且对机械进修的不合范畴有所懂得。也就是说,没有人可否定如许的事实:作为数据科学家的实践者,我们必须懂得一些通用机械进修的基本常识算法,这将赞助我们解决所碰到的新范畴问题。本文对通用机械进修算法进行了扼要的阐述,并列举了它们的相干资本,大年夜而赞助你可以或许快速控制个中的奥妙。
库:
https://docs.scipy.org/doc/numpy/reference/generated/numpy.linalg.lstsq.html
https://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.polyJt.html
入门教程:
https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/linear_regression.pdf
2b.束缚线性回归
将这些算法用于拟合带有束缚的回归线,避免过度拟归并对模型中噪声维度进行掩码。
库:
http://scikit-learn.org/stable/modules/linear_model.html
https://www.youtube.com/watch?v=5asL5Eq2x0A
入门教程:
https://www.youtube.com/watch?v=jbwSCwoT51M
3. K均值聚类
顾名思义,你可以应用此算法在数据集中创建K个集群。
库:
http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html
入门教程:
https://www.youtube.com/watch?v=hDmNF9JG3lo
https://www.datascience.com/blog/k-means-clustering
4.Logistic回归
Logistic回归是有限线性回归,在应用权重后带有非线性(大年夜多半应用sigmoid函数,或者你也可以应用tanh函数)应用,是以把输出限制到接近+/-类(在sigmoid的情况下是1和0)。应用梯度降低法对交叉熵损掉函数(Cross-Entropy Loss functions)进行优化。
推荐阅读 沙龙晃荡 | 3月31日 京东、微博、华为拭魅战专家与你合营商量容器技巧实践!趋势与瞻望关于区块链的商量和争辩,自其出生之日起就大年夜未暂停。一个是技巧范畴也存在着周期律。 这个周期今朝看是 7-8 >>>详细阅读 本文标题:数据科学家必备的10种机器学习算法 地址:http://www.17bianji.com/lsqh/40943.html 1/2 1