沙龙晃荡 | 去哪儿、陌陌、ThoughtWorks在主动化运维中的实践!10.28不见不散!
什么是数据科学?它和已有的信息科学、统计学、机械进修等学科有什么不合?作为一门新兴的学科,数据科学依附两个身分:一是数据的广泛性和多样性;二是数据研究的共性。现代社会的各行各业都充斥了数据,这些数据的类很多种多样,不仅包含传统的构造化数据,也包含网页、文本、图像、视频、语音等非构造化数据。数据分析本质上都是在解反问题,并且平日是随机模型的反问题,是以对它们的研究有很多共性。例如,天然说话处理和生物大年夜分子模型都用到隐马尔科夫过程和动态筹划办法,其最根本的原因是它们处理的都是一维随机旌旗灯号;再如,图像处理和统计进修中都用到的┞俘则化办法,也是处理反问题的数学模型中最常用的一种。
数据科学重要包含两个方面:用数据的办法研究科学和用科学的办法研究数据。前者包含生物信息学、天体信息学、数字地球等范畴;后者包含统计学、机械进修、数据发掘、数据库等范畴。这些学科都是数据科学的重要构成部分,只有把它们有机地整合在一路,才能形成全部数据科学的全貌。
若何用数据的办法研究科学
用数据的办法研究科学,最典范的例子是开普勒关于行星活动的三大年夜定律。开普勒的三大年夜定律是根据他的前任,一位叫第谷的天文学家留给他的不雅察数据总结出来的。表1列出的不雅测数据是行星绕太阳一周所须要的时光(以年为单位)和行星离太阳的平均距离(以地球与太阳的平均距离为单位)。大年夜这组数据可以看出,行星绕太阳运行的周期的平方和行星离太阳的平均距离的立方成正比,这就是开普勒第三定律。
开普勒固然总结出他的三大年夜定律,但他并不睬解其内涵。牛顿则不然,他用牛顿第二定律和万有引力定律把行星活动归结成一个纯粹的数学问题,即一个常微分方程组。如不雅忽视行星之间的互相感化,那么各行星和太阳之间就构成了一个两体问题,我们很轻易求出响应的解,并由此推导出开普勒的三大年夜定律。
牛顿应用的是寻求基来源基本理的办法,它远比开普勒的办法深刻。牛顿不仅知其然,并且知其所以然。所以牛顿开创的寻求基来源基本理的办法成为科学研究的首选模式,这种办法的成长在20世纪初期达到了巅峰,在它的指导下,物理学家们提出了量子力学。原则上讲,我们在日常生活中看到的天然现象都可以大年夜量子力学出发获得解释。量子力学供给了研究化学、材料科学、工程科学、生命科学等几乎所有天然和工程学科的基来源基本理,这应当说是很成功的,但工作远非这么简单。狄拉克指出,如不雅以量子力学的基来源基本理为出发点去解决这些问题,那么个中的数学问题就太艰苦了。是以必须让步,对基来源基本理作近似。
尽管牛顿模式很深刻,但对复杂的问题,开普勒模式往往更有效。例如,表2中形象地描述了一组仁攀类基因组的单核苷酸多态性(Single Nucleotide Polymorphism, SNP)数据。研究人员在全世界遴选出1064个自愿者,并把他们的SNP数据数字化,即把每个地位上可能出现的10种碱基对用数字表示,对这组数据做主成分分析(PCA)——一种简单的数据分析办法,其道理是对数据的协方差矩阵做特点值分化,可以获得图1所示的结不雅。个中横轴和纵轴分别代表第一和第二奇怪值所对应的特点向量,这些向量一共有1064个分量,对应1064个自愿者。值得留意的是,这组点的色彩所代表的意义。由此可见,经由过程最常见的统计分析办法——主成分分析,可以大年夜这组数据中展示进出类进化的过程。
平日我们半数个模型并不感兴趣,而只是欲望找到模型的一部分内容。例如我们应用相干性来断定两组数据是否相干,应用排序来对数据的重要性进行排名,应用分类和聚类将数据进行分组等。
如不雅采取大年夜基来源基本理出发的牛顿模式,上述问题根本是无法解决的,而基于数据的开普勒模式则行之有效。开普勒模式最成功的例子是生物信息学和仁攀类基因组工程,正因为它们的成功,材料基因组工程等类似的项目也被提上了议程。同样,天体信息学、计算社会学等也成为热点学科,这些都是用数据的办法研究科学问题的例子。而图像处理是另一个典范的例子。图像处理是否成功是由人的视觉体系决定的,要大年夜根本上解决图像处理的问题,就须要大年夜懂得人的视觉体系着手,懂得不合质量的图像对人的视觉体系会产生什么样的影响。当然,如许的懂得很深刻,并且也许是我们最终须要的,但今朝看来,它过于艰苦也过于复杂,解决很多实际问题时并不会真正应用它,而是应用一些更为简单的数学模型。
用数据的办法研究科学问题,并不料味着就不须要模型,只是模型的出发点不一样,不是大年夜基来源基本理的角度去寻找模型。以图像处理为例,基于基来源基本理的模型须要描述人的视觉体系以及它与图像之间的关系,而平日的办法可所以基于更为简单的数学模型,如函数切近亲近的模型。
若何用科学的办法研究数据
用科学的办法研究数据重要包含数据采集、数据存储和数据分析。本文将重要评论辩论数据分析。
图1 对SNP数据做主成分分析的结不雅[1]
推荐阅读
沙龙晃荡 | 去哪儿、陌陌、ThoughtWorks在主动化运维中的实践!10.28不见不散!组织中断和技能缺掉 为了进一步>>>详细阅读
本文标题:数据科学的基本内容
地址:http://www.17bianji.com/lsqh/38162.html
1/2 1