数据分析的中间问题
比较常见的数据有以下几种类型。
- 表格:最为经典的数据类型。在表格数据中,平日行代表样本,列代表特点;
- 点集(point cloud):很多半据都可以算作是某空间中的点的集合;
- 时光序列:文本、通话和DNA序列等都可以算作是时光序列。它们也是一个变量(平日是时光)的函数;
- 图像:可以算作是两个变量的函数;
- 视频:时光和空间坐标的函数;
- 网页和报纸:固然网页或报纸上的每篇文┞仿都可以算作是时光序列,但全部网页或报纸又具有空间构造;
- 收集数据:收集本质上是图,由节点和接洽节点的边构成。
除了上述根本数据类型外,还可以推敲更高层次的数据,如图像集、时光序列集、表格序列等。
数据分析的根本假设是不雅察到的数据都是由某个模型产生的,而数据分析的根本问题就是找出这个模型。因为数据采集过程中弗成避免会惹人噪声,是以这些模型都是随机模型。例如,点集对应的数据模型是概率分布,时光序列对应的数据模型是随机过程,图像对应的数据模型是随机场,收集对应的数据模型是图模型和贝叶斯模型。
很多情况下,我们还须要对随机模型作近似。最常见的办法是将随机模型近似为肯定型模型,所有的回归模型和基于变分道理的图像处理模型都采取了这种近似;另一类办法是对其分布作近似,例如假设概率分布是正态分布或假设时光序列是马尔科夫链等。
数据的数学构造
要对数据作分析,就必须先在数据集上惹人数学构造。根本的数学构造包含度量构造、收集构造和代数构造。
- 度量构造。在数据集上引进度量(距离),使之成为一个度量空间。文本处理中的余弦距离函数就是一个典范的例子。
- 收集构造。有些数据本身就具有收集构造,如社交收集;有些数据本身没有收集构造,但可以附加上一个收集构造,例如度量空间的点集,我们可以根据点与点之间的距朗攀来决定是否把两个点连接起来,如许就获得一个收集构造。网页排名(PageRank)算法是应用收集构造的一个典典范子。
- 代数构造。把数据算作向量、矩阵或更高阶的┞放量。有些数据集具有隐含的对称性,也可以用代数的办法表达出来。
在上述数学构造的基本上,可以评论辩论更进一步的问题,例如拓扑构造和函数构造。
- 拓扑构造。大年夜不合的标准看数据集,获得的拓扑构造可能是不一样的。最有名的例子是3×3的天然图像数据集琅绫擎隐含着一个二维的渴攀莱因瓶(Klein bottle)。
- 函数构造。对点集而言,寻找个中的函数构造是统计学的根本问题。这里的函数构造包含线性函数(用于线性回归)、分片常数(用于聚类或分类)、分片多项式(如样条函数)、其他函数(如小波展开)等。
数据分析的重要艰苦
我们研究的数据平日有几个特点:(1)数据量大年夜。数据量大年夜给计算带来挑衅,须要一些随机办法或分布式计算来解决问题;(2)数据维数高。例如,前面提到的SNP数据是64万维的;(3)数据类型复杂。网页、报纸、图像、视频等多种类型的数据给数据融合带来艰苦;(4)噪音大年夜。数据在生成、采集、传输和处理等流程中,均可能惹人噪音,这些噪音的存在给数据清洗和分析带来挑衅,须要有必定修改功能的模型(如图像中的┞俘则化和机械进修中的去噪自编码器)来进行降袈潆处理。
个中,最核心的艰苦是数据维数高。它会导致维数灾害(curse of dimensionality),即模型的复杂度和计算量跟着维数的增长而指数增长。那么,若何克服数据维数高带来的艰苦?平日有两类办法。一类是将数学模型限制在一个极小的特别类里,如线性模型;另一类是应用数据可能有的特别构造,如稀少性、低维、低秩和滑腻性等。这些特点可以经由过程对模型作恰当的┞俘则化实现,也可以经由过程降维办法实现。
总之,数据分析本质上是一个反问题。处理反问题典范多办法(如正则化)在数据分析中扮演了重要角色,这恰是统计学与统计力学的不合之处。统计力学处理的是正问题,统计学处理的是反问题。
算法的重要性
与模型相辅相成的是算法以及这些算法在计算机上的实现。在数据量很大年夜的情况下,算法的重要性尤为凸起。大年夜算法的角度来看,处理大年夜数据重要有两条思路:
- 降低算法的复杂度,即计算量。平日请求算法的计算量是线性标度的,即计算量与数据量成线性关系。但很多关键的算法,尤其是优化办法,还达不到这个请求。对于特别大年夜的数据集,如万维网上的数据或社交收集数据,我们欲望能有次线性标度的算法,也就是说计算量远小于数据量。这就请求我们采取抽样的办法。个中最典范的例子是随机梯度降低法(Stochastic Gradient Descent, SGD)。
- 分布式计算。其根本思惟是把一个大年夜问题分化成很多小问题,然后分而治之。有名的MapReduce框架就是一个典范的例子。
现阶段,算法的研究分散在两个根本不相往来的范畴——计算数学和计算机科学。计算数学研究的算法重要针对像函数如许的持续构造,其重要应用对象是微分方程等;计算机科学重要处理离散构造,如收集。而实际数据的特点介于两者之间,即数据本身是离散的,而数据背后有一个持续的模型。是以,要成长针对数据的算法,就必须把计算数学和计算机科学研究的算法有效地结合起来。
【编辑推荐】
- 看大年夜数据、共享经济若何加快改变中国
- 若何才能发挥大年夜数据的价值?
- 大年夜数据七大年夜趋势 第一个趋势是物联网
- 若何建立数据驱动文化
- 谷歌推出视频数据库“AVA”,中国联通与腾讯合作共建云数据中间
推荐阅读
沙龙晃荡 | 去哪儿、陌陌、ThoughtWorks在主动化运维中的实践!10.28不见不散!组织中断和技能缺掉 为了进一步>>>详细阅读
本文标题:数据科学的基本内容
地址:http://www.17bianji.com/lsqh/38162.html
1/2 1