作家
登录

为什么说「大数据」可能被人们过度神化了

作者: 来源: 2017-12-04 16:02:13 阅读 我要评论

CTO练习营 | 12月3-5日,深圳,是时刻成为优良的技巧治理者了


如不雅说下水道是一个城市的良心,那么茅跋扈就是一座城市的门脸。

对于如许「先有鸡照样先有蛋的问题」,还须要大年夜数据加传统平易近调和小数据的结合才有可能找到谜底。

为什么说「大年夜数据」可能被人们过度神化了

1. 谷歌为何只猜对了一次?

感激维克托·迈尔·舍恩伯格、马云们孜孜不倦地布道,大年夜数据如今几乎成了全球先辈临盆力的标记,并且几乎被付与全能的欲望。

在《大年夜数据时代》一书中,舍恩伯格切实扑晡曹结了相对传统小数据的三大年夜特点:非随机样本,而是全部数据;非精确性,而是混淆性;非因不雅关系,而是相干关系。

最先证实大年夜数据强大年夜才能的乃是谷歌。

大年夜数据连接了千百万的数据点,可以精确地产生互相关系。然则,当仁攀类按照本身的习惯行动时,大年夜数据分析平日不会十分精确。所以发掘用户需求时,在大年夜数据之外,更重要的是经由过程对一个小群体的亲自不雅察和小数据常识,捕获到这个社会群体所表现出的文化欲望。

2009年在H1N1爆发几周前,谷歌公司的工程师们在Nature上揭橥了一篇论文介绍GFT,成功猜测了H1N1在全美范围的传播,甚至具体到特定的地区和州,并且断定异常及时,令公共卫生官员们和计算机科学家们倍感震动。

然则,在随后的几年傍边,谷歌这一猜测却屡屡掉灵,以至于在2014年美国有名的《科学》期刊登载的一篇题为《谷歌流感的寓言:大年夜数据分析的陷阱》的文┞仿称:

查询拜访撰写这篇文┞仿的哈佛大年夜学、美国东北大年夜学的几位学者认为,大年夜数据的分析是很复杂的,但因为大年夜数据的收集过程,很难包管像传统小数据那样严密,不免会出现掉准的情况。最核心的问题是,大年夜数据分析侧重相干性,导致在推导因不雅关系时轻易出现误差。

他们建议,应当把大年夜数据与小数据相结合,以「全数据」思维代替「大年夜数据」思维。

很大年夜一部分与疾控中间流感产生率数据相干的搜刮词,并非是得流感的人引起的,而是由影响搜刮模式和流感传播的第三个身分(季候)产生的。谷歌流感趋势的开辟人员发明那些特定的搜刮词是随时光而产生变更的,但这些搜刮显然与病毒无关。比如,有的人可能仅仅是因为看了一部片子或者文┞仿而去搜刮流感。

2. 了不得的盖洛普

这只是「炒作大年夜数据」的一个缩影。

事实上,全球拥有真正意义上大年夜数据的公司并不多,而拥有分析大年夜数据才能的公司更是放绫谦麟角。斯坦福大年夜学统计学传授Trevor Hastie曾比方分析大年夜数据的过程,就比如在一大年夜堆干草垛中发明有意义的「针」,而艰苦之处恰好在于很多干草看起来也像针。

大年夜数据的不易得和分析的高难度,注定了其进入门槛的高耸。然则,传统平易近意查询拜访所形成的小数据有着明显的优势:样本的充分代表性、可操作、快速采集分析。

前不久,清华附小六年级学生一篇题为《大年夜数据帮你进一步熟悉苏轼》的小论文,被冠以大年夜数据之名,这里的大年夜数据其实是不折不扣的小数据,更确切地说只是用量化方法出现了一个「数据化」的苏东坡。

上世纪三十年代,美国数学家乔治·盖洛通俗过建立与美国全部选平易近构造一致的5000个查询拜菲揭捉?本,成功地猜测了罗斯福将博得1936年总统选举。这位传播鼓吹「我能用统计的办法证实上帝的存在」的盖洛普师长教师开启了现代平易近意测验的贸易化门路。

在大年夜数据鱼龙混淆的浊流中,传统平易近意查询拜访无疑是一个更靠谱的猜测方法。二胎政策出台后,如不雅想懂得人们真实的生育目标,按照大年夜数据全样本的标准几乎无法操作,然则经由过程传统平易近调却可以或许快速懂得情况。

南京航空航天大年夜学传授张杰,在2016岁首?年代针对10万人的问卷查询拜访显示,近四成人没有生育二胎的计算,已有女孩的家庭生育欲望更强,时光精力、经济状况不佳是国人不敢生二胎的重要原因。

此次二胎意愿查询拜访之所以能收受接收高达10万份问卷,一则解释受访者对这个问题存眷面比较广,二则表现了在线问卷更有利于保护隐私的长处,毕竟与生育相干的话题涉及小我隐私,传统线下一对一问卷查询拜访,会让受访者不太安闲。

3. 激活沉默的大年夜多半

如不雅说大年夜数据只有大年夜机构才有才能获取,如今类似在线平易近调小对象则赋能通俗大年夜众获得便利的调研才能,比大年夜数据更能表现互联网的普惠和平权特点。

中国的网平易近民数已经跨越7亿,互联网的渗入渗出率跨越50%,然则收集舆论并不等同于收集平易近意,一个重要原因是,网平易近不克不及代表示实中全部公平易近,并且活泼网平易近也不克不及代表全部网平易近。

复旦大年夜学传播与国度治理研究中间研究团队在2014年的一份研究申报称:

  • 在构造上,网平易近重要分布在社会中心阶层,社会高层和底裁人群较少,尤其是占中国总人口较大年夜比例的农平易近或外出务工人员群体,固然近两年有必定增长,但在网平易近中所占比例仍然较低,他们恰是收集中沉默的大年夜多半。
  • 只需勾选、简单输入的在线问卷,为普罗大年夜众理性表达看法供给一个便利渠道。
  • 传统平易近调和今天的在线平易近调都面对一个合营问题:若何进步受访者的介入率。起首,平易近调拒访率逐年增高,受访率赓续降低。根据皮尤中间的申报,美公平易近调答复率1997年为36%,2000年为28%,2006年15%,2013年9%,2015年只有7%。

4. 有平易近调剂有金山

大年夜数据可以赞助我们推导庄有名的口红效应(因经济萧条而导致口红热卖)、茅跋扈效应(城市越蓬勃茅跋扈越干净)、以及有名的啤酒与尿布发卖故事,但无法给出因不雅分析,要想大年夜中获得具体的贸易建议,还得须要提取样本进行传统查询拜访式的分析。


  推荐阅读

  麦肯锡:预计2030年机器人或将取代全球8亿工作岗位 1亿中国人面临职业转换

CTO练习营 | 12月3-5日,深圳,是时刻成为优良的技巧治理者了 关于机械人将抢走仁攀类工作机会的评论辩论已经习认为常,但近日麦肯锡给出了一个惊心动魄的数据:在主动化成长敏捷的情况下,到>>>详细阅读


本文标题:为什么说「大数据」可能被人们过度神化了

地址:http://www.17bianji.com/lsqh/39433.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)