作家
登录

大数据到底怎么学:数据科学概论与大数据学习误区

作者: 来源: 2017-04-26 15:02:45 阅读 我要评论

其实我这里讲的瞽者摸象并不是贬义,究靖荷琐范畴的进修到精晓就是大年夜瞽者摸象式开端的。大年夜数据、数据科学都是很虚的一个概念,分析目标和采取技巧都搜罗万象,就比如写法度榜样,分前端和后端,分B/S和C/S,分嵌入式、企业应用和APP等,开辟说话更是稀有十种,不合偏向所须要的技巧也是大年夜不雷同。

大年夜数据到底怎么学:数据科学概论与大年夜数据进修误区
图5 大年夜数据瞽者摸象

所以怎么大年夜获得面,构建大年夜数据范畴完全的常识构造和分析才能至关重要,某方面的技巧和说话只是对象罢了。

大年夜数据常识构造,就是既有精深的大年夜数据基本理论常识,又有广博的常识面和应用全局不雅,具有大年夜数据家当成长所须要的最合理、最优化、最关键的核心技巧与常识体系。经由过程合理的常识构造和科学的大年夜数据思维办法,进步大年夜数据分析拭魅战技能。这个目标很大年夜,但照样可以达到的,起重要搞清跋扈大年夜数据家当链的情况,接下来要明白大年夜数据技巧粘就镣是相干技巧体系,最后定下进修目标和应用偏向,是面对什么行业的数据,是存眷存储照样机械进修,数据范围是什么量级,数据类型是文本、图像、网页照样贸易数据库?每个偏向所用技巧有较大年夜差别,须要找准进修的兴趣点和切入点。

大年夜数据到底怎么学:数据科学概论与大年夜数据进修误区
图6 大年夜数据技巧栈与进修路线参考图

膳绫擎这个大年夜数据技巧栈和进修路线图,可以说是一个大年夜数据进修的总纲,专业性很强,值得初学者深刻研究和懂得,对我在前面提到的数据科学技巧体系来讲,是更丰富的弥补。比如基本进修部分包含线性代数、关系代数、数据库基本、CAP理论、OLAP、多维数据模型、数据预处理ETL等都分析得很到位。

总之大年夜数据进修不克不及像炒菜一样,比及把所有材料预备好了才下锅(因为这个范畴技巧体系复杂应用目标广泛,就似揭捉?个十年二十年也难以控制其大年夜部分核心理论技巧),而是结合本身的兴趣或工作需求,找一个点猛扎进去,控制这个点的相干技巧,深刻懂得其分析的流程、应用和评价等环节,搞透掣荷琐点之后,再以点带面,触类旁通,慢慢覆盖大年夜数据各个范畴,大年夜而构建完全的常识构造和技巧才能体系,这才是大年夜数据进修的最佳路径。

4.大年夜数据要怎么学:数据科学特点与大年夜数据进修误区

(1)大年夜数据进修要营业驱动,不要技巧驱动:数据科学的核心才能是解决问题。

大年夜数据的核心目标是数据驱动的智能化,要解决具体的问题,不管是科学研究问题,照样贸易决定计划问题,抑或是当局治理问题。

所以进修之前要明白问题,懂得问题,所谓问题导向、目标导向,这个明白之后再研景谕选择合适的技巧加以应用,如许才有针对性,言必hadoop,spark的大年夜数据分析是不严谨的。

不合的营业范畴须要不合偏向理论、技巧和对象的支撑。如文本、网页要天然说话建模,随时光变更数据流须要序列建模,图像音频和视频多是时空混淆建模;大年夜数据处理如采集须要爬虫、倒入导出和预处理等支撑,存储须要分布式云存储、云计算资本治理等支撑,枷⒚须要分类、猜测、描述等模型支撑,应用须要可视化、常识库、决定计划评价等支撑。所所以营业决定技巧,而不是根据技巧来推敲营业,这是大年夜数据进修要避免的第一个误区。

数据科学的标配说话R和Python更是因开源而生,因开源而繁华,诺基亚因没把握开源大年夜势而式微。为什么要开源,这得益于IT成长的工业化和构件化,各大年夜范畴的基本技巧栈和对象库已经很成熟,下一阶段就是怎么快速组合、快速搭积木、快速产出的问题,不管是linux,anroid照样tensorflow,其基本构件库根本就是应用已有开源库,结合新的技巧办法实现,组合构建而成,很少在反复造轮子。

(2)大年夜数据进修要善用开源,不要反复造轮子:数据科学的技巧基因在于开源。IT前沿范畴的开源化已成弗成逆转的趋势,Android开源让智妙手机平平易近化,让我们跨入了移动互联网时代,智能硬件开源将带领跨入物联网时代,以Hadoop和Spark为代表的大年夜数据开源生态加快了去IOE(IBM、ORACLE、EMC)过程,倒逼传统IT巨擘拥抱开源,谷歌和OpenAI联盟的深度进修开源(以Tensorflow,Torch,Caffe等为代表)正在加快人工智能技巧的成长。

别的,开源这种众包开辟模式,是一种集体聪明编程的表现,一个公司无法积聚全球工程师的开辟智力,而一个GitHub上的明星开源项目可以,所以要善用开源和集体聪明编程,而不要反复造轮子,这是大年夜数据进修要避免的第二个误区。

(3)大年夜数据进修要以点带面,不贪大年夜求全:数据科学要把握好碎片化与体系性。根据前文的大年夜数据技巧体系分析,我们可以看到大年夜数据技巧的深度和广度都是传统信息技巧难以比较的。

我们的精力很有限,短时光内很难控制多个范畴的大年夜数据理论和技巧,数据科学要把握好碎片化和体系性的关系。

何为碎片化,这个碎片化包含营业层面和技巧层面,大年夜数据不只是谷歌,亚马逊,BAT等互联网企业,每一个行业、企业琅绫擎都有它去存眷数据的陈迹:一条临盆线上的及时传感器数据,车辆身上的传感数据,高铁设备的运行状况数据,交通部分的监控数据,医疗机构的病例数据,当局部分的海量数据等等,大年夜数据的营业场景和分析目标是碎片化的,并且互相之间分析目标的差别很大年夜;别的,技巧层面来讲,大年夜数据技巧就是万金油,一切办事于数据分析和决定计划的技巧都属于这个范畴,其技巧体系也是碎片化的。

那怎么把握体系性呢,不合范畴的大年夜数据应用有其共性关键技巧,其体系技巧架构也有相通的处所,如体系的高度可扩大性,能进行横向数据大年夜范围扩大,纵向营业大年夜范围扩大,高容错性和多源异构情况的支撑,对原有体系的兼容和集成等等,每个大年夜数据体系都应当推敲上述问题。若何把握大年夜数据的碎片化进修和体系性设计,离不开前面提出的两点误区,建议大年夜应用切入、以点带面,先年腋荷琐实际的应用范畴需求出发,搞定一个一个技巧点,有必定功底之后,再触类旁通横向扩大慢慢懂得其体系性技巧。


  推荐阅读

  CNN浅析和历年ImageNet冠军模型解析

今天在这里我给大年夜家道解一些深度进修中卷积神经收集的道理和一些经典的收集构造。在应用了ResNet的构造后,可以发明层数赓续加深导致的练习集上误差增大年夜的现象被清除了,ResNet收集的练习误差会跟着层数增大>>>详细阅读


本文标题:大数据到底怎么学:数据科学概论与大数据学习误区

地址:http://www.17bianji.com/lsqh/34973.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)