作家
登录

大数据到底怎么学:数据科学概论与大数据学习误区

作者: 来源: 2017-04-26 15:02:45 阅读 我要评论

在上述几个阶段的技巧进修过程中,须要留意几个关键问题:

  • 一是看重可视化和营业决定计划,大年夜数据分析结不雅是为决定计划办事,而大年夜数据决定计划的表示情势,可视化技巧的好坏起决定性感化;
  • 二是问问本身,Hadoop、Spark等是必须的吗?要大年夜全部大年夜数据技巧栈来推敲技巧选型和技巧路线切实其实定;
  • 三是建模问题处于核心肠位,模型的选择和评估至关重要,在教室和实验室中,多半模型的评估是静态的,少有推敲其运行速度、及时性及增量处理,是以多应用复杂的痴肥模型,其特点变量往往及其复杂。而Kaggle比赛中的各类Boost办法,XGBDT、随机丛林等模型,在数据发掘和机械进修教材中却少有说起,所以要充分参考业界拭魅战经验不克不及尽信书;
  • 四是开辟说话的选择,基本框架体系Java是必须控制的,应用级的机械进修和数据分析库Python是必须控制的,而要深刻各类框架和进修库的底层,C++是必须控制的;五是模型的产品化,须要将实际数据经由过程管道设计转换为输入特点传递给模型,若何最小化模型在线上和线下的表示差距,这些都是要解决关键的问题。

(4)大年夜数据进修要勇于实践,不要空言无补:数据科学照样数据工程?

大年夜数据只有和特定范畴的应用结合起来才能产生价值,数据科学照样数据工程是大年夜数据进修要明白的关键问题,钙揭捉?术发paper数据科学OK,但要大年夜数据应用落地,如不雅把数据科学结不雅转化为数据工程进行落地应用,难度很大年夜,这也是很多企业质疑数据科学价值的原因。且不嗣魅这种转化须要一个过程,大年夜业人员自身也是须要核阅思虑的。

工业界包含当局治理机构若何惹人研究智力,数据分析若何转化和价值变现?数据科学研究人员和企业大年夜数据体系开辟工程人员都得想想这些关键问题。

今朝数据工程要解决的关键问题主线是数据(Data)>常识(Knowledge)>办事(Service),数据采集和治理,发掘分析获取常识,常识规律进行决定计划支撑和应用转化为持续办事。解决好这三个问题,才算大年夜数据应用落地,那么大年夜进修角度讲,DWS就是大年夜数据进修要解决问题的总目标,特别要重视数据科学的实践应用才能,并且实践要重于理论。大年夜模型,特点,误差,实验,测试到应用,每一步都要推敲是否能解决实际问题,模型是否具备可解释性,要勇于测验测验和迭代,模型和软件包本身不是全能的,大年夜数据应用要重视鲁棒性和实效性,温室模型是没有效的,练习集和测试集就OK了吗?

大年夜数据到底怎么学:数据科学概论与大年夜数据进修误区

上述大年夜数据疆土根本涵盖了国外大年夜数据相干技巧和R当链(国内里关村版的大年夜数据技巧和企业照样太少,多是传统信息技巧企业袈溱充数),大年夜大年夜数据源,开源技巧框架,大年夜数据基本举措措施扶植,大年夜数据核心的计算发掘分析,大年夜数据行业应用等方面进行了相干技巧、产品和企业的┞饭示。大年夜数据家当链大年夜数据源〉开源技巧〉基本举措措施〉分析计算〉行业应用到产品落地,每个链条环节和下辖的细分内容都涉及大年夜量数据分析技巧。不管是进修技巧照样开辟产品,分析和懂得这个大年夜数据家当疆土都十分须要。

大年夜数据到底怎么学:数据科学概论与大年夜数据进修误区

所以,大年夜数据进修必定要清跋扈我是在做数据科学照样数据工程,各须要哪些方面的技巧才能,如今处于哪一个阶段等,不然为了技巧而技巧,是难以学好和用好大年夜数据的。

(5)大年夜数据进修的三个阶段:不合阶段的技巧路线各有侧重,把握重要抵触。在大年夜数据应用实施过程中,因为技巧和成本推敲,弗成能短时光内解决所有问题,大年夜数据应用本身有其规律和特点,比如分析目标必定是要跟数据范围匹配,分析技巧的采取取决于数据构造和数据源前提,数据集成必定要覆盖比较周全的营业背景,关键环节数据不克不及出缺掉等等。大年夜数据进修可以根据应用目标分三个阶段:

  • (1)大年夜数据基本举措措施扶植阶段:这个阶段的重点是把大年夜数据存起来,管起来,能用起来,同时要推敲大年夜数据平台和原有营业体系的互通结合问题。一句话,做好全局数据集成解决数据孤岛问题!要完成大年夜数据基本举措措施体系扶植开辟,须要明白数据采集、存储和分析各层核心组件的选型和应用,搭建稳定的大年夜数据集群,或选择私有云筹划的办事集群,与临盆体系并线运行,使待分析的汗青数据和及时数据得以采集并源源赓续流入大年夜数据体系。这个阶段的关键技巧进修包含采集爬虫、数据接口、分布式存储、数据预处理ETL、数据集成、数据库和数据仓库治理、云计算和资本调剂治理等等内容。
  • (2)大年夜数据描述性分析阶段:此阶段重要定位于离线或在线对数据进行根本描述统计和摸索式可视化分析,对治理起来的大年夜数据能进行海量存储前提下的交互式萌芽、汇总、统计和可视化,如不雅扶植了BI体系的,还需整合传统BI技巧进行OLAP、KPI、Report、Chart、Dashboard等分析和初步的描述型数据发掘分析。这个基本分析阶段是对数据集成质量的考验,也是对海量数据前提下的分布式存储治理技巧应用稳定性的测试,同时要能替代或集成传统BI的各类报表。这个阶段的关键技巧进修包含可视化、摸索式交互式分析、多维分析、各类根本报表和图表的萌芽设计等等。
  • (3)大年夜数据高等猜测分析和临盆安排阶段:在初步描述分析结不雅合理,相符预期目标,数据分布式治理和描述型分析稳定成熟的前提下,可结合进一步智能化分析需求,采取如深度进修等实用海量数据处理的机械进修模型,进行高等猜测性发掘分析。并经由过程慢慢迭代优化发掘模型和数据质量,形成稳定靠得住和机能可扩大的智能猜测模型,并在企业相干营业办事中进行分析结不雅的决定计划支撑,进行验证、安排、评估和反馈。这个阶段的关键技巧包含机械进修建模、决定计划支撑、可视化、模型安排和运维等。

      推荐阅读

      CNN浅析和历年ImageNet冠军模型解析

    今天在这里我给大年夜家道解一些深度进修中卷积神经收集的道理和一些经典的收集构造。在应用了ResNet的构造后,可以发明层数赓续加深导致的练习集上误差增大年夜的现象被清除了,ResNet收集的练习误差会跟着层数增大>>>详细阅读


    本文标题:大数据到底怎么学:数据科学概论与大数据学习误区

    地址:http://www.17bianji.com/lsqh/34973.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)