作家
登录

为什么R语言是学习数据分析的第一选择

作者: 来源: 2017-08-08 15:04:59 阅读 我要评论

刚开端进修数据科学的人都邑面对同一个问题:

不知道该先进修哪种编程说话。

不仅仅是编程说话,像Tableau,SPSS等软件体系也是同样的情况。有越来越多的对象和编程说话,很难知道钙揭捉?择哪一种。

事实是,你的时光有限。进修一门新的编程说话相当于一项巨大年夜的投资,是以在选择说话时须要有计谋性。

我给你的建议就是:先进修R说话

专注于一种说话

在解释为什么你应钙揭捉?习R说话之前,我想强调的是,在开端进修数据科学时,你应钙揭捉?习一种说话。

有些人问我是否应钙揭捉?习在学R说话的同时进修Python。我的谜底根本上是否定的,除非你须要应用一种以上的说话,不然你应钙揭捉?择一种说话进行进修。

专注于一种编程说话的原因是,你须要更多地雌教过程和技巧,而不是语法。你须要控制若何经由过程数据科学对象来分析数据,以及若何解决问题。事实证实,R说话是最佳的选择。

很明显,一些说话会给你的投资带来很高的回报(付出的时光和金钱投资)。然而其他说话可能是你每年只用几回的纯粹帮助对象。

我建议你将R说话作为你的第一个“数据科学编程说话”。固然也有例外,比如特定的项目须要。

因为R说话正在成为数据科学的“通用说话”

这并不是说R说话是独一的说话,也不是说它是每个工作的最佳对象。然而,它是应用最广泛的,并且越来越受迎接。

O' reilly media在以前几年中进行了一系列数据科学查询拜访,分析了数据科学趋势。在2016年的查询拜访申报中,R说话是最常用的编程说话(如不雅清除SQL的话,在本文中它不克不及称为编程说话)。57%的查询拜访人群应用R说话(应用Python的比例为54%)。

此外还有TIOBE指数(按搜刮引擎搜刮次数对编程说话进行排名)。在TIOBE指数上,R说话十年来竽暌箍现出稳定上升趋势。

应用R说话的公司

在雇用数据科学家的几家顶级公司中,R说话应用程度异常高。在我认为现代经济中最优良的两家公司——Google和Facebook 都有应用R说话数据科学家。

进修R说话

R说话在学术界很受迎接

R说话不仅仅是一个行业对象。它在学术科学家和研究人员中也异常受迎接,比来有名《天然》杂志上揭橥的R说话概况也证实了这一点。

R说话在学术界的备受迎接,因为它创造了供给行业的人才库。

此外,跟着数据科学的成熟,贸易届的数据科学家将须要与学术届的科学家进行更多的沟通。我们须要借鉴技巧和交换不雅点。跟着世界改变为数据流时,学术科学与面向贸易的数据科学之间的界线会变得模糊。

经由过程R说话进修“数据科学的技能”是最简单的

然而,R说话的普及性并不是进修R说话的独一原因。

在选择说话时,你须要一种在这些范畴都具有重要功能的说话。同时你须要履行这些义务的对象,以及在你所选说话中来进修这些技能的资本。

你须要进修若何解决问题。

换句话说,如不雅最优良、最聪慧的人群在大年夜学进修了R说话,这将加大年夜R说话在行业中的重要性。当学者、博拾谕研究人员分开学术界大年夜事贸易晃荡时,他们又将产生对R说话人才的需求。

你须要进修如安在数据中找到真知灼见。

为此,你须要控制数据科学的3个核心技能范畴:数据处理,数据可视化和机械进修。在R说话中控制这些技能将比任何其他说话都轻易。

数据处理

一般来说,数据科学中80%的工作都是数据处理。平日情况下,你须要花费大年夜量时光来整顿你的数据。R说话中有一些很棒的数据治理对象。

R说话中的dplyr包使数据处理变得轻易,这可以大年夜大年夜简化数据处理的工作流程。

如上所述,你更多地须要存眷流程和技巧,而不是语法。

数据可视化

ggplot2是最佳的数据可视化对象之一。ggplot2的好处是,在进修语法的同时,还进修若何思虑数据可视化。

另一个常见的说话排名体系是Redmonk编程说话排名,它由GitHub(代码行)和Stack Overflow(标签数)的风行指数派生而来。截至2016年11月,R说话在所有编程说话中排名第13。此外,R说话多年来一向呈持续上升趋势:

所有的统计可视化都有很深层的构造。存在构建数据可视化的高度构造化框架,ggplot2基于该框架。

此外,当将ggplot2和dplyr组合在一路时,大年夜数据中得出相干看法几乎毫不辛苦。

机械进修

最后,还有机械进修。固然我认为大年夜多半数据科学初学者不该该急于进修机械进修(起首控制数据摸索更为重要),机械进修是一项重要的技能。当数据摸索不再带来洞察力时,你则须要更强大年夜的对象。

之后再进修更多的说话和对象

除了像Google,Facebook和微软如许的科技巨擘,R说话在美国银行,福特,TechCrunch,Uber和Trulia等浩瀚公司都有广泛的应用。

最终你会想进修更多的编程说话。就像对象箱中没有一个最好的对象一样,没有一种编程说话可以或许完美的解决你所有的数据问题。

以下是在进修R说话之后,你可以斟灼揭捉?习的说话:

Python

Python是一种值得推敲的多用处编程说话。在O'Reilly比来的查询拜访中,Python是数据科学家中第二受迎接的编程说话。它具有优良的可视化对象,以及机械进修对象。我认为,对于大年夜多半仁攀来说Python是应钙揭捉?习的第二种说话。

D3

我超爱D3。D3中创建的可视化效不雅很棒,并且D3可视化的交互性异常合适构建仪表板。但它的伸缩性不敷好。对我来说,D3更像是一个“工匠的对象”,它异常合适构建一个优雅的数据可视化,然则在须要几十个合作伙伴支撑的情况下棘手动创建如许的器械是弗成能的。

与此同时,我还乐不雅地认为,R说话的ggvis将许可R说话用户创建高度动态和交互性的可视化,是以在某种意义上,R说话用户须要进修R的ggvis而不是D3。


  推荐阅读

  帮你提升Python的27种编程语言

27 种说话 过程型编程说话: C, Rust, Cython 面向对象数据建模说话: Java, C#, Eiffel C 的面向对象衍生说话: C++, D 面向数组的数据处理: MATLAB/Octave, Julia 统计数数据分析: R 枷⒚鹜管道建模>>>详细阅读


本文标题:为什么R语言是学习数据分析的第一选择

地址:http://www.17bianji.com/lsqh/36593.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)