R语言介绍(2):什么是数据科学,可以看以下介绍
R语言开篇–R语言介绍
开篇不再介绍R语言是如何下载和R语言的代码,如果您想真正的了解R,学习R,利用R做一些实际性的应用,不妨花点时间先了解一下当前数据科学的进展、了解R语言的历史和发展进程,R语言在数据科学的贡献。当对这些了解后,很可能对R产生浓厚的兴趣。俗话说兴趣是最好的老师,当您对R感兴趣后,对于学习R便会起到事半功倍的效果。
由于工作繁忙,在接下来的时间里,我将不定期将内容推送出来供大家阅读,我们互相学习,希望阅读到该专栏的同学和老师们,以及数据分析工作人员,数据分析爱好者从一个数据分析“小白”成长为一名专业的数据分析工程师。
最后,欢迎大家在评论区留言或私信,交流学习心得或学习R的过程中遇到的问题。感谢大家的支持和关注,您的支持是我创作的最大动力。
目录
1.背景介绍
如今大数据培训是骗局,大数据科学不再是高高地挂在神坛之上,已经广泛应用到我们的生活中的任何一个角落在之中,大到国民经济发展、航空航天等领域,小到居民出行、购物等方面,我们置身在大数据的海洋之中,感受大数据给生活带来的便利。如果你不知道什么是R,什么是数据科学,可以看以下的介绍。
1.数据科学进展
近年来,伴随着科学技术、社会经济的发展,学者们对大数据的研究方兴未艾。数据分析科学(统计学、计量心理学、计量经济学、机器学习)的发展一直与数据的爆炸式增长保持同步。随着科学研究的不断深入,科学数据也在不断产生和利用。从科学数据的开放到数据的重用,其中可能涉及到数据共享、数据组织、数据存储等等各个流程。每个流程之间环环相扣,气最终目的是实现数据资源的开放和最大化的利用。数据资源可以通过广泛的社会化服务,发挥其潜在的价值,进而减少国家的重复投资,提升科研投资的效率。
2.为什么是R?
R语言是一种为统计计算和绘图而生的免费软件环境,它是一套开源的数据分析解决方案,由一个庞大的全球性研究型社区来维护。目前市面上也不少的统计分析和绘图软件,比如大数据培训是骗局,SPSS、SAS、Stata和Excel,我们为什么要选择学习R语言呢?R有着非常多值得推荐的特性。
R语言有以下特点:
1.R语言的免费性
R是免费的,这绝对是一个不容拒绝的理由!多数商业统计软件的价格不菲,投入成千上万都是有可能的额。R语言有海量的数据包资源,而且全部是免费开源的,非常具有实用性。可以在R里编写新的统计方法。 R的更新速度超级快,总能找到一些R包来实现的比较新的统计方法。
2.R语言的实用性
R提供了各式各样的数据分析技术,几乎任何类型的数据分析工作都可以在R中完成。 R提供了顶级绘图功能,可以精确绘制非常漂亮的图。交互式的数据分析过程,任意一个数据分析步骤的结果均可以被保存、操作或者用作其它分析过程的输入数据。
R拥有顶尖水准的制图功能。如果想把海量、复杂的数据可视化,那么R拥有全面且最强大的一系列可用功能。
3.R语言的兼容性
R可以轻松读取多种来源的数据格式,包括文本文件、EXCEL、、数据库管理系统、其它统计软件(SAS、STATA、SPSS等)。结合Rmd,可以优雅的写作,可以实现统计分析过程和写作过程融为一体,可以输出为word、pdf、html、多种格式。
4.R语言的多样性
多平台应用,R可以在、UNIX和Mac OS上使用。 有多种图形界面可以调用R语言,很方便使用。R易于拓展,为快速编程实现新方法提供了一套十分自然的语言。
2.什么是R 1.R的发展历史
R是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。可以认为R是S语言的一种实现。而S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析和作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言,并由公司的统计科学部进一步完善。后来新西兰奥克兰大学的 和Ross Ihaka及其他志愿人员开发了一个R系统。由“R开发核心团队”负责开发。R可以看作贝尔实验室(AT&T )的Rick 、John 和Allan Wilks开发的S语言的一种实现。当然,S语言也是S-Plus的基础。所以,两者在程序语法上可以说是几乎一样的,可能只是在函数方面有细微差别,程序十分容易地就能移植到一程序中,而很多一的程序只要稍加修改也能运用于R。
下图为R语言之父Ross Ihaka
2.R语言环境
R是一套由数据操作、计算和图形展示功能整合而成的套件。包括:有效的数据存储和处理功能,一套完整的数组(特别是矩阵)计算操作符,拥有完整体系的数据分析工具,为数据分析和显示提供的强大图形功能,一套(源自S语言)完善、简单、有效的编程语言(包括条件、循环、自定义函数、输入输出功能)。
在这里使用“环境”()是为了说明R的定位是一个完善、统一的系统,而非其他数据分析软件那样作为一个专门、不灵活的附属工具。
R很适合被用于发展中的新方法所进行的交互式数据分析。由于R是一个动态的环境,所以新发布的版本并不总是与之前发布的版本完全兼容。某些用户欢迎这些变化因为新技术和新方法的所带来的好处;有些则会担心旧的代码不再可用。尽管R试图成为一种真正的编程语言,但是不要认为一个由R编写的程序可以长命百岁。
3.R与统计
在我们对R语言环境的介绍中并没有提到统计,不过很多人都把R作为一个统计系统来使用。我们倾向于把它当作环境,使得经典和现代统计技术在其中得到应用。一部分已经被内建在基本的R语言环境中,但是更多的是以包的形式提供的。由8个包是随着R一同提供的(称作标准包),其它的可以通过CRAN的成员网站获得。
通过R可以使用绝大多数的经典或者最新的统计方法,不过用户需要花一些功夫来找出这种方法。
S(和R)与其他主流的统计系统在本质上有一个很重要的不同。在S中,统计分析通常由一系列的步骤完成,同时将交互的结果存储在对象中。所以,尽管SAS和SPSS在一个回归或者判别分析中会给出丰富的输出结果,R只是给出一个最小的输出,而将结果保存在一个适当的对象中由R函数进行后续查询。
4.R与视窗系统
使用R最便捷的方式是在一个运行视窗系统的图形工作站上。这份指南就是为拥有这项便利的用户准备的。尽管我们绝大部分的内容都是来讲R环境的一般应用,我们还是会时不时的提到R在系统下的应用。
与操作系统的直接互动对多数用户来说都是必要的。在这份指南中我们主要讨论在UNIX系统下的互动,所以下的R用户需要做出一些小的调整。
对工作站的定制是一项直接而有效但又单调乏味的过程,在这里我们并不会作更深入的讨论。如果您在这方面遇到了困难可以向你身边的专家寻求帮助。
3.如何学习R
R语言的学习途径非常多,以下介绍几种常见的学习方法。
1.阅读博客
阅读博客是一种非常快速有效地学习R的一种方法,当学习R的时候遇到问题时,我们时常去百度,但是百度出来的结果太杂乱,包含许多无用的信息,然而在CSDN中能够搜索到很多有用的相关信息,甚至是学习的源代码。此方法适合于了解R语言的基本操作和代码,如果你对R语言一无所知,那么恭喜你,通过本专栏的学习,保证实现从零基础到R语言数据分析师的跨越。
2.阅读书籍
阅读书籍是R学习最基础,也是最有效的方法,通过R语言专业书籍的学习能够对R进行系统学习,掌握的知识更加全面。该方法比阅读博客更为有效,缺点是书中的内容太过枯燥,很难坚持下午,当遇到问题时很难自己去突破,在CSDN中便可以与作者进行互动。
3.参加培训班或在线课程
如果是在校学生,相信很多大学都开有R语言的课程,大家可以免费在课堂上对R进行系统的学习,完成老师布置的作业,这种也是一种非常有效的R语言学习方法,但是对于上班族而言就很难到学校的课堂中进行学习,当然也有一些免费的资源,比如中国大学慕课,一些免费的公众号,都可以学习。如果手头宽裕的话,也可以报一些在线培训班,通过学习可以在短期内实现快速高效的提升,当然,如果你不差钱的话,也可以找一对一的私教,这样效果会更好。
如果遇到问题,也欢迎大家在留言区评论或给我私信,我有时间便会进行解答。
4.多做实验
读万卷书不如行万里路,学习R也是如此,要多做练习,多思考,学习没有捷径,唯有勤奋!不积跬步无以至千里,不积小流无以成江海,唯有不断学习,才能真正提升自己。在不断的实验过程中,你会对R越来越感兴趣,也会获得一定的成就感。
文章的最后附上几张利用R语言制作的精美图件供大家欣赏。
本文使用的参考文献:
[1]徐延强.大数据时代与数据重用[J].信息与电脑(理论版),2018(05):132-133+137.
[2]汪俊.美国科学数据共享的经验借鉴及其对我国科学基金启示:以NSF和NIH为例[J].中国科学基金,2016,30(01):69-75.DOI:10.16262/ki.1000-8217.2016.01.017.
[3]尹文辰.国内外科学数据重用理论研究与实践进展[J].山东图书馆学刊,2022,(02):7-14.
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.9iwh.cn/qiche/56370.html