计算传播领域尤其是新媒体数据挖掘方向一直缺乏系统的教材,《新媒体数据挖掘基于R语言》旨在为计算传播和计算社会科学领域的读者提供学习R编程语言和开发平台的捷径,希望能够填补这方面的空白。让学习层次变得更宏观,让学习过程变得更轻松,让学习所获变得更通用是《新媒体数据挖掘基于R语言》的编写理念与特色。《新媒体数据挖掘基于R语言》首先剖析了社会科学研究范式的革新,介绍了R语言的作用和特点;然后系统讲解了编程语言的通用学习方法和R语言的基本组成;*后展开实战应用,包括网络数据采集、文本挖掘和情感分析、社会网络分析、社交编程平台协作等非常有趣且有意义的内容。
《新媒体数据挖掘基于R语言》适合作为计算传播和计算社会科学领域相关专业本科和研究生教材。高职高专学校也可以选用部分内容开展教学。《新媒体数据挖掘基于R语言》还适合作为计算传播学和计算社会科学科研人员的自学书籍。
《新媒体数据挖掘基于R语言》课件可通过网站http://www.tupwk.com.cn/downpage免费下载。
《新媒体数据挖掘基于R语言》特色《新媒体数据挖掘基于R语言》在内容组织上强调探究科研与实践的哲学背景,注重理论联系实际,使读者能充分理解和掌握使用R语言进行社会科学研究与实践的方法与本质。《新媒体数据挖掘基于R语言》主要特色如下。1.哲学社会科学,有计算之道哲学社会科学,是尺量人类整体生存在宇宙时空中的意义的工具;如果自然科学的使命是研究和预测宇宙,那么哲学社会科学则研究和预测人类社会。社会科学的实证研究已经形成了计算范式与计量范式并驾齐驱的格局,计算范式必将引发社会科学领域的科学范式革命。2.计算机编程,有语言之学正所谓学而不思则罔,思而不学则殆,本书独创性地以英语语法作为参照物,以将编程语言作为语言来学习作为知识主线/图谱,授予读者一种学习任何编程语言的*通用方法。3.数据挖掘分析,有实践之路强者之路,可有坦途?《新媒体数据挖掘基于R语言》所有案例均基于互联网知名在线平台,读者基于书中的代码即可轻松进行重复性实验。这不仅能极大地提升学习的兴趣与自信,也给读者进行数据挖掘与分析等科研工作提供了一条坦途之路。
随着互联网、大数据、人工智能等技术的发展,科学技术已经不再只是人类社会的生活背景,而是真正关系到人类整体的生存与发展。多学科相结合、以各学科的视角和专业背景促成人类的自由与科学的发展,是科研工作者在当今时代最重要的研究论题,这反映在人文社会科学领域,正是哲学社会科学。
如果说自然科学的使命是研究和预测宇宙,那么哲学社会科学则是研究和预测人类社会。如今计算范式已经开始引发社会科学领域的科学范式革命,社会科学的实证研究已经形成计算范式与计量范式并驾齐驱的格局。
在这样的时代与科研背景下,近些年人人都要学编程人人都要会数据统计在人文社会科学领域显得越来越重要。由于具有开源、强大的网络扩展功能,广泛的社区支持,强大的数据处理/统计分析和可视化功能,R语言和Python语言俨然已成为当前人文社会科学领域的师生们必须掌握的学习和科研工具。该如何选择这些软件工具?如何真正地高效学习编程语言?如何以最简单但又最标准、最正确的姿态选择和学习一门网络编程语言?这些对人文社会科学领域的师生们来说并不是一件简单的事情。
笔者由于跨学科的背景:十年从事计算机领域的教学与开发工作,转型并进入深圳大学新闻与传播学院(人文社会科学领域)任教,在梳理人文社科、自然哲学的脉络关系中得到了让世界在内心中逐渐合理起来的哲学愉悦;为满足教学科研的需要,现将十年来对计算机编程语言教与学的方法和对人文社科、自然哲学的统一观察一并写成《新媒体数据挖掘基于R语言》,作为这些年来工作与学习的总结。
《新媒体数据挖掘基于R语言》的全部章节安排如下:
第1章首先从计算社会科学、计算传播学在国内学术圈中的兴起入题,介绍R语言的诞生、功能和在科研工作中的作用,对比几种科研工具的优缺点,并强调R是一种自带编程环境的统计软件,Python是一种自带统计功能的编程语言,以供读者做出符合自己实际情况的正确选择。
第2章以R为选择对象,先引入R的核心软件RGui,然后介绍R的综合IDE开发环境RStudio的下载、安装和基本使用。
第3章和第4章本着程序=数据 代码的宏观架构,本着将编程语言作为语言来学习的核心主线,选择大家熟悉的英语语法为参照物,对R语言的语法进行平缓、细致、精确的讲解,让读者能够真正掌握一种学习任何编程语言的万能通用方法:英语被称为动词的语言,名词(相当于数据类型)和以动词(相当于运算符)为核心的谓语构成简单句(相当于表达式语句),为表达更复杂的逻辑,英语语法又扩充出了并列句、复合句等语法结构(相当于流程控制)。读者会发现,几乎所有计算机语言的图书,其前几章必然是数据类型运算符流程控制,这其实就是《新媒体数据挖掘基于R语言》提出的编程语言通用学习主线;主线之外其他语法项目无外乎锦上添花,例如函数是为了提高代码复用率,软件包是为了引入第三方扩充。
第5章至第8章分别讲述如何用R的核心功能包和扩展功能包实现可视化绘图、互联网数据采集、文本挖掘与情感分析、社会网络分析等功能,这些内容不仅非常有趣,而且非常有应用和科研意义。
第9章引入一个案例学习社交编程平台GitHub,不仅加深对第6章中网络数据采集的学习和应用,还可结合附录中的R软件包的制作、发布与引入方法,真正认识到GitHub作为社交编程平台的重要性和意义:程序员世界的重建巴别塔。
在《新媒体数据挖掘基于R语言》的编写分工上,深圳大学传播学院网络与新媒体系的王小峰老师负责全书的规划、主编与统稿,并参与撰写了第1、第3、第4、第6、第9章;福建师范大学福清分校电子与信息工程学院的方捷老师撰写了第2、第5、第7、第8章和全部附录内容。
由于时间仓促、作者水平有限,《新媒体数据挖掘基于R语言》难免存在遗漏与不足,编者敬请读者批评与指正,我们将会在后续的工作中不断地调整、改进。
深圳大学 王小峰
2017年10月30日夜
于深圳市福田区安托山
作者简介王小峰,深圳大学传播学院网络新媒体系教师,计算机博士(武汉理工大学)、公共管理博士后(武汉大学),网页设计师、Redhat工程师。长期致力于计算机编程语言的教学与实践,精通C/C 、Java、PHP、JavaScript、Python、R、Go等十余种编程语言。研究方向主要有机器学习(自然语言处理)、数学文化传播、区块链应用系统开发等。编写《高级语言程序设计(C语言版)》《深度学习(人工智能)》《PHP动态网页设计与网站架设》等教材七部,发表国内外核心论文十余篇。近三年来主持中国博士后科学基金项目深圳市区级卫生信息平台的集约化建设与第三方监管模式研究(编号:2016M602370)、深圳市教育科学十三五规划重点项目基于全栈开源的创客课题体系的规划与实施研究(编号:zdfz16003)、科技创新课题基于区块链技术的电子文件保护研究基于联盟区块链网络的电子病历防篡改研究等项目和课题。