《数据新闻实战》紧密围绕数字媒体环境下新闻工作者在数据新闻制作中的实际需求,基于案例全面介绍了数据新闻制作的流程。《数据新闻实战》理论和实践结合,内容包括数据新闻的概念和制作流程,公开数据的获取、申请和搜索方法,数据转换和存储方法,“脏数据”的成因及其表现形式,常见的数据清理和分析工具,基于OpenRefine环境清理“脏数据”的过程和方法,数据清理原则,数据合理性分析,缺失数据的预测和时间序列预测等。《数据新闻实战》同时阐明了数据可视化的概念,详细介绍了Tableau制作数据新闻的方法和技巧,最后介绍了其他常用的数据新闻制作工具。
《数据新闻实战》通俗易懂、结构严谨、层次清晰、案例丰富,特别适合网络编辑、新媒体记者、大中专院校相关专业师生阅读,有一定工作经验的数据新闻工作者也可以从《数据新闻实战》中学习到大量高级实用的功能和技巧。
数据新闻只是新闻报道中的一种形式,弥补传统新闻或叙事性新闻无法呈现的效果。数据新闻 采用可视化的方法将单调的数据用一种直观、便于理解和更具说服力的方法呈献给读者。数据,特别是大量的数据比采访几十个对象获取的抽样信息做出的结论更客观、更容易阐明观点。
写作目的
在大数据环境下,数据新闻作为一种新的报道形态受到了读者的认可和追捧。新闻工作者需要全面提升自己的专业技能,其中之一就是具备数据分析和数据呈现的能力。但无论是国内还是国外,大多数新闻工作者缺乏数据方面的知识,因为传统高校缺乏相应的课程,市场上也难以寻觅相应的图书。
现有的数据新闻方面的书籍主要研究的是数据新闻理论、点评数据新闻作品,缺少数据新闻的实战流程。本书正是为学习数据新闻制作的读者准备的,通过阅读本书可以快速获取数据、清理数据、可视化数据,独立完成数据新闻制作的全过程。
本书内容
第1 章 数据新闻概述。本章阐述数据新闻的概念、数据新闻制作人才的需求、数据新闻技术要求和制作流程,最后展示并点评了近期数据新闻奖的获奖作品。
第2 章 获取数据。本章讲解获取数据的方法和具体途径,包括政府、国际组织与第三方机构数据的获取,政府信息公开数据的申请,众包搜集数据及搜索引擎的使用,最后讲解数据的存储和综合案例。
第3 章 清理和分析数据。本章分析“脏数据”的成因及其表现形式,基于OpenRefine 环境清理“脏数据”,使用Excel 简单分析数据,阐明数据清理原则和综合案例。
第4 章 数据质量分析。本章讲解评估数据合理性的外部合理性检查和内部合理性检查,以及游程检验、抽样分析、缺失数据的预测和时间序列预测。
第5 章 数据分析及可视化工具应用。本章阐明了数据可视化的概念,介绍常见的数据可视化工具。以Tableau 为例详细讲解了数据可视化的具体方法,包括创建第一个可视化作品、连接数据、数据视图、高级分析、仪表板、故事和发布,最后分析了三个优秀的Tableau 作品。
第6 章 其他数据新闻制作工具。本章讲解其他常用的数据新闻制作工具,包括图表绘制工具库ECharts、标签云、关系图制作工具PeoplePlotr 和语义万维网服务Open Calais,最后使用 HTML5 网站制作模板将所有作品整合。
本书内容全面翔实,操作细节清楚,案例典型,方便学习,素材丰富,有利于强化读者操作能力,提高专业技能。
读前准备
·Windows 操作系统,互联网接入,IE 浏览器、Firefox 浏览器和Chrome 浏览器。
·文本编辑器,如Windows 中的记事本或者EditPlus。
·微软Office 工具包中的Excel,版本不限。
·?安装Java 环境,具体参见本书3.3.1 小节。
·如果是大中专学生,可以提前申请Tableau 免费一年使用权。
排版约定
·菜单项的名称放在【】中,如单击【分析】|【创建计算字段】选项。
·代码使用Courier New 字体并增加阴影,例如:
series: [{ //设置系列列表
name: '销量', //设置图表系列的名称
type: 'line', //设置图表类型是折线图
data: [5, 20, 36, 10, 10, 20] //设置系列数据
}]
?·使用“+”表示快捷键的组合,如按【Ctrl】+【C】快捷键。
?·没有特殊说明时,单击和双击分别表示鼠标左键单击和双击。
感谢
首先,感谢购买本书的读者。您的阅读是我写作动力的源泉。数据新闻发展较快,真心希望您在阅读本书后提出宝贵的意见,我们可以共同分析探讨问题,为后续图书的撰写提供素材和经验。
其次,感谢我的爱人和父母。在写作最困难的时候,是他们为我鼓劲加油,支持我完成书稿。父母年迈,但很开心地戴着老花镜帮我校稿。
最后,感谢电子工业出版社的张慧敏编辑、杨嘉媛编辑和戴新编辑,她们的严谨细致和辛勤努力保证了本书的顺利出版。
联系作者
如果您对本书有想法和意见,或者想与作者探讨某个问题,请发送电子邮件至yinghliu@163.com。
刘英华
2016 年8 月于北京
刘英华,1975年出生,女,博士,副教授。研究方向:数据挖掘、隐私保护、数字媒体。已出版专著《Java2程序设计》、《数字媒体传播实务》和《基于数据发布的隐私保护模型研究》。
先后发表学术论文30余篇,参与国家自然科学基金面上资助项目“基于大规模复杂结构知识库的知识发现机理、模型与算法研究”和“基于多关系的模糊认知图挖掘模型、算法与评价机制研究”。
第1 章 数据新闻概述1
1.1 数据新闻的概念2
1.2 制作数据新闻8
1.2.1 人才需求9
1.2.2 技术需要10
1.2.3 制作流程11
1.3 数据新闻奖(DJA)获奖作品12
第2 章 获取数据22
2.1 政府、国际组织与第三方机构的公开数据23
2.2 政府信息公开数据的申请26
2.3 众包搜集数据29
2.4 搜索引擎的使用30
2.4.1 搜索指令30
2.4.2 百度搜索工具33
2.4.3 百度高级搜索页面34
2.5 数据存储34
2.5.1 PDF 格式转换为Excel 格式35
2.5.2 在线转换工具Zamzar 37
2.5.3 浏览器插件38
2.5.4 结构化信息表格化40
2.5.5 批量下载文件42
2.6 综合案例44
2.6.1 使用联合国数据库44
2.6.2 获取北京市2014 年常住人口数量46
第3 章 清理和分析数据49
3.1 “脏数据”(Dirty Data)50
3.1.1 “脏数据”的成因50
3.1.2 “脏数据”的表现形式51
3.2 数据清理/分析工具52
3.3 清理“脏数据” 53
3.3.1 安装OpenRefine 环境53
3.3.2 创建项目(导入数据)55
3.3.3 主界面56
3.3.4 归类(Facet)57
3.3.5 文本过滤器(Text filter)63
3.3.6 编辑单元格(Edit cells)64
3.3.7 编辑列(Edit column)66
3.3.8 变换(Transpose)68
3.3.9 排序(Sort)70
3.3.10 视图(View)71
3.3.11 导出(Export)71
3.3.12 函数72
3.3.13 正则表达式77
3.4 使用Excel 简单分析数据81
3.4.1 常用函数81
3.4.2 筛选84
3.4.3 数据透视表(PivotTable)85
3.4.4 在透视表里做筛选86
3.5 数据清理原则87
3.6 综合案例87
3.6.1 查找重复记录87
3.6.2 使用OpenRefine 清理数据90
第4 章 数据质量分析102
4.1 数据合理性103
4.1.1 内部合理性104
4.1.2 外部合理性109
4.2 游程检验112
4.3 抽样分析113
4.4 缺失数据的预测115
4.5 时间序列预测117
4.5.1 移动平均117
4.5.2 指数平滑119
4.5.3 回归122
第5 章 数据分析及可视化工具应用124
5.1 数据可视化125
5.2 数据可视化工具125
5.3 Tableau 下载和安装128
5.4 创建第一个可视化作品131
5.4.1 首次数据连接131
5.4.2 首次创建多种图表132
5.4.3 首次创建仪表板135
5.4.4 首次输出136
5.5 连接数据138
5.5.1 在图表中查看数据138
5.5.2 简单数据连接139
5.5.3 连接多个数据源141
5.5.4 连接一个数据源的多个表143
5.5.5 提取数据144
5.5.6 数据类型146
5.6 数据视图146
5.6.1 工作表和工作簿147
5.6.2 数据视图界面148
5.6.3 文本表、压力图和突出显示表149
5.6.4 条形图150
5.6.5 线图157
5.6.6 地图163
5.6.7 饼图166
5.6.8 树地图169
5.6.9 填充气泡图170
5.6.10 甘特图171
5.6.11 散点图173
5.6.12 双组合图和面积图175
5.6.13 盒须图179
5.6.14 标靶图180
5.7 高级分析182
5.7.1 函数182
5.7.2 聚合184
5.7.3 注释184
5.7.4 计算186
5.7.5 简单预测194
5.7.6 合计194
5.7.7 参数196
5.7.8 分层199
5.7.9 分组200
5.7.10 “页面”功能区201
5.7.11 数据桶和直方图203
5.7.12 背景图像204
5.8 仪表板206
5.8.1 创建仪表板206
5.8.2 布局容器210
5.8.3 编辑仪表板211
5.8.4 仪表板和工作表212
5.8.5 操作213
5.9 故事219
5.10 作品发布221
5.10.1 工作簿和工作表221
5.10.2 发布222
5.10.3 打印223
5.11 Tableau 作品225
5.11.1 Is Your Country Good at Reducing CO2 Emissions 225
5.11.2 Cabs in NYC 227
5.11.3 Analysis of Twitter Hashtags Following the Paris Attacks 228
第6 章 其他数据新闻制作工具231
6.1 图表绘制工具库ECharts 232
6.1.1 获取ECharts 232
6.1.2 绘制一个简单的图表232
6.1.3 编辑图表234
6.1.4 图表中的地图237
6.2 标签云241
6.2.1 标签云制作工具Tagul 242
6.2.2 标签云制作工具Tagxedo 245
6.3 关系图制作工具PeoplePlotr 249
6.4 语义万维网服务Open Calais 257
6.5 HTML5 网站制作模板261