基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
定 价:¥99
中 教 价:¥77.22 (7.80折)
库 存 数: 0
丛 书 名:数据科学与工程技术丛书
本书共17章。第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识。这一部分内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱。这一部分由三个核心章节组成:第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。
译者序前 言第1章概述 1.1案例研究:濒危世界遗产地 1.2有关网络数据质量的一些讨论 1.3传播、提取和保存网络数据的技术1.3.1在网络上传播内容的技术 1.3.2从Web文档中提取信息的技术 1.3.3 数据保存的技术 1.4本书的结构 第一部分网络和数据技术入门第2章HTML2.1浏览器显示及源代码 2.2语法规则 2.2.1标签、元素和属性 2.2.2树形结构 2.2.3注释 2.2.4保留字符和特殊字符 2.2.5文档类型定义 2.2.6 空格和换行 2.3标签和属性 2.3.1 锚标签<a> 2.3.2 元数据标签<meta> 2.3.3 外部引用标签<link> 2.3.4 强调标签<b>、<i>和<StrOng> 2.3.5段落标签<p> 2.3.6 标题标签<hl>、<h2>、<h3>等 2.3.7 通过<ul>、<ol>和<dl>列举内容 2.3.8组织型标签<div>和<Span> 2.3.9 <form>标签及其同伴 2.3.10 外部脚本标签<script> 2.3.11 表格标签<table>、<tr>、<td>和<th> 2.4解析 2.4.1 解析简介 2.4.2丢弃节点 2.4.3在创建过程中提取信息 小结 延伸阅读 习题 第3章 XML和JSON3.1 XML文档示例 3.2 XML语法规则 3.2.1 元素和属性3.2.2 XML结构第4章xpath第5章HTTP第6章AJAX第7章SQL和关系型数据库第8章正则表达式和基本字符串函数第二部分网络抓取和文本挖掘实用工具箱第9章网络抓取第10章统计性文本处理第11章管理数据项目第三部分一组案例分析第12章美国参议院里的合作网络第13章从半结构化文档解析信息第14章利用Twitter预测2014年奥斯卡奖第15章绘制姓氏地理分布图第16章采集关于手机的数据第17章分析产品评论里的情绪