Hadoop大数据处理技术基础与实践(微课版)(第3版)
定 价:¥59.8
中 教 价:¥44.85 (7.50折)
库 存 数: 1
丛 书 名:工业和信息化精品系列教材
本书共11章,从Hadoop概述开始,介绍Hadoop的安装、配置与管理,并对Hadoop的生态体系架构进行介绍,包括HDFS技术、YARN技术、MapReduce技术、Hadoop I/O操作、海量数据库技术HBase、ZooKeeper技术、分布式数据仓库技术Hive,以及Hadoop与RDBMS数据迁移工具Sqoop,最后对大数据实时处理技术进行介绍,旨在让读者了解当前其他的大数据处理技术。本书还包括丰富的实践操作,实现理论与实践的有机结合。本书除介绍Hadoop的理论外,还介绍如何使用各组件,但因为只介绍基础的使用方法,没有涉及底层的高级内容,所以本书只起引导作用。本书旨在让读者了解Hadoop并能够使用Hadoop的基本功能,并不是学习Hadoop的完整手册。本书适合作为高等院校和职业院校大数据、物联网、云计算及其他计算机相关专业的教材,也可供云计算与大数据技术相关专业的培训班使用。
1.立德树人,深刻领会二十大精神2.附有习题,以及实践性较强的实训,巩固所学知识3.侧重应用能力的培养,对学生起到一个引导作用4.配备了PPT课件、源代码、习题答案、微课等丰富的教学资源
安俊秀,教授,成都信息工程大学教师。2004年7月从西安交通大学计算机科学与技术专业毕业,获工学硕士学位。中国计算机学会高级会员;中国电子学会高级会员;成都市科技攻关计划评审专家;成都军区项目评审专家;汕尾市科技顾问团首席顾问。 在教学上,严格要求自己,勤奋钻研、不断提升教学水平,给更多学生以帮助和爱护。于1993年毕业进入山西大学商务学院任教,2006年底调入成都信息工程大学任教。最近三年,先后承担了《Linux体系和编程》、《软件项目管理》、《工程导论》、《计算机组成原理》等本科课程;承担了《云计算与大数据》、《并行计算》、《Hadoop处理技术》等研究生课程,学校考核均为优。 在科研工作方面,一直从事云计算与大数据、信息智能搜索与计算社会方面的研究工作。近三年发表论文20余篇,其中第一作者10余篇,核心期刊以上占5篇。独立完成专著1部,编著教材1部和参与编著教材1部,主编教材1部。获得国家发明专利2项(2014授权),实用新型专利授权12项。获得软件著作权13项。科研项目10项。2015年获四川省社科高水平研究团队称号。
目录第 1章Hadoop概述 11.1 Hadoop简介 11.2 Hadoop体系架构 31.2.1 Hadoop基础架构 31.2.2 Hadoop生态系统 31.3 Hadoop与分布式开发 51.4 Hadoop行业应用案例分析 61.4.1 Hadoop在门户网站中的应用 61.4.2 Hadoop在搜索引擎中的应用 71.4.3 Hadoop在电商平台中的应用 7习题 8第 2章Hadoop的安装、配置与管理 92.1 实验准备 92.2 配置一个单节点环境 102.2.1 运行一个虚拟环境CentOS 102.2.2 配置网络 112.2.3 创建新的用户组和用户 152.2.4 上传文件到CentOS并配置Java和Hadoop环境 162.2.5 修改Hadoop 3.2配置文件 192.2.6 修改CentOS主机名 222.2.7 绑定hostname与IP地址 222.2.8 关闭防火墙 232.3 节点之间的免密码登录 232.3.1 什么是SSH 232.3.2 复制虚拟机节点 242.3.3 配置SSH免密码登录 252.4 Hadoop的启动和测试 272.4.1 格式化文件系统 272.4.2 启动HDFS 282.4.3 启动YARN 292.4.4 启动JobHistory Server 292.4.5 集群验证 302.4.6 需要了解的默认配置 312.5 动态管理节点 322.5.1 动态增加和删除DataNode 322.5.2 动态修改TaskTracker 33习题 34第3章HDFS技术 363.1 HDFS的特点 363.2 HDFS架构 373.2.1 数据块 383.2.2 NameNode与DataNode 393.2.3 辅助NameNode 403.2.4 安全模式与负载均衡 423.2.5 垃圾回收 433.3 HDFS Shell命令 443.3.1 文件处理命令 443.3.2 交互式命令 493.4 HDFS中Java API的使用 533.4.1 上传文件 543.4.2 新建文件 553.4.3 查看文件详细信息 563.4.4 下载文件 573.5 RPC通信 583.5.1 反射机制 593.5.2 代理模式与动态代理 623.5.3 Hadoop RPC机制与源码分析 64习题 68第4章YARN技术 694.1 YARN概述 694.1.1 YARN产生背景MRv1的局限性 694.1.2 YARN的通信协议 704.2 YARN基本框架 714.3 YARN资源调度器 734.4 YARN的工作流程 744.5 YARN的实战案例 76习题 79第5章MapReduce技术 805.1 什么是MapReduce 805.2 MapReduce编程模型 815.2.1 MapReduce模型简介 815.2.2 MapReduce模型分类 825.2.3 MapReduce编程实例WordCount 835.3 MapReduce数据流 845.3.1 分片并格式化原始数据(InputFormat) 845.3.2 Map过程 865.3.3 Shuffle过程 865.3.4 Reduce过程 915.3.5 按指定格式写入文件(OutputFormat) 925.4 MapReduce任务流程 925.5 MapReduce的Streaming和Pipe 935.5.1 Hadoop Streaming 935.5.2 Hadoop Pipe 955.6 MapReduce性能调优 965.7 MapReduce实战 985.7.1 快速入门 985.7.2 简单使用Eclipse插件 110习题 118第6章Hadoop I/O操作 1196.1 HDFS数据完整性 1196.1.1 校验和 1196.1.2 运行后台进程来检测数据块 1206.2 基于文件的数据结构 1216.2.1 SequenceFile的存储 1216.2.2 MapFile的存储 1256.2.3 SequenceFile转换为MapFile 1286.3 压缩 1296.3.1 认识压缩 1296.3.2 Codec 1306.3.3 本地库 1326.3.4 如何选择压缩格式 1336.4 序列化 1346.4.1 认识序列化 1346.4.2 Writable接口 1356.4.3 WritableComparable接口 1366.4.4 Hadoop Writable基本类型 1376.4.5 自定义Writable类型 142习题 144第7章海量数据库技术HBase 1457.1 初识HBase 1457.2 HBase表视图 1467.2.1 概念视图 1467.2.2 物理视图 1477.3 HBase物理存储模型 1487.4 安装HBase 1547.4.1 HBase单节点安装 1547.4.2 HBase伪分布式安装 1577.4.3 HBase完全分布式安装 1587.5 HBase Shell 1607.5.1 HBase Shell的命令 1607.5.2 general操作 1627.5.3 DDL操作 1637.5.4 DML操作 1657.6 HBase操作实践 167习题 170第8章ZooKeeper技术 1718.1 分布式协调技术及其实现者 1718.2 ZooKeeper基本架构 1728.3 ZooKeeper数据模型 1738.3.1 Znode 1738.3.2 ZooKeeper中的时间 1748.3.3 Znode属性 1758.3.4 watch触发器 1768.4 ZooKeeper集群安装 1778.5 ZooKeeper的主要Shell操作 1798.6 典型应用场景 1808.6.1 数据发布与订阅 1808.6.2 统一命名服务 1828.6.3 分布式通知/协调 182习题 183第9章分布式数据仓库技术Hive 1849.1 Hive出现的原因 1849.2 Hive服务的组成 1859.3 Hive的安装 1869.3.1 Hive基本安装 1869.3.2 MySQL的安装 1879.3.3 Hive的配置 1889.4 Hive Shell 1919.5 HQL的概念和使用 1929.5.1 认识HQL 1929.5.2 Hive管理数据方式 1929.5.3 Hive表的DDL操作 1949.5.4 Hive表的DML操作 2039.6 使用Hive实现聊天数据分析案例 207习题 210第 10章Hadoop与RDBMS数据迁移工具Sqoop 21110.1 Sqoop简介及基本安装 21110.2 Sqoop的配置 21210.3 Sqoop的相关功能 21310.3.1 Sqoop的工具命令 21310.3.2 Sqoop与MySQL 21410.3.3 sqoop-import操作 21510.3.4 sqoop-import-all-tables操作 22010.3.5 sqoop-export操作 22210.3.6 sqoop-list-databases和sqoop-list-tables操作 22410.4 Hive、Pig和Sqoop三者之间的关系 22410.5 基于Sqoop的MySQL和Hive之间的数据迁移实操案例 225习题 228第 11章大数据实时处理技术 22911.1 Flink 22911.1.1 Flink架构 23011.1.2 Flink部署 23111.1.3 Flink的运行架构 23511.1.4 Flink流处理API 23811.2 Spark 23911.2.1 Apache Spark架构 23911.2.2 Apache Spark的扩展功能 24111.3 Flink与Spark异同 243习题 244