本书先介绍大数据商业架构需要的各种技术知识,然后通过介绍一个虚拟的互联网创业案例,逐步展开介绍各个阶段可能遇到的业务需求,以及相对应的技术方案,甚至是技术难度。为了达到深入浅出,通俗易懂的效果,实战章节一般是从业务需求的描述入手,然后进行需求分析,根据需求的特点,对备选技术方案进行科普、概述和探讨,最后是技术方案确定和结论。
Contents 目 录推荐序一推荐序二前 言第1章 抉择1第2章 数据收集42.1 互联网数据收集42.1.1 网络爬虫52.1.2 Apache Nutch简介112.1.3 Heritrix简介142.2 内部数据收集152.2.1 Apache Flume简介172.2.2 Facebook Scribe和Logstash212.3 本章心得212.4 参考资料22第3章 数据存储233.1 持久化存储233.1.1 Hadoop和HDFS253.1.2 HBase简介283.1.3 MongoDB353.2 非持久化存储373.2.1 缓存和散列373.2.2 Memcached和Berkeley DB简介413.2.3 Redis简介413.3 本章心得443.4 参考资料44第4章 数据处理464.1 离线批量处理464.1.1 Hadoop的MapReduce474.1.2 Spark简介524.1.3 Hive简介534.1.4 Pig、Impala和Spark SQL564.2 提升及时性:消息机制584.2.1 ActiveMQ简介604.2.2 Kafka简介614.3 在线实时处理634.3.1 Storm简介634.3.2 Spark Streaming简介664.4 本章心得664.5 参考资料67第5章 信息检索695.1 基本理念705.2 相关性705.2.1 布尔模型705.2.2 基于排序的布尔模型715.2.3 向量空间模型745.2.4 语言模型755.3 及时性775.4 与数据库查询的对比815.5 搜索引擎825.5.1 Web搜索中的链接分析835.5.2 电子商务中的商品排序865.5.3 多因素和基于学习的排序885.5.4 系统框架895.5.5 Lucene简介935.5.6 Solr简介985.5.7 Elasticsearch简介1045.6 推荐系统1085.6.1 推荐的核心要素1095.6.2 推荐系统的分类1105.6.3 混合模型1155.6.4 系统架构1165.6.5 Mahout1165.7 在线广告1195.7.1 在线广告的类型1205.7.2 广告投放机制1245.7.3 广告的拍卖机制1255.7.4 广告系统架构1265.8 本章心得1275.9 参考资料128第6章 数据挖掘1306.1 基本理念1316.2 数据的表示和预处理1336.2.1 数据的表示1336.2.2 数据的预处理1356.3 机器学习算法1366.3.1 监督学习—分类1376.3.2 监督学习—回归1526.3.3 非监督学习—聚类1536.4 挖掘工具1576.4.1 Mahout简介1576.4.2 R简介1596.5 本章心得1656.6 参考资料165第7章 效能评估1677.1 效果评估1687.1.1 离线评估1697.1.2 非离线的评估1837.2 性能评估1907.2.1 计算复杂度1917.2.2 应用系统性能1937.2.3 JMeter工具1977.3 本章心得2027.4 参考资料202第8章 大数据技术全景204第9章 商品太多啦!需要搜索引擎2079.1 业务需求2079.2 产品设计和技术选型2089.3 实现方案2119.3.1 数据定义和配置2119.3.2 集群搭建2139.3.3 DIH配置216第10章 能否更主动?还需要推荐引擎22310.1 业务需求22310.2 产品设计和技术选型22510.3 实现方案23010.3.1 基于内容特征的衡量23010.3.2 基于行为特征的衡量23310.3.3 提供在线服务236第11章 这样做的效果如何24111.1 业务需求24111.2 产品设计和技术选型24211.3 实现方案24311.3.1 行为数据的定义和记录24311.3.2 Flume和HDFS的集成24611.3.3 通过Hive进行分析25211.3.4 Kafka和Storm的集成254第12章 这个搜索有点逊25812.1 业务需求:还要搜得更多25812.2 “还要搜得更多”:产品设计和技术选型25912.3 “还要搜得更多”的方案实现26112.3.1 HBase的部署26112.3.2 HBase和Solr的集成26412.4 业务需求:还要搜得更准26512.5 “还要搜得更准”:产品设计和技术选型26612.5.1 提升搜索排序的相关性26612.5.2 提升搜索排序的整体效果26812.6 “还要搜得更准”的方案实现27112.7 业务需求:还要更快27312.8 还要“变”得更快:产品设计和技术选型27412.9 还要“搜”得更快:产品设计和技术选型27512.10 业务需求:给点提示吧28012.11 给点提示吧:产品设计和技术选型282第13章 支持更高效的运营28713.1 业务需求:互联网时代的CRM28713.2 互联网时代的CRM:产品设计和技术选型28813.3 业务需求:抓住捣蛋鬼29113.4 抓住捣蛋鬼:产品设计和技术选型29213.4.1 识别分类错放29213.4.2 识别SEO作弊29413.5 业务需求:销售之战29513.6 销售之战:产品设计和技术选型29613.6.1 设置合理的价格29613.6.2 识别黄牛298后记299