Elasticsearch集成Hadoop最佳实践_(美) Vishal Shukla著_9787302469674

Elasticsearch集成Hadoop最佳实践

定价：¥55

中教价：¥27.50 (5.00折）

库存数： 0

购买数量：

     本书全面介绍Elasticsearch Hadoop技术用于大数据分析以及数据可视化的方法。共分7章: 环境部署; 初识ES-Hadoop; 深入理解Elasticsearch; 利用Kibana进行大数据可视化; 实时分析; ES-Hadoop配置; 与Hadoop生态系统集成。

　　第5章实时分析

　　我们已经了解了如何以批处理方式对不同的数据源进行数据采集、分析和可视化。如果缩短分析的时间周期可以节省时间和金钱成本，那么实时分析就非常有必要了。当金融交易的交易量骤减或者某些商品的库存量变得太小时，我们希望立刻就能看到数据分析的结果来寻找原因，而不是让数据在晚上经历批处理任务，第二天才能从分析师那里看到分析的报告。

　　在本章中，我们会讨论如何使用ApacheStorm将数据导入Elasticsearch并进行实时分析。在很多场景下我们将要介绍的这些Elasticsearch高级特性会成为我们的瑞士军刀。

　　在本章中，我们将介绍以下内容：

　　●了解Twitter趋势分析器

　　●将流式数据接入Storm

　　●趋势分析

　　●使用Percolator对推文分类

　　5.1了解Twitter趋势分析器

　　要学习一个东西最好的方式就是运用它。这也正是我们本章要做的。所以，让我们先来了解一下本章要做的东西。

　　实现目标

　　Twitter是可能包括你的客户在内的很多人发表自己见解的地方。通过从海量的推文中分析特定的关键字或者话题可以进行趋势分析。在本章中，我们将使用ApacheStorm和Elasticsearch开发自己的Twitter趋势分析器。当然，中间还需要使用ES-Hadoop来做这两个组件的整合。

　　通常情况下，趋势分析器可以根据关键字或者话题展示其趋势。比如，#elasticsearch和#apachestorm就是上个月的热门话题。我们还可以找出像BigData这样更高级别的热门话题。这个趋势其实是通过字符串进行精确匹配，将所有大数据生态系统的术语进行聚合得到的。类似地，我们可以通过添加和某个类别相关的关键词或者话题来创建一个新的类别。我们将使用分类技术来对流式的推文数据进行类别匹配。不止如此，你还可以以天、周、年等不同的时间周期来查看趋势。

　　图5-1是我们要开发的趋势分析器的整理流程图。

　　图5-1

　　如图5-1中显示，我们将使用StormSpout来接收实时推文数据，将数据按照不同类别分类之后导入Elasticsearch中，在Elasticsearch中使用segnificantterms聚合计算出不同的趋势，然后使用Kibana进行展示。这个流程看起来挺简单，然而基于海量数据完成这个处理流程并不容易。同样的，分类的过程也不简单。我们将使用Elasticsearch中的Percolator来解决分类问题。

　　我们需要先安装ApacheStorm，用它来接收数据，并把数据导入Storm。

　　ApacheStorm安装

　　ApacheStorm是一个分布式实时计算引擎。它可以对那些Hadoop使用批处理模式处理的数据进行实时计算。

　　使用如下命令下载ApacheStorm的相应版本（撰写本书时，Storm的稳定版本是0.9.5）：

　　$cd/usr/local

　　$sudowgethttp://www.apache.org/dyn/closer.cgi/storm/apache-storm-0.9.5/apache-storm-0.9.5.tar.gz

　　使用如下命令将下载的文件解压到storm目录：

　　$sudotar-zxvfapache-storm-0.9.5.tar.gz

　　$sudomvapache-storm-0.9.5storm

　　通过如下命令在~/.bashrc文件中将storm二进制添加到PATH变量中：

　　$exportPATH=$PATH:/usr/local/storm-0.9.5/bin

　　我们现在安装的storm是以本地模式安装的。如果你需要在生产环境中以集群模式安装storm，就需要安装Zookeeper，还需要独立的nimbus和supervisor。

　　5.2将流式数据接入Storm

　　很多读者可能已经对Storm有了充分的了解。但是，在这里我还是要对那些不太了解Storm的读者进行一个简单的介绍。

　　Storm为流式数据提供了一个实时计算框架。因此，流是Storm的数据抽象，是由无限制的tuple组成的序列。在Storm术语中，tuple是流式数据的一个单元。

　　Storm作业的工作组件包括spout和bolt。spout是流的数据源，而bolt消费这些流。你可以通过对spout和bolt进行级联生成topology。topology是我们可以向集群提交执行的顶层抽象。

　　图5-2是一个Storm的topology示例，显示数据是如何从数据源经过处理并存储的。

　　图5-2

　　现在我们编写一个Storm作业，它负责监听实时的推文数据，并把它们导入Elasticsearch中。简单起见，我们只是实现简单的监听功能，不对推文进行分类处理，直接把我们需要的数据导入Elasticsearch中。

　　图5-3显示了我们将要实现的Twitter趋势分析器的topology。

　　图5-3

　　编写Stormspout

　　我们使用Twitter4jAPI接收实时的Twitter数据流。然后，我们创建了一个状态监听器，它负责接收twitter4j.Status对象中的推文。

　　从如下代码片段中可以看到监听类是在Stormspout中以内部类的形式定义的：

　　publicclassTweetsCollectorSpoutextendsBaseRichSpout{

你还可能感兴趣

我要评论

您的姓名	验证码：
留言内容