Spark和Flume-ng整合

如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop

　　从上面的图片可以清楚的了解到各个模块所处的位置。这篇文章主要是讲述开发Spark Streaming这块，因为Flume-ng这块不需要特别的处理，完全和Flume-ng之间的交互一样。所有的Spark Streaming程序都是以JavaStreamingContext作为切入点的。如下：

JavaStreamingContext jssc = 
    new JavaStreamingContext(master, appName, 
                             new Duration(1000), 
                             [sparkHome], [jars]);
JavaDStream<SparkFlumeEvent> flumeStream = 
                             FlumeUtils.createStream(jssc, host, port);

最后需要调用JavaStreamingContext的start方法来启动这个程序。如下：

jssc.start();
jssc.awaitTermination();

整个程序如下：

package scala;

import org.apache.flume.source.avro.AvroFlumeEvent;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.storage.StorageLevel;
import org.apache.spark.streaming.Duration;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;
import org.apache.spark.streaming.flume.FlumeUtils;
import org.apache.spark.streaming.flume.SparkFlumeEvent;

import java.nio.ByteBuffer;

/**
 * User: 过往记忆
 * Date: 14-7-8
 * Time: 下午23:16
 * bolg: 
 * 本文地址：/archives/1063
 * 过往记忆博客，专注于hadoop、hive、spark、shark、flume的技术博客，大量的干货
 * 过往记忆博客微信公共帐号：iteblog_hadoop
 */
public static void JavaFlumeEventTest(String master, String host, int port) {
        Duration batchInterval = new Duration(2000);

        JavaStreamingContext ssc = new JavaStreamingContext(master, 
               "FlumeEventCount", batchInterval,
                System.getenv("SPARK_HOME"),
                JavaStreamingContext.jarOfClass(JavaFlumeEventCount.class));
        StorageLevel storageLevel = StorageLevel.MEMORY_ONLY();
        JavaDStream<SparkFlumeEvent> flumeStream = 
                FlumeUtils.createStream(ssc, host, port, storageLevel);

        flumeStream.count().map(new Function<java.lang.Long, String>() {
            @Override
            public String call(java.lang.Long in) {
                return "Received " + in + " flume events.";
            }
        }).print();

        ssc.start();
        ssc.awaitTermination();
}

然后开启Flume往这边发数据，在Spark的这端可以接收到数据：

如果你对Scala比较熟悉，下面是一段Scala的程序，功能和上面的一样：

import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming._
import org.apache.spark.streaming.flume._
import org.apache.spark.util.IntParam

/**
 * User: 过往记忆
 * Date: 14-7-8
 * Time: 下午23:16
 * bolg: 
 * 本文地址：/archives/1063
 * 过往记忆博客，专注于hadoop、hive、spark、shark、flume的技术博客，大量的干货
 * 过往记忆博客微信公共帐号：iteblog_hadoop
 */

def ScalaFlumeEventTest(master :　String, host : String, port : Int) {
    val batchInterval = Milliseconds(2000)

    val ssc = new StreamingContext(master, "FlumeEventCount", batchInterval,
      System.getenv("SPARK_HOME"), StreamingContext.jarOfClass(this.getClass))

    val stream = FlumeUtils.createStream(ssc, host,port,StorageLevel.MEMORY_ONLY)

    stream.count().map(cnt => "Received " + cnt + " flume events." ).print()
    ssc.start()
    ssc.awaitTermination()
}

　　以上程序都是在Spark tandalone Mode下面运行的，如果你想在YARN上面运行，也是可以的，不过需要做点修改。具体怎么在Yarn上面运行，请参见官方文档。

本博客文章除特别声明，全部都是原创！
原创文章版权归过往记忆大数据（过往记忆）所有，未经许可不得转载。
本文链接: 【Spark和Flume-ng整合】（https://www.iteblog.com/archives/1063.html）

图文介绍 Presto + Velox 整合

Velox 介绍：一个开源的统一执行引擎

Presto 里面如何把 array 或 Map 里面的元素由行转成列

Data + AI Summit 2022 PPT 下载

Data + AI Summit 2022 超清视频下载

历时一年 Apache Spark 3.3.0 正式发布，新特性详解

Spark Structured Streaming 2021年最新进展的总结

Portable UDF：Facebook 工程师为了解决不同计算引擎 UDF 统一的项目

下面文章您可能感兴趣

分享一款基于Bootstrap扁平化的后台框架Ace

Linux库memmove函数实现

常用Hadoop生态圈软件分布式安装文章汇集

Java8 收集器 - java.util.stream.Collectors

Data + AI Summit 2022 PPT 下载

Hadoop面试题系列(11/11)

QQ音乐PB级ClickHouse实时数据平台架构演进之路

[电子书]Hadoop权威指南第3版中文版PDF下载

Alluxio Meetup 上海站开始报名了

ElasticSearch系列文章：数据修改

又一个大数据相关项目成为顶级项目

如何使用 Spark 3.0 中新加的 Structured Streaming UI 来进行异常分析

来自 Facebook 的 Spark 大作业调优经验

Spark函数讲解：combineByKey

HBase 中加盐（Salting）之后的表如何读取：Spark 篇

为Spark 2.x添加ALTER TABLE ADD COLUMNS语法支持

Spark Streaming 1.3对Kafka整合的提升详解

你还在使用 JDK 7？JDK 13 都已经来了！五大新特性你最喜欢哪个？

Hadoop日志存放路径详解

Starburst 性能白皮书三 - Presto Dynamic Filtering

(4)个小伙伴在吐槽

打卡
洛克鬼泣2019-04-02 20:17 回复
你好，我想请问下，yarn模式下跟flume的结合，你有没有试过，如果有试过的话，请点拨一下，在这里卡了很久！不胜感激！
dingke2014-09-04 22:20 回复
yarn模式跟flume结合的代码和上面类似。
w3970907702014-10-20 13:52 回复

小赞一下，之前五月份的时候开始搞flume，博主的一些入门文章写的很好，现在开始连接spark博主又已经写好了

fc2014-08-27 14:37 回复