Spark和Flume-ng整合

　　在本博客的《Spark读取Hbase中的数据》文章中我谈到了如何用Spark和Hbase整合的过程以及代码的编写测试等。今天我们继续谈谈Spark如何和Flume-ng进行整合，也就是如何将Flune-ng里面的数据发送到Spark，利用Spark进行实时的分析计算。本文将通过Java和Scala版本的程序进行程序的测试。　　Spark和Flume-ng的整合属于Spark的Streaming这块。在

w397090770 11年前 (2014-07-08) 23208℃ 4评论17喜欢

Spark读取Hbase中的数据

Spark和Flume-ng整合，可以参见本博客：《Spark和Flume-ng整合》《使用Spark读取HBase中的数据》如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop　　大家可能都知道很熟悉Spark的两种常见的数据读取方式（存放到RDD中）：（1）、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如

w397090770 11年前 (2014-06-29) 75047℃ 47评论58喜欢

Spark Standalone模式应用程序开发

　　在本博客的《Spark快速入门指南(Quick Start Spark)》文章中简单地介绍了如何通过Spark shell来快速地运用API。本文将介绍如何快速地利用Spark提供的API开发Standalone模式的应用程序。Spark支持三种程序语言的开发：Scala (利用SBT进行编译), Java (利用Maven进行编译)以及Python。下面我将分别用Scala、Java和Python开发同样功能的程序：一、Scala

w397090770 11年前 (2014-06-10) 16443℃ 2评论7喜欢

Spark快速入门指南(Quick Start Spark)

　　这个文档只是简单的介绍如何快速地使用Spark。在下面的介绍中我将介绍如何通过Spark的交互式shell来使用API。Basics　　Spark shell提供一种简单的方式来学习它的API，同时也提供强大的方式来交互式地分析数据。Spark shell支持Scala和Python。可以通过以下方式进入到Spark shell中。[code lang="JAVA"]# 本文原文地址：https://www.iteblog.com/ar

w397090770 11年前 (2014-06-10) 77105℃ 26评论156喜欢

用Maven编译Spark 1.0.0源码以错误解决

　　写在前面的话，最近发现有很多网站转载我博客的文章，这个我都不介意的，但是这些网站转载我博客都将文章的出处去掉了，直接变成自己的文章了！！我强烈谴责他们，鄙视那些转载文章去掉出处的人！所以为了防止这些，我以后发表文章的时候，将会在文章里面加入一些回复之后才可见的内容！！请大家不要介意，本博

w397090770 11年前 (2014-06-06) 30689℃ 40评论6喜欢

Spark 1.0.0于5月30日正式发布

　　Spark 1.0.0于5月30日正式发布，可以到http://spark.apache.org/downloads.html页面下载。Spark 1.0.0是一个主要版本，它标志着Spark已经进入了1.X的时代。这个版本的Spark带来了很多新特性和强API的支持。 Spark 1.0加入了一个主要的组件： Spark SQL，这个组件支持在Spark上存储和操作结构化的数据。已有的标准库比如ML、Streaming和GraphX也得到了很大

w397090770 11年前 (2014-06-04) 5340℃ 1评论3喜欢

Shark 0.9.1安装遇到的问题及解决办法

这几天在集群上部署了Shark 0.9.1，我下载的是已经编译好的，Hadoop版本是2.2.0，下面就总结一下我在安装Shark的过程中遇到的问题及其解决方案。一、YARN mode not available ?[code lang="JAVA"]Exception in thread "main" org.apache.spark.SparkException: YARN mode not available ? at org.apache.spark.SparkContext$.org$apache$spark$SparkContext$$createTaskScheduler(SparkContext.

w397090770 11年前 (2014-05-05) 16094℃ 3评论4喜欢

Spark在Yarn上运行Wordcount程序

　　我们在接触Hadoop的时候，第一个列子一般是运行Wordcount程序，在Spark我们可以用Java代码写一个Wordcount程序并部署在Yarn上运行。我们知道，在Spark源码中就存在一个用Java编写好的JavaWordCount程序，源码如下：[code lang="JAVA"]package org.apache.spark.examples;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apac

w397090770 11年前 (2014-05-04) 28378℃ 1评论19喜欢

Shark对Hive的兼容性总结

　　Shark是一种分布式SQL查询工具，它的设计目标就是兼容Hive，今天就来总结一下Shark对Hive特性的兼容。　　一、Shark可以直接部署在Hive的数据仓库上。支持Hive的绝大多数特性，具体如下： Hive查询语句，包括以下： SELECT GROUP_BY ORDER_BY CLUSTER_BY SORT_BY 支持Hive中所有的操作符：关系运算符（=, ⇔, ==, <>, <, &

w397090770 11年前 (2014-04-30) 7365℃ 1评论4喜欢