[电子书]Spark for Data Science PDF下载

　　昨天分享了《[电子书]Apache Spark 2 for Beginners pdf下载》，这本书很适合入门学习Spark，虽然书名上写着是Apache Spark 2，但是其内容介绍几乎和Spark 2毫无关系，今天要分享的图书也是一本适合入门的Spark电子书，也是Packt出版，2016年09月开始发行的，全书共339页，其面向读者是数据科学家，本书内容涵盖了Spark编程模型、DataFrame介绍

w397090770 8年前 (2016-10-24) 5078℃ 0评论13喜欢

Spark

[电子书]Apache Spark 2 for Beginners pdf下载

　　本书由Packt出版，2016年10月发行，全书共332页。从标题可以看出这本书是适用于初学者的，全书的例子有Scala和Python两个版本，涵盖了Spark基础、编程模型、SQL、Streaming、机器学习以及图计算等知识。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop本书的章节如下：[code lang="bash"]Chapter 1:

w397090770 8年前 (2016-10-24) 5891℃ 0评论8喜欢

ElasticSearch

将Flink DataSet中的数据写入到ElasticSearch(高级篇)

　　我在《将Flink DataSet中的数据写入到ElasticSearch(低级篇)》文章中介绍了如何使用Flink将DataSet中的数据写入到ElasticSearch中。正如文章标题写的，那只是低级篇，我们不会在写入大量数据的时候使用那种方法，所以我们得使用另外一种。我们肯定会想，能不能一次批量写入大量数据呢？翻翻ElasticSearch就知道，其提供了bulk API，可以帮

w397090770 8年前 (2016-10-20) 6699℃ 0评论11喜欢

Flume

Apache Flume 1.7.0正式发布

　　Apache Flume 1.7.0是自Flume成为Apache顶级项目的第十个版本。Apache Flume 1.7.0可以在生产环境下使用。Flume 1.7.0 User Guide下载Flume 1.7.0Flume 1.7.0 Developer GuideChanges[code lang="bash"]** New Feature[FLUME-2498] - Implement Taildir Source** Improvement[FLUME-1899] - Make SpoolDir work with Sub-Directories[FLUME-2526] - Build flume by jdk 7 in default[FLUME-2628] - Add an optiona

w397090770 8年前 (2016-10-19) 3718℃ 0评论11喜欢

Flink Meetup

杭州第一次Flink Meetup会议

　　杭州第一次Flink Meetup会议将于2016年11月05日在杭州市滨江区江虹路410号进行，本次活动由华为杭研院承办。　　Flink Meetup目前由德国柏林和英国伦敦这两个，这次活动是国内第一次Flink Meetup线下活动，开启第三个Flink Meeup活动大本营。　　当下流计算系统可选的较多，Flink的性能和特性比较突出，其他流系统也各有特点。这

w397090770 8年前 (2016-10-18) 1679℃ 0评论1喜欢

Zeppelin

Apache Zeppelin 0.6.2发布及其更新介绍

　　Apache Zeppelin 0.6.2发布。从上一个版本开始，Apache Zeppelin社区就在努力解决对Spark 2.0的支持以及一些Bug的修复。本次共有26位贡献者提供超过40多个补丁改进Apache Zeppelin和Bug修复。从Apache Zeppelin 0.6.1版本开始，编译的时候默认使用Scala 2.11。如果你想使用Scala 2.10来编译Apache Zeppelin，或者安装使用Scala 2.10编译的interpreter请参见官方文

w397090770 8年前 (2016-10-18) 2069℃ 0评论2喜欢

Cassandra

使用Cassandra和Spark 2.0实现Rest API服务

　　在这篇文章中，我将介绍如何在Spark中使用Akka-http并结合Cassandra实现REST服务，在这个系统中Cassandra用于数据的存储。　　我们已经见识到Spark的威力，如果和Cassandra正确地结合可以实现更强大的系统。我们先创建一个build.sbt文件，内容如下：[code lang="scala"]name := "cassandra-spark-akka-http-starter-kit"version := "1.0"

w397090770 8年前 (2016-10-17) 3879℃ 1评论5喜欢

Flink

Apache Flink 1.1.3正式发布

　　Apache Flink 1.1.3仍然在Flink 1.1系列基础上修复了一些Bug，推荐所有用户升级到Flink 1.1.3，只需要在你相关工程的pom.xml文件里面加入以下依赖：[code lang="xml"]<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>1.1.3</version></dependency><dependency> <groupId>org.apache

w397090770 8年前 (2016-10-16) 1592℃ 0评论5喜欢

ElasticSearch

将Flink DataSet中的数据写入到ElasticSearch(低级篇)

　　Flink内置提供了将DataStream中的数据写入到ElasticSearch中的Connector(flink-connector-elasticsearch2_2.10)，但是并没有提供将DateSet的数据写入到ElasticSearch。本文介绍如何通过自定义OutputFormat将Flink DateSet里面的数据写入到ElasticSearch。　　如果需要将DateSet中的数据写入到外部存储系统（比如HDFS），我们可以通过writeAsText、writeAsCsv、write等内

w397090770 8年前 (2016-10-11) 5853℃ 0评论8喜欢