美国时间 2018年11月08日 正式发布了。一如既往,为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.4 带来了许多新功能,如下:添加一种支持屏障模式(barrier mode)的调度器,以便与基于MPI的程序更好地集成,例如, 分布式深度学习框架;引入了许多内置的高阶函数,以便更容易处理复杂的数据类型(比如数组和 map);

w397090770   6年前 (2018-11-10) 4552℃ 0评论6喜欢

Spark

Apache Spark 2.4.0 正式发布

Apache Spark 2.4.0 正式发布
Apache Spark 2.4 与昨天正式发布,Apache Spark 2.4 版本是 2.x 系列的第五个版本。 如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopApache Spark 2.4 为我们带来了众多的主要功能和增强功能,主要如下:新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中

w397090770   6年前 (2018-11-09) 3358℃ 0评论1喜欢

Spark

即将发布的 Apache Spark 2.4 都有哪些新功能

即将发布的 Apache Spark 2.4 都有哪些新功能
本文来自于2018年09月19日在 Adobe Systems Inc 举行的 Apache Spark Meetup。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop即将发布的 Apache Spark 2.4 版本是 2.x 系列的第五个版本。 本文对 Apache Spark 2.4 的主要功能和增强功能进行了概述。新的调度模型(Barrier Scheduling),使用户能够将分布式深度学

w397090770   6年前 (2018-09-20) 3299℃ 0评论8喜欢

Spark

Apache Spark 2.1.0正式发布

Apache Spark 2.1.0正式发布
  Apache Spark 2.1.0是 2.x 版本线的第二个发行版。此发行版在为Structured Streaming进入生产环境做出了重大突破,Structured Streaming现在支持了event time watermarks了,并且支持Kafka 0.10。此外,此版本更侧重于可用性,稳定性和优雅(polish),并解决了1200多个tickets。以下是本版本的更新:Core and Spark SQL  Spark官方发布新版本时,一般

w397090770   8年前 (2016-12-30) 4251℃ 0评论8喜欢

Spark

[电子书]Fast Data Processing with Spark 2, 3rd Edition下载

[电子书]Fast Data Processing with Spark 2, 3rd Edition下载
  本书是《Spark快速数据处理》第三版,全书基于Spark 2.0.0编写。本书适合Spark入门者,作者Krishna Sankar,由Packt出版社于2016年10月出版,全书共274页。通过本书你将学到以下知识:  (1)、安装和设置你的Spark集群;  (2)、使用Spark交互式Shell来实现简单的分布式应用程序;  (3)、使用新的DataFrame API操作数据; 

w397090770   8年前 (2016-12-14) 4411℃ 0评论5喜欢

Spark

[电子书]Spark for Data Science PDF下载

[电子书]Spark for Data Science PDF下载
  昨天分享了《[电子书]Apache Spark 2 for Beginners pdf下载》,这本书很适合入门学习Spark,虽然书名上写着是Apache Spark 2,但是其内容介绍几乎和Spark 2毫无关系,今天要分享的图书也是一本适合入门的Spark电子书,也是Packt出版,2016年09月开始发行的,全书共339页,其面向读者是数据科学家,本书内容涵盖了Spark编程模型、DataFrame介绍

w397090770   8年前 (2016-10-24) 5078℃ 0评论13喜欢

Spark

[电子书]Apache Spark 2 for Beginners pdf下载

[电子书]Apache Spark 2 for Beginners pdf下载
  本书由Packt出版,2016年10月发行,全书共332页。从标题可以看出这本书是适用于初学者的,全书的例子有Scala和Python两个版本,涵盖了Spark基础、编程模型、SQL、Streaming、机器学习以及图计算等知识。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop本书的章节如下:[code lang="bash"]Chapter 1:

w397090770   8年前 (2016-10-24) 5891℃ 0评论8喜欢

Spark

Apache Spark 2.0.1稳定版正式发布

Apache Spark 2.0.1稳定版正式发布
今天凌晨(2016-10-05)Apache Spark 2.0.1稳定版正式发布。Apache Spark 2.0.1是一个维护版本,一共处理了300个Issues,推荐所有使用Spark 2.0.0的用户升级到此版本。Apache Spark 2.0为我们带来了许多新的功能: DataFrame和Dataset统一(可以参见《Spark 2.0技术预览:更容易、更快速、更智能》):https://www.iteblog.com/archives/1668.html SparkSession:一个

w397090770   8年前 (2016-10-05) 3186℃ 0评论7喜欢

Spark

如何在Apache Spark 2.0中使用SparkSession

如何在Apache Spark 2.0中使用SparkSession
  Apache Spark 2.0引入了SparkSession,其为用户提供了一个统一的切入点来使用Spark的各项功能,并且允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序。最重要的是,它减少了用户需要了解的一些概念,使得我们可以很容易地与Spark交互。  本文我们将介绍在Spark 2.0中如何使用SparkSession。更多关于SparkSession的文章请参见:

w397090770   9年前 (2016-08-24) 15178℃ 2评论11喜欢

Spark

Apache Spark 2.0重大功能介绍

Apache Spark 2.0重大功能介绍
  Apache Spark 2.0发布信息可以参见《Apache Spark 2.0.0正式发布及其功能介绍》  我们很荣幸地宣布,自7月26日起Databricks开始提供Apache Spark 2.0的下载,这个版本是基于社区在过去两年的经验总结而成,不但加入了用户喜爱的功能,也修复了之前的痛点。  本文总结了Spark 2.0的三大主题:更简单、更快速、更智能,另有Spark

w397090770   9年前 (2016-07-28) 14413℃ 0评论28喜欢