《Apache Spark 2.0重大功能介绍》:/archives/1721  《Apache Spark作为编译器:深入介绍新的Tungsten执行引擎》:/archives/1679  《Spark 2.0技术预览:更容易、更快速、更智能》:/archives/1668  Apache Spark 2.0.0于2016-07-27正式发布。它是2.x版本线上的第一个版本。主要的更新是API可用性,SQL 2003的支持,性能提升,structured streaming

w397090770   9年前 (2016-07-27) 7632℃ 4评论7喜欢

Spark

Spark 2.0介绍:在Spark SQL中定义查询优化规则

Spark 2.0介绍:在Spark SQL中定义查询优化规则
《Spark 2.0技术预览:更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化,为该框架明年的发展奠定了方向,所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列的介

w397090770   9年前 (2016-07-14) 7621℃ 2评论4喜欢

Spark

Spark 2.0介绍:Spark SQL中的Time Window使用

Spark 2.0介绍:Spark SQL中的Time Window使用
  《Spark 2.0技术预览:更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化,为该框架明年的发展奠定了方向,所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列

w397090770   9年前 (2016-07-12) 9802℃ 4评论11喜欢

Spark

Spark 2.0介绍:Catalog API介绍和使用

Spark 2.0介绍:Catalog API介绍和使用
《Spark 2.0技术预览:更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化,为该框架明年的发展奠定了方向,所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列的介

w397090770   9年前 (2016-07-05) 8954℃ 0评论12喜欢

Spark

Apache Spark 2.0预览: 机器学习模型持久化

Apache Spark 2.0预览: 机器学习模型持久化
  在即将发布的Apache Spark 2.0中将会提供机器学习模型持久化能力。机器学习模型持久化(机器学习模型的保存和加载)使得以下三类机器学习场景变得容易:  1、数据科学家开发ML模型并移交给工程师团队在生产环境中发布;  2、数据工程师把一个Python语言开发的机器学习模型训练工作流集成到一个Java语言开发的机器

w397090770   9年前 (2016-06-04) 3520℃ 3评论3喜欢

Spark

Apache Spark作为编译器:深入介绍新的Tungsten执行引擎

Apache Spark作为编译器:深入介绍新的Tungsten执行引擎
本文原文:Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop Deep dive into the new Tungsten execution engine:https://databricks.com/blog/2016/05/23/apache-spark-as-a-compiler-joining-a-billion-rows-per-second-on-a-laptop.html本文已经投稿自:http://geek.csdn.net/news/detail/77005  《Spark 2.0技术预览:更容易、更快速、更智能》文中简单地介绍了Spark 2.0相关

w397090770   9年前 (2016-05-27) 6046℃ 1评论16喜欢

Spark

SparkSession:新的切入点

SparkSession:新的切入点
  在Spark 1.x版本,我们收到了很多询问SparkContext, SQLContext和HiveContext之间关系的问题。当人们想使用DataFrame API的时候把HiveContext当做切入点的确有点奇怪。在Spark 2.0,引入了SparkSession,作为一个新的切入点并且包含了SQLContext和HiveContext的功能。为了向后兼容,SQLContext和HiveContext被保存下来。SparkSession拥有许多特性,下面将展示SparkS

w397090770   9年前 (2016-05-26) 14057℃ 0评论13喜欢

Spark

Spark 2.0技术预览版正式发布下载

Spark 2.0技术预览版正式发布下载
  在过去Spark社区创建了Spark 2.0的技术预览版,经过几天的投票,目前该技术预览版今天正式公布。《Spark 2.0技术预览:更容易、更快速、更智能》文章中详细介绍了Spark 2.0给我们带来的新功能,总体上Spark 2.0提升了下面三点:  1. 对标准的SQL支持,统一DataFrame和Dataset API。现在已经可以运行TPC-DS所有的99个查询,这99个查

w397090770   9年前 (2016-05-25) 2644℃ 0评论3喜欢

Spark

《Apache Spark 2.0: Faster, Easier, and Smarter》ppt下载

《Apache Spark 2.0: Faster, Easier, and Smarter》ppt下载
《Spark 2.0技术预览:更容易、更快速、更智能》文章介绍了Spark的三大新特性,本文是Reynold Xin在2016年5月5日的演讲,视频可以到这里看:http://go.databricks.com/apache-spark-2.0-presented-by-databricks-co-founder-reynold-xinPPT下载地址见下面。

w397090770   9年前 (2016-05-24) 3294℃ 0评论4喜欢

Spark

Spark 2.0介绍:从RDD API迁移到DataSet API

Spark 2.0介绍:从RDD API迁移到DataSet API
  《Spark 2.0技术预览:更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化,为该框架明年的发展方向奠定了方向,所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一

w397090770   9年前 (2016-05-24) 13097℃ 0评论26喜欢