Apache Spark 3.0 预览版正式发布，多项重大功能发布

今天早上 06:53（2019年11月08日 06:53) 数砖的 Xingbo Jiang 大佬给社区发了一封邮件，宣布 Apache Spark 3.0 预览版正式发布，这个版本主要是为了对即将发布的 Apache Spark 3.0 版本进行大规模社区测试。无论是从 API 还是从功能上来说，这个预览版都不是一个稳定的版本，它的主要目的是为了让社区提前尝试 Apache Spark 3.0 的新特性。如果大家想

w397090770 5年前 (2019-11-08) 2075℃ 0评论6喜欢

Spark

Apache Spark 3.0 动态分区裁剪（Dynamic Partition Pruning）使用

我在这篇文章中介绍了 Apache Spark 3.0 动态分区裁剪（Dynamic Partition Pruning），里面涉及到动态分区的优化思路等，但是并没有涉及到如何使用，本文将介绍在什么情况下会启用动态分区裁剪。并不是什么查询都会启用动态裁剪优化的，必须满足以下几个条件：spark.sql.optimizer.dynamicPartitionPruning.enabled 参数必须设置为 true，不过这

w397090770 5年前 (2019-11-08) 2377℃ 0评论3喜欢

Spark

Apache Spark 3.0 动态分区裁剪（Dynamic Partition Pruning）介绍

静态分区裁剪（Static Partition Pruning）用过 Spark 的同学都知道，Spark SQL 在查询的时候支持分区裁剪，比如我们如果有以下的查询：[code lang="sql"]SELECT * FROM Sales_iteblog WHERE day_of_week = 'Mon'[/code]Spark 会自动进行以下的优化：如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop从上图可以看到，S

w397090770 5年前 (2019-11-04) 2688℃ 0评论6喜欢

Spark

Spark+AI Summit Europe 2019 高清视频下载[共135个]

为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议，大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了A

w397090770 5年前 (2019-11-01) 1047℃ 0评论1喜欢

Spark

Spark+AI Summit Europe 2019 PPT 下载[共122个]

为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议，大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了A

w397090770 5年前 (2019-11-01) 1528℃ 1评论0喜欢

Spark

Apache Spark 背后公司 Databricks 完成F轮融资，高达62亿美元估值

2019年10月22日上午 Databricks 宣布，已经完成了由安德森-霍洛维茨基金(Andreessen Horowitz)牵头的4亿美元F轮融资，参与融资的有微软(Microsoft)、Alkeon Capital Management、贝莱德(BlackRock)、Coatue Management、Dragoneer Investment Group、Geodesic、Green Bay Ventures、New Enterprise Associates、T. Rowe Price和Tiger Global Management。经过这次融资，Databricks 的估值高达62亿美

w397090770 5年前 (2019-10-22) 1131℃ 0评论0喜欢

Delta Lake

Apache Spark Delta Lake 更新使用及实现原理代码解析

Apache Spark Delta Lake 的更新（update）和删除都是在 0.3.0 版本发布的，参见这里，对应的 Patch 参见这里。和前面几篇源码分析文章一样，我们也是先来看看在 Delta Lake 里面如何使用更新这个功能。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoopDelta Lake 更新使用Delta Lake 的官方文档为我们提供如何

w397090770 5年前 (2019-10-19) 2075℃ 0评论3喜欢

Delta Lake

Spark Delta Lake 现在由Linux基金会托管，将成为数据湖的开放标准

如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop一年一度的 Spark + AI Summit Europe 峰会于2019年10月15-17日在欧洲的阿姆斯特丹举行。在10年16日数砖和 Linux 基金会共同宣布 Delta Lake 和将成为一个 Linux 基金会项目（参考：The Delta Lake Project Turns to Linux Foundation to Become the Open Standard for Data Lakes）。该项

w397090770 5年前 (2019-10-16) 1236℃ 0评论2喜欢

Delta Lake

使用 Python APIs 对 Delta Lake 表进行简单可靠的更新和删除操作

在这篇我们介绍了 Spark Delta Lake 0.4.0 的发布，并提到这个版本支持 Python API 和部分 SQL。本文我们将详细介绍 Delta Lake 0.4.0 Python API 的使用。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop在本文中，我们将基于 Apache Spark™ 2.4.3，演示一个准时航班情况业务场景中，如何使用全新的 Delta Lake 0.4.0

w397090770 5年前 (2019-10-04) 1006℃ 0评论1喜欢