图文介绍 SQL 的三种查询计划处理模型

我已经在之前的《一条 SQL 在 Apache Spark 之旅（上）》、《一条 SQL 在 Apache Spark 之旅（中）》以及《一条 SQL 在 Apache Spark 之旅（下）》这三篇文章中介绍了 SQL 从用户提交到最后执行都经历了哪些过程，感兴趣的同学可以去这三篇文章看看。这篇文章中我们主要来介绍 SQL 查询计划（Query Plan）常见的处理模型（processing model）。数

w397090770 5年前 (2020-05-13) 1770℃ 0评论6喜欢

Spark

Spark 3.0 终于支持 event logs 滚动了

背景相信经常使用 Spark 的同学肯定知道 Spark 支持将作业的 event log 保存到持久化设备。默认这个功能是关闭的，不过我们可以通过 spark.eventLog.enabled 参数来启用这个功能，并且通过 spark.eventLog.dir 参数来指定 event log 保存的地方，可以是本地目录或者 HDFS 上的目录，不过一般我们都会将它设置成 HDFS 上的一个目录。但是这个功能

w397090770 5年前 (2020-03-09) 2394℃ 0评论8喜欢

Delta Lake

还在玩数据仓库？现在已经是 LakeHouse 时代！

引入在Databricks的过去几年中，我们看到了一种新的数据管理范式，该范式出现在许多客户和案例中：LakeHouse。在这篇文章中，我们将描述这种新范式及其相对于先前方案的优势。数据仓库技术自1980诞生以来一直在发展，其在决策支持和商业智能应用方面拥有悠久的历史，而MPP体系结构使得系统能够处理更大数据量。但是，虽

w397090770 5年前 (2020-02-03) 3013℃ 0评论6喜欢

Spark

Apache Spark 将支持 Stage 级别的资源控制和调度

背景熟悉 Spark 的同学都知道，Spark 作业启动的时候我们需要指定 Exectuor 的个数以及内存、CPU 等信息。但是在 Spark 作业运行的时候，里面可能包含很多个 Stages，这些不同的 Stage 需要的资源可能不一样，由于目前 Spark 的设计，我们无法对每个 Stage 进行细粒度的资源设置。而且即使是一个资深的工程师也很难准确的预估一个比较

w397090770 5年前 (2020-01-10) 1514℃ 0评论2喜欢

Spark

Apache Spark SQL 在有赞大数据的实践

一、前言在 2019 年 1 月份的时候，我们发表过一篇博客从 Hive 迁移到 Spark SQL 在有赞的实践，里面讲述我们在 Spark 里所做的一些优化和任务迁移相关的内容。本文会接着上次的话题继续讲一下我们之后在 SparkSQL 上所做的一些改进，以及如何做到 SparkSQL 占比提升到 91% 以上，最后也分享一些在 Spark 踩过的坑和经验希望能帮助到大家

w397090770 5年前 (2020-01-05) 1739℃ 0评论2喜欢

Hive

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

Facebook 经常使用分析来进行数据驱动的决策。在过去的几年里，用户和产品都得到了增长，使得我们分析引擎中单个查询的数据量达到了数十TB。我们的一些批处理分析都是基于 Hive 平台（Apache Hive 是 Facebook 在2009年贡献给社区的）和 Corona（ Facebook 内部的 MapReduce 实现）进行的。Facebook 还针对包括 Hive 在内的多个内部数据存储，继续

w397090770 5年前 (2019-12-19) 1781℃ 0评论10喜欢

Delta Lake

Delta Lake 0.5.0 正式发布，支持包括 Hive/Presto 等多种查询引擎

Delta Lake 0.5.0 于2019年12月13日正式发布，正式版本可以到这里下载使用。这个版本支持多种查询引擎查询 Delta Lake 的数据，比如常见的 Hive、Presto 查询引擎。并发操作得到改进。当然，这个版本还是不支持直接使用 SQL 去增删改查 Delta Lake 的数据，这个可能得等到明年1月的 Apache Spark 3.0.0 的发布。好了，下面我们来详细介绍这个版本

w397090770 5年前 (2019-12-15) 1779℃ 0评论2喜欢

Spark

Spark SQL 在字节跳动的优化实践

以下是字节跳动数据仓库架构负责人郭俊的分享主题沉淀，《字节跳动在Spark SQL上的核心优化实践》。PPT 请微信关注过往记忆大数据，并回复 bd_sparksql 获取。今天的分享分为三个部分，第一个部分是 SparkSQL 的架构简介，第二部分介绍字节跳动在 SparkSQL 引擎上的优化实践，第三部分是字节跳动在 Spark Shuffle 稳定性提升和性能

w397090770 5年前 (2019-12-03) 4353℃ 0评论3喜欢

Spark

Apache Spark 中编写可伸缩代码的4个技巧

在本文中，我将分享一些关于如何编写可伸缩的 Apache Spark 代码的技巧。本文提供的示例代码实际上是基于我在现实世界中遇到的。因此，通过分享这些技巧，我希望能够帮助新手在不增加集群资源的情况下编写高性能 Spark 代码。背景我最近接手了一个 notebook ，它主要用来跟踪我们的 AB 测试结果，以评估我们的推荐引擎的性能

w397090770 5年前 (2019-11-26) 1583℃ 0评论4喜欢