Apache Spark DataSource V2 介绍及入门编程指南（上）

Data Source API 定义如何从存储系统进行读写的相关 API 接口，比如 Hadoop 的 InputFormat/OutputFormat，Hive 的 Serde 等。这些 API 非常适合用户在 Spark 中使用 RDD 编程的时候使用。使用这些 API 进行编程虽然能够解决我们的问题，但是对用户来说使用成本还是挺高的，而且 Spark 也不能对其进行优化。为了解决这些问题，Spark 1.3 版本开始引入了 D

w397090770 6年前 (2019-08-13) 3600℃ 0评论3喜欢

Spark

深入理解 Spark SQL 的 Catalyst 优化器

Spark SQL 是 Spark 最新且技术最复杂的组件之一。它同时支持 SQL 查询和新的 DataFrame API。Spark SQL 的核心是 Catalyst 优化器，它以一种全新的方式利用高级语言的特性（例如：Scala 的模式匹配和 Quasiquotes ①）构建一个可扩展的查询优化器。最近我们在 SIGMOD 2015 发表了一篇论文（合作者：Davies Liu，Joseph K. Bradley，Xiangrui Meng，Tomer Kaftan

w397090770 6年前 (2019-07-21) 3297℃ 0评论5喜欢

Spark

一条 SQL 在 Apache Spark 之旅（下）

终于到最后一篇了，我们在前面两篇文章中《一条 SQL 在 Apache Spark 之旅（上）》和《一条 SQL 在 Apache Spark 之旅（中）》介绍了 Spark SQL 之旅的 SQL 解析、逻辑计划绑定、逻辑计划优化以及物理计划生成阶段，本文我们将继续接上文，介绍 Spark SQL 的全阶段代码生成以及最后的执行过程。全阶段代码生成阶段 - WholeStageCodegen前面

w397090770 6年前 (2019-06-19) 9085℃ 0评论17喜欢

Spark

一条 SQL 在 Apache Spark 之旅（中）

在《一条 SQL 在 Apache Spark 之旅（上）》文章中我们介绍了一条 SQL 在 Apache Spark 之旅的 Parser 和 Analyzer 两个过程，本文接上文继续介绍。优化逻辑计划阶段 - Optimizer在前文的绑定逻辑计划阶段对 Unresolved LogicalPlan 进行相关 transform 操作得到了 Analyzed Logical Plan，这个 Analyzed Logical Plan 是可以直接转换成 Physical Plan 然后在 Spark 中执

w397090770 6年前 (2019-06-18) 5717℃ 4评论21喜欢

Spark

一条 SQL 在 Apache Spark 之旅（上）

Spark SQL 是 Spark 众多组件中技术最复杂的组件之一，它同时支持 SQL 查询和 DataFrame DSL。通过引入了 SQL 的支持，大大降低了开发人员的学习和使用成本。目前，整个 SQL 、Spark ML、Spark Graph 以及 Structured Streaming 都是运行在 Catalyst Optimization & Tungsten Execution 之上的，如下图所示：如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关

w397090770 6年前 (2019-06-12) 10911℃ 0评论31喜欢

Hadoop

Uber 大数据平台的演进（2014~2019）

Uber 致力于在全球市场上提供更安全，更可靠的运输服务。为了实现这一目标，Uber 在很大程度上依赖于数据驱动的决策，从预测高流量事件期间骑手的需求到识别和解决我们的驾驶员-合作伙伴注册流程中的瓶颈。自2014年以来，Uber 一直致力于开发大数据解决方案，确保数据可靠性，可扩展性和易用性；现在 Uber 正专注于提高他们平

w397090770 6年前 (2019-06-06) 3280℃ 0评论8喜欢

Spark

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

Airbnb 日志事件获取日志事件从客户端（例如移动应用程序和 Web 浏览器）和在线服务发出，其中包含行为或操作的关键信息。每个事件都有一个特定的信息。例如，当客人在 Airbnb.com 上搜索马里布的海滨别墅时，将生成包含位置，登记和结账日期等的搜索事件。在 Airbnb，事件记录对于我们理解客人和房东，然后为他们提供更

w397090770 6年前 (2019-05-19) 2874℃ 0评论8喜欢

Spark

Spark+AI Summit 2019 PPT 下载[共124个]

为期三天的 SPARK + AI SUMMIT 2019 于 2019年04月23日-25日在旧金山（San Francisco）进行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。作为大数据领域的顶级会议，Spark+AI Summit 2019 吸引了全球大量技术大咖参会，而且 Spark+AI Summit 越做越大，本次会议议题快接近200多个。会议的

w397090770 6年前 (2019-05-07) 855℃ 0评论0喜欢

Spark

Koalas: 让 pandas 开发者轻松过渡到 Apache Spark

今年的 Spark + AI Summit 2019 databricks 开源了几个重磅的项目，比如 Delta Lake，Koalas 等，Koalas 是一个新的开源项目，它增强了 PySpark 的 DataFrame API，使其与 pandas 兼容。Python 数据科学在过去几年中爆炸式增长，pandas 已成为生态系统的关键。当数据科学家拿到一个数据集时，他们会使用 pandas 进行探索。它是数据清洗和分析的终极工

w397090770 6年前 (2019-04-29) 3342℃ 0评论6喜欢