Presto on Spark：支持即时查询和批处理

前言Facebook 的数据仓库构建在 HDFS 集群之上。在很早之前，为了能够方便分析存储在 Hadoop 上的数据，Facebook 开发了 Hive 系统，使得科学家和分析师可以使用 SQL 来方便的进行数据分析，但是 Hive 使用的是 MapReduce 作为底层的计算框架，随着数据分析的场景和数据量越来越大，Hive 的分析速度越来越慢，可能得花费数小时才能完成

w397090770 4年前 (2020-08-09) 1646℃ 0评论4喜欢

Spark

Apache Spark 自定义优化规则：Custom Optimizer Rule

在《Apache Spark 自定义优化规则：Custom Strategy》文章中我们介绍了如何自定义策略，策略是用在逻辑计划转换到物理计划阶段。而本文将介绍如何自定义逻辑计划优化规则，主要用于优化逻辑计划，和前文不一样的地方是，逻辑优化规则只是等价变换逻辑计划，也就是 Logic Plan -> Login Plan，这个是在应用策略前进行的。如果想及时

w397090770 5年前 (2020-08-07) 1246℃ 0评论2喜欢

Spark

Apache Spark 自定义优化规则：Custom Strategy

这篇文章本来19年5月份就想写的，最终拖到今天才整理出来😂。Spark 内置给我们带来了非常丰富的各种优化，这些优化基本可以满足我们日常的需求。但是我们知道，现实场景中会有各种各样的需求，总有一些场景在 Spark 得到的执行计划不是最优的，社区的大佬肯定也知道这个问题，所以从 Spark 1.3.0 开始，Spark 为我们提供

w397090770 5年前 (2020-08-05) 1126℃ 2评论3喜欢

Spark

Apache Spark 动态分区 OverWrite 问题

如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop假设我们有以下表：[code lang="scala"]scala> spark.sql("""CREATE TABLE iteblog_test (name STRING, id int) using orc PARTITIONED BY (id)""").show(100)[/code]我们往里面插入一些数据：[code lang="sql"]scala> spark.sql("insert into table iteblog_test select

w397090770 5年前 (2020-08-03) 3345℃ 0评论4喜欢

Spark

如何使用 Spark 3.0 中新加的 Structured Streaming UI 来进行异常分析

本文为阿里巴巴技术专家余根茂在社区发的一篇文章。Structured Streaming 最初是在 Apache Spark 2.0 中引入的，它已被证明是构建分布式流处理应用程序的最佳平台。SQL/Dataset/DataFrame API 和 Spark 的内置函数的统一使得开发人员可以轻松实现复杂的需求，比如支持流聚合、流-流 Join 和窗口。自从 Structured Streaming 发布以来，社区的开发人

w397090770 5年前 (2020-07-30) 759℃ 0评论1喜欢

Spark

Apache Spark 3.0 R 的向量化 IO

R 是数据科学中最流行的计算机语言之一，专门用于统计分析和一些扩展，如用于数据处理和机器学习任务的 RStudio addins 和其他 R 包。此外，它使数据科学家能够轻松地可视化他们的数据集。通过在 Apache Spark 中使用 SparkR，可以很容易地扩展 R 代码。要交互式地运行作业，可以通过运行 R shell 轻松地在分布式集群中运行 R 的作业

w397090770 5年前 (2020-07-09) 759℃ 0评论2喜欢

Spark

Spark 3.0 中七个必须知道的 SQL 性能优化

本文来自 IBM 东京研究院的高级技术人员 Kazuaki Ishizaki 博士在 Spark Summit North America 2020 的《SQL Performance Improvements at a Glance in Apache Spark 3.0》议题的分享，本文视频参见今天的推文第三条。PPT 请关注过往记忆大数据并后台回复 sparksql3 获取。Spark 3.0 正式版在上个月已经发布了，其中更新了很多功能，参见过往记忆大数据的 Ap

w397090770 5年前 (2020-07-08) 2541℃ 0评论3喜欢

Spark

Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快？那你就错了。

本资料来自 Workday 的软件开发工程师 Jianneng Li 在 Spark Summit North America 2020 的《On Improving Broadcast Joins in Spark SQL》议题的分享。背景相信使用 Apache Spark 进行数据分析的同学对 Spark 中的 Broadcast Join 比较熟悉，其在 Join 之前会把一端比较小的表广播到参与 Join 的 worker 端，具体如下：如果想及时了解Spark、Hadoop或者HBase相关的文

w397090770 5年前 (2020-07-05) 2147℃ 0评论4喜欢

Spark

Spark Summit North America 202006 高清 PPT 下载

为期五天的 Spark Summit North America 2020在美国时间 2020-06-22 ~ 06-26 举行。由于今年新冠肺炎的影响，本次会议第一次以线上的形式进行。这次会议虽然是五天，但是前两天是培训，后面三天才是正式会议。本次会议一共有超过210个议题，一如既往，主题也主要是 Spark + AI，在 AI 方面会议还深入讨论一些流行的软件框架，如 Delta Lake、MLflo

w397090770 5年前 (2020-07-04) 1884℃ 0评论2喜欢