Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop

图书介绍

第二版已更新包含了 Spark 3.0 的一些东西，本书向数据工程师和数据科学家展示了 Spark 中结构化和统一性为何如此重要。本书分为12章，介绍了 Apache Spark 统一分析引擎的原有；Spark Structured APIs；在 Spark SQL 和 DataFrames 中如何使用内置和外置的数据源；Spark SQL and Datasets 介绍；优化 Spark 应用程序；Structured Streaming 介绍；使用 Apache Spark 构建可靠的数据湖；机器学习相关知识；最后一章介绍了 Apache Spark 3.0 的东西。通过本书可以比较全面的了解 Spark 的核心概念等。具体如下：

学习 Python，SQL，Scala 或 Java 高层次 Structured APIs：DataFrames 和 Datasets

理解 Spark 算子以及 SQL 引擎

通过 Spark 配置和 Spark UI 检查、调优和调试 Spark 算子

使用: JSON, Parquet, CSV, Avro, ORC, Hive, S3, 或 Kafka 数据源

使用 Structured Streaming 对批数据和流数据进行数据分析

使用开源的 Delta Lake 和 Spark构建可靠的数据管道

使用 MLlib 开发机器学习管道并使用 MLflow 生产模型

下载方式

关注 过往记忆大数据 微信公众号，并回复 Learning_Spark2 获取。

本博客文章除特别声明，全部都是原创！
原创文章版权归过往记忆大数据（过往记忆）所有，未经许可不得转载。
本文链接: 【Learning Spark, 2nd Edition 可以免费下载了】（https://www.iteblog.com/archives/9863.html）

图文介绍 Presto + Velox 整合

图文介绍 Presto + Velox 整合

Velox 介绍：一个开源的统一执行引擎

Velox 介绍：一个开源的统一执行引擎

Presto 里面如何把 array 或 Map 里面的元素由行转成列

Presto 里面如何把 array 或 Map 里面的元素由行转成列

Data + AI Summit 2022 PPT 下载

Data + AI Summit 2022 PPT 下载

Data + AI Summit 2022 超清视频下载

Data + AI Summit 2022 超清视频下载

历时一年 Apache Spark 3.3.0 正式发布，新特性详解

历时一年 Apache Spark 3.3.0 正式发布，新特性详解

Kafka: The Definitive Guide, 2nd Edition 下载

Kafka: The Definitive Guide, 2nd Edition 下载

Mastering Apache Pulsar 下载

Mastering Apache Pulsar 下载

下面文章您可能感兴趣

高速免费HTTP代理IP（2015-05-12更新）

Hadoop大数据零基础实战视频教程下载

数据湖技术 Iceberg 的探索与实践

.NET for Apache Spark 预览版正式发布

Apache Spark 中支持的七种 Join 类型

Apache Ranger：统一授权管理框架

Linux库memmove函数实现

Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍

Java 14 将于3月17日正式发布，包含大量减少代码冗余的新特性

欢迎加入中国 Cassandra 技术社区

Apache Flink状态管理和容错机制介绍

Flink Forward 201704所有PPT资料下载

盘点2018年晋升为Apache TLP的大数据相关项目

Mastering Apache Pulsar 下载

Hadoop Security Protecting Your Big Data Platform[PDF]

MongoDB 在查询中利用 $expr 来实现聚合表达

在 Apache Solr 中使用复制字段（Copying Fields）

Apache Spark Delta Lake 删除使用及实现原理代码解析

Apache Kylin在美团数十亿数据OLAP场景下的实践

用Maven编译Spark 1.1.0