Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop
除了这些新功能外,该版本还重点关注可用性,稳定性和优化,解决了超过1000 个tickets。 Spark 贡献者的其他显着特征包括:
在这篇文章中,我们简要总结了一些更高级别的功能和改进。 有关 Spark 所有组件和 JIRA 已解决的主要功能的完整列表,请阅读 Apache Spark 2.4.0 release notes。
Barrier Execution Mode 是 Project Hydrogen 的一部分,这是 Apache Spark 的一项计划,旨在将最先进的大数据和 AI 技术结合在一起。它可以将来自 AI 框架的分布式训练作业正确地嵌入到 Spark 作业中。我们通常会像 All-Reduce 这样来探讨复杂通信模式(complex communication patterns),因此所有的任务都需要同时运行。这不符合 Spark 当前使用的 MapReduce 模式 。使用这种新的执行模式,Spark 同时启动所有训练任务(例如,MPI 任务),并在任务失败时重新启动所有任务。Spark 还为屏障(barrier tasks)任务引入了一种新的容错机制。当任何障碍任务在中间失败时,Spark 将中止所有任务并重新启动当前 stage。
在 Spark 2.4 之前,为了直接操作复杂类型(例如数组类型),有两种典型的解决方案:
新的内置函数可以直接操作复杂类型,高阶函数可以使用匿名 lambda 函数直接操作复杂值,类似于UDF,但具有更好的性能。比如以下两个高阶函数:
SELECT array_distinct(array(1, 2, 3, null, 3)); ["1","2","3",null] SELECT array_intersect(array(1, 2, 3), array(1, 3, 5)); ["1","3"]
关于内置函数和高阶函数的进一步说明可以参见《Apache Spark 2.4 中解决复杂数据类型的内置函数和高阶函数介绍》和《Apache Spark 2.4 新增内置函数和高阶函数使用介绍》
Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统,尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.4 版本开始,Spark 为读取和写入 Avro 数据提供内置支持。新的内置 spark-avro 模块最初来自 Databricks 的开源项目Avro Data Source for Apache Spark。除此之外,它还提供以下功能:
从 Spark 2.4 开始,Spark 支持 Scala 2.12,并分别与 Scala 2.11 和 2.12 进行交叉构建,这两个版本都可以在 Maven 存储库和下载页面中使用。现在,用户可以使用 Scala 2.12 来编写 Spark 应用程序。
Scala 2.12 为 Java 8 带来了更好的互操作性,Java 8 提供了改进的 lambda 函数序列化。 它还包括用户期望的新功能和错误修复。
Pandas UDF 是从 Spark 2.3 开始引入的。在此版本中,社区收集了用户的反馈,并不断改进 Pandas UDF。
除了错误修复之外,Spark 2.4 中还有2个新功能:
我们相信这些新功能将进一步改善 Pandas UDF 的使用,我们将在下一版本中不断改进Pandas UDF。
社区从图像/视频/音频处理行业看到了更多案例。为这些提供 Spark 内置数据源简化了用户将数据导入 ML 训练的工作。在 Spark 2.3 版本中,图像数据源是通过ImageSchema.readImages
实现的。Spark 2.4 发行版中的 SPARK-22666 引入了一个新的 Spark 数据源,它可以作为 DataFrame 从目录中递归加载图像文件。现在加载图像非常简单:
df = spark.read.format("image").load("...")
Spark 2.4 包含许多 Kubernetes 集成的增强功能。主要包括这三点:
许多外部存储系统已经有批量连接器(batch connectors),但并非所有外部存储系统都有流式接收器(streaming sinks)。在此版本中,即使存储系统不支持将流式传输作为接收器(streaming as a sink)。streamingDF.writeStream.foreachBatch(...)
允许我们在每个微批次(microbatch)的输出中使用 batch data writers。例如,过往记忆告诉你可以使用 foreachBatch 中现有的 Apache Cassandra 连接器直接将流式查询的输出写入到 Cassandra。具体如下:
/** * User: 过往记忆 * Date: 2018-11-10 * Time: 10:24 * bolg: https://www.iteblog.com * 本文地址:https://www.iteblog.com/archives/2448 * 过往记忆博客,专注于Hadoop、Spark、HBase 等大数据技术。 * 过往记忆博客微信公共帐号:iteblog_hadoop */ streamingDF.writeStream .foreachBatch { (iteblogBatchDF: DataFrame, batchId: Long) => iteblogBatchDF.write // Use Cassandra batch data source to write streaming out .cassandraFormat(tableName, keyspace) .option("cluster", "iteblog_hadoop") .mode("append") .save() }
同样,你也可以使用它将每个微批输出(micro-batch output)应用于 streaming DataFrames 中,许多 DataFrame/Dataset 操作在 streaming DataFrames 是不支持的,具体使用如下:
streamingDF.writeStream.foreachBatch { (iteblogBatchDF: DataFrame, batchId: Long) => iteblogBatchDF.cache() iteblogBatchDF.write.format(...).save(...) // location 1 iteblogBatchDF.write.format(...).save(...) // location 2 iteblogBatchDF.uncache() }本博客文章除特别声明,全部都是原创!