How Apache Hudi maintains optimum sized files

如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据

步骤4：一旦所有小文件写到最大容量，并且如果还有未分配的插入，就会创建新的文件组/数据文件，并把剩下的数据写到这些新创建的文件组/数据文件中。每个新数据文件的记录数量由 hoodie.copyonwrite.insert.split.size 配置确定。假设 hoodie.copyonwrite.insert.split.size 配置为120k，如果有剩余 300k 条记录，那么将创建3个新文件，其中2个（File_6 和 File_7）将填充 120k 条记录，最后一个（File_8）将填充 60k 条记录（假设每条记录为 1000 字节）。在未来的摄取中，第三个新文件（File_8）将被视为是一个小文件，用于存储更多的数据。

How Apache Hudi maintains optimum sized files

如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据

Hudi 利用自定义分区等机制来优化记录分发到不同的文件，执行上述算法。在这一轮摄取完成后，除 File_8 之外的所有文件都被很好地调整到最佳大小。在每次摄取期间都遵循此过程，以确保 Hudi 表中没有小文件。

本文翻译自：How Apache Hudi maintains optimum sized files

本博客文章除特别声明，全部都是原创！
原创文章版权归过往记忆大数据（过往记忆）所有，未经许可不得转载。
本文链接: 【Apache Hudi 是如何处理小文件的】（https://www.iteblog.com/archives/9988.html）

Apache Hudi : 未来发展

Apache Hudi : 未来发展

Apache Hudi 0.8.0 版本发布，Flink 集成有重大提升以及支持并行写

Apache Hudi 0.8.0 版本发布，Flink 集成有重大提升以及支持并行写

Apache Hudi Clustering 数据布局功能介绍

Apache Hudi Clustering 数据布局功能介绍

Apache Hudi 0.7.0 版本发布，新特性介绍

Apache Hudi 0.7.0 版本发布，新特性介绍

盘点2020年晋升为Apache TLP的大数据相关项目

盘点2020年晋升为Apache TLP的大数据相关项目

Apache Hudi 现在也支持 Flink 引擎了

Apache Hudi 现在也支持 Flink 引擎了

Apache Hudi 0.6.0 版本发布，新功能介绍

Apache Hudi 0.6.0 版本发布，新功能介绍

官宣，Apache Hudi 正式成为 Apache 顶级项目

官宣，Apache Hudi 正式成为 Apache 顶级项目

下面文章您可能感兴趣

Apache 董事会即将终止 Apache Ambari 项目

Hive删除外部表异常(Table metadata not deleted)

Spark作业如何在无管理权限的集群部署Python或JDK

四种解决Spark数据倾斜（Data Skew）的方法

ElasticSearch系列文章：搜索API

KSQL介绍：面向Apache Kafka的开源Streaming SQL引擎

使用 Spark+Alluxio 加速数据应用的最佳实践

Data + AI Summit 欧洲2020全部超清 PPT 下载

基于 Flink 的实时特征平台在携程的应用

Apache Flink 1.10.0 正式发布，与 Blink 整合正式完成

HBase 协处理器入门及实战

Scala正则表达式

Spark SQL 物化视图原理与实践

Apache Spark 中支持的七种 Join 类型

Linux 查看物理 CPU 个数、核数、逻辑 CPU 个数

Docker 入门教程：一文了解什么是 Docker

Delta Lake: The Definitive Guide 预览版下载

Spark自定义分区(Partitioner)

Spark SQL中Join常用的几种实现

Flink on YARN部署快速入门指南