How Apache Hudi maintains optimum sized files

如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据

步骤4：一旦所有小文件写到最大容量，并且如果还有未分配的插入，就会创建新的文件组/数据文件，并把剩下的数据写到这些新创建的文件组/数据文件中。每个新数据文件的记录数量由 hoodie.copyonwrite.insert.split.size 配置确定。假设 hoodie.copyonwrite.insert.split.size 配置为120k，如果有剩余 300k 条记录，那么将创建3个新文件，其中2个（File_6 和 File_7）将填充 120k 条记录，最后一个（File_8）将填充 60k 条记录（假设每条记录为 1000 字节）。在未来的摄取中，第三个新文件（File_8）将被视为是一个小文件，用于存储更多的数据。

How Apache Hudi maintains optimum sized files

如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据

Hudi 利用自定义分区等机制来优化记录分发到不同的文件，执行上述算法。在这一轮摄取完成后，除 File_8 之外的所有文件都被很好地调整到最佳大小。在每次摄取期间都遵循此过程，以确保 Hudi 表中没有小文件。

本文翻译自：How Apache Hudi maintains optimum sized files

本博客文章除特别声明，全部都是原创！
原创文章版权归过往记忆大数据（过往记忆）所有，未经许可不得转载。
本文链接: 【Apache Hudi 是如何处理小文件的】（https://www.iteblog.com/archives/9988.html）

Apache Hudi : 未来发展

Apache Hudi : 未来发展

Apache Hudi 0.8.0 版本发布，Flink 集成有重大提升以及支持并行写

Apache Hudi 0.8.0 版本发布，Flink 集成有重大提升以及支持并行写

Apache Hudi Clustering 数据布局功能介绍

Apache Hudi Clustering 数据布局功能介绍

Apache Hudi 0.7.0 版本发布，新特性介绍

Apache Hudi 0.7.0 版本发布，新特性介绍

盘点2020年晋升为Apache TLP的大数据相关项目

盘点2020年晋升为Apache TLP的大数据相关项目

Apache Hudi 现在也支持 Flink 引擎了

Apache Hudi 现在也支持 Flink 引擎了

Apache Hudi 0.6.0 版本发布，新功能介绍

Apache Hudi 0.6.0 版本发布，新功能介绍

官宣，Apache Hudi 正式成为 Apache 顶级项目

官宣，Apache Hudi 正式成为 Apache 顶级项目

下面文章您可能感兴趣

在 Delta Lake 中启用 Spark SQL DDL 和 DML

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

Spark 2.0介绍：Spark SQL中的Time Window使用

上海第十次Spark Meetup资料分享

Guava学习之Multisets

三种方法实现Hadoop(MapReduce)全局排序(2)

HBase在新能源汽车监控系统中的应用

Apache Zeppelin使用入门指南：编程

Flink可查询状态Queryable State:替换你的数据库

京东 ClickHouse 高可用实践

红杏公益版（开发人员专用免费）

Spark RDD缓存代码分析

为Java程序员编写的Scala的入门教程

使用 Alluxio 实现 Presto Caching @ Uber

Hive on Spark编程入门指南

Learning Spark完整版下载

Spark Python API函数学习：pyspark API(4)

Spark优化：禁止应用程序将依赖的Jar包传到HDFS

Spark函数讲解：aggregate

在Spark中自定义Kryo序列化输入输出API