Hudi 介绍¶

What‘s Hudi¶

通俗说：

上述没有错误，但不全面，最好说 Hudi 是一个围绕数据库内核构建的 流式数据湖平台。

Alt text

需要说明的是，基文件是在commit/compaction时产生的，比如.parquet/.orc，取决于hoodie.table.base.file.format配置，默认为PARQUET。日志文件包含了从基文件产生以来，对基文件的所有inserts/updates。

Alt text

Copy-On-Write 表中的文件片仅包含基文件，每次提交都会生成新版本的基文件。当数据被写入时：

Alt text

将每个文件组的 upsert 存储到基于行的增量日志中，以通过在查询期间动态地将增量日志应用到每个文件 ID 的最新版本来支持快照查询.