如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据

Gobblin 作业建立在一组 constructs 上（由上图中的浅绿色框表示），它们以某种方式协同工作并完成数据提取工作。所有的 constructs 都可以通过作业配置插入，并且可以通过添加新的或扩展现有的实现来扩展。

一个 Gobblin 作业由一组任务组成，每个任务对应一个要完成的工作单元，负责提取一部分数据。Gobblin 作业的任务由 Gobblin 运行时（Gobblin runtime）（由上图中的橙色框表示）根据选择的部署设置（由上图中的红色框表示）执行。

Gobblin 运行时（Gobblin runtime）负责在选择的部署设置上运行用户定义的 Gobblin 作业。它处理常见的任务，包括作业和任务调度、错误处理和任务重试、资源协商和管理、状态管理、数据质量检查、数据发布等。

Gobblin 目前支持两种部署模式：单节点的 Standalone 模式和 Hadoop 集群的 Hadoop MapReduce 模式。当然，这部分还在扩展。

Gobblin 的运行和操作由一些组件和实用程序（由上图中的蓝色框表示）支持，它们处理重要的事情，例如元数据管理、状态管理、指标收集和报告以及监控。

关于 Apache® Gobblin™ 的更多介绍可以到 https://gobblin.apache.org/ 查看。

本博客文章除特别声明，全部都是原创！
原创文章版权归过往记忆大数据（过往记忆）所有，未经许可不得转载。
本文链接: 【Apache® Gobblin™：开源分布式大数据集成框架】（https://www.iteblog.com/archives/9785.html）

盘点2021年晋升为Apache TLP的大数据相关项目

盘点2021年晋升为Apache TLP的大数据相关项目

图文介绍 Presto + Velox 整合

图文介绍 Presto + Velox 整合

Velox 介绍：一个开源的统一执行引擎

Velox 介绍：一个开源的统一执行引擎

Presto 里面如何把 array 或 Map 里面的元素由行转成列

Presto 里面如何把 array 或 Map 里面的元素由行转成列

Data + AI Summit 2022 PPT 下载

Data + AI Summit 2022 PPT 下载

Data + AI Summit 2022 超清视频下载

Data + AI Summit 2022 超清视频下载

历时一年 Apache Spark 3.3.0 正式发布，新特性详解

历时一年 Apache Spark 3.3.0 正式发布，新特性详解

Spark Structured Streaming 2021年最新进展的总结

Spark Structured Streaming 2021年最新进展的总结

下面文章您可能感兴趣

CarbonData：华为开发并支持Hadoop的列式文件格式

[电子书]Learning Spark Streaming PDF下载

CPU 和 GPU - 异构计算的演进与发展

Hive常用语句

Paxos Made Simple 译文

Apache Spark 不过时的六大理由

Kafka设计解析：Kafka性能测试方法及Benchmark报告

Hive：简单查询不启用Mapreduce job而启用Fetch task

Flink Forward 201904 PPT资料下载

[电子书]Hadoop Blueprints pdf下载

Ubuntu安装依赖文件

上海(Shanghai) Apache Spark Meetup第十二次聚会

Zookeeper四字命令

Maven/SBT常用的repositorie一览表

Akka学习笔记：Actor生命周期

将 MySQL 的全量数据导入到 Apache Solr 中

精选30个炫酷的数据可视化大屏(含源码)，拿走就用！

高速免费HTTP代理IP（2015-05-14更新）

MongoDB 查看某个命令的运行统计信息

Open Distro for Elasticsearch：AWS 自家版本的开源 ElasticSearch