DataPipeline
Data Pipeline | 实时数据集成平台
传统的数据融合通常基于批模式。在批的模式下,我们会通过一些周期性运行的

另一种是
系统挑战
如果问题简化到一张
-
动态性
: 数据源会不断地发生变化,主要归因于:表结构的变化,表的增减。针对这些情况,你需要有一些相应的策略进行处理。 -
可伸缩性
: 任何一个分布式系统,必须要提供可伸缩性。因为你不是只同步一张表,通常会有大量数据同步任务在进行着。如何在一个集群或多个集群中进行统一的调度,保证任务并行执行的效率,这是一个要解决的基本问题。 -
容错性
: 在任何环境里你都不能假定服务器是永远在正常运行的,网络、磁盘、内存都有可能发生故障。这种情况下一个Job 可能会失败,之后如何进行恢复?状态能否延续?是否会产生数据的丢失和重复?这都是要考虑的问题。 -
异构性
: 当我们做一个数据融合项目时,由于源和目的地是不一样的,比如,源是MySQL ,目的地是Oracle ,可能它们对于一个字段类型定义的标准是有差别的。在同步时,如果忽略这些差异,就会造成一系列的问题。 -
一致性
: 一致性是数据融合中最基本的问题,即使不考虑数据同步的速度,也要保证数据一致。数据一致性的底线为:数据先不丢,如果丢了一部分,通常会导致业务无法使用;在此基础上更好的情况是:源和目的地的数据要完全一致,即所谓的端到端一致性,如何做到呢?
Lambda 架构
实际上,这在很大程度来自于现实中用户的需求。
数据融合
数据源变化捕获是数据集成的起点,结合日志的解析、增量条件查询模式和数据源主动
Ad-Hoc 模式
假如我需要将数据从
MQ 模式
另一种模式是
- 要做数据的一对多分发。数据要进行一次读取,然后分发到各种不同的目的地,这是一个非常适合消息队列使用的分发模型。详情见:数据融合重磅功能丨一对多实时分发、批量读取模式
- 有时会对一次读取的数据加不同的处理逻辑,我们希望这种处理不要重新对源端产生一次读取。所以在多数情况下,都需将数据先读到消息队列,然后再配置相应的处理逻辑。
Kafka Connect 就是基于MQ 模式的,它有大量的开源连接器。基于Kafka Connect 框架,我们可以重用这些连接器,节省研发的投入。- 当你把数据抽取跟写入目的地,从处理逻辑中独立出来之后,便可以提供更强大的集成能力。因为你可以在消息队列上集成更多的处理逻辑,而无需考虑重新写整个
Job 。
相应而言,如果你选择将
- 所有数据的吞吐都经过
MQ ,所以MQ 会成为一个吞吐瓶颈。 - 因为是一个完全的流式架构,所以针对批量同步,你需要引入一些边界消息来实现一些批量控制。
Kafka 是一个有持久化能力的消息队列,这意味着数据留存是有极限的。比如,你将源端的读到Kafka Topic 里面,Topic 不会无限的大,有可能会造成数据容量超限,导致一些数据丢失。- 当批量同步在中间因为某种原因被打断,无法做续传时,你需要进行重传。在重传过程中,首先要将数据进行清理,如果基于消息队列模式,清理过程就会带来额外的工作。你会面临两个困境:要么清空原有的消息队列,要么你创造新的消息队列。这肯定不如像直接使用一些批量同步框架那样来的直接。