CDC 是用于复制数据的 ETL 模型之一。它用于检查记录中是否有任何更改 - 是否有任何值更改或记录是否被删除。过去,此模型是使用 ETL 工具通过将数据的最后副本与源进行比较或通过检查源记录的更新时间戳来实现的。性能很差,而且很有可能错过一些更新。CDC 工具彻底改变了这一点,因为它们使用事务日志来跟踪更改,因此不会忽视任何更改,甚至不会影响源数据库的性能。
检测和收集更改有两种不同 芬兰电话号码数据 的方法:数据版本控制,它评估标识已更改行的列(例如,上次更新列 - 日期/时间列、版本号列、状态指示符列),以及通过读取记录更改并允许复制到辅助系统的记录。 CDC 为我们带来了许多改进,但随后云的出现改变了一切。存储和高可用性计算创造了一种新的场景。
ELT,如果我们先加载……
由于本地处理和存储成本高昂,ETL 方法曾经是必需的。随着基于云的数据仓库的快速增长以及基于云的处理和存储成本的大幅下降,在将数据上传到最终目的地之前,几乎没有理由继续进行转换。事实上,将两者互换可以让分析师自己做得更好。
简而言之,分析师现在可以在转换数据之前上传数据 - 他们不必在决定他们需要获得的确切模式之前提前确定他们想要生成的见解 - 这是一个很大的优势。
相反,来自底层源的数据会直接复制到数据存储中,其中包含“单一事实来源”。然后,分析师可以根据需要对数据进行转换。分析师将始终能够返回原始数据,并且不会进行可能损害数据完整性的转换。这使得商业智能流程更加灵活和安全。