作者:向师富 转自:阿里巴巴数据中台官网https://dp.alibaba.com
概述
数据抽取是指从源数据抽取所需要的数据, 是构建数据中台的第一步。 数据源一般是关系型数据库,近几年,随着移动互联网的蓬勃发展,出现了其他类型的数据源,典型的如网站浏览日期、APP浏览日志、IoT设备日志
从技术实现方式来讲,从关系型数据库获取数据,可以细分为全量抽取、增量抽取2种方式,两种方法分别适用于不用的业务场景
增量抽取
- 时间戳方式
用时间戳方式抽取增量数据很常见,业务系统在源表上新增一个时间戳字段,创建、修改表记录时,同时修改时间戳字段的值。 抽取任务运行时,进行全表扫描,通过比较抽取任务的业务时间、时间戳字段来决定抽取哪些数据。
此种数据同步方式,在准确率方面有两个弊端:
1、只能获取最新的状态,无法捕获过程变更信息,比如电商购物场景,如果客户
继续阅读与本文标签相同的文章
-
支付宝王益:40岁写30年代码是一种什么体验? | 10月21号栖夜读
2026-05-17栏目: 教程
-
阿里云日志服务构建网站实时分析大盘实战
2026-05-17栏目: 教程
-
说到做到!平头哥开源MCU设计平台,加速生态建设
2026-05-17栏目: 教程
-
阿里云Kubernetes CSI实践—NAS动态存储卷使用
2026-05-17栏目: 教程
-
阿里巴巴成立政务钉钉事业部 已服务123万公务人员
2026-05-17栏目: 教程
