接上文:《大数据团队从0到1

1.0阶段的核心是数据分析,把大数据离线计算的整套流程和框架搭建起来,后续就是不断在框架中加入新的业务、新的需求了。但是1.0阶段的数据是T+1的,即每天、每周、每月定时计算的,快一点儿的有每小时、甚至每5分钟的,都是离线数据,实时性不足。2.0阶段重点加强的,就是实时计算领域。

实时 VS 离线

实时计算与离线计算,表面上的区别,在于数据的时效性。实际在这背后,还有更多的区别。上一篇文章中说,从0到1的阶段需要的是数据分析,但没有解释为什么一开始是使用“离线的”数据分析而不是实时的,下面来解释一下:

大数据离线与实时计算的相同点

1、输入

大数据一定是与线上数据解耦的。

离线计算时,我们把数据从线上数据库中同步一份儿到离线数仓中,在离线数仓中进行复杂的计算;

实时计算时,我们也是采用异步的办法,从线上数据中接一条

收藏 打印