问题背景
最近开始了一个全新的ugc项目,要求对用户的点赞,评论,转发等等的数据进行统计按权重进行积分,并进行排序。要求排行榜的实时性在5分钟内,最好能进行全实时的计算,要求高度的准确性。
实际工作中这样的场景是非常多的,主要是各种数据的实时汇总,比如用户购买总量,用户点赞总量,
商品销售总量,不是要历史的数据而是要现在最新的总量数据,这个数据可能是1天的汇总,也可能是数年的汇总。另一方面是进一步依靠这些数据进行排行榜和推荐,将最热最火的信息推送给用户。
现在这样的数据汇总计算排行通常的方案是Lambda架构,用户数据既需要进入消息队列系统(New Data Stream如 q)作为实时计算任务的输入源,又需要进入数据库系统(All Data如H )来支持批处理系统,最终两者的结果写入数据库系统(MERGED VIEW),展示
继续阅读与本文标签相同的文章
上一篇 :
空学Kafka之一
下一篇 :
一文教会你如何写复杂业务代码
-
学好Scikit-Learn,于是你默默地推了一下酷酷的墨镜【上篇】
2026-05-21栏目: 教程
-
酸成柠檬,当年为什么不好好学【数据可视化】
2026-05-21栏目: 教程
-
如何使用PAI深度学习TensorFlow读写OSS教程?
2026-05-21栏目: 教程
-
日志服务数据加工最佳实践: 日期时间处理
2026-05-21栏目: 教程
-
【视觉与图像】Python+OpenCV入门教程4:图像基本操作
2026-05-21栏目: 教程
