作者:微博广告数据平台
随着微博业务线的快速扩张,微博广告各类业务日志的数量也随之急剧增长。传统基于 Hadoop 生态的离线数据存储计算方案已在业界形成统一的默契,但受制于离线计算的时效性制约,越来越多的数据应用场景已从离线转为实时。微博广告实时数据平台以此为背景进行设计与构建,目前该系统已支持日均处理日志数量超过百亿,接入产品线、业务日志类型若干。
一.技术选型
相比于 Spark,目前 Spark 的生态总体更为完善一些,且在机器学习的集成和应用性暂时领先。但作为下一代大数据引擎的有力竞争者-F 在流式计算上有明显优势,F 在流式计算里属于真正意义上的单条处理,每一条数据都触发计算,而不是像 Spark 一样的 Mini Batch 作为流式处理的妥协。F 的容错机制较为轻量,对吞吐量影响较小,而且拥有图和
继续阅读与本文标签相同的文章
-
Java中Object类常用的12个方法,你用过几个?
2026-05-16栏目: 教程
-
【最全合集】一文看尽 2019杭州云栖大会 MaxCompute 技术分享
2026-05-16栏目: 教程
-
如何在Spark中实现Count Distinct重聚合
2026-05-16栏目: 教程
-
Android高级面试题资料(持续更新)
2026-05-16栏目: 教程
-
源码分析Dubbo Invoker概述----服务发现、集群、负载均衡、路由体系
2026-05-16栏目: 教程
