作者:宋军,花名嵩林,阿里云EMR技术专家。从事Spark内核优化,对SparkCore/SprakSQL有深入了解,Spark Contributor
背景
Join是一个非常耗费资源耗费时间的操作,特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据,一方面可以提高查询性能,另一方面也可以减少资源的消耗(网络/IO/CPU等),在同样的资源的情况下可以支撑更多的查询。
目前在SparkSQL中有Filter下推优化,包括两个维度:
生成Filter
SparkSQL会从用户的SQL语句中获取到Filter
- 直接显示获取
生成Filter(a=1) on A
- 隐式推断
推断出Filter(b=1) on B
Filter优化
利用生成的Filter算子可以优化,比
继续阅读与本文标签相同的文章
-
ISV权限不足自查方案
2026-05-24栏目: 教程
-
.net开发支付宝接口,公私钥正确但一直报私钥格式错误排查方案
2026-05-24栏目: 教程
-
支付错误码ALI3151
2026-05-24栏目: 教程
-
如何使用沙箱环境测试
2026-05-24栏目: 教程
-
沙箱环境和正式环境配置与demo测试
2026-05-24栏目: 教程
