私藏!资深数据专家SQL效率优化技巧
highlight: a11y-dark
- 💡 作者:韩信子@ShowMeAI
- 📘 数据分析实战系列:https://www.showmeai.tech/tutorials/40
- 📘 本文地址:https://www.showmeai.tech/article-detail/391
- 📢 声明:版权所有,转载请联系平台与作者并注明出处
- 📢 收藏ShowMeAI查看更多精彩内容
所有的数据相关工作人员,包括数据开发、数据分析师、数据科学家等,多多少少会使用数据库,我们很多的业务数据也是存放在业务表中。但即使是同一个需求,不同人写出的 SQL 效率上也会有很大差别,而我们在数据岗位面试的时候,也会考察相关的技能和思考,在本篇文章中,ShowMeAI将给大家梳理 SQL 中可以用于优化效率和提速的核心要求。
关于 SQL 的基础技能知识,欢迎大家查阅ShowMeAI制作的速查表:
💡 1)使用正则regexp_like
代替LIKE
如下例所示,当我们要进行模糊匹配的时候(尤其是匹配项很多的时候),我们使用regexp_like
代替LIKE
可以提高效率。
💦 低效代码
sql
SELECT *
FROM phones
WHERE
lower(name) LIKE '%samsing&' OR
lower(name) LIKE '%apple&' OR
lower(name) LIKE '%htc&' OR
💦 高效代码
sql
SELECT *
FROM phones
WHERE
REGEXP_LIKE(lower(name),'samsung|apple|htc')
💡 2)使用regexp_extract
代替 Case-when Like
类似的,使用regexp_extract
代替Case-when Like
可以提高效率。
💦 低效代码
sql
SELECT *
CASE
WHEN concat(' ', name, ' ') LIKE '%acer%' then 'Acer'
WHEN concat(' ', name, ' ') LIKE '%samsung%' then 'Samsung'
WHEN concat(' ', name, ' ') LIKE '%dell%' then 'Dell'
AS brand
FROM laptops
💦 高效代码
sql
SELECT
regexp_extract(name,'(acer|samsung|dell)')
AS brand
FROM laptops
💡 3)IN子句转换为临时表
但我们进行数据选择时候,有时候会用到in
作为条件选择,如果我们的候选项非常多,那利用临时表可能会带来更好的效率。
💦 低效代码
sql
SELECT *
FROM table1 as t1
WHERE
itemid in (3363134, 5343, 5555555)
💦 高效代码
sql
SELECT *
FROM table 1 as t1
JOIN (
SELECT
itemid
FROM (
SELECT
split('3363134, 5343, 5555555') as bar
)
CROSS JOIN
UNNEST(bar) AS t(itemid)
) AS table2 as t2
ON
t1.itemid = t2.itemid
💡 4)将 JOIN 的表从大到小排序
当我们要进行表关联(join)的时候,我们可以对表基于大小进行一个排序,把大表排在前面,小表排在后面,也会带来效率的提升。
💦 低效代码
sql
SELECT *
FROM small_table
JOIN large_table
ON small_table.id = large_table.id
💦 高效代码
sql
SELECT *
FROM large_table
JOIN small_table
ON small_table.id = large_table.id
💡 5)使用简单的表关联条件
如果我们要基于条件对两个表进行连接,那条件中尽量不要出现复杂函数,如果一定需要使用,那我们可以先用函数对表的数据处理产出用于连接的字段。
如下例中,我们对a
和b
表进行连接,条件是b
表的「年」「月」「日」拼接后和a
表的日期一致,那粗糙的写法和优化的写法分别如下:
💦 低效代码
sql
SELECT *
FROM table1 a
JOIN table2 b
ON a.date = CONCAT(b.year, '-', b.month, '-', b.day)
💦 高效代码
sql
SELECT *
FROM table1 a
JOIN (
SELECT name, CONCAT(b.year, '-', b.month, '-', b.day) as date
FROM table2 b
) new
ON a.date = new.date
💡 6)分组的字段按照类别取值种类数排序
如果我们需要对数据按照多个字段分组,尤其是字段中有id类这种取值非常多的类别字段,我们应当把它排在最前面,这也可以对效率有一些帮助。
💦 低效代码
sql
SELECT
main_category,
sub_category,
itemid
sum(price)
FROM
table1
GROUP BY
main_category, sub_category, itemid
💦 高效代码
sql
SELECT
main_category,
sub_category,
itemid
sum(price)
FROM
table1
GROUP BY
itemid, sub_category, main_category
💡 7)避免 WHERE 子句中的子查询
当我们要查询的语句的where
条件中包含子查询时,我们可以通过with
语句构建临时表来调整连接条件,提升效率,如下:
💦 错误代码
sql
SELECT sum(price)
FROM table1
WHERE itemid in (
SELECT itemid
FROM table2
)
💦 好代码
sql
WITH t2
AS (SELECT itemid
FROM table2)
SELECT Sum(price)
FROM table1 AS t1
JOIN t2
ON t1.itemid = t2.itemid
💡 8)取最大直接用Max而非Rank后取第1
这一条很好理解,如果我们要取某字段最大取值,我们直接使用 max,而不要用 rank 排序后取第 1,如下代码所示:
💦 低效代码
sql
SELECt *
FROM (
SELECT userid, rank() over (order by prdate desc) as rank
FROM table 1
)
WHERE ranking = 1
💦 高效代码
sql
SELECT userid, max(prdate)
FROM table1
GROUP BY 1
💡 9)其他优化点
- 对于大表,利用
approx_distinct()
代替count(distinct)
来计数。 - 对于大表,利用
approx_percentie(metric,0.5)
代替median
。 - 尽可能避免使用
UNION
。
参考资料
本文正在参加「金石计划 . 瓜分6万现金大奖」
- whylogs工具库的工业实践!机器学习模型流程与效果监控 ⛵
- 脉脉疯传!2023年程序员生存指南;多款prompt效率加倍工具;提示工程师最全秘籍;AI裁员正在发生 | ShowMeAI日报
- 中国风?古典系?AI中文绘图创作尝鲜!⛵
- Python中内置数据库!SQLite使用指南!
- Pandas中你一定要掌握的时间序列相关高级功能
- 数据科学家赚多少?数据全分析与可视化 ⛵
- 交互式仪表板!Python轻松完成!⛵
- ChatGPT!我是你的破壁人;比尔·盖茨不看好Web3与元宇宙;FIFA押中4届世界杯冠军;GitHub今日热榜 | ShowMeAI资讯日报
- ChatGPT要收费了;华尔街大裁员;阿里2023十大科技趋势;小红书元宇宙虚拟服饰被吐槽;GitHub今日热榜 | ShowMeAI资讯日报
- AI创业时代!这9个方向有钱途;AIGC再添霸榜应用Lensa;美团SemEval2022冠军方法分享;医学图像处理工具箱… | ShowMeAI资讯日报
- 嘘!P站数据分析年报;各省市疫情感染进度条;爱奇艺推出元宇宙App;You推出AI聊天机器人;GitHub今日热榜 | ShowMeAI资讯日报
- 美国公司裁员潮时间线◉科技寒冬可视化;3份报告回顾中国开发者2022;自动驾驶下半场,谁会冲出重围 | ShowMeAI每周通讯 #005-01.07
- 副业月入过万?数据有话说;扫地机器人发展到哪步了;疫情后要不要重返办公室;淘宝元宇宙直播间;GitHub今日热榜 | ShowMeAI资讯日报
- 大战谷歌!微软Bing引入ChatGPT;羊了个羊40万年薪招研发;Debian彻底移除Python2;GitHub今日热榜 | ShowMeAI资讯日报
- 酸了!乐视工作制改为四天半;高通新年裁员;AI绘画公司开始倒闭;网易入股张艺谋元宇宙公司;GitHub今日热榜 | ShowMeAI资讯日报
- 要么干要么滚!推特开始裁员了;深度学习产品应用·随书代码;可分离各种乐器音源的工具包;Transformer教程;前沿论文 | ShowMeAI资讯日报
- 真实世界的人工智能应用落地——OpenAI篇 ⛵
- 阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
- 用魔法打败魔法!这件毛衣让摄像头看不到你;两款酷炫的AI写作软件;快如闪电的B站下载工具;基于扩散模型的蛋白质设计 | ShowMeAI资讯日报
- 一文读懂!异常检测全攻略!从统计方法到机器学习 ⛵