MySQL8.4-窗口函数

在关系型数据库中，SELECT 查询是最常用的操作之一。然而，当查询需要进行复杂的数据聚合、排序和排名等任务时，性能往往成为瓶颈。传统的 SQL 聚合函数（如 SUM、COUNT、AVG）在处理这些任务时可能会导致查询效率低下，特别是在处理大量数据时。而窗口函数（Window Functions）作为 SQL 的一种高级功能，为我们提供了一种高效的解决方案。

什么是窗口函数？

窗口函数（也称作分析函数）是 SQL 中的一类函数，允许在查询结果集的某一“窗口”内对数据进行分析和聚合。与传统的聚合函数不同，窗口函数不会改变结果集的行数，而是对每一行返回一个计算值。这使得它非常适用于处理复杂的分析问题，如排名、移动平均、累计和滚动汇总等。

窗口函数的基本语法：

sql
SELECT column1, column2,
       WINDOW_FUNCTION() OVER (PARTITION BY column3 ORDER BY column4)
FROM table_name;

WINDOW_FUNCTION：窗口函数名称，如 ROW_NUMBER(), RANK(), SUM(), AVG() 等。
PARTITION BY：将数据划分为不同的“窗口”，窗口函数将在每个窗口内进行计算。类似于 GROUP BY，但窗口函数不会减少行数。
ORDER BY：对每个窗口内的数据进行排序，从而影响窗口函数的计算顺序。
常见的窗口函数：
ROW_NUMBER()：为每一行分配一个唯一的顺序号。
RANK()：为每一行分配排名，排名相同的行会有相同的值，但排名会跳过。
DENSE_RANK()：类似于 RANK()，但排名不跳过。
NTILE(n)：将数据划分为 n 个桶，并为每个数据分配桶号。
SUM()、AVG()、MIN()、MAX()：这些聚合函数可以与窗口函数配合使用，计算窗口内的聚合值。

窗口函数如何优化 SELECT 查询？
代替子查询或临时表

在传统 SQL 中，复杂的查询经常需要用子查询或者临时表来完成多次计算，尤其是在处理分组聚合时。虽然这些方法可以实现功能，但它们会导致额外的计算和数据移动，从而影响查询性能。

使用窗口函数，可以避免子查询的使用，将多个聚合操作合并到一个查询中，从而减少了不必要的计算。

优化示例：
假设我们有一个销售数据表 sales，其中包含 order_id、customer_id 和 amount 字段。我们想要计算每个客户的累计销售金额，而不想使用子查询。

sql
SELECT order_id, customer_id, amount,
       SUM(amount) OVER (PARTITION BY customer_id ORDER BY order_id) AS cumulative_sales
FROM sales;

上述查询使用了 SUM() 窗口函数，它在每个 customer_id 分区内计算累计销售金额，无需使用额外的子查询或临时表，从而提高了性能。

简化排名和排序操作

在没有窗口函数之前，计算排名通常需要使用复杂的 JOIN 或子查询。窗口函数中的 ROW_NUMBER()、RANK() 和 DENSE_RANK() 可以高效地计算排名，避免了复杂的连接和排序操作。

优化示例：
假设我们需要计算每个销售员的销售排名，传统的做法可能需要多个查询和连接操作，而使用窗口函数可以直接完成：

sql
SELECT sales_rep_id, amount,
       RANK() OVER (PARTITION BY sales_rep_id ORDER BY amount DESC) AS sales_rank
FROM sales;

通过使用 RANK() 窗口函数，我们能够高效地计算每个销售员的销售排名，而不需要额外的连接或排序操作。

处理滚动聚合和移动平均

窗口函数还可以有效地处理滚动聚合和移动平均等任务。传统的方法可能需要使用 JOIN 或临时表来计算滑动窗口的聚合值，而窗口函数可以在查询中直接完成这些操作。

优化示例：
假设我们有一个包含每日销售金额的 daily_sales 表，我们想计算过去 7 天的移动平均销售金额。使用窗口函数，我们可以轻松实现这一点：

sql
SELECT sale_date, amount,
       AVG(amount) OVER (ORDER BY sale_date ROWS BETWEEN 6 PRECEDING AND CURRENT ROW) AS moving_avg
FROM daily_sales;

上述查询使用了 AVG() 窗口函数，计算了每个日期的过去 7 天的移动平均销售金额。通过使用窗口函数，我们避免了复杂的子查询，简化了查询的编写和执行。

处理多层次分组聚合

有时，我们需要在多层次的分组聚合下进行计算。传统的方法可能需要多次连接和聚合，而窗口函数可以直接在一个查询中完成。

优化示例：
假设我们有一个 employees 表，包含 department_id 和 salary 字段，我们想要计算每个部门内员工的薪资占比。

sql
SELECT department_id, salary,
       salary / SUM(salary) OVER (PARTITION BY department_id) AS salary_percentage
FROM employees;

在这个查询中，窗口函数 SUM(salary) OVER (PARTITION BY department_id) 为每个部门计算了总薪资，然后我们用每个员工的薪资除以部门的总薪资，得到薪资占比。通过这种方法，我们避免了多次嵌套的 GROUP BY 或连接操作。

窗口函数优化策略

尽管窗口函数非常强大，但在处理大数据集时，性能仍然可能成为瓶颈。以下是一些优化窗口函数查询性能的策略：

为排序列创建索引

窗口函数中的 ORDER BY 子句对性能有很大影响，尤其是当数据量很大时。为排序列创建合适的索引，可以大大提高查询性能。

使用 PARTITION BY 减少数据量

尽量避免在没有 PARTITION BY 的情况下对整个表进行窗口函数计算。通过将数据划分为多个分区，可以减少每个分区内的数据量，从而提高查询效率。

控制查询的行数

如果只需要查询前 N 行数据，可以使用 LIMIT 或 FETCH 子句来限制查询的结果集大小。这样可以减少不必要的计算和数据传输，提升查询速度。

避免在大表上使用过多的窗口函数

尽管窗口函数非常强大，但在大数据表上执行多个窗口函数可能会导致性能下降。尽量将查询拆分成多个阶段，逐步处理数据，或者考虑使用临时表进行分阶段计算。

最后一次更新于2026-03-01

赵明中的数据库分享

数据驱动，成就未来

MySQL8.4-如何利用好外键

MySQL8.4-优化排序