]> git.ipfire.org Git - thirdparty/kernel/linux.git/commit
sched/topology: Fix sched domain build error for GNR, CWF in SNC-3 mode
authorTim Chen <tim.c.chen@linux.intel.com>
Fri, 3 Oct 2025 19:31:28 +0000 (12:31 -0700)
committerPeter Zijlstra <peterz@infradead.org>
Thu, 16 Oct 2025 09:13:50 +0000 (11:13 +0200)
commit4d6dd05d07d00bc3bd91183dab4d75caa8018db9
tree4b3c680fe9e449781209b92bb67e9dbac9f9329a
parent06f2c90885e92992d1ce55d3f35b65b44d5ecc25
sched/topology: Fix sched domain build error for GNR, CWF in SNC-3 mode

It is possible for Granite Rapids (GNR) and Clearwater Forest
(CWF) to have up to 3 dies per package. When sub-numa cluster (SNC-3)
is enabled, each die will become a separate NUMA node in the package
with different distances between dies within the same package.

For example, on GNR, we see the following numa distances for a 2 socket
system with 3 dies per socket:

    package 1       package2
----------------
|               |
    ---------       ---------
    |   0   |       |   3   |
    ---------       ---------
|               |
    ---------       ---------
    |   1   |       |   4   |
    ---------       ---------
|               |
    ---------       ---------
    |   2   |       |   5   |
    ---------       ---------
|               |
----------------

node distances:
node     0    1    2    3    4    5
0:    10   15   17   21   28   26
1:    15   10   15   23   26   23
2:    17   15   10   26   23   21
3:    21   28   26   10   15   17
4:    23   26   23   15   10   15
5:    26   23   21   17   15   10

The node distances above led to 2 problems:

1. Asymmetric routes taken between nodes in different packages led to
asymmetric scheduler domain perspective depending on which node you
are on.  Current scheduler code failed to build domains properly with
asymmetric distances.

2. Multiple remote distances to respective tiles on remote package create
too many levels of domain hierarchies grouping different nodes between
remote packages.

For example, the above GNR topology lead to NUMA domains below:

Sched domains from the perspective of a CPU in node 0, where the number
in bracket represent node number.

NUMA-level 1    [0,1] [2]
NUMA-level 2    [0,1,2] [3]
NUMA-level 3    [0,1,2,3] [5]
NUMA-level 4    [0,1,2,3,5] [4]

Sched domains from the perspective of a CPU in node 4
NUMA-level 1    [4] [3,5]
NUMA-level 2    [3,4,5] [0,2]
NUMA-level 3    [0,2,3,4,5] [1]

Scheduler group peers for load balancing from the perspective of CPU 0
and 4 are different.  Improper task could be chosen for load balancing
between groups such as [0,2,3,4,5] [1].  Ideally you should choose nodes
in 0 or 2 that are in same package as node 1 first.  But instead tasks
in the remote package node 3, 4, 5 could be chosen with an equal chance
and could lead to excessive remote package migrations and imbalance of
load between packages.  We should not group partial remote nodes and
local nodes together.
Simplify the remote distances for CWF and GNR for the purpose of
sched domains building, which maintains symmetry and leads to a more
reasonable load balance hierarchy.

The sched domains from the perspective of a CPU in node 0 NUMA-level 1
is now
NUMA-level 1    [0,1] [2]
NUMA-level 2    [0,1,2] [3,4,5]

The sched domains from the perspective of a CPU in node 4 NUMA-level 1
is now
NUMA-level 1    [4] [3,5]
NUMA-level 2    [3,4,5] [0,1,2]

We have the same balancing perspective from node 0 or node 4.  Loads are
now balanced equally between packages.

Co-developed-by: Vinicius Costa Gomes <vinicius.gomes@intel.com>
Signed-off-by: Vinicius Costa Gomes <vinicius.gomes@intel.com>
Signed-off-by: Tim Chen <tim.c.chen@linux.intel.com>
Signed-off-by: Peter Zijlstra (Intel) <peterz@infradead.org>
Reviewed-by: Chen Yu <yu.c.chen@intel.com>
Tested-by: Zhao Liu <zhao1.liu@intel.com>
arch/x86/kernel/smpboot.c