]> git.ipfire.org Git - thirdparty/linux.git/commitdiff
veth: reduce XDP no_direct return section to fix race
authorJesper Dangaard Brouer <hawk@kernel.org>
Wed, 19 Nov 2025 16:28:36 +0000 (17:28 +0100)
committerJakub Kicinski <kuba@kernel.org>
Fri, 21 Nov 2025 02:44:32 +0000 (18:44 -0800)
As explain in commit fa349e396e48 ("veth: Fix race with AF_XDP exposing
old or uninitialized descriptors") for veth there is a chance after
napi_complete_done() that another CPU can manage start another NAPI
instance running veth_pool(). For NAPI this is correctly handled as the
napi_schedule_prep() check will prevent multiple instances from getting
scheduled, but for the remaining code in veth_pool() this can run
concurrent with the newly started NAPI instance.

The problem/race is that xdp_clear_return_frame_no_direct() isn't
designed to be nested.

Prior to commit 401cb7dae813 ("net: Reference bpf_redirect_info via
task_struct on PREEMPT_RT.") the temporary BPF net context
bpf_redirect_info was stored per CPU, where this wasn't an issue. Since
this commit the BPF context is stored in 'current' task_struct. When
running veth in threaded-NAPI mode, then the kthread becomes the storage
area. Now a race exists between two concurrent veth_pool() function calls
one exiting NAPI and one running new NAPI, both using the same BPF net
context.

Race is when another CPU gets within the xdp_set_return_frame_no_direct()
section before exiting veth_pool() calls the clear-function
xdp_clear_return_frame_no_direct().

Fixes: 401cb7dae8130 ("net: Reference bpf_redirect_info via task_struct on PREEMPT_RT.")
Signed-off-by: Jesper Dangaard Brouer <hawk@kernel.org>
Link: https://patch.msgid.link/176356963888.337072.4805242001928705046.stgit@firesoul
Signed-off-by: Jakub Kicinski <kuba@kernel.org>
drivers/net/veth.c

index 35dd89aff4a944d8075d3d276f0b6062186524cb..cc502bf022d55c5c50532fe20e1780daca5e9c91 100644 (file)
@@ -975,6 +975,9 @@ static int veth_poll(struct napi_struct *napi, int budget)
 
        if (stats.xdp_redirect > 0)
                xdp_do_flush();
+       if (stats.xdp_tx > 0)
+               veth_xdp_flush(rq, &bq);
+       xdp_clear_return_frame_no_direct();
 
        if (done < budget && napi_complete_done(napi, done)) {
                /* Write rx_notify_masked before reading ptr_ring */
@@ -987,10 +990,6 @@ static int veth_poll(struct napi_struct *napi, int budget)
                }
        }
 
-       if (stats.xdp_tx > 0)
-               veth_xdp_flush(rq, &bq);
-       xdp_clear_return_frame_no_direct();
-
        /* Release backpressure per NAPI poll */
        smp_rmb(); /* Paired with netif_tx_stop_queue set_bit */
        if (peer_txq && netif_tx_queue_stopped(peer_txq)) {