]> git.ipfire.org Git - thirdparty/linux.git/commitdiff
espintcp: remove encap socket caching to avoid reference leak
authorSabrina Dubroca <sd@queasysnail.net>
Wed, 9 Apr 2025 13:59:57 +0000 (15:59 +0200)
committerSteffen Klassert <steffen.klassert@secunet.com>
Mon, 14 Apr 2025 09:59:17 +0000 (11:59 +0200)
The current scheme for caching the encap socket can lead to reference
leaks when we try to delete the netns.

The reference chain is: xfrm_state -> enacp_sk -> netns

Since the encap socket is a userspace socket, it holds a reference on
the netns. If we delete the espintcp state (through flush or
individual delete) before removing the netns, the reference on the
socket is dropped and the netns is correctly deleted. Otherwise, the
netns may not be reachable anymore (if all processes within the ns
have terminated), so we cannot delete the xfrm state to drop its
reference on the socket.

This patch results in a small (~2% in my tests) performance
regression.

A GC-type mechanism could be added for the socket cache, to clear
references if the state hasn't been used "recently", but it's a lot
more complex than just not caching the socket.

Fixes: e27cca96cd68 ("xfrm: add espintcp (RFC 8229)")
Signed-off-by: Sabrina Dubroca <sd@queasysnail.net>
Reviewed-by: Simon Horman <horms@kernel.org>
Signed-off-by: Steffen Klassert <steffen.klassert@secunet.com>
include/net/xfrm.h
net/ipv4/esp4.c
net/ipv6/esp6.c
net/xfrm/xfrm_state.c

index 39365fd2ea175ca307ad71a71d1b1ce8952b4d90..06ab2a3d2ebd10fb9a08fefc57c5ff3efc6bf97c 100644 (file)
@@ -236,7 +236,6 @@ struct xfrm_state {
 
        /* Data for encapsulator */
        struct xfrm_encap_tmpl  *encap;
-       struct sock __rcu       *encap_sk;
 
        /* NAT keepalive */
        u32                     nat_keepalive_interval; /* seconds */
index 876df672c0bfa55c422644b4a1ba228898fd64be..f14a41ee4aa1010b90d2e5d395e24ea8f439e291 100644 (file)
@@ -120,47 +120,16 @@ static void esp_ssg_unref(struct xfrm_state *x, void *tmp, struct sk_buff *skb)
 }
 
 #ifdef CONFIG_INET_ESPINTCP
-struct esp_tcp_sk {
-       struct sock *sk;
-       struct rcu_head rcu;
-};
-
-static void esp_free_tcp_sk(struct rcu_head *head)
-{
-       struct esp_tcp_sk *esk = container_of(head, struct esp_tcp_sk, rcu);
-
-       sock_put(esk->sk);
-       kfree(esk);
-}
-
 static struct sock *esp_find_tcp_sk(struct xfrm_state *x)
 {
        struct xfrm_encap_tmpl *encap = x->encap;
        struct net *net = xs_net(x);
-       struct esp_tcp_sk *esk;
        __be16 sport, dport;
-       struct sock *nsk;
        struct sock *sk;
 
-       sk = rcu_dereference(x->encap_sk);
-       if (sk && sk->sk_state == TCP_ESTABLISHED)
-               return sk;
-
        spin_lock_bh(&x->lock);
        sport = encap->encap_sport;
        dport = encap->encap_dport;
-       nsk = rcu_dereference_protected(x->encap_sk,
-                                       lockdep_is_held(&x->lock));
-       if (sk && sk == nsk) {
-               esk = kmalloc(sizeof(*esk), GFP_ATOMIC);
-               if (!esk) {
-                       spin_unlock_bh(&x->lock);
-                       return ERR_PTR(-ENOMEM);
-               }
-               RCU_INIT_POINTER(x->encap_sk, NULL);
-               esk->sk = sk;
-               call_rcu(&esk->rcu, esp_free_tcp_sk);
-       }
        spin_unlock_bh(&x->lock);
 
        sk = inet_lookup_established(net, net->ipv4.tcp_death_row.hashinfo, x->id.daddr.a4,
@@ -173,20 +142,6 @@ static struct sock *esp_find_tcp_sk(struct xfrm_state *x)
                return ERR_PTR(-EINVAL);
        }
 
-       spin_lock_bh(&x->lock);
-       nsk = rcu_dereference_protected(x->encap_sk,
-                                       lockdep_is_held(&x->lock));
-       if (encap->encap_sport != sport ||
-           encap->encap_dport != dport) {
-               sock_put(sk);
-               sk = nsk ?: ERR_PTR(-EREMCHG);
-       } else if (sk == nsk) {
-               sock_put(sk);
-       } else {
-               rcu_assign_pointer(x->encap_sk, sk);
-       }
-       spin_unlock_bh(&x->lock);
-
        return sk;
 }
 
@@ -211,6 +166,8 @@ static int esp_output_tcp_finish(struct xfrm_state *x, struct sk_buff *skb)
                err = espintcp_push_skb(sk, skb);
        bh_unlock_sock(sk);
 
+       sock_put(sk);
+
 out:
        rcu_read_unlock();
        return err;
@@ -394,6 +351,8 @@ static struct ip_esp_hdr *esp_output_tcp_encap(struct xfrm_state *x,
        if (IS_ERR(sk))
                return ERR_CAST(sk);
 
+       sock_put(sk);
+
        *lenp = htons(len);
        esph = (struct ip_esp_hdr *)(lenp + 1);
 
index 574989b82179c13ce64e35ddaa7c294b980c9b2e..72adfc107b557de3071c753588b8bdfced91dcaf 100644 (file)
@@ -137,47 +137,16 @@ static void esp_ssg_unref(struct xfrm_state *x, void *tmp, struct sk_buff *skb)
 }
 
 #ifdef CONFIG_INET6_ESPINTCP
-struct esp_tcp_sk {
-       struct sock *sk;
-       struct rcu_head rcu;
-};
-
-static void esp_free_tcp_sk(struct rcu_head *head)
-{
-       struct esp_tcp_sk *esk = container_of(head, struct esp_tcp_sk, rcu);
-
-       sock_put(esk->sk);
-       kfree(esk);
-}
-
 static struct sock *esp6_find_tcp_sk(struct xfrm_state *x)
 {
        struct xfrm_encap_tmpl *encap = x->encap;
        struct net *net = xs_net(x);
-       struct esp_tcp_sk *esk;
        __be16 sport, dport;
-       struct sock *nsk;
        struct sock *sk;
 
-       sk = rcu_dereference(x->encap_sk);
-       if (sk && sk->sk_state == TCP_ESTABLISHED)
-               return sk;
-
        spin_lock_bh(&x->lock);
        sport = encap->encap_sport;
        dport = encap->encap_dport;
-       nsk = rcu_dereference_protected(x->encap_sk,
-                                       lockdep_is_held(&x->lock));
-       if (sk && sk == nsk) {
-               esk = kmalloc(sizeof(*esk), GFP_ATOMIC);
-               if (!esk) {
-                       spin_unlock_bh(&x->lock);
-                       return ERR_PTR(-ENOMEM);
-               }
-               RCU_INIT_POINTER(x->encap_sk, NULL);
-               esk->sk = sk;
-               call_rcu(&esk->rcu, esp_free_tcp_sk);
-       }
        spin_unlock_bh(&x->lock);
 
        sk = __inet6_lookup_established(net, net->ipv4.tcp_death_row.hashinfo, &x->id.daddr.in6,
@@ -190,20 +159,6 @@ static struct sock *esp6_find_tcp_sk(struct xfrm_state *x)
                return ERR_PTR(-EINVAL);
        }
 
-       spin_lock_bh(&x->lock);
-       nsk = rcu_dereference_protected(x->encap_sk,
-                                       lockdep_is_held(&x->lock));
-       if (encap->encap_sport != sport ||
-           encap->encap_dport != dport) {
-               sock_put(sk);
-               sk = nsk ?: ERR_PTR(-EREMCHG);
-       } else if (sk == nsk) {
-               sock_put(sk);
-       } else {
-               rcu_assign_pointer(x->encap_sk, sk);
-       }
-       spin_unlock_bh(&x->lock);
-
        return sk;
 }
 
@@ -228,6 +183,8 @@ static int esp_output_tcp_finish(struct xfrm_state *x, struct sk_buff *skb)
                err = espintcp_push_skb(sk, skb);
        bh_unlock_sock(sk);
 
+       sock_put(sk);
+
 out:
        rcu_read_unlock();
        return err;
@@ -424,6 +381,8 @@ static struct ip_esp_hdr *esp6_output_tcp_encap(struct xfrm_state *x,
        if (IS_ERR(sk))
                return ERR_CAST(sk);
 
+       sock_put(sk);
+
        *lenp = htons(len);
        esph = (struct ip_esp_hdr *)(lenp + 1);
 
index 341d79ecb5c21ccf09b85d13bf09f9c85a83e48a..2f57dabcc70b65e30d9a65de512437735189a7c0 100644 (file)
@@ -838,9 +838,6 @@ int __xfrm_state_delete(struct xfrm_state *x)
                xfrm_nat_keepalive_state_updated(x);
                spin_unlock(&net->xfrm.xfrm_state_lock);
 
-               if (x->encap_sk)
-                       sock_put(rcu_dereference_raw(x->encap_sk));
-
                xfrm_dev_state_delete(x);
 
                /* All xfrm_state objects are created by xfrm_state_alloc.