]> git.ipfire.org Git - thirdparty/kernel/linux.git/commitdiff
mm, swap: always try to free swap cache for SWP_SYNCHRONOUS_IO devices
authorKairui Song <kasong@tencent.com>
Fri, 19 Dec 2025 19:43:33 +0000 (03:43 +0800)
committerAndrew Morton <akpm@linux-foundation.org>
Sat, 31 Jan 2026 22:22:54 +0000 (14:22 -0800)
Now SWP_SYNCHRONOUS_IO devices are also using swap cache.  One side effect
is that a folio may stay in swap cache for a longer time due to lazy
freeing (vm_swap_full()).  This can help save some CPU / IO if folios are
being swapped out very frequently right after swapin, hence improving the
performance.  But the long pinning of swap slots also increases the
fragmentation rate of the swap device significantly, and currently, all
in-tree SWP_SYNCHRONOUS_IO devices are RAM disks, so it also causes the
backing memory to be pinned, increasing the memory pressure.

So drop the swap cache immediately for SWP_SYNCHRONOUS_IO devices after
swapin finishes.  Swap cache has served its role as a synchronization
layer to prevent any parallel swap-in from wasting CPU or memory
allocation, and the redundant IO is not a major concern for
SWP_SYNCHRONOUS_IO devices.

Worth noting, without this patch, this series so far can provide a ~30%
performance gain for certain workloads like MySQL or kernel compilation,
but causes significant regression or OOM when under extreme global
pressure.  With this patch, we still have a nice performance gain for most
workloads, and without introducing any observable regressions.  This is a
hint that further optimization can be done based on the new unified swapin
with swap cache, but for now, just keep the behaviour consistent with
before.

Link: https://lkml.kernel.org/r/20251220-swap-table-p2-v5-4-8862a265a033@tencent.com
Signed-off-by: Kairui Song <kasong@tencent.com>
Reviewed-by: Baoquan He <bhe@redhat.com>
Cc: Baolin Wang <baolin.wang@linux.alibaba.com>
Cc: Barry Song <baohua@kernel.org>
Cc: Chris Li <chrisl@kernel.org>
Cc: Nhat Pham <nphamcs@gmail.com>
Cc: Rafael J. Wysocki (Intel) <rafael@kernel.org>
Cc: Yosry Ahmed <yosry.ahmed@linux.dev>
Cc: Deepanshu Kartikey <kartikey406@gmail.com>
Cc: Johannes Weiner <hannes@cmpxchg.org>
Cc: Kairui Song <ryncsn@gmail.com>
Signed-off-by: Andrew Morton <akpm@linux-foundation.org>
mm/memory.c

index 5a6dd1606c6757abac446c4c3ac9ce1592fe48f1..6cbee2838ef7dbad7c923205d434b168bf279cfa 100644 (file)
@@ -4357,12 +4357,26 @@ static vm_fault_t remove_device_exclusive_entry(struct vm_fault *vmf)
        return 0;
 }
 
-static inline bool should_try_to_free_swap(struct folio *folio,
+/*
+ * Check if we should call folio_free_swap to free the swap cache.
+ * folio_free_swap only frees the swap cache to release the slot if swap
+ * count is zero, so we don't need to check the swap count here.
+ */
+static inline bool should_try_to_free_swap(struct swap_info_struct *si,
+                                          struct folio *folio,
                                           struct vm_area_struct *vma,
                                           unsigned int fault_flags)
 {
        if (!folio_test_swapcache(folio))
                return false;
+       /*
+        * Always try to free swap cache for SWP_SYNCHRONOUS_IO devices. Swap
+        * cache can help save some IO or memory overhead, but these devices
+        * are fast, and meanwhile, swap cache pinning the slot deferring the
+        * release of metadata or fragmentation is a more critical issue.
+        */
+       if (data_race(si->flags & SWP_SYNCHRONOUS_IO))
+               return true;
        if (mem_cgroup_swap_full(folio) || (vma->vm_flags & VM_LOCKED) ||
            folio_test_mlocked(folio))
                return true;
@@ -4934,7 +4948,7 @@ check_folio:
         * yet.
         */
        swap_free_nr(entry, nr_pages);
-       if (should_try_to_free_swap(folio, vma, vmf->flags))
+       if (should_try_to_free_swap(si, folio, vma, vmf->flags))
                folio_free_swap(folio);
 
        add_mm_counter(vma->vm_mm, MM_ANONPAGES, nr_pages);