execmem: rework execmem_cache_free()

author Mike Rapoport (Microsoft) <rppt@kernel.org>

Sun, 13 Jul 2025 07:17:25 +0000 (10:17 +0300)

committer Andrew Morton <akpm@linux-foundation.org>

Sat, 2 Aug 2025 19:06:11 +0000 (12:06 -0700)
author Mike Rapoport (Microsoft) <rppt@kernel.org>
Sun, 13 Jul 2025 07:17:25 +0000 (10:17 +0300)
committer Andrew Morton <akpm@linux-foundation.org>
Sat, 2 Aug 2025 19:06:11 +0000 (12:06 -0700)
diff --git a/mm/execmem.c b/mm/execmem.c

index d0bf0123bce4c40c1b91dc1804b0cf2d13d05104..52b06ccf614af5e970710c5fdca492d89c80eb2d 100644 (file)
--- a/mm/execmem.c
+++ b/mm/execmem.c
@@ -93,8 +93,15 @@ struct execmem_cache {
         struct mutex mutex;
         struct maple_tree busy_areas;
         struct maple_tree free_areas;
+       unsigned int pending_free_cnt;  /* protected by mutex */
  };
  
+/* delay to schedule asynchronous free if fast path free fails */
+#define FREE_DELAY     (msecs_to_jiffies(10))
+
+/* mark entries in busy_areas that should be freed asynchronously */
+#define PENDING_FREE_MASK      (1 << (PAGE_SHIFT - 1))
+
  static struct execmem_cache execmem_cache = {
         .mutex = __MUTEX_INITIALIZER(execmem_cache.mutex),
         .busy_areas = MTREE_INIT_EXT(busy_areas, MT_FLAGS_LOCK_EXTERN,
@@ -155,20 +162,17 @@ static void execmem_cache_clean(struct work_struct *work)
  
  static DECLARE_WORK(execmem_cache_clean_work, execmem_cache_clean);
  
-static int execmem_cache_add(void *ptr, size_t size)
+static int execmem_cache_add_locked(void *ptr, size_t size, gfp_t gfp_mask)
  {
         struct maple_tree *free_areas = &execmem_cache.free_areas;
-       struct mutex *mutex = &execmem_cache.mutex;
         unsigned long addr = (unsigned long)ptr;
         MA_STATE(mas, free_areas, addr - 1, addr + 1);
         unsigned long lower, upper;
         void *area = NULL;
-       int err;
  
         lower = addr;
         upper = addr + size - 1;
  
-       mutex_lock(mutex);
         area = mas_walk(&mas);
         if (area && mas.last == addr - 1)
                 lower = mas.index;
@@ -178,12 +182,14 @@ static int execmem_cache_add(void *ptr, size_t size)
                 upper = mas.last;
  
         mas_set_range(&mas, lower, upper);
-       err = mas_store_gfp(&mas, (void *)lower, GFP_KERNEL);
-       mutex_unlock(mutex);
-       if (err)
-               return err;
+       return mas_store_gfp(&mas, (void *)lower, gfp_mask);
+}
  
-       return 0;
+static int execmem_cache_add(void *ptr, size_t size, gfp_t gfp_mask)
+{
+       guard(mutex)(&execmem_cache.mutex);
+
+       return execmem_cache_add_locked(ptr, size, gfp_mask);
  }
  
  static bool within_range(struct execmem_range *range, struct ma_state *mas,
@@ -278,7 +284,7 @@ static int execmem_cache_populate(struct execmem_range *range, size_t size)
         if (err)
                 goto err_free_mem;
  
-       err = execmem_cache_add(p, alloc_size);
+       err = execmem_cache_add(p, alloc_size, GFP_KERNEL);
         if (err)
                 goto err_reset_direct_map;
  
@@ -307,29 +313,102 @@ static void *execmem_cache_alloc(struct execmem_range *range, size_t size)
         return __execmem_cache_alloc(range, size);
  }
  
+static inline bool is_pending_free(void *ptr)
+{
+       return ((unsigned long)ptr & PENDING_FREE_MASK);
+}
+
+static inline void *pending_free_set(void *ptr)
+{
+       return (void *)((unsigned long)ptr | PENDING_FREE_MASK);
+}
+
+static inline void *pending_free_clear(void *ptr)
+{
+       return (void *)((unsigned long)ptr & ~PENDING_FREE_MASK);
+}
+
+static int execmem_force_rw(void *ptr, size_t size);
+
+static int __execmem_cache_free(struct ma_state *mas, void *ptr, gfp_t gfp_mask)
+{
+       size_t size = mas_range_len(mas);
+       int err;
+
+       err = execmem_force_rw(ptr, size);
+       if (err)
+               return err;
+
+       execmem_fill_trapping_insns(ptr, size, /* writable = */ true);
+       execmem_restore_rox(ptr, size);
+
+       err = execmem_cache_add_locked(ptr, size, gfp_mask);
+       if (err)
+               return err;
+
+       mas_store_gfp(mas, NULL, gfp_mask);
+       return 0;
+}
+
+static void execmem_cache_free_slow(struct work_struct *work);
+static DECLARE_DELAYED_WORK(execmem_cache_free_work, execmem_cache_free_slow);
+
+static void execmem_cache_free_slow(struct work_struct *work)
+{
+       struct maple_tree *busy_areas = &execmem_cache.busy_areas;
+       MA_STATE(mas, busy_areas, 0, ULONG_MAX);
+       void *area;
+
+       guard(mutex)(&execmem_cache.mutex);
+
+       if (!execmem_cache.pending_free_cnt)
+               return;
+
+       mas_for_each(&mas, area, ULONG_MAX) {
+               if (!is_pending_free(area))
+                       continue;
+
+               area = pending_free_clear(area);
+               if (__execmem_cache_free(&mas, area, GFP_KERNEL))
+                       continue;
+
+               execmem_cache.pending_free_cnt--;
+       }
+
+       if (execmem_cache.pending_free_cnt)
+               schedule_delayed_work(&execmem_cache_free_work, FREE_DELAY);
+       else
+               schedule_work(&execmem_cache_clean_work);
+}
+
  static bool execmem_cache_free(void *ptr)
  {
         struct maple_tree *busy_areas = &execmem_cache.busy_areas;
-       struct mutex *mutex = &execmem_cache.mutex;
         unsigned long addr = (unsigned long)ptr;
         MA_STATE(mas, busy_areas, addr, addr);
-       size_t size;
         void *area;
+       int err;
+
+       guard(mutex)(&execmem_cache.mutex);
  
-       mutex_lock(mutex);
         area = mas_walk(&mas);
-       if (!area) {
-               mutex_unlock(mutex);
+       if (!area)
                 return false;
-       }
-       size = mas_range_len(&mas);
  
-       mas_store_gfp(&mas, NULL, GFP_KERNEL);
-       mutex_unlock(mutex);
-
-       execmem_fill_trapping_insns(ptr, size, /* writable = */ false);
-
-       execmem_cache_add(ptr, size);
+       err = __execmem_cache_free(&mas, area, GFP_KERNEL | __GFP_NORETRY);
+       if (err) {
+               /*
+                * mas points to exact slot we've got the area from, nothing
+                * else can modify the tree because of the mutex, so there
+                * won't be any allocations in mas_store_gfp() and it will just
+                * change the pointer.
+                */
+               area = pending_free_set(area);
+               mas_store_gfp(&mas, area, GFP_KERNEL);
+               execmem_cache.pending_free_cnt++;
+               schedule_delayed_work(&execmem_cache_free_work, FREE_DELAY);
+               return true;
+       }
  
         schedule_work(&execmem_cache_clean_work);
author	Mike Rapoport (Microsoft) <rppt@kernel.org>
	Sun, 13 Jul 2025 07:17:25 +0000 (10:17 +0300)
committer	Andrew Morton <akpm@linux-foundation.org>
	Sat, 2 Aug 2025 19:06:11 +0000 (12:06 -0700)