zram: introduce writeback bio batching

author Sergey Senozhatsky <senozhatsky@chromium.org>

Sat, 22 Nov 2025 07:40:24 +0000 (16:40 +0900)

committer Andrew Morton <akpm@linux-foundation.org>

Mon, 24 Nov 2025 23:08:52 +0000 (15:08 -0800)
author Sergey Senozhatsky <senozhatsky@chromium.org>
Sat, 22 Nov 2025 07:40:24 +0000 (16:40 +0900)
committer Andrew Morton <akpm@linux-foundation.org>
Mon, 24 Nov 2025 23:08:52 +0000 (15:08 -0800)
diff --git a/drivers/block/zram/zram_drv.c b/drivers/block/zram/zram_drv.c

index a430746575312d65f357beb919a53444f12c1f12..06ea56f0a00f6e52965d8eaddaaa009e27aa2ed3 100644 (file)
--- a/drivers/block/zram/zram_drv.c
+++ b/drivers/block/zram/zram_drv.c
@@ -500,6 +500,26 @@ out:
  }
  
  #ifdef CONFIG_ZRAM_WRITEBACK
+struct zram_wb_ctl {
+       /* idle list is accessed only by the writeback task, no concurency */
+       struct list_head idle_reqs;
+       /* done list is accessed concurrently, protect by done_lock */
+       struct list_head done_reqs;
+       wait_queue_head_t done_wait;
+       spinlock_t done_lock;
+       atomic_t num_inflight;
+};
+
+struct zram_wb_req {
+       unsigned long blk_idx;
+       struct page *page;
+       struct zram_pp_slot *pps;
+       struct bio_vec bio_vec;
+       struct bio bio;
+
+       struct list_head entry;
+};
+
  static ssize_t writeback_limit_enable_store(struct device *dev,
                 struct device_attribute *attr, const char *buf, size_t len)
  {
@@ -734,19 +754,221 @@ static void read_from_bdev_async(struct zram *zram, struct page *page,
         submit_bio(bio);
  }
  
-static int zram_writeback_slots(struct zram *zram, struct zram_pp_ctl *ctl)
+static void release_wb_req(struct zram_wb_req *req)
  {
-       unsigned long blk_idx = 0;
-       struct page *page = NULL;
-       struct zram_pp_slot *pps;
-       struct bio_vec bio_vec;
-       struct bio bio;
+       __free_page(req->page);
+       kfree(req);
+}
+
+static void release_wb_ctl(struct zram_wb_ctl *wb_ctl)
+{
+       if (!wb_ctl)
+               return;
+
+       /* We should never have inflight requests at this point */
+       WARN_ON(atomic_read(&wb_ctl->num_inflight));
+       WARN_ON(!list_empty(&wb_ctl->done_reqs));
+
+       while (!list_empty(&wb_ctl->idle_reqs)) {
+               struct zram_wb_req *req;
+
+               req = list_first_entry(&wb_ctl->idle_reqs,
+                                      struct zram_wb_req, entry);
+               list_del(&req->entry);
+               release_wb_req(req);
+       }
+
+       kfree(wb_ctl);
+}
+
+/* XXX: should be a per-device sysfs attr */
+#define ZRAM_WB_REQ_CNT 32
+
+static struct zram_wb_ctl *init_wb_ctl(void)
+{
+       struct zram_wb_ctl *wb_ctl;
+       int i;
+
+       wb_ctl = kmalloc(sizeof(*wb_ctl), GFP_KERNEL);
+       if (!wb_ctl)
+               return NULL;
+
+       INIT_LIST_HEAD(&wb_ctl->idle_reqs);
+       INIT_LIST_HEAD(&wb_ctl->done_reqs);
+       atomic_set(&wb_ctl->num_inflight, 0);
+       init_waitqueue_head(&wb_ctl->done_wait);
+       spin_lock_init(&wb_ctl->done_lock);
+
+       for (i = 0; i < ZRAM_WB_REQ_CNT; i++) {
+               struct zram_wb_req *req;
+
+               /*
+                * This is fatal condition only if we couldn't allocate
+                * any requests at all.  Otherwise we just work with the
+                * requests that we have successfully allocated, so that
+                * writeback can still proceed, even if there is only one
+                * request on the idle list.
+                */
+               req = kzalloc(sizeof(*req), GFP_KERNEL | __GFP_NOWARN);
+               if (!req)
+                       break;
+
+               req->page = alloc_page(GFP_KERNEL | __GFP_NOWARN);
+               if (!req->page) {
+                       kfree(req);
+                       break;
+               }
+
+               list_add(&req->entry, &wb_ctl->idle_reqs);
+       }
+
+       /* We couldn't allocate any requests, so writeabck is not possible */
+       if (list_empty(&wb_ctl->idle_reqs))
+               goto release_wb_ctl;
+
+       return wb_ctl;
+
+release_wb_ctl:
+       release_wb_ctl(wb_ctl);
+       return NULL;
+}
+
+static void zram_account_writeback_rollback(struct zram *zram)
+{
+       spin_lock(&zram->wb_limit_lock);
+       if (zram->wb_limit_enable)
+               zram->bd_wb_limit +=  1UL << (PAGE_SHIFT - 12);
+       spin_unlock(&zram->wb_limit_lock);
+}
+
+static void zram_account_writeback_submit(struct zram *zram)
+{
+       spin_lock(&zram->wb_limit_lock);
+       if (zram->wb_limit_enable && zram->bd_wb_limit > 0)
+               zram->bd_wb_limit -=  1UL << (PAGE_SHIFT - 12);
+       spin_unlock(&zram->wb_limit_lock);
+}
+
+static int zram_writeback_complete(struct zram *zram, struct zram_wb_req *req)
+{
+       u32 index = req->pps->index;
+       int err;
+
+       err = blk_status_to_errno(req->bio.bi_status);
+       if (err) {
+               /*
+                * Failed wb requests should not be accounted in wb_limit
+                * (if enabled).
+                */
+               zram_account_writeback_rollback(zram);
+               free_block_bdev(zram, req->blk_idx);
+               return err;
+       }
+
+       atomic64_inc(&zram->stats.bd_writes);
+       zram_slot_lock(zram, index);
+       /*
+        * We release slot lock during writeback so slot can change under us:
+        * slot_free() or slot_free() and zram_write_page(). In both cases
+        * slot loses ZRAM_PP_SLOT flag. No concurrent post-processing can
+        * set ZRAM_PP_SLOT on such slots until current post-processing
+        * finishes.
+        */
+       if (!zram_test_flag(zram, index, ZRAM_PP_SLOT)) {
+               free_block_bdev(zram, req->blk_idx);
+               goto out;
+       }
+
+       zram_free_page(zram, index);
+       zram_set_flag(zram, index, ZRAM_WB);
+       zram_set_handle(zram, index, req->blk_idx);
+       atomic64_inc(&zram->stats.pages_stored);
+
+out:
+       zram_slot_unlock(zram, index);
+       return 0;
+}
+
+static void zram_writeback_endio(struct bio *bio)
+{
+       struct zram_wb_req *req = container_of(bio, struct zram_wb_req, bio);
+       struct zram_wb_ctl *wb_ctl = bio->bi_private;
+       unsigned long flags;
+
+       spin_lock_irqsave(&wb_ctl->done_lock, flags);
+       list_add(&req->entry, &wb_ctl->done_reqs);
+       spin_unlock_irqrestore(&wb_ctl->done_lock, flags);
+
+       wake_up(&wb_ctl->done_wait);
+}
+
+static void zram_submit_wb_request(struct zram *zram,
+                                  struct zram_wb_ctl *wb_ctl,
+                                  struct zram_wb_req *req)
+{
+       /*
+        * wb_limit (if enabled) should be adjusted before submission,
+        * so that we don't over-submit.
+        */
+       zram_account_writeback_submit(zram);
+       atomic_inc(&wb_ctl->num_inflight);
+       req->bio.bi_private = wb_ctl;
+       submit_bio(&req->bio);
+}
+
+static int zram_complete_done_reqs(struct zram *zram,
+                                  struct zram_wb_ctl *wb_ctl)
+{
+       struct zram_wb_req *req;
+       unsigned long flags;
         int ret = 0, err;
-       u32 index;
  
-       page = alloc_page(GFP_KERNEL);
-       if (!page)
-               return -ENOMEM;
+       while (atomic_read(&wb_ctl->num_inflight) > 0) {
+               spin_lock_irqsave(&wb_ctl->done_lock, flags);
+               req = list_first_entry_or_null(&wb_ctl->done_reqs,
+                                              struct zram_wb_req, entry);
+               if (req)
+                       list_del(&req->entry);
+               spin_unlock_irqrestore(&wb_ctl->done_lock, flags);
+
+               /* ->num_inflight > 0 doesn't mean we have done requests */
+               if (!req)
+                       break;
+
+               err = zram_writeback_complete(zram, req);
+               if (err)
+                       ret = err;
+
+               atomic_dec(&wb_ctl->num_inflight);
+               release_pp_slot(zram, req->pps);
+               req->pps = NULL;
+
+               list_add(&req->entry, &wb_ctl->idle_reqs);
+       }
+
+       return ret;
+}
+
+static struct zram_wb_req *zram_select_idle_req(struct zram_wb_ctl *wb_ctl)
+{
+       struct zram_wb_req *req;
+
+       req = list_first_entry_or_null(&wb_ctl->idle_reqs,
+                                      struct zram_wb_req, entry);
+       if (req)
+               list_del(&req->entry);
+       return req;
+}
+
+static int zram_writeback_slots(struct zram *zram,
+                               struct zram_pp_ctl *ctl,
+                               struct zram_wb_ctl *wb_ctl)
+{
+       struct zram_wb_req *req = NULL;
+       unsigned long blk_idx = 0;
+       struct zram_pp_slot *pps;
+       int ret = 0, err = 0;
+       u32 index = 0;
  
         while ((pps = select_pp_slot(ctl))) {
                 spin_lock(&zram->wb_limit_lock);
@@ -757,6 +979,27 @@ static int zram_writeback_slots(struct zram *zram, struct zram_pp_ctl *ctl)
                 }
                 spin_unlock(&zram->wb_limit_lock);
  
+               while (!req) {
+                       req = zram_select_idle_req(wb_ctl);
+                       if (req)
+                               break;
+
+                       wait_event(wb_ctl->done_wait,
+                                  !list_empty(&wb_ctl->done_reqs));
+
+                       err = zram_complete_done_reqs(zram, wb_ctl);
+                       /*
+                        * BIO errors are not fatal, we continue and simply
+                        * attempt to writeback the remaining objects (pages).
+                        * At the same time we need to signal user-space that
+                        * some writes (at least one, but also could be all of
+                        * them) were not successful and we do so by returning
+                        * the most recent BIO error.
+                        */
+                       if (err)
+                               ret = err;
+               }
+
                 if (!blk_idx) {
                         blk_idx = alloc_block_bdev(zram);
                         if (!blk_idx) {
@@ -775,67 +1018,47 @@ static int zram_writeback_slots(struct zram *zram, struct zram_pp_ctl *ctl)
                  */
                 if (!zram_test_flag(zram, index, ZRAM_PP_SLOT))
                         goto next;
-               if (zram_read_from_zspool(zram, page, index))
+               if (zram_read_from_zspool(zram, req->page, index))
                         goto next;
                 zram_slot_unlock(zram, index);
  
-               bio_init(&bio, zram->bdev, &bio_vec, 1,
-                        REQ_OP_WRITE | REQ_SYNC);
-               bio.bi_iter.bi_sector = blk_idx * (PAGE_SIZE >> 9);
-               __bio_add_page(&bio, page, PAGE_SIZE, 0);
-
                 /*
-                * XXX: A single page IO would be inefficient for write
-                * but it would be not bad as starter.
+                * From now on pp-slot is owned by the req, remove it from
+                * its pp bucket.
                  */
-               err = submit_bio_wait(&bio);
-               if (err) {
-                       release_pp_slot(zram, pps);
-                       /*
-                        * BIO errors are not fatal, we continue and simply
-                        * attempt to writeback the remaining objects (pages).
-                        * At the same time we need to signal user-space that
-                        * some writes (at least one, but also could be all of
-                        * them) were not successful and we do so by returning
-                        * the most recent BIO error.
-                        */
-                       ret = err;
-                       continue;
-               }
+               list_del_init(&pps->entry);
  
-               atomic64_inc(&zram->stats.bd_writes);
-               zram_slot_lock(zram, index);
-               /*
-                * Same as above, we release slot lock during writeback so
-                * slot can change under us: slot_free() or slot_free() and
-                * reallocation (zram_write_page()). In both cases slot loses
-                * ZRAM_PP_SLOT flag. No concurrent post-processing can set
-                * ZRAM_PP_SLOT on such slots until current post-processing
-                * finishes.
-                */
-               if (!zram_test_flag(zram, index, ZRAM_PP_SLOT))
-                       goto next;
+               req->blk_idx = blk_idx;
+               req->pps = pps;
+               bio_init(&req->bio, zram->bdev, &req->bio_vec, 1, REQ_OP_WRITE);
+               req->bio.bi_iter.bi_sector = req->blk_idx * (PAGE_SIZE >> 9);
+               req->bio.bi_end_io = zram_writeback_endio;
+               __bio_add_page(&req->bio, req->page, PAGE_SIZE, 0);
  
-               zram_free_page(zram, index);
-               zram_set_flag(zram, index, ZRAM_WB);
-               zram_set_handle(zram, index, blk_idx);
+               zram_submit_wb_request(zram, wb_ctl, req);
                 blk_idx = 0;
-               atomic64_inc(&zram->stats.pages_stored);
-               spin_lock(&zram->wb_limit_lock);
-               if (zram->wb_limit_enable && zram->bd_wb_limit > 0)
-                       zram->bd_wb_limit -=  1UL << (PAGE_SHIFT - 12);
-               spin_unlock(&zram->wb_limit_lock);
+               req = NULL;
+               cond_resched();
+               continue;
+
  next:
                 zram_slot_unlock(zram, index);
                 release_pp_slot(zram, pps);
-
-               cond_resched();
         }
  
-       if (blk_idx)
-               free_block_bdev(zram, blk_idx);
-       if (page)
-               __free_page(page);
+       /*
+        * Selected idle req, but never submitted it due to some error or
+        * wb limit.
+        */
+       if (req)
+               release_wb_req(req);
+
+       while (atomic_read(&wb_ctl->num_inflight) > 0) {
+               wait_event(wb_ctl->done_wait, !list_empty(&wb_ctl->done_reqs));
+               err = zram_complete_done_reqs(zram, wb_ctl);
+               if (err)
+                       ret = err;
+       }
  
         return ret;
  }
@@ -948,7 +1171,8 @@ static ssize_t writeback_store(struct device *dev,
         struct zram *zram = dev_to_zram(dev);
         u64 nr_pages = zram->disksize >> PAGE_SHIFT;
         unsigned long lo = 0, hi = nr_pages;
-       struct zram_pp_ctl *ctl = NULL;
+       struct zram_pp_ctl *pp_ctl = NULL;
+       struct zram_wb_ctl *wb_ctl = NULL;
         char *args, *param, *val;
         ssize_t ret = len;
         int err, mode = 0;
@@ -970,8 +1194,14 @@ static ssize_t writeback_store(struct device *dev,
                 goto release_init_lock;
         }
  
-       ctl = init_pp_ctl();
-       if (!ctl) {
+       pp_ctl = init_pp_ctl();
+       if (!pp_ctl) {
+               ret = -ENOMEM;
+               goto release_init_lock;
+       }
+
+       wb_ctl = init_wb_ctl();
+       if (!wb_ctl) {
                 ret = -ENOMEM;
                 goto release_init_lock;
         }
@@ -1000,7 +1230,7 @@ static ssize_t writeback_store(struct device *dev,
                                 goto release_init_lock;
                         }
  
-                       scan_slots_for_writeback(zram, mode, lo, hi, ctl);
+                       scan_slots_for_writeback(zram, mode, lo, hi, pp_ctl);
                         break;
                 }
  
@@ -1011,7 +1241,7 @@ static ssize_t writeback_store(struct device *dev,
                                 goto release_init_lock;
                         }
  
-                       scan_slots_for_writeback(zram, mode, lo, hi, ctl);
+                       scan_slots_for_writeback(zram, mode, lo, hi, pp_ctl);
                         break;
                 }
  
@@ -1022,7 +1252,7 @@ static ssize_t writeback_store(struct device *dev,
                                 goto release_init_lock;
                         }
  
-                       scan_slots_for_writeback(zram, mode, lo, hi, ctl);
+                       scan_slots_for_writeback(zram, mode, lo, hi, pp_ctl);
                         continue;
                 }
  
@@ -1033,17 +1263,18 @@ static ssize_t writeback_store(struct device *dev,
                                 goto release_init_lock;
                         }
  
-                       scan_slots_for_writeback(zram, mode, lo, hi, ctl);
+                       scan_slots_for_writeback(zram, mode, lo, hi, pp_ctl);
                         continue;
                 }
         }
  
-       err = zram_writeback_slots(zram, ctl);
+       err = zram_writeback_slots(zram, pp_ctl, wb_ctl);
         if (err)
                 ret = err;
  
  release_init_lock:
-       release_pp_ctl(zram, ctl);
+       release_pp_ctl(zram, pp_ctl);
+       release_wb_ctl(wb_ctl);
         atomic_set(&zram->pp_in_progress, 0);
         up_read(&zram->init_lock);
  
@@ -1112,7 +1343,9 @@ static int read_from_bdev(struct zram *zram, struct page *page,
         return -EIO;
  }
  
-static void free_block_bdev(struct zram *zram, unsigned long blk_idx) {};
+static void free_block_bdev(struct zram *zram, unsigned long blk_idx)
+{
+}
  #endif
  
  #ifdef CONFIG_ZRAM_MEMORY_TRACKING
author	Sergey Senozhatsky <senozhatsky@chromium.org>
	Sat, 22 Nov 2025 07:40:24 +0000 (16:40 +0900)
committer	Andrew Morton <akpm@linux-foundation.org>
	Mon, 24 Nov 2025 23:08:52 +0000 (15:08 -0800)