]> git.ipfire.org Git - thirdparty/xfsprogs-dev.git/commitdiff
xfs: allow inode-based btrees to reserve space in the data device
authorDarrick J. Wong <djwong@kernel.org>
Mon, 24 Feb 2025 18:21:47 +0000 (10:21 -0800)
committerDarrick J. Wong <djwong@kernel.org>
Tue, 25 Feb 2025 17:15:57 +0000 (09:15 -0800)
Source kernel commit: 05290bd5c6236b8ad659157edb36bd2d38f46d3e

Create a new space reservation scheme so that btree metadata for the
realtime volume can reserve space in the data device to avoid space
underruns.

Back when we were testing the rmap and refcount btrees for the data
device, people observed occasional shutdowns when xfs_btree_split was
called for either of those two btrees.  This happened when certain
operations (mostly writeback ioends) created new rmap or refcount
records, which would expand the size of the btree.  If there were no
free blocks available the allocation would fail and the split would shut
down the filesystem.

I considered pre-reserving blocks for btree expansion at the time of a
write() call, but there wasn't any good way to attach the reservations
to an inode and keep them there all the way to ioend processing.  Unlike
delalloc reservations which have that indlen mechanism, there's no way
to do that for mapped extents; and indlen blocks are given back during
the delalloc -> unwritten transition.

The solution was to reserve sufficient blocks for rmap/refcount btree
expansion at mount time.  This is what the XFS_AG_RESV_* flags provide;
any expansion of those two btrees can come from the pre-reserved space.

This patch brings that pre-reservation ability to inode-rooted btrees so
that the rt rmap and refcount btrees can also save room for future
expansion.

Signed-off-by: "Darrick J. Wong" <djwong@kernel.org>
Reviewed-by: Christoph Hellwig <hch@lst.de>
include/xfs_inode.h
include/xfs_mount.h
include/xfs_trace.h
io/inject.c
libxfs/libxfs_priv.h
libxfs/xfs_ag_resv.c
libxfs/xfs_errortag.h
libxfs/xfs_metadir.c
libxfs/xfs_metafile.c
libxfs/xfs_metafile.h
libxfs/xfs_types.h

index 30e171696c80e2721d548327c913d6c16611912d..5bb31eb4aa53058b449f8900801184dfeed32a6c 100644 (file)
@@ -224,7 +224,10 @@ typedef struct xfs_inode {
        struct xfs_ifork        i_df;           /* data fork */
        struct xfs_ifork        i_af;           /* attribute fork */
        struct xfs_inode_log_item *i_itemp;     /* logging information */
-       unsigned int            i_delayed_blks; /* count of delay alloc blks */
+       uint64_t                i_delayed_blks; /* count of delay alloc blks */
+       /* Space that has been set aside to root a btree in this file. */
+       uint64_t                i_meta_resv_asked;
+
        xfs_fsize_t             i_disk_size;    /* number of bytes in file */
        xfs_rfsblock_t          i_nblocks;      /* # of direct & btree blocks */
        prid_t                  i_projid;       /* owner's project id */
index 19d08cf047f2028136728ef68b5299658935a01b..532bff8513bf5357a3c167da7c1f2503d2483cbe 100644 (file)
@@ -115,6 +115,7 @@ typedef struct xfs_mount {
        uint                    m_rmap_maxlevels; /* max rmap btree levels */
        uint                    m_refc_maxlevels; /* max refc btree levels */
        unsigned int            m_agbtree_maxlevels; /* max level of all AG btrees */
+       unsigned int            m_rtbtree_maxlevels; /* max level of all rt btrees */
        xfs_extlen_t            m_ag_prealloc_blocks; /* reserved ag blocks */
        uint                    m_alloc_set_aside; /* space we can't use */
        uint                    m_ag_max_usable; /* max space per AG */
index a53ce092c8ea3be7a7beafecc575f1cce418f14f..30166c11dd597b54756818dd1b3402e8cdd1b03e 100644 (file)
 #define trace_xfs_group_put(...)               ((void) 0)
 #define trace_xfs_group_rele(...)              ((void) 0)
 
+#define trace_xfs_metafile_resv_alloc_space(...)       ((void) 0)
+#define trace_xfs_metafile_resv_critical(...)  ((void) 0)
+#define trace_xfs_metafile_resv_free(...)              ((void) 0)
+#define trace_xfs_metafile_resv_free_space(...)        ((void) 0)
+#define trace_xfs_metafile_resv_init(...)              ((void) 0)
+#define trace_xfs_metafile_resv_init_error(...)        ((void) 0)
+
 #endif /* __TRACE_H__ */
index 4aeb6da326b4fd166c8276c8a73e612842e52779..7b9a76406cc54dd0e3bcb963a525bd46269bc674 100644 (file)
@@ -64,6 +64,7 @@ error_tag(char *name)
                { XFS_ERRTAG_WB_DELAY_MS,               "wb_delay_ms" },
                { XFS_ERRTAG_WRITE_DELAY_MS,            "write_delay_ms" },
                { XFS_ERRTAG_EXCHMAPS_FINISH_ONE,       "exchmaps_finish_one" },
+               { XFS_ERRTAG_METAFILE_RESV_CRITICAL,    "metafile_resv_crit" },
                { XFS_ERRTAG_MAX,                       NULL }
        };
        int     count;
index a1401b2c1e409bbeeff599caa5fbde4ed42b1b5b..7e5c125b581a2f38db6d426b9acab3fc897bceab 100644 (file)
@@ -219,6 +219,17 @@ uint32_t get_random_u32(void);
 #define get_random_u32()       (0)
 #endif
 
+static inline int
+__percpu_counter_compare(uint64_t *count, int64_t rhs, int32_t batch)
+{
+       if (*count > rhs)
+               return 1;
+       else if (*count < rhs)
+               return -1;
+       return 0;
+}
+
+
 #define PAGE_SIZE              getpagesize()
 extern unsigned int PAGE_SHIFT;
 
index f5cbaa94664f22ffa9f5759f78891279be09e028..83cac20331fd349ae3a0313d3624c29e2a1171c3 100644 (file)
@@ -113,6 +113,7 @@ xfs_ag_resv_needed(
        case XFS_AG_RESV_RMAPBT:
                len -= xfs_perag_resv(pag, type)->ar_reserved;
                break;
+       case XFS_AG_RESV_METAFILE:
        case XFS_AG_RESV_NONE:
                /* empty */
                break;
@@ -346,6 +347,7 @@ xfs_ag_resv_alloc_extent(
 
        switch (type) {
        case XFS_AG_RESV_AGFL:
+       case XFS_AG_RESV_METAFILE:
                return;
        case XFS_AG_RESV_METADATA:
        case XFS_AG_RESV_RMAPBT:
@@ -388,6 +390,7 @@ xfs_ag_resv_free_extent(
 
        switch (type) {
        case XFS_AG_RESV_AGFL:
+       case XFS_AG_RESV_METAFILE:
                return;
        case XFS_AG_RESV_METADATA:
        case XFS_AG_RESV_RMAPBT:
index 7002d7676a7884dc185877b7fe7a293f9446a3f4..a53c5d40e084dc558813405c4af562d1b30f8a97 100644 (file)
@@ -64,7 +64,8 @@
 #define XFS_ERRTAG_WB_DELAY_MS                         42
 #define XFS_ERRTAG_WRITE_DELAY_MS                      43
 #define XFS_ERRTAG_EXCHMAPS_FINISH_ONE                 44
-#define XFS_ERRTAG_MAX                                 45
+#define XFS_ERRTAG_METAFILE_RESV_CRITICAL              45
+#define XFS_ERRTAG_MAX                                 46
 
 /*
  * Random factors for above tags, 1 means always, 2 means 1/2 time, etc.
 #define XFS_RANDOM_WB_DELAY_MS                         3000
 #define XFS_RANDOM_WRITE_DELAY_MS                      3000
 #define XFS_RANDOM_EXCHMAPS_FINISH_ONE                 1
+#define XFS_RANDOM_METAFILE_RESV_CRITICAL              4
 
 #endif /* __XFS_ERRORTAG_H_ */
index b5f05925e73a4e69536beb0ace12984fdbd1ed6e..253fbf48e170e0e92a824359a98063b8894350fa 100644 (file)
@@ -28,6 +28,9 @@
 #include "xfs_dir2_priv.h"
 #include "xfs_parent.h"
 #include "xfs_health.h"
+#include "xfs_errortag.h"
+#include "xfs_btree.h"
+#include "xfs_alloc.h"
 
 /*
  * Metadata Directory Tree
index 3bd9493373115afff277263b695fa0eca65e8b84..7f673d706aada88bc672da3b43e74c3716135ce1 100644 (file)
@@ -17,6 +17,8 @@
 #include "xfs_metafile.h"
 #include "xfs_trace.h"
 #include "xfs_inode.h"
+#include "xfs_errortag.h"
+#include "xfs_alloc.h"
 
 /* Set up an inode to be recognized as a metadata directory inode. */
 void
@@ -50,3 +52,204 @@ xfs_metafile_clear_iflag(
        ip->i_diflags2 &= ~XFS_DIFLAG2_METADATA;
        xfs_trans_log_inode(tp, ip, XFS_ILOG_CORE);
 }
+
+/*
+ * Is the amount of space that could be allocated towards a given metadata
+ * file at or beneath a certain threshold?
+ */
+static inline bool
+xfs_metafile_resv_can_cover(
+       struct xfs_inode        *ip,
+       int64_t                 rhs)
+{
+       /*
+        * The amount of space that can be allocated to this metadata file is
+        * the remaining reservation for the particular metadata file + the
+        * global free block count.  Take care of the first case to avoid
+        * touching the per-cpu counter.
+        */
+       if (ip->i_delayed_blks >= rhs)
+               return true;
+
+       /*
+        * There aren't enough blocks left in the inode's reservation, but it
+        * isn't critical unless there also isn't enough free space.
+        */
+       return __percpu_counter_compare(&ip->i_mount->m_fdblocks,
+                       rhs - ip->i_delayed_blks, 2048) >= 0;
+}
+
+/*
+ * Is this metadata file critically low on blocks?  For now we'll define that
+ * as the number of blocks we can get our hands on being less than 10% of what
+ * we reserved or less than some arbitrary number (maximum btree height).
+ */
+bool
+xfs_metafile_resv_critical(
+       struct xfs_inode        *ip)
+{
+       uint64_t                asked_low_water;
+
+       if (!ip)
+               return false;
+
+       ASSERT(xfs_is_metadir_inode(ip));
+       trace_xfs_metafile_resv_critical(ip, 0);
+
+       if (!xfs_metafile_resv_can_cover(ip, ip->i_mount->m_rtbtree_maxlevels))
+               return true;
+
+       asked_low_water = div_u64(ip->i_meta_resv_asked, 10);
+       if (!xfs_metafile_resv_can_cover(ip, asked_low_water))
+               return true;
+
+       return XFS_TEST_ERROR(false, ip->i_mount,
+                       XFS_ERRTAG_METAFILE_RESV_CRITICAL);
+}
+
+/* Allocate a block from the metadata file's reservation. */
+void
+xfs_metafile_resv_alloc_space(
+       struct xfs_inode        *ip,
+       struct xfs_alloc_arg    *args)
+{
+       int64_t                 len = args->len;
+
+       ASSERT(xfs_is_metadir_inode(ip));
+       ASSERT(args->resv == XFS_AG_RESV_METAFILE);
+
+       trace_xfs_metafile_resv_alloc_space(ip, args->len);
+
+       /*
+        * Allocate the blocks from the metadata inode's block reservation
+        * and update the ondisk sb counter.
+        */
+       if (ip->i_delayed_blks > 0) {
+               int64_t         from_resv;
+
+               from_resv = min_t(int64_t, len, ip->i_delayed_blks);
+               ip->i_delayed_blks -= from_resv;
+               xfs_mod_delalloc(ip, 0, -from_resv);
+               xfs_trans_mod_sb(args->tp, XFS_TRANS_SB_RES_FDBLOCKS,
+                               -from_resv);
+               len -= from_resv;
+       }
+
+       /*
+        * Any allocation in excess of the reservation requires in-core and
+        * on-disk fdblocks updates.  If we can grab @len blocks from the
+        * in-core fdblocks then all we need to do is update the on-disk
+        * superblock; if not, then try to steal some from the transaction's
+        * block reservation.  Overruns are only expected for rmap btrees.
+        */
+       if (len) {
+               unsigned int    field;
+               int             error;
+
+               error = xfs_dec_fdblocks(ip->i_mount, len, true);
+               if (error)
+                       field = XFS_TRANS_SB_FDBLOCKS;
+               else
+                       field = XFS_TRANS_SB_RES_FDBLOCKS;
+
+               xfs_trans_mod_sb(args->tp, field, -len);
+       }
+
+       ip->i_nblocks += args->len;
+       xfs_trans_log_inode(args->tp, ip, XFS_ILOG_CORE);
+}
+
+/* Free a block to the metadata file's reservation. */
+void
+xfs_metafile_resv_free_space(
+       struct xfs_inode        *ip,
+       struct xfs_trans        *tp,
+       xfs_filblks_t           len)
+{
+       int64_t                 to_resv;
+
+       ASSERT(xfs_is_metadir_inode(ip));
+       trace_xfs_metafile_resv_free_space(ip, len);
+
+       ip->i_nblocks -= len;
+       xfs_trans_log_inode(tp, ip, XFS_ILOG_CORE);
+
+       /*
+        * Add the freed blocks back into the inode's delalloc reservation
+        * until it reaches the maximum size.  Update the ondisk fdblocks only.
+        */
+       to_resv = ip->i_meta_resv_asked - (ip->i_nblocks + ip->i_delayed_blks);
+       if (to_resv > 0) {
+               to_resv = min_t(int64_t, to_resv, len);
+               ip->i_delayed_blks += to_resv;
+               xfs_mod_delalloc(ip, 0, to_resv);
+               xfs_trans_mod_sb(tp, XFS_TRANS_SB_RES_FDBLOCKS, to_resv);
+               len -= to_resv;
+       }
+
+       /*
+        * Everything else goes back to the filesystem, so update the in-core
+        * and on-disk counters.
+        */
+       if (len)
+               xfs_trans_mod_sb(tp, XFS_TRANS_SB_FDBLOCKS, len);
+}
+
+/* Release a metadata file's space reservation. */
+void
+xfs_metafile_resv_free(
+       struct xfs_inode        *ip)
+{
+       /* Non-btree metadata inodes don't need space reservations. */
+       if (!ip || !ip->i_meta_resv_asked)
+               return;
+
+       ASSERT(xfs_is_metadir_inode(ip));
+       trace_xfs_metafile_resv_free(ip, 0);
+
+       if (ip->i_delayed_blks) {
+               xfs_mod_delalloc(ip, 0, -ip->i_delayed_blks);
+               xfs_add_fdblocks(ip->i_mount, ip->i_delayed_blks);
+               ip->i_delayed_blks = 0;
+       }
+       ip->i_meta_resv_asked = 0;
+}
+
+/* Set up a metadata file's space reservation. */
+int
+xfs_metafile_resv_init(
+       struct xfs_inode        *ip,
+       xfs_filblks_t           ask)
+{
+       xfs_filblks_t           hidden_space;
+       xfs_filblks_t           used;
+       int                     error;
+
+       if (!ip || ip->i_meta_resv_asked > 0)
+               return 0;
+
+       ASSERT(xfs_is_metadir_inode(ip));
+
+       /*
+        * Space taken by all other metadata btrees are accounted on-disk as
+        * used space.  We therefore only hide the space that is reserved but
+        * not used by the trees.
+        */
+       used = ip->i_nblocks;
+       if (used > ask)
+               ask = used;
+       hidden_space = ask - used;
+
+       error = xfs_dec_fdblocks(ip->i_mount, hidden_space, true);
+       if (error) {
+               trace_xfs_metafile_resv_init_error(ip, error, _RET_IP_);
+               return error;
+       }
+
+       xfs_mod_delalloc(ip, 0, hidden_space);
+       ip->i_delayed_blks = hidden_space;
+       ip->i_meta_resv_asked = ask;
+
+       trace_xfs_metafile_resv_init(ip, ask);
+       return 0;
+}
index acec400123db05dba80c2027f58f07f26efcd910..8d8f08a6071c2333176efa853734263bbabbbab9 100644 (file)
@@ -21,6 +21,17 @@ void xfs_metafile_set_iflag(struct xfs_trans *tp, struct xfs_inode *ip,
                enum xfs_metafile_type metafile_type);
 void xfs_metafile_clear_iflag(struct xfs_trans *tp, struct xfs_inode *ip);
 
+/* Space reservations for metadata inodes. */
+struct xfs_alloc_arg;
+
+bool xfs_metafile_resv_critical(struct xfs_inode *ip);
+void xfs_metafile_resv_alloc_space(struct xfs_inode *ip,
+               struct xfs_alloc_arg *args);
+void xfs_metafile_resv_free_space(struct xfs_inode *ip, struct xfs_trans *tp,
+               xfs_filblks_t len);
+void xfs_metafile_resv_free(struct xfs_inode *ip);
+int xfs_metafile_resv_init(struct xfs_inode *ip, xfs_filblks_t ask);
+
 /* Code specific to kernel/userspace; must be provided externally. */
 
 int xfs_trans_metafile_iget(struct xfs_trans *tp, xfs_ino_t ino,
index bf33c2b1e43e5f029cbfa7e67585b5e688bb23b7..ca2401c1facda7e164e590158b8290f248a35f13 100644 (file)
@@ -202,6 +202,13 @@ enum xfs_ag_resv_type {
         * altering fdblocks.  If you think you need this you're wrong.
         */
        XFS_AG_RESV_IGNORE,
+
+       /*
+        * This allocation activity is being done on behalf of a metadata file.
+        * These files maintain their own permanent space reservations and are
+        * required to adjust fdblocks using the xfs_metafile_resv_* helpers.
+        */
+       XFS_AG_RESV_METAFILE,
 };
 
 /* Results of scanning a btree keyspace to check occupancy. */