]> git.ipfire.org Git - thirdparty/postgresql.git/commitdiff
Fix possible recovery trouble if TRUNCATE overlaps a checkpoint.
authorRobert Haas <rhaas@postgresql.org>
Thu, 24 Mar 2022 18:38:51 +0000 (14:38 -0400)
committerRobert Haas <rhaas@postgresql.org>
Thu, 24 Mar 2022 18:38:51 +0000 (14:38 -0400)
If TRUNCATE causes some buffers to be invalidated and thus the
checkpoint does not flush them, TRUNCATE must also ensure that the
corresponding files are truncated on disk. Otherwise, a replay
from the checkpoint might find that the buffers exist but have
the wrong contents, which may cause replay to fail.

Report by Teja Mupparti. Patch by Kyotaro Horiguchi, per a design
suggestion from Heikki Linnakangas, with some changes to the
comments by me. Review of this and a prior patch that approached
the issue differently by Heikki Linnakangas, Andres Freund, Álvaro
Herrera, Masahiko Sawada, and Tom Lane.

Discussion: http://postgr.es/m/BYAPR06MB6373BF50B469CA393C614257ABF00@BYAPR06MB6373.namprd06.prod.outlook.com

src/backend/access/transam/multixact.c
src/backend/access/transam/twophase.c
src/backend/access/transam/xact.c
src/backend/access/transam/xlog.c
src/backend/access/transam/xloginsert.c
src/backend/catalog/storage.c
src/backend/storage/buffer/bufmgr.c
src/backend/storage/ipc/procarray.c
src/backend/storage/lmgr/proc.c
src/include/storage/proc.h
src/include/storage/procarray.h

index 09748905a8c848ee596bedc3c73f680dddf38370..757346cbbb566c8e76a595494cc94f14490212a9 100644 (file)
@@ -3069,8 +3069,8 @@ TruncateMultiXact(MultiXactId newOldestMulti, Oid newOldestMultiDB)
         * crash/basebackup, even though the state of the data directory would
         * require it.
         */
-       Assert(!MyPgXact->delayChkpt);
-       MyPgXact->delayChkpt = true;
+       Assert((MyPgXact->delayChkpt & DELAY_CHKPT_START) == 0);
+       MyPgXact->delayChkpt |= DELAY_CHKPT_START;
 
        /* WAL log truncation */
        WriteMTruncateXlogRec(newOldestMultiDB,
@@ -3096,7 +3096,7 @@ TruncateMultiXact(MultiXactId newOldestMulti, Oid newOldestMultiDB)
        /* Then offsets */
        PerformOffsetsTruncation(oldestMulti, newOldestMulti);
 
-       MyPgXact->delayChkpt = false;
+       MyPgXact->delayChkpt &= ~DELAY_CHKPT_START;
 
        END_CRIT_SECTION();
        LWLockRelease(MultiXactTruncationLock);
index 6def1820cafc716c7c6300db3fa59e1c36e7daf5..602ca410540226d0dd01340c08ce575816b6d81c 100644 (file)
@@ -477,7 +477,7 @@ MarkAsPreparingGuts(GlobalTransaction gxact, TransactionId xid, const char *gid,
        }
        pgxact->xid = xid;
        pgxact->xmin = InvalidTransactionId;
-       pgxact->delayChkpt = false;
+       pgxact->delayChkpt = 0;
        pgxact->vacuumFlags = 0;
        proc->pid = 0;
        proc->databaseId = databaseid;
@@ -1187,7 +1187,8 @@ EndPrepare(GlobalTransaction gxact)
 
        START_CRIT_SECTION();
 
-       MyPgXact->delayChkpt = true;
+       Assert((MyPgXact->delayChkpt & DELAY_CHKPT_START) == 0);
+       MyPgXact->delayChkpt |= DELAY_CHKPT_START;
 
        XLogBeginInsert();
        for (record = records.head; record != NULL; record = record->next)
@@ -1230,7 +1231,7 @@ EndPrepare(GlobalTransaction gxact)
         * checkpoint starting after this will certainly see the gxact as a
         * candidate for fsyncing.
         */
-       MyPgXact->delayChkpt = false;
+       MyPgXact->delayChkpt &= ~DELAY_CHKPT_START;
 
        /*
         * Remember that we have this GlobalTransaction entry locked for us.  If
@@ -2337,7 +2338,8 @@ RecordTransactionCommitPrepared(TransactionId xid,
        START_CRIT_SECTION();
 
        /* See notes in RecordTransactionCommit */
-       MyPgXact->delayChkpt = true;
+       Assert((MyPgXact->delayChkpt & DELAY_CHKPT_START) == 0);
+       MyPgXact->delayChkpt |= DELAY_CHKPT_START;
 
        /*
         * Emit the XLOG commit record. Note that we mark 2PC commits as
@@ -2385,7 +2387,7 @@ RecordTransactionCommitPrepared(TransactionId xid,
        TransactionIdCommitTree(xid, nchildren, children);
 
        /* Checkpoint can proceed now */
-       MyPgXact->delayChkpt = false;
+       MyPgXact->delayChkpt &= ~DELAY_CHKPT_START;
 
        END_CRIT_SECTION();
 
index 9c6b87c6ecf694e1d4415895cc2fdb9d312b5e43..9d23298b2b635a47af9f55add4bd5a14bb91a0c1 100644 (file)
@@ -1306,8 +1306,9 @@ RecordTransactionCommit(void)
                 * This makes checkpoint's determination of which xacts are delayChkpt
                 * a bit fuzzy, but it doesn't matter.
                 */
+               Assert((MyPgXact->delayChkpt & DELAY_CHKPT_START) == 0);
                START_CRIT_SECTION();
-               MyPgXact->delayChkpt = true;
+               MyPgXact->delayChkpt |= DELAY_CHKPT_START;
 
                SetCurrentTransactionStopTimestamp();
 
@@ -1408,7 +1409,7 @@ RecordTransactionCommit(void)
         */
        if (markXidCommitted)
        {
-               MyPgXact->delayChkpt = false;
+               MyPgXact->delayChkpt &= ~DELAY_CHKPT_START;
                END_CRIT_SECTION();
        }
 
index 330aa9ddd04d0fbcf90c776ea56fa2674e162ee0..7141e5dca8303c724e31a7f88683e35c0bf52b50 100644 (file)
@@ -8920,18 +8920,30 @@ CreateCheckPoint(int flags)
         * and we will correctly flush the update below.  So we cannot miss any
         * xacts we need to wait for.
         */
-       vxids = GetVirtualXIDsDelayingChkpt(&nvxids);
+       vxids = GetVirtualXIDsDelayingChkpt(&nvxids, DELAY_CHKPT_START);
        if (nvxids > 0)
        {
                do
                {
                        pg_usleep(10000L);      /* wait for 10 msec */
-               } while (HaveVirtualXIDsDelayingChkpt(vxids, nvxids));
+               } while (HaveVirtualXIDsDelayingChkpt(vxids, nvxids,
+                                                                                         DELAY_CHKPT_START));
        }
        pfree(vxids);
 
        CheckPointGuts(checkPoint.redo, flags);
 
+       vxids = GetVirtualXIDsDelayingChkpt(&nvxids, DELAY_CHKPT_COMPLETE);
+       if (nvxids > 0)
+       {
+               do
+               {
+                       pg_usleep(10000L);      /* wait for 10 msec */
+               } while (HaveVirtualXIDsDelayingChkpt(vxids, nvxids,
+                                                                                         DELAY_CHKPT_COMPLETE));
+       }
+       pfree(vxids);
+
        /*
         * Take a snapshot of running transactions and write this to WAL. This
         * allows us to reconstruct the state of running transactions during
index 24a6f3148b119e7e325c6abfae05c7220ff0c6dc..b51b0edd67c5d32143061e8952128e6de111458e 100644 (file)
@@ -899,7 +899,7 @@ XLogSaveBufferForHint(Buffer buffer, bool buffer_std)
        /*
         * Ensure no checkpoint can change our view of RedoRecPtr.
         */
-       Assert(MyPgXact->delayChkpt);
+       Assert((MyPgXact->delayChkpt & DELAY_CHKPT_START) != 0);
 
        /*
         * Update RedoRecPtr so that we can make the right decision
index f899b25c0e52737461927f6109e446205934ad2e..5a6324fec4c215d46fb9238722133b96b9a93f90 100644 (file)
@@ -29,6 +29,7 @@
 #include "catalog/storage.h"
 #include "catalog/storage_xlog.h"
 #include "storage/freespace.h"
+#include "storage/proc.h"
 #include "storage/smgr.h"
 #include "utils/memutils.h"
 #include "utils/rel.h"
@@ -252,6 +253,22 @@ RelationTruncate(Relation rel, BlockNumber nblocks)
        if (vm)
                visibilitymap_truncate(rel, nblocks);
 
+       /*
+        * Make sure that a concurrent checkpoint can't complete while truncation
+        * is in progress.
+        *
+        * The truncation operation might drop buffers that the checkpoint
+        * otherwise would have flushed. If it does, then it's essential that
+        * the files actually get truncated on disk before the checkpoint record
+        * is written. Otherwise, if reply begins from that checkpoint, the
+        * to-be-truncated blocks might still exist on disk but have older
+        * contents than expected, which can cause replay to fail. It's OK for
+        * the blocks to not exist on disk at all, but not for them to have the
+        * wrong contents.
+        */
+       Assert((MyPgXact->delayChkpt & DELAY_CHKPT_COMPLETE) == 0);
+       MyPgXact->delayChkpt |= DELAY_CHKPT_COMPLETE;
+
        /*
         * We WAL-log the truncation before actually truncating, which means
         * trouble if the truncation fails. If we then crash, the WAL replay
@@ -290,8 +307,15 @@ RelationTruncate(Relation rel, BlockNumber nblocks)
                        XLogFlush(lsn);
        }
 
-       /* Do the real work */
+       /*
+        * This will first remove any buffers from the buffer pool that should no
+        * longer exist after truncation is complete, and then truncate the
+        * corresponding files on disk.
+        */
        smgrtruncate(rel->rd_smgr, MAIN_FORKNUM, nblocks);
+
+       /* We've done all the critical work, so checkpoints are OK now. */
+       MyPgXact->delayChkpt &= ~DELAY_CHKPT_COMPLETE;
 }
 
 /*
index 01c09fd532b370fd70f98a46ee2964a1794a0a57..7d11b0963f334b99e53a89327f99a917004c481b 100644 (file)
@@ -3514,7 +3514,9 @@ MarkBufferDirtyHint(Buffer buffer, bool buffer_std)
                         * essential that CreateCheckpoint waits for virtual transactions
                         * rather than full transactionids.
                         */
-                       MyPgXact->delayChkpt = delayChkpt = true;
+                       Assert((MyPgXact->delayChkpt & DELAY_CHKPT_START) == 0);
+                       MyPgXact->delayChkpt |= DELAY_CHKPT_START;
+                       delayChkpt = true;
                        lsn = XLogSaveBufferForHint(buffer, buffer_std);
                }
 
@@ -3547,7 +3549,7 @@ MarkBufferDirtyHint(Buffer buffer, bool buffer_std)
                UnlockBufHdr(bufHdr, buf_state);
 
                if (delayChkpt)
-                       MyPgXact->delayChkpt = false;
+                       MyPgXact->delayChkpt &= ~DELAY_CHKPT_START;
 
                if (dirtied)
                {
index ec7e210226d330d56b63a533dbd946f09ecd4025..39093253fe1afb57e97b525b88778a3fedf755a1 100644 (file)
@@ -434,7 +434,10 @@ ProcArrayEndTransaction(PGPROC *proc, TransactionId latestXid)
                pgxact->xmin = InvalidTransactionId;
                /* must be cleared with xid/xmin: */
                pgxact->vacuumFlags &= ~PROC_VACUUM_STATE_MASK;
-               pgxact->delayChkpt = false; /* be sure this is cleared in abort */
+
+               /* be sure this is cleared in abort */
+               pgxact->delayChkpt = 0;
+
                proc->recoveryConflictPending = false;
 
                Assert(pgxact->nxids == 0);
@@ -456,7 +459,10 @@ ProcArrayEndTransactionInternal(PGPROC *proc, PGXACT *pgxact,
        pgxact->xmin = InvalidTransactionId;
        /* must be cleared with xid/xmin: */
        pgxact->vacuumFlags &= ~PROC_VACUUM_STATE_MASK;
-       pgxact->delayChkpt = false; /* be sure this is cleared in abort */
+
+       /* be sure this is cleared in abort */
+       pgxact->delayChkpt = 0;
+
        proc->recoveryConflictPending = false;
 
        /* Clear the subtransaction-XID cache too while holding the lock */
@@ -2261,7 +2267,8 @@ GetOldestSafeDecodingTransactionId(bool catalogOnly)
  * delaying checkpoint because they have critical actions in progress.
  *
  * Constructs an array of VXIDs of transactions that are currently in commit
- * critical sections, as shown by having delayChkpt set in their PGXACT.
+ * critical sections, as shown by having specified delayChkpt bits set in their
+ * PGXACT.
  *
  * Returns a palloc'd array that should be freed by the caller.
  * *nvxids is the number of valid entries.
@@ -2275,13 +2282,15 @@ GetOldestSafeDecodingTransactionId(bool catalogOnly)
  * for clearing of delayChkpt to propagate is unimportant for correctness.
  */
 VirtualTransactionId *
-GetVirtualXIDsDelayingChkpt(int *nvxids)
+GetVirtualXIDsDelayingChkpt(int *nvxids, int type)
 {
        VirtualTransactionId *vxids;
        ProcArrayStruct *arrayP = procArray;
        int                     count = 0;
        int                     index;
 
+       Assert(type != 0);
+
        /* allocate what's certainly enough result space */
        vxids = (VirtualTransactionId *)
                palloc(sizeof(VirtualTransactionId) * arrayP->maxProcs);
@@ -2294,7 +2303,7 @@ GetVirtualXIDsDelayingChkpt(int *nvxids)
                PGPROC     *proc = &allProcs[pgprocno];
                PGXACT     *pgxact = &allPgXact[pgprocno];
 
-               if (pgxact->delayChkpt)
+               if ((pgxact->delayChkpt & type) != 0)
                {
                        VirtualTransactionId vxid;
 
@@ -2320,12 +2329,14 @@ GetVirtualXIDsDelayingChkpt(int *nvxids)
  * those numbers should be small enough for it not to be a problem.
  */
 bool
-HaveVirtualXIDsDelayingChkpt(VirtualTransactionId *vxids, int nvxids)
+HaveVirtualXIDsDelayingChkpt(VirtualTransactionId *vxids, int nvxids, int type)
 {
        bool            result = false;
        ProcArrayStruct *arrayP = procArray;
        int                     index;
 
+       Assert(type != 0);
+
        LWLockAcquire(ProcArrayLock, LW_SHARED);
 
        for (index = 0; index < arrayP->numProcs; index++)
@@ -2337,7 +2348,8 @@ HaveVirtualXIDsDelayingChkpt(VirtualTransactionId *vxids, int nvxids)
 
                GET_VXID_FROM_PGPROC(vxid, *proc);
 
-               if (pgxact->delayChkpt && VirtualTransactionIdIsValid(vxid))
+               if ((pgxact->delayChkpt & type) != 0 &&
+                       VirtualTransactionIdIsValid(vxid))
                {
                        int                     i;
 
index 4850df2e14e8c069a2d15ea923a98c2cc8ba3d5a..59291e01f4dad8b9f8283579fd6eaf5b505d5450 100644 (file)
@@ -397,7 +397,7 @@ InitProcess(void)
        MyProc->roleId = InvalidOid;
        MyProc->tempNamespaceId = InvalidOid;
        MyProc->isBackgroundWorker = IsBackgroundWorker;
-       MyPgXact->delayChkpt = false;
+       MyPgXact->delayChkpt = 0;
        MyPgXact->vacuumFlags = 0;
        /* NB -- autovac launcher intentionally does not set IS_AUTOVACUUM */
        if (IsAutoVacuumWorkerProcess())
@@ -579,7 +579,7 @@ InitAuxiliaryProcess(void)
        MyProc->roleId = InvalidOid;
        MyProc->tempNamespaceId = InvalidOid;
        MyProc->isBackgroundWorker = IsBackgroundWorker;
-       MyPgXact->delayChkpt = false;
+       MyPgXact->delayChkpt = 0;
        MyPgXact->vacuumFlags = 0;
        MyProc->lwWaiting = false;
        MyProc->lwWaitMode = 0;
index 43d0854a4105f091ea53f15fab4fa249286c33b5..2a16fd23d4bfa90db79dcfcf315c0a32c7586c3d 100644 (file)
@@ -76,6 +76,41 @@ struct XidCache
  */
 #define INVALID_PGPROCNO               PG_INT32_MAX
 
+/*
+ * Flags for PGPROC.delayChkpt
+ *
+ * These flags can be used to delay the start or completion of a checkpoint
+ * for short periods. A flag is in effect if the corresponding bit is set in
+ * the PGPROC of any backend.
+ *
+ * For our purposes here, a checkpoint has three phases: (1) determine the
+ * location to which the redo pointer will be moved, (2) write all the
+ * data durably to disk, and (3) WAL-log the checkpoint.
+ *
+ * Setting DELAY_CHKPT_START prevents the system from moving from phase 1
+ * to phase 2. This is useful when we are performing a WAL-logged modification
+ * of data that will be flushed to disk in phase 2. By setting this flag
+ * before writing WAL and clearing it after we've both written WAL and
+ * performed the corresponding modification, we ensure that if the WAL record
+ * is inserted prior to the new redo point, the corresponding data changes will
+ * also be flushed to disk before the checkpoint can complete. (In the
+ * extremely common case where the data being modified is in shared buffers
+ * and we acquire an exclusive content lock on the relevant buffers before
+ * writing WAL, this mechanism is not needed, because phase 2 will block
+ * until we release the content lock and then flush the modified data to
+ * disk.)
+ *
+ * Setting DELAY_CHKPT_COMPLETE prevents the system from moving from phase 2
+ * to phase 3. This is useful if we are performing a WAL-logged operation that
+ * might invalidate buffers, such as relation truncation. In this case, we need
+ * to ensure that any buffers which were invalidated and thus not flushed by
+ * the checkpoint are actaully destroyed on disk. Replay can cope with a file
+ * or block that doesn't exist, but not with a block that has the wrong
+ * contents.
+ */
+#define DELAY_CHKPT_START              (1<<0)
+#define DELAY_CHKPT_COMPLETE   (1<<1)
+
 /*
  * Each backend has a PGPROC struct in shared memory.  There is also a list of
  * currently-unused PGPROC structs that will be reallocated to new backends.
@@ -232,8 +267,7 @@ typedef struct PGXACT
 
        uint8           vacuumFlags;    /* vacuum-related flags, see above */
        bool            overflowed;
-       bool            delayChkpt;             /* true if this proc delays checkpoint start;
-                                                                * previously called InCommit */
+       int                     delayChkpt;             /* for DELAY_CHKPT_* flags */
 
        uint8           nxids;
 } PGXACT;
index d1dc0ffe28b94e90b21ad2e3285f42d03ed62d8f..d9ca460efc45c915f573a707b9f9609886f74190 100644 (file)
@@ -92,8 +92,9 @@ extern TransactionId GetOldestXmin(Relation rel, int flags);
 extern TransactionId GetOldestActiveTransactionId(void);
 extern TransactionId GetOldestSafeDecodingTransactionId(bool catalogOnly);
 
-extern VirtualTransactionId *GetVirtualXIDsDelayingChkpt(int *nvxids);
-extern bool HaveVirtualXIDsDelayingChkpt(VirtualTransactionId *vxids, int nvxids);
+extern VirtualTransactionId *GetVirtualXIDsDelayingChkpt(int *nvxids, int type);
+extern bool HaveVirtualXIDsDelayingChkpt(VirtualTransactionId *vxids,
+                                                                                int nvxids, int type);
 
 extern PGPROC *BackendPidGetProc(int pid);
 extern PGPROC *BackendPidGetProcWithLock(int pid);