]> git.ipfire.org Git - thirdparty/postgresql.git/commitdiff
Fix regexp misbehavior with capturing parens inside "{0}".
authorTom Lane <tgl@sss.pgh.pa.us>
Tue, 24 Aug 2021 20:37:27 +0000 (16:37 -0400)
committerTom Lane <tgl@sss.pgh.pa.us>
Tue, 24 Aug 2021 20:37:27 +0000 (16:37 -0400)
Regexps like "(.){0}...\1" drew an "invalid backreference number".
That's not unreasonable on its face, since the capture group will
never be matched if it's iterated zero times.  However, other engines
such as Perl's don't complain about this, nor do we throw an error for
related cases such as "(.)|\1", even though that backref can never
succeed either.  Also, if the zero-iterations case happens at runtime
rather than compile time --- say, "(x)*...\1" when there's no "x" to
be found --- that's not an error, we just deem the backref to not
match.  Making this even less defensible, no error was thrown for
nested cases such as "((.)){0}...\2"; and to add insult to injury,
those cases could result in assertion failures instead.  (It seems
that nothing especially bad happened in non-assert builds, though.)

Let's just fix it so that no error is thrown and instead the backref
is deemed to never match, so that compile-time detection of no
iterations behaves the same as run-time detection.

Per report from Mark Dilger.  This appears to be an aboriginal error
in Spencer's library, so back-patch to all supported versions.

Pre-v14, it turns out to also be necessary to back-patch one aspect of
commits cb76fbd7e/00116dee5, namely to create capture-node subREs with
the begin/end states of their subexpressions, not the current lp/rp
of the outer parseqatom invocation.  Otherwise delsub complains that
we're trying to disconnect a state from itself.  This is a bit scary
but code examination shows that it's safe: in the pre-v14 code, if we
want to wrap iteration around the subexpression, the first thing we do
is overwrite the atom's begin/end fields with new states.  So the
bogus values didn't survive long enough to be used for anything, except
if no iteration is required, in which case it doesn't matter.

Discussion: https://postgr.es/m/A099E4A8-4377-4C64-A98C-3DEDDC075502@enterprisedb.com

src/backend/regex/regcomp.c
src/test/regress/expected/regex.out
src/test/regress/sql/regex.sql

index 8cd7d56b2268db8f697f591e6a454d4a8ef3a789..b6459e4bafa949e5fdca64ff08d9a0535dfd65f0 100644 (file)
@@ -959,7 +959,7 @@ parseqatom(struct vars *v,
                        if (cap)
                        {
                                v->subs[subno] = atom;
-                               t = subre(v, '(', atom->flags | CAP, lp, rp);
+                               t = subre(v, '(', atom->flags | CAP, s, s2);
                                NOERR();
                                t->subno = subno;
                                t->left = atom;
@@ -1042,11 +1042,23 @@ parseqatom(struct vars *v,
        /* annoying special case:  {0} or {0,0} cancels everything */
        if (m == 0 && n == 0)
        {
-               if (atom != NULL)
-                       freesubre(v, atom);
-               if (atomtype == '(')
-                       v->subs[subno] = NULL;
-               delsub(v->nfa, lp, rp);
+               /*
+                * If we had capturing subexpression(s) within the atom, we don't want
+                * to destroy them, because it's legal (if useless) to back-ref them
+                * later.  Hence, just unlink the atom from lp/rp and then ignore it.
+                */
+               if (atom != NULL && (atom->flags & CAP))
+               {
+                       delsub(v->nfa, lp, atom->begin);
+                       delsub(v->nfa, atom->end, rp);
+               }
+               else
+               {
+                       /* Otherwise, we can clean up any subre infrastructure we made */
+                       if (atom != NULL)
+                               freesubre(v, atom);
+                       delsub(v->nfa, lp, rp);
+               }
                EMPTYARC(lp, rp);
                return;
        }
index 8f4626f41da892f2f5da5e47894b895a98b7b032..09afccc98cfe6d44aeec7bba362ed63d4595641a 100644 (file)
@@ -567,6 +567,25 @@ select 'a' ~ '()+\1';
  t
 (1 row)
 
+-- Test incorrect removal of capture groups within {0}
+select 'xxx' ~ '(.){0}(\1)' as f;
+ f 
+---
+ f
+(1 row)
+
+select 'xxx' ~ '((.)){0}(\2)' as f;
+ f 
+---
+ f
+(1 row)
+
+select 'xyz' ~ '((.)){0}(\2){0}' as t;
+ t 
+---
+ t
+(1 row)
+
 -- Test ancient oversight in when to apply zaptreesubs
 select 'abcdef' ~ '^(.)\1|\1.' as f;
  f 
index 762b3ae69b2b08e438ac724695555845268d23bc..758de44d2f476f1cef3c5f7f0e74ff2a3fcc393e 100644 (file)
@@ -135,6 +135,11 @@ select 'a' ~ '.. ()|\1';
 select 'a' ~ '()*\1';
 select 'a' ~ '()+\1';
 
+-- Test incorrect removal of capture groups within {0}
+select 'xxx' ~ '(.){0}(\1)' as f;
+select 'xxx' ~ '((.)){0}(\2)' as f;
+select 'xyz' ~ '((.)){0}(\2){0}' as t;
+
 -- Test ancient oversight in when to apply zaptreesubs
 select 'abcdef' ~ '^(.)\1|\1.' as f;
 select 'abadef' ~ '^((.)\2|..)\2' as f;