]> git.ipfire.org Git - thirdparty/bind9.git/log
thirdparty/bind9.git
11 days agonew: ci: Add Debian "trixie" (386)
Michal Nowak [Fri, 22 May 2026 16:30:49 +0000 (18:30 +0200)] 
new: ci: Add Debian "trixie" (386)

Merge branch 'mnowak/add-debian-trixie-386' into 'main'

See merge request isc-projects/bind9!12079

12 days agoTolerate dnspython post-2038 timestamp overflow on 32-bit 12079/head
Michal Nowak [Thu, 21 May 2026 07:31:15 +0000 (07:31 +0000)] 
Tolerate dnspython post-2038 timestamp overflow on 32-bit

dnspython's RRSIG.to_text() converts the signature inception/expiration
fields by calling time.gmtime(), which on 32-bit platforms raises
OverflowError for values past 2038-01-19 (INT32_MAX). Several DNSSEC
test fixtures use far-future expirations: the precomputed RRSIGs in
the dnssec test's rsasha1.example.db.in zone expire in 2093, ans4 of
the chain test hardcodes 2090, and ans10 of the dnssec test uses
2**32-1 (year 2106). Whenever a response carrying such an RRSIG is
formatted with str()/to_text() the overflow propagates out and either
fails the test (when triggered in isctest.query's debug logging) or
kills the asyncserver-based ans* server (when triggered in its
response logger), which in turn cascades into "Failed to stop
servers" teardown errors and SERVFAIL responses for subsequent tests.

Wrap the to_text() calls in isctest/query.py and the str(response)
call in asyncserver's _log_response() with try/except OverflowError,
falling back to a placeholder message. The conversions are only used
for debug logging, so losing the human-readable form there does not
affect what the tests actually validate.

Assisted-by: Claude:claude-opus-4-7
12 days agoFix stack corruption in copy_initfile() on 32-bit
Michal Nowak [Thu, 21 May 2026 07:31:03 +0000 (07:31 +0000)] 
Fix stack corruption in copy_initfile() on 32-bit

copy_initfile() declared a size_t local variable to receive the size of
the initial file and passed it to isc_file_getsizefd() with an explicit
(off_t *) cast. On 32-bit platforms with _FILE_OFFSET_BITS=64, off_t is
8 bytes while size_t is only 4 bytes, so isc_file_getsizefd()'s
"*size = stats.st_size;" writes 8 bytes into the 4-byte slot and
clobbers the adjacent "output" FILE * on the stack. The next iteration
of the read/write loop then calls clearerr() through a NULL pointer and
named crashes with SIGSEGV.

This is triggered whenever a zone with an initial-file (e.g. one
configured via a template) is loaded for the first time, so on 32-bit
the addzone and masterfile system tests crash named in ns2 with cores.

Declare "len" as off_t to match the API and drop the unsafe cast.

Assisted-by: Claude:claude-opus-4-7
12 days agoAdd Debian "trixie" (386)
Michal Nowak [Thu, 21 May 2026 04:32:23 +0000 (06:32 +0200)] 
Add Debian "trixie" (386)

12 days agofix: dev: fix possible NULL dereference in `cfg_map_findclause()`
Colin Vidal [Thu, 21 May 2026 14:04:17 +0000 (16:04 +0200)] 
fix: dev: fix possible NULL dereference in `cfg_map_findclause()`

`cfg_map_findclause()` did not check whether a clause existed before dereferencing it, which could lead to a NULL dereference. Add the missing check to prevent this.

In practice, this was not triggering any known bug, since `cfg_map_findclause()` is only called in contexts where the clause is known to exist.

Closes #5997

Merge branch '5997-findclause' into 'main'

See merge request isc-projects/bind9!12052

12 days agorenamed `cfg_map_addclone()` into `cfg_map_add()` 12052/head
Colin Vidal [Thu, 21 May 2026 07:53:59 +0000 (09:53 +0200)] 
renamed `cfg_map_addclone()` into `cfg_map_add()`

Since there is no `cfg_map_add()` anymore, and `cfg_map_addclone()`
wasn't quite clear, let's rename to `cfg_map_addclone()` into
`cfg_map_add()`, as this is fundamentally what this function is doing.

12 days agoadd test for `cfg_map_findclause()`
Colin Vidal [Tue, 19 May 2026 13:12:36 +0000 (15:12 +0200)] 
add test for `cfg_map_findclause()`

Add a test for `cfg_map_findclause()` ensuring its correct behaviour
(returning NULL) if a clause does not exists.

12 days agofix possible NULL dereference in `cfg_map_findclause()`
Colin Vidal [Tue, 19 May 2026 13:04:11 +0000 (15:04 +0200)] 
fix possible NULL dereference in `cfg_map_findclause()`

`cfg_map_findclause()` did not check whether a clause existed before
dereferencing it, which could lead to a NULL dereference. Add the
missing check to prevent this.

In practice, this was not triggering any known bug, since
`cfg_map_findclause()` is only called in contexts where the clause is
known to exist.

12 days agoremove unused `cfg_map_add()` function
Colin Vidal [Tue, 19 May 2026 13:03:36 +0000 (15:03 +0200)] 
remove unused `cfg_map_add()` function

Function `cfg_map_add()` was unused, it is now removed.

12 days agofix: dev: Move last_purge declaration under the same #ifdef as its user
Michal Nowak [Thu, 21 May 2026 13:10:57 +0000 (15:10 +0200)] 
fix: dev: Move last_purge declaration under the same #ifdef as its user

The static atomic last_purge is only read and written from mem_purge(),
which is compiled only when JEMALLOC_API_SUPPORTED or __GLIBC__ is
defined. This used to fail on OpenBSD:

    ../lib/isc/mem.c:405:31: error: unused variable 'last_purge' [-Werror,-Wunused-variable]
      405 | static _Atomic(isc_stdtime_t) last_purge = 0;
          |                               ^~~~~~~~~~

Merge branch 'mnowak/move-last_purge-to-ifdef' into 'main'

See merge request isc-projects/bind9!12058

12 days agoMove last_purge declaration under the same #ifdef as its user 12058/head
Michal Nowak [Tue, 19 May 2026 19:06:38 +0000 (21:06 +0200)] 
Move last_purge declaration under the same #ifdef as its user

The static atomic last_purge is only read and written from mem_purge(),
which is compiled only when JEMALLOC_API_SUPPORTED or __GLIBC__ is
defined. This used to fail on OpenBSD:

    ../lib/isc/mem.c:405:31: error: unused variable 'last_purge' [-Werror,-Wunused-variable]
      405 | static _Atomic(isc_stdtime_t) last_purge = 0;
          |                               ^~~~~~~~~~

12 days agofix: usr: Clear REDIRECT flag when it isn't needed
Michał Kępień [Thu, 21 May 2026 13:00:31 +0000 (15:00 +0200)] 
fix: usr: Clear REDIRECT flag when it isn't needed

When `nxdomain-redirect` is in use, and a recursive query is used to get the redirected answer, a flag is set to distinguish it from a normal recursive response. Previously, that flag was left set afterward, which could trigger an assertion if a normal recursive query was sent later on behalf of the same client: for example, because the `filter-aaaa` plugin was in use.  This has been fixed.

Closes #5936

Merge branch '5936-clear-redirect-flag' into 'main'

See merge request isc-projects/bind9!12073

12 days agoClear REDIRECT flag when it isn't needed 12073/head
Evan Hunt [Tue, 5 May 2026 00:05:11 +0000 (17:05 -0700)] 
Clear REDIRECT flag when it isn't needed

The NS_QUERYATTR_REDIRECT flag is set when processing a recursive
NXDOMAIN redirection lookup, so that if that lookup also returns
NXDOMAIN we don't end up looping.

Previously, the flag was left active after use, but if the
same client triggered a subsequent recursive lookup (for example,
in the filter-aaaa plugin), then the wrong branch could be reached
in query_resume(), potentially leading to an assertion failure.  This
has been fixed.

12 days agofix: dev: Validate nsec3hash arguments instead of relying on atoi()
Michal Nowak [Thu, 21 May 2026 11:36:46 +0000 (13:36 +0200)] 
fix: dev: Validate nsec3hash arguments instead of relying on atoi()

The nsec3hash tool parsed its algorithm, flags, and iterations
arguments with atoi(), then range-checked the result. For values
that overflow int during digit-by-digit accumulation, atoi() is
undefined; in practice on musl libc the modular wrap leaves
n == 0, which silently passes the "iterations > 0xffffU" check.
On Alpine Linux this made nsec3hash succeed with iterations
treated as 0 for inputs like 4294967296 (2^32).

The latent bug only surfaced when the recent image rebuild pulled
in Hypothesis 6.152.9 (2026-05-19), which unified the distribution
used for bounded and unbounded integers() strategies. The new
smoother distribution explores the 2^32 boundary on unbounded
ranges like integers(min_value=65536); earlier versions did not
reach there, so test_nsec3hash_too_many_iterations only started
failing on Alpine after the image refresh.

Replace the three atoi() calls with isc_parse_uint8 /
isc_parse_uint16, which uniformly reject overflow, trailing
garbage, leading sign, and non-numeric input across libc
implementations. As a side effect, error messages now include
the offending argument and a specific reason ("out of range" vs
"not a valid number").

Assisted-by: Claude:claude-opus-4-7
Closes #6013

Merge branch '6013-nsec3hash-iterations-overflow' into 'main'

See merge request isc-projects/bind9!12062

12 days agoValidate nsec3hash arguments instead of relying on atoi() 12062/head
Michal Nowak [Wed, 20 May 2026 17:58:41 +0000 (17:58 +0000)] 
Validate nsec3hash arguments instead of relying on atoi()

The nsec3hash tool parsed its algorithm, flags, and iterations
arguments with atoi(), then range-checked the result. For values
that overflow int during digit-by-digit accumulation, atoi() is
undefined; in practice on musl libc the modular wrap leaves
n == 0, which silently passes the "iterations > 0xffffU" check.
On Alpine Linux this made nsec3hash succeed with iterations
treated as 0 for inputs like 4294967296 (2^32).

The latent bug only surfaced when the recent image rebuild pulled
in Hypothesis 6.152.9 (2026-05-19), which unified the distribution
used for bounded and unbounded integers() strategies. The new
smoother distribution explores the 2^32 boundary on unbounded
ranges like integers(min_value=65536); earlier versions did not
reach there, so test_nsec3hash_too_many_iterations only started
failing on Alpine after the image refresh.

Replace the three atoi() calls with isc_parse_uint8 /
isc_parse_uint16, which uniformly reject overflow, trailing
garbage, leading sign, and non-numeric input across libc
implementations. As a side effect, error messages now include
the offending argument and a specific reason ("out of range" vs
"not a valid number").

Assisted-by: Claude:claude-opus-4-7
12 days agochg: test: Clean up custom server code in the "resend_loop" system test
Michał Kępień [Thu, 21 May 2026 09:56:34 +0000 (11:56 +0200)] 
chg: test: Clean up custom server code in the "resend_loop" system test

Apply assorted cleanups to `bin/tests/system/resend_loop/ans3/ans.py`.

Merge branch 'michal/resend_loop-test-ans3-cleanup' into 'main'

See merge request isc-projects/bind9!12063

12 days agoFollow common naming and coding conventions 12063/head
Michał Kępień [Thu, 21 May 2026 09:52:56 +0000 (11:52 +0200)] 
Follow common naming and coding conventions

Make the handlers defined in bin/tests/system/resend_loop/ans3/ans.py
follow canonical naming conventions used in other system tests.  Keep
all server initialization code in the main() function.

12 days agoTurn _get_cookie() into a method
Michał Kępień [Thu, 21 May 2026 09:52:56 +0000 (11:52 +0200)] 
Turn _get_cookie() into a method

Since the _get_cookie() function is only used by the CookieHandler
class, make the former a method of the latter to keep related logic
close in the source code.

12 days agoTweak the _get_cookie() method
Michał Kępień [Thu, 21 May 2026 09:52:56 +0000 (11:52 +0200)] 
Tweak the _get_cookie() method

The "len(cookie.server) == 0" condition is superfluous for the
"resend_loop" system test, so remove it.  Add a return type annotation
to the _get_cookie() function.

12 days agoRemove workarounds for dnspython < 2.7.0
Michał Kępień [Thu, 21 May 2026 09:52:56 +0000 (11:52 +0200)] 
Remove workarounds for dnspython < 2.7.0

dnspython 2.7.0 is now required to run the BIND 9 system test suite.
Drop the workarounds for older dnspython versions as they are now
redundant.

12 days agoFix flawed response logic for COOKIE-less queries
Michał Kępień [Thu, 21 May 2026 09:52:56 +0000 (11:52 +0200)] 
Fix flawed response logic for COOKIE-less queries

The "yield" keyword does not cause a function to return.  By design,
get_responses() may yield multiple DNS responses in a single call.  As
currently implemented, CookieHandler.get_responses() sends two responses
to each client query that does not contain a COOKIE option.  Make the
logic in that method consistent with code comments by only sending one
response to every query - either SERVFAIL or BADCOOKIE, never both.

12 days agoDrop redundant uses of authoritative=True
Michał Kępień [Thu, 21 May 2026 09:52:56 +0000 (11:52 +0200)] 
Drop redundant uses of authoritative=True

The ans3 custom server instance is created with default_aa=True.  Do not
pass the authoritative=True keyword argument to the DnsResponseSend
constructor in CookieHandler.get_responses() as it is redundant.

12 days agoDrop unnecessary qctx.prepare_new_response() call
Michał Kępień [Thu, 21 May 2026 09:52:56 +0000 (11:52 +0200)] 
Drop unnecessary qctx.prepare_new_response() call

The ans3 custom server does not have any zones defined, so the responses
passed to its handlers by core isctest.asyncserver code are guaranteed
to be empty.  Remove a call to qctx.prepare_new_response() from
CookieHandler.get_responses() as it is redundant.

12 days agoRemove NoErrorHandler
Michał Kępień [Thu, 21 May 2026 09:52:56 +0000 (11:52 +0200)] 
Remove NoErrorHandler

The NoErrorHandler class does not get matched to any query sent by ns4
in the "resend_loop" test.  Remove it as it is redundant.

12 days agoSimplify match criteria for CookieHandler
Michał Kępień [Thu, 21 May 2026 09:52:56 +0000 (11:52 +0200)] 
Simplify match criteria for CookieHandler

The CookieHandler class handles all traffic for the "example." domain.
Make it a subclass of DomainHandler to simplify its definition.

12 days agoMake static response handlers more specific
Michał Kępień [Thu, 21 May 2026 09:52:56 +0000 (11:52 +0200)] 
Make static response handlers more specific

The RootNSHandler and ExampleNSHandler classes are only equipped to
respond to specific QNAME/QTYPE tuples, not all queries for a specific
QNAME.  Turn them into subclasses of QnameQtypeHandler and make them
only respond to QTYPE=NS queries to prevent sending NS responses for
non-NS queries.

12 days agochg: ci: Various autorebase improvements
Michał Kępień [Thu, 21 May 2026 09:22:25 +0000 (11:22 +0200)] 
chg: ci: Various autorebase improvements

  - Rewrite cherry-pick references during autorebases
  - Fix autorebase error reporting
  - Limit post-push pipelines for autorebased branches
  - Only autorebase when there is anything to rebase
  - Conflate missing commit reference notifications
  - Support autorebasing backported security MRs

Merge branch 'michal/autorebase-improvements' into 'main'

See merge request isc-projects/bind9!12024

12 days agoSupport autorebasing backported security MRs 12024/head
Michał Kępień [Thu, 21 May 2026 09:13:30 +0000 (11:13 +0200)] 
Support autorebasing backported security MRs

Autorebasing a backported security fix enables convenient refreshing of
cherry-pick references, which makes it trivial for developers to satisfy
Danger rules just before the merge request is merged.  Add a manual CI
job that is only created for backported merge requests targeting
security-* branches.

12 days agoConflate missing commit reference notifications
Michał Kępień [Thu, 21 May 2026 09:13:30 +0000 (11:13 +0200)] 
Conflate missing commit reference notifications

Instead of creating a separate (potentially lengthy) Danger notification
for every missing commit reference in a backport, produce a single
notification with a list of all unreferenced commit hashes.  This makes
Danger output more concise while retaining all the relevant feedback for
the developer.

12 days agoOnly autorebase when there is anything to rebase
Michał Kępień [Thu, 21 May 2026 09:13:30 +0000 (11:13 +0200)] 
Only autorebase when there is anything to rebase

In an optimistic future, security-* branches will become empty, at least
intermittently.  When that happens, there will be nothing left to rebase
on those branches, so when something gets merged into their base
branches, an autorebase will effectively be a fast-forward.  While the
existing autorebase logic would handle such a case perfectly fine, it is
prudent to avoid creating a test pipeline after pushing such a
fast-forward update as the code revision getting pushed will have
already been tested by other pipelines.  However, the push should still
happen as non-empty downstream autorebased branches may exist and those
will still need to be rebased.  Achieve both of these objectives by
checking early whether there is anything to rebase and pushing the
fast-forwarded version of the branch without setting the AUTOREBASE CI
variable if there is not.

12 days agoLimit post-push pipelines for autorebased branches
Michał Kępień [Thu, 21 May 2026 09:13:30 +0000 (11:13 +0200)] 
Limit post-push pipelines for autorebased branches

Current CI job triggering rules cause a full pipeline to be started
after every push to security-* branches.  In this context, "push" means
"branch update", which covers both "git push" invocations and merging a
merge request.  Meanwhile, running a test pipeline is only desired after
a rebase; if a branch is fast-forwarded, it means that a merge request
has been merged into it and a pipeline should have already been run for
that merge request itself.  Limit resource use by only triggering
pipelines for security-* branches when they are pushed to with a "magic"
CI variable that is only set in autorebase jobs.  Leave all the other
triggering rules (for scheduled/manual pipelines) intact.

12 days agoFix autorebase error reporting
Michał Kępień [Thu, 21 May 2026 09:13:30 +0000 (11:13 +0200)] 
Fix autorebase error reporting

The logic used for detecting the commit breaking an autorebase does not
work correctly if the offending commit is not the first one applied
during the "reverse rebase".  Fix by using REBASE_HEAD instead of
processing the output of "git status" in a convoluted way.

Furthermore, the approach used for identifying the first offending merge
request in the case of a successful autorebase followed by a failed
build only works correctly if the base branch is not autorebased itself.
Since a solution that would work correctly for a branch autorebased on
top of a branch that only moves forward does not work correctly for a
branch autorebased on top of another autorebased branch and vice versa,
accurately identifying the most likely culprit after a successful
autorebase is a very complicated and brittle task.  Since reporting no
details at all is arguably better than reporting false details, only
produce a minimal error notification if the build fails after a
successful autorebase.

12 days agoRewrite cherry-pick references during autorebases
Michał Kępień [Thu, 21 May 2026 09:13:30 +0000 (11:13 +0200)] 
Rewrite cherry-pick references during autorebases

Use a custom rebasing script instead of "git rebase" to enable rewriting
cherry-pick references during autorebases.

12 days agonew: ci: Add Fedora 44
Michal Nowak [Thu, 21 May 2026 05:48:11 +0000 (07:48 +0200)] 
new: ci: Add Fedora 44

Merge branch 'mnowak/fedora-44' into 'main'

See merge request isc-projects/bind9!12064

12 days agoAdd Fedora 44 12064/head
Michal Nowak [Thu, 9 Apr 2026 04:52:40 +0000 (06:52 +0200)] 
Add Fedora 44

13 days agofix: test: Make deleg cleanuptests memory assertions 32-bit-safe
Michal Nowak [Wed, 20 May 2026 16:55:34 +0000 (18:55 +0200)] 
fix: test: Make deleg cleanuptests memory assertions 32-bit-safe

Each address entry stored by dns_delegset_addaddr() is an
isc_netaddrlink_t, whose size depends on sizeof(void *) via the
ISC_LINK macro (24 bytes of address + two prev/next pointers): 40
bytes on 64-bit, 32 bytes on 32-bit. The hardcoded 4 MB / 8 MB
ranges only held on 64-bit, so dns_deleg_cleanuptests failed on
armv7l with isc_mem_inuse() returning ~3.2 MB.

Express the expected ranges in terms of sizeof(isc_netaddrlink_t)
so they scale with pointer width, and pull the 99999 entry count
out into a NENTRIES macro.

Close isc-projects/bind9#6012

Merge branch 'mnowak/armv7l-fix-dns_deleg_cleanuptests' into 'main'

See merge request isc-projects/bind9!12061

13 days agoMake deleg cleanuptests memory assertions 32-bit-safe 12061/head
Michal Nowak [Wed, 20 May 2026 08:59:49 +0000 (08:59 +0000)] 
Make deleg cleanuptests memory assertions 32-bit-safe

Each address entry stored by dns_delegset_addaddr() is an
isc_netaddrlink_t, whose size depends on sizeof(void *) via the
ISC_LINK macro (24 bytes of address + two prev/next pointers): 40
bytes on 64-bit, 32 bytes on 32-bit. The hardcoded 4 MB / 8 MB
ranges only held on 64-bit, so dns_deleg_cleanuptests failed on
armv7l with isc_mem_inuse() returning ~3.2 MB.

Express the expected ranges in terms of sizeof(isc_netaddrlink_t)
so they scale with pointer width, and pull the 99999 entry count
out into a NENTRIES macro.

Assisted-by: Claude:claude-opus-4-7
13 days agoMerge tag 'v9.21.22'
Andoni Duarte [Wed, 20 May 2026 10:26:28 +0000 (10:26 +0000)] 
Merge tag 'v9.21.22'

13 days agofix: nil: Properly handle BN_num_bits() return value
Ondřej Surý [Tue, 19 May 2026 19:05:59 +0000 (21:05 +0200)] 
fix: nil: Properly handle BN_num_bits() return value

BN_num_bits() returns 0 on NULL input and a negative value on internal
error.  The error return value is now properly handled.

Merge branch 'ondrej/fix-BN_num_bits-return-value' into 'main'

See merge request isc-projects/bind9!12057

2 weeks agoProperly handle the return value of BN_num_bits() 12057/head
Ondřej Surý [Tue, 19 May 2026 17:16:08 +0000 (19:16 +0200)] 
Properly handle the return value of BN_num_bits()

BN_num_bits() returns 0 when passed NULL and a negative value on
internal error.  The OpenSSL wrappers stored the result in a size_t,
so a 0 return falsely satisfied the bit-length check and a negative
return wrapped to a huge value.  Capture the int return, reject
non-positive values, then compare against the limit.

2 weeks agofix: usr: Reject RRSIG records covering meta-types
Ondřej Surý [Tue, 19 May 2026 13:00:39 +0000 (15:00 +0200)] 
fix: usr: Reject RRSIG records covering meta-types

A recursive resolver could accept and cache an RRSIG record whose
Type-Covered field names a meta-type (ANY, AXFR, IXFR, MAILA, MAILB),
even though no real RRset of those types ever exists. Such records
are now rejected by the DNS message parser.

Closes #6002

Merge branch '6002-reject-rrsig-covering-meta-types' into 'main'

See merge request isc-projects/bind9!12048

2 weeks agoReject malformed RRSIG records
Ondřej Surý [Mon, 18 May 2026 17:27:54 +0000 (19:27 +0200)] 
Reject malformed RRSIG records

A signature cannot cover a meta-type (NONE, ANY, AXFR, IXFR, MAILB,
MAILA, OPT, TSIG, TKEY); previously such records were cached by the
recursive resolver and collided with negative-cache entries on the
same owner name, corrupting the QP-trie cache.

Assisted-by: Claude:claude-opus-4-7
2 weeks agofix: dev: Don't remove corresponding RRSIG in the same loop
Matthijs Mekking [Tue, 19 May 2026 09:48:15 +0000 (09:48 +0000)] 
fix: dev: Don't remove corresponding RRSIG in the same loop

The `dns_db_deleterdataset()` removing the corresponding signature within the iterator is wrong, because it mutates an rdataset that is not the current one.  This has been fixed.

Merge branch 'matthijs-fix-evict-cname-other' into 'main'

See merge request isc-projects/bind9!12047

2 weeks agoDon't remove corresponding RRSIG in the same loop
Matthijs Mekking [Mon, 18 May 2026 15:41:32 +0000 (17:41 +0200)] 
Don't remove corresponding RRSIG in the same loop

The dns_db_deleterdataset() removing the corresponding signature
within the iterator is wrong, because it mutates an rdataset
that is not the current one.

2 weeks agofix: usr: Fix TCP fallback after repeated UDP timeouts
Ondřej Surý [Tue, 19 May 2026 09:19:04 +0000 (11:19 +0200)] 
fix: usr: Fix TCP fallback after repeated UDP timeouts

When an authoritative server failed to respond to two consecutive
UDP queries in a fetch, named was supposed to retry the next attempt
over TCP but in fact still sent it over UDP.  The resolver now
properly switches the transport to TCP on the third attempt to
the same server.

Closes #5529

Merge branch '5529-fix-tcp-fallback-after-udp-timeouts' into 'main'

See merge request isc-projects/bind9!12022

2 weeks agoSkip EDNS UDP-size hint on TCP retries
Ondřej Surý [Sat, 16 May 2026 11:24:53 +0000 (13:24 +0200)] 
Skip EDNS UDP-size hint on TCP retries

The hint feeds the EDNS OPT UDP-size field, which has no effect on TCP
transport.  Avoid the dns_adb_getudpsize() lookup when the query is
already pinned to TCP.

Assisted-by: Claude:claude-opus-4-7
2 weeks agoRaise the per-server recursive-clients ceiling in fetchlimit
Ondřej Surý [Thu, 14 May 2026 16:18:27 +0000 (18:18 +0200)] 
Raise the per-server recursive-clients ceiling in fetchlimit

With the resolver now legitimately escalating to TCP after repeated
UDP timeouts to the same authoritative, each lame-server lookup
takes ~50% longer to fail.  The recursive-client backlog therefore
peaks a little higher before the fetches-per-server auto-tune drops
the quota below 200.

Bump the upper bound for the burst-against-lame-server and recovery
steps from 200 to 250 to absorb that extra latency.  The lower bound
and the final post-recovery target (clients <= 20) are unchanged.

Assisted-by: Claude:claude-opus-4-7
2 weeks agoAdd pytest serve_stale TCP-fallback regression tests
Ondřej Surý [Thu, 14 May 2026 15:10:19 +0000 (17:10 +0200)] 
Add pytest serve_stale TCP-fallback regression tests

The serve_stale shell suite uses a UDP-only perl mock as its
authoritative server.  Now that the resolver escalates to TCP after
repeated UDP timeouts, three steps in serve_stale/tests.sh that
exercise resolver-query-timeout behaviour no longer reach the
timeout — the TCP fallback short-circuits to SERVFAIL via
`connection refused` on the perl mock.

Move those scenarios to a new system test directory
`bin/tests/system/serve_stale_tcp/` that uses a
ControllableAsyncDnsServer mock listening on both UDP and TCP, so
the resolver's TCP path is exercised end-to-end and the original
timing semantics are preserved.  Remove the corresponding shell
steps from serve_stale/tests.sh.

Assisted-by: Claude:claude-opus-4-7
2 weeks agoAllow either UDP or TCP queries in flight in statistics test
Ondřej Surý [Thu, 14 May 2026 11:59:07 +0000 (13:59 +0200)] 
Allow either UDP or TCP queries in flight in statistics test

The "active sockets" and "queries in progress" assertions previously
required exactly one extra UDP/IPv4 socket and exactly one UDP query in
progress, with no TCP counterpart.  That shape held only because the
broken TCP-fallback path left the resolver retrying UDP indefinitely.

With the fix in place, after two UDP timeouts to the same authority the
resolver legitimately escalates to TCP, and a stats snapshot taken
during recursion may catch the in-flight query on either transport.
Count the UDP and TCP counters together so the test reflects the new
correct behaviour.

Assisted-by: Claude:claude-opus-4-7
2 weeks agoTighten serve_stale dig timeouts and inter-step sleeps
Ondřej Surý [Thu, 14 May 2026 11:58:59 +0000 (13:58 +0200)] 
Tighten serve_stale dig timeouts and inter-step sleeps

With the TCP fallback now actually firing after repeated UDP timeouts,
the resolver covers more retry transitions in the same wall-clock
window, and the original 3-second budgets in two steps of the
serve_stale test left no margin: the dig client at +timeout=3 and the
"sleep 3" before re-enabling the upstream both straddled the moment at
which the resolver switched transport, making the asserted outcome
race-prone.

Drop the dig timeout to 2s and the sleep to 1s so each step lands
firmly on one side of the transport switch.

Co-authored-by: Evan Hunt <each@isc.org>
Assisted-by: Claude:claude-opus-4-7
2 weeks agoEmit EDE 22 when the resolver runs out of usable addresses
Ondřej Surý [Thu, 14 May 2026 11:58:49 +0000 (13:58 +0200)] 
Emit EDE 22 when the resolver runs out of usable addresses

Two exits from fctx_try() landed at DNS_R_SERVFAIL without attaching
DNS_EDE_NOREACHABLEAUTH: when fctx_getaddresses() returned a non-success,
non-wait status, and when every candidate addrinfo was unusable
(over-quota or filtered) after a restart.

With the new TCP fallback actually firing, those paths are now reached
by serve-stale and similar scenarios in which the auth is unreachable.
Attach the EDE so SERVFAIL responses keep carrying the same operator
signal that the timeout-based exit paths already produce.

Co-authored-by: Evan Hunt <each@isc.org>
Assisted-by: Claude:claude-opus-4-7
2 weeks agoOpen the stale-refresh-time window on any resolver failure
Ondřej Surý [Thu, 14 May 2026 11:58:39 +0000 (13:58 +0200)] 
Open the stale-refresh-time window on any resolver failure

The TCP-fallback fix in the previous commits means a query that would
previously have timed out on UDP now actually escalates to TCP, and a
TCP-side failure surfaces a non-ISC_R_TIMEDOUT result code to
query_usestale().  The trigger for DNS_DBFIND_STALESTART was previously
narrowed to ISC_R_TIMEDOUT, so the stale-refresh-time window stopped
opening for those clients.

Broaden the condition to any failure that has already cleared the
upstream DUPLICATE/DROP filtering in query_usestale() — the spirit of
the window is "the resolver tried and could not get a fresh answer",
not "the resolver timed out specifically".

Co-authored-by: Evan Hunt <each@isc.org>
Assisted-by: Claude:claude-opus-4-7
2 weeks agoForce TCP after repeated UDP timeouts to the same authoritative
Ondřej Surý [Thu, 14 May 2026 09:19:42 +0000 (11:19 +0200)] 
Force TCP after repeated UDP timeouts to the same authoritative

Make the decision in fctx_query() before the dispatch is bound so the
chosen transport and the DNS_FETCHOPT_TCP flag agree.  The previous
location in resquery_send() ran after the UDP dispatch had already been
attached, so the flag flip had no effect on the wire.

Moving the decision earlier also means FCTX_ADDRINFO_NOEDNS0 servers,
previously exempt, now escalate to TCP too.  TCP works regardless of
EDNS state, so this is the intended behaviour.

Assisted-by: Claude:claude-opus-4-7
2 weeks agoTemporarily remove TCP fallback after UDP timeouts
Ondřej Surý [Thu, 14 May 2026 08:04:20 +0000 (10:04 +0200)] 
Temporarily remove TCP fallback after UDP timeouts

The retry path in resquery_send() that flipped DNS_FETCHOPT_TCP on a
query whose dispatch had already been bound as UDP in fctx_query() had
no effect on the transport actually used, but did leave a stale TCP
bit visible to downstream consumers (dnstap framing, cookie checks,
the AUTHORITY-NS spoofability guard).

The ineffective code has been removed from resquery_send().  The
TCP fallback functionality will be corrected and restored in the next
commit.

Assisted-by: Claude:claude-opus-4-7
2 weeks agochg: usr: named could crash on concurrent TKEY DELETE for the same key
Ondřej Surý [Mon, 18 May 2026 04:48:58 +0000 (06:48 +0200)] 
chg: usr: named could crash on concurrent TKEY DELETE for the same key

On a server configured with tkey-gssapi-keytab (or tkey-gssapi-credential),
an authenticated peer could crash named by sending two TKEY DELETE requests
for the same dynamic key in rapid succession.  This has been fixed.

Closes #6001

Merge branch '6001-tsig-tkey-delete-uaf' into 'main'

See merge request isc-projects/bind9!12041

2 weeks agoFix use-after-free in concurrent dns_tsigkey_delete()
Ondřej Surý [Sun, 17 May 2026 15:01:54 +0000 (17:01 +0200)] 
Fix use-after-free in concurrent dns_tsigkey_delete()

Two TSIG-authenticated TKEY DELETE queries for the same dynamic key,
arriving on different worker loops, could each enter
dns_tsigkey_delete() and cause over-decrementing the key refcount.

This has been fixed by making dns_tsigkey_delete() idempotent.

2 weeks agofix: usr: The resolver now removes other RRsets at the same name when caching a CNAME
Matthijs Mekking [Sun, 17 May 2026 09:56:20 +0000 (09:56 +0000)] 
fix: usr: The resolver now removes other RRsets at the same name when caching a CNAME

When an RRset is in stale cache, and the authoritative server changes the record type to CNAME, the resolver fails to refresh the stale cache. This has been fixed.

Closes #5302

Merge branch '5302-serve-stale-cname-to-a' into 'main'

See merge request isc-projects/bind9!11758

2 weeks agoWhen caching names, check for CNAME RRsets
Matthijs Mekking [Fri, 27 Mar 2026 09:48:21 +0000 (10:48 +0100)] 
When caching names, check for CNAME RRsets

CNAME and other record types cannot coexist. DNSSEC records are the
exceptions to this rule.

If the answer contains a name with a CNAME, remove existing RRsets at
the same name from the cache.

If the answer contains a name without a CNAME, remove the CNAME RRset
at the same name from the cache.

2 weeks agoAdd serve-stale test case for CNAME to A
Matthijs Mekking [Fri, 27 Mar 2026 09:32:48 +0000 (10:32 +0100)] 
Add serve-stale test case for CNAME to A

Add a serve-stale system test case where the authority changes a
CNAME RRset to A (at cname2.stale.test). The CNAME that is in the
cache is stale and should be refreshed. The target A record (at
a2.stale.test) has a longer TTL and is also still in the cache. The
next query should return the refreshed A RRset to the client.

Then the authority changes back the A RRset to CNAME. The A RRset
has become stale and should be refreshed. The next query should
return the refreshed CNAME RRset plus the already cached
a2.stale.test A record.

This test requires ns1 to allow dynamic updates to stale.test, and
prefetch to be disabled. The latter is to ensure the record is not
prefetched, but only refreshed when stale (and logs the expected
"an attempt to refresh the RRset" messages).

2 weeks agoRemove duplicate check in serve-stale test
Matthijs Mekking [Thu, 1 May 2025 09:43:21 +0000 (11:43 +0200)] 
Remove duplicate check in serve-stale test

2 weeks agofix: nil: More changes to PR-Agent CI job
Ondřej Surý [Sat, 16 May 2026 22:04:49 +0000 (00:04 +0200)] 
fix: nil: More changes to PR-Agent CI job

Merge branch 'ondrej/use-claude-opus-4-6' into 'main'

See merge request isc-projects/bind9!12037

2 weeks agoAdd both Claude 4.6 and ChatGPT in two separate job pipelines
Ondřej Surý [Sat, 16 May 2026 16:02:49 +0000 (18:02 +0200)] 
Add both Claude 4.6 and ChatGPT in two separate job pipelines

2 weeks agoAllow failure to not block pipelines for the PR-Agent CI job
Ondřej Surý [Sat, 16 May 2026 15:53:20 +0000 (17:53 +0200)] 
Allow failure to not block pipelines for the PR-Agent CI job

2 weeks agoChange the PR-Agent configuration to use Claude 4.6
Ondřej Surý [Sat, 16 May 2026 13:59:40 +0000 (15:59 +0200)] 
Change the PR-Agent configuration to use Claude 4.6

2 weeks agofix: nil: Properly use other_checks_jobs template for pr-agent CI job
Ondřej Surý [Sat, 16 May 2026 11:29:30 +0000 (13:29 +0200)] 
fix: nil: Properly use other_checks_jobs template for pr-agent CI job

Merge branch 'ondrej/pr-agent-other-check' into 'main'

See merge request isc-projects/bind9!12035

2 weeks agoProperly use other_checks_jobs template for pr-agent CI job
Ondřej Surý [Sat, 16 May 2026 11:22:45 +0000 (13:22 +0200)] 
Properly use other_checks_jobs template for pr-agent CI job

2 weeks agofix: dev: Run PR-Agent only when manually triggered
Ondřej Surý [Sat, 16 May 2026 10:50:19 +0000 (12:50 +0200)] 
fix: dev: Run PR-Agent only when manually triggered

Merge branch 'ondrej/run-pr-agent-only-manually' into 'main'

See merge request isc-projects/bind9!12033

2 weeks agoRun PR-Agent only when manually triggered
Ondřej Surý [Sat, 16 May 2026 10:41:10 +0000 (12:41 +0200)] 
Run PR-Agent only when manually triggered

2 weeks agonew: dev: Enable PR-Agent reviews on merge requests
Ondřej Surý [Sat, 16 May 2026 10:30:01 +0000 (12:30 +0200)] 
new: dev: Enable PR-Agent reviews on merge requests

Adds a CI job that runs PR-Agent against each merge request opened
from the canonical repository, posting an automated review and
code-improvement suggestions as MR comments. The job is gated to
same-project source branches so the OpenAI key and personal access
token are not exposed to fork pipelines.

Merge branch 'ondrej/add-pr-agent' into 'main'

See merge request isc-projects/bind9!12032

2 weeks agoAdd PR-Agent job to GitLab CI for merge-request review
Ondřej Surý [Sat, 16 May 2026 06:23:50 +0000 (08:23 +0200)] 
Add PR-Agent job to GitLab CI for merge-request review

Run PR-Agent's `review` and `improve` commands against each merge
request from the canonical repository, posting an automated review
and code-improvement suggestions as MR comments. The rule restricts
the job to MRs whose source project matches CI_PROJECT_PATH so the
OpenAI key and GitLab personal access token are never exposed to
fork pipelines.

2 weeks agochg: dev: Allow any valid DNS name as a TSIG/RNDC key name
Ondřej Surý [Fri, 15 May 2026 09:00:31 +0000 (11:00 +0200)] 
chg: dev: Allow any valid DNS name as a TSIG/RNDC key name

The key-generation tools (tsig-keygen, rndc-confgen) now accept any valid DNS name for key names.

Merge branch 'ondrej/allow-all-valid-keynames' into 'main'

See merge request isc-projects/bind9!12029

2 weeks agoAllow any valid DNS name as a key name
Ondřej Surý [Fri, 15 May 2026 08:08:46 +0000 (10:08 +0200)] 
Allow any valid DNS name as a key name

TSIG key names need to be any valid DNS name so that update-policy
"self" rules work with arbitrary names.  Replace the
alnum+'.'+'-'+'_' charset filter in the key-generation tools with a
dns_name_fromstring() validity check.

2 weeks agochg: dev: Use SipHash-1-3 for hash tables, keep SipHash-2-4 for cookies
Ondřej Surý [Fri, 15 May 2026 07:33:09 +0000 (09:33 +0200)] 
chg: dev: Use SipHash-1-3 for hash tables, keep SipHash-2-4 for cookies

SipHash-2-4 was designed as a conservative PRF/MAC with extra rounds
against future attacks.  For hash tables, where outputs are never
exposed, SipHash-1-3 provides sufficient collision resistance with
fewer rounds.  As the SipHash author noted: "I would be very surprised
if SipHash-1-3 introduced weaknesses for hash tables."

DNS cookies continue to use SipHash-2-4 since cookie values are sent
on the wire and must resist online attacks.

Merge branch 'ondrej/siphash-1-3' into 'main'

See merge request isc-projects/bind9!11787

2 weeks agoUse SipHash-1-3 for hash tables, keep SipHash-2-4 for cookies
Ondřej Surý [Thu, 2 Apr 2026 06:52:14 +0000 (08:52 +0200)] 
Use SipHash-1-3 for hash tables, keep SipHash-2-4 for cookies

SipHash-2-4 was designed as a conservative PRF/MAC with extra rounds
against future attacks.  For hash tables, where outputs are never
exposed, SipHash-1-3 provides sufficient collision resistance with
fewer rounds.  As the SipHash author noted: "I would be very surprised
if SipHash-1-3 introduced weaknesses for hash tables."

DNS cookies continue to use SipHash-2-4 since cookie values are sent
on the wire and must resist online attacks.

2 weeks agofix: test: Fix flaky reclimit test
Ondřej Surý [Fri, 15 May 2026 06:03:16 +0000 (08:03 +0200)] 
fix: test: Fix flaky reclimit test

The max-types-per-name cache eviction tests were flaky because two test steps were missing a sleep between queries, causing TTL-based cache verification to fail when both queries completed within the same second.

Merge branch 'ondrej/fix-flaky-reclimit' into 'main'

See merge request isc-projects/bind9!11782

2 weeks agoFix flaky reclimit test by adding missing sleep
Ondřej Surý [Wed, 1 Apr 2026 17:19:50 +0000 (19:19 +0200)] 
Fix flaky reclimit test by adding missing sleep

The cache verification in steps 11 and 15 checks that the TTL has
decreased from its initial value to confirm the response was served
from cache, but the sleep between the two queries was missing. Both
queries could complete within the same second, leaving the TTL
unchanged and causing the test to incorrectly conclude the entry was
not cached.

2 weeks agochg: dev: Skip in-domain nameservers that have no glue
Ondřej Surý [Fri, 15 May 2026 05:48:26 +0000 (07:48 +0200)] 
chg: dev: Skip in-domain nameservers that have no glue

A referral that names a nameserver inside the delegated zone but
provides no address for it leaves the resolver unable to reach that
server. named now logs "missing mandatory glue for <name>" at notice
level and skips the nameserver.

Merge branch 'ondrej/dont-store-missing-in-domain-glue-ns' into 'main'

See merge request isc-projects/bind9!11971

2 weeks agoDrop in-domain NS without glue from the delegation set
Ondřej Surý [Wed, 6 May 2026 10:37:03 +0000 (12:37 +0200)] 
Drop in-domain NS without glue from the delegation set

Pull the dns_message_findname() lookups into cache_delegglue() and
cache_delegglue6() so each helper now owns its glue lookup and returns
the number of addresses cached.  cache_delegns() splits referrals into
two cases: in-domain (the NS name is below the delegation point) and
sibling/in-bailiwick.

An in-domain NS without glue is unresolvable by definition - the
resolver would have to ask the very server it's trying to find.  Log
"missing mandatory glue" at notice level and skip the deleg entirely
rather than leaving an unusable entry in the set.  A new
dns_delegset_freedeleg() undoes a fresh dns_delegset_allocdeleg() so
the rest of the delegation set is preserved.

2 weeks agochg: usr: Fall back to TCP on a UDP response with a mismatched query id
Ondřej Surý [Fri, 15 May 2026 04:57:00 +0000 (06:57 +0200)] 
chg: usr: Fall back to TCP on a UDP response with a mismatched query id

BIND used to wait silently for the correct DNS message id on a UDP fetch
even after receiving a response from the expected server with the wrong
id, leaving room for off-path spoofing attempts to keep guessing within
that window.  The resolver now retries the fetch over TCP on the first
such response, and a new MismatchTCP statistics counter tracks how
often the fallback fires.

Closes #5449

Merge branch '5449-immediate-tcp-fallback-on-id-mismatch' into 'main'

See merge request isc-projects/bind9!12023

2 weeks agoSwitch UDP fetches to TCP on the first response with a wrong query id
Ondřej Surý [Thu, 14 May 2026 10:20:19 +0000 (12:20 +0200)] 
Switch UDP fetches to TCP on the first response with a wrong query id

Until now, the dispatcher silently dropped UDP responses from the
expected peer that carried the wrong DNS message id and kept listening
for the correct id to arrive within the read timeout.  An off-path
attacker who knows the destination address and source port of an
outgoing fetch could exploit that quiet retry window to flood the
resolver with guessed responses; with a gigabit link the per-query
success probability grows linearly with the number of guesses that
arrive before the legitimate answer or the timeout.

Treat any such mismatch as a possible spoofing attempt and let the
resolver immediately retry the same query over TCP, the same control
path the truncation handler already uses.

Add a resolver statistics counter - exposed as 'queries retried over TCP
after a response with mismatched query id' in rndc stats and
'MismatchTCP' in the statistics channel

Assisted-by: Claude:claude-opus-4-7
2 weeks agofix: dev: Fix data race during rndc dumpdb or zone load
Ondřej Surý [Thu, 14 May 2026 06:52:58 +0000 (08:52 +0200)] 
fix: dev: Fix data race during rndc dumpdb or zone load

'rndc dumpdb' against a server with zones, and async zone load,
had a timing window where the operation's completion could fire
before the server had finished registering the operation,
occasionally leading to a possible crash.  The completion is now
delivered after the registration is in place.

Closes #5952

Merge branch '5952-fix-masterdump-async-ctx-race' into 'main'

See merge request isc-projects/bind9!11991

2 weeks agoFix data race in async master dump/load context publication
Ondřej Surý [Fri, 8 May 2026 05:46:03 +0000 (07:46 +0200)] 
Fix data race in async master dump/load context publication

Bouncing the offload itself to the target loop let the after-work
callback fire on the target thread and run the user's done callback
before the calling thread had published *dctxp / *lctxp.  Enqueue on
the calling loop and bounce only the done callback instead, so the
publish is sequenced before the cross-thread hand-off by construction
and cannot be reintroduced by reordering the entry-point body.

2 weeks agofix: usr: Disable output escaping in bind9.xsl
Mark Andrews [Thu, 14 May 2026 02:06:41 +0000 (12:06 +1000)] 
fix: usr: Disable output escaping in bind9.xsl

The statistics charts where not displaying on some browsers.
This has been fixed.

Closes #5990

Merge branch '5990-disable-output-escaping-in-bind9-xsl' into 'main'

See merge request isc-projects/bind9!12018

2 weeks agoDisable output escaping in bind9.xsl
Mark Andrews [Thu, 14 May 2026 00:00:21 +0000 (10:00 +1000)] 
Disable output escaping in bind9.xsl

The statistics charts where not displaying on some browsers (e.g. Chrome)
due to '>' being escaped as '&gt;'.  Use disable-output-escaping="yes" to
turn this off.

2 weeks agofix: test: Fix cyclic glues (again)
Colin Vidal [Wed, 13 May 2026 20:31:32 +0000 (22:31 +0200)] 
fix: test: Fix cyclic glues (again)

Previous fix `ed90d578b3a98f45eb8bc09966e9c4ab870a156d` uses
`wait_for_line()` by mistake, and the test aims to wait for two log
lines to be printed before continuing.

In principle, `wait_for_all()` should do, but `running` should always be
printed first, so `wait_for_sequence()` seems to be the right fit here.

Merge branch 'colin/fix-cyclic-glues-again' into 'main'

See merge request isc-projects/bind9!12013

2 weeks agoFix cyclic glues (again)
Colin Vidal [Wed, 13 May 2026 13:20:35 +0000 (15:20 +0200)] 
Fix cyclic glues (again)

Previous fix `ed90d578b3a98f45eb8bc09966e9c4ab870a156d` uses
`wait_for_line()` by mistake as the test aims to wait for two log lines
to be printed before continuing (and not continuing as soon as one of
them is printed).

Instead, `wait_for_all()` is used since the order between the two
expected log line is not guaranteed.

2 weeks agofix: ci: Don't forward parent yaml variables to stress child pipelines
Michal Nowak [Wed, 13 May 2026 16:41:42 +0000 (18:41 +0200)] 
fix: ci: Don't forward parent yaml variables to stress child pipelines

The global RUNNER_SCRIPT_TIMEOUT: 55m in the parent pipeline was being
forwarded to the stress and tsan:stress child pipelines, where forwarded
yaml variables outrank job-level variables. That caused stress jobs with
BIND_STRESS_TESTS_RUN_TIME >= 60 to be killed at 55 minutes, regardless
of the per-job RUNNER_SCRIPT_TIMEOUT set in the generated child config.

Set forward:yaml_variables: false on both trigger jobs; the generated
configs already declare every variable they need.

Assisted-by: Claude:claude-opus-4-7
Merge branch 'mnowak/fix-stress-test-script-timeout' into 'main'

See merge request isc-projects/bind9!12012

2 weeks agoSelectively inherit yaml vars in stress trigger jobs
Michal Nowak [Wed, 13 May 2026 09:44:26 +0000 (11:44 +0200)] 
Selectively inherit yaml vars in stress trigger jobs

The parent's global RUNNER_SCRIPT_TIMEOUT: 55m was reaching the stress
and tsan:stress child pipelines via inherited yaml variables, where
inherited values outrank the child's job-level variables. That caused
stress jobs with BIND_STRESS_TESTS_RUN_TIME >= 60 to be killed at 55
minutes, regardless of the per-job RUNNER_SCRIPT_TIMEOUT set in the
generated child config.

Use inherit:variables with a positive list on both trigger jobs:
inherit only CI_REGISTRY_IMAGE so the parent's registry override
(needed for image pulls in the child) flows through, while keeping
RUNNER_SCRIPT_TIMEOUT (and other globals) out of the child pipeline's
variable scope. The per-job RUNNER_SCRIPT_TIMEOUT values set by the
generated child config now take effect.

Assisted-by: Claude:claude-opus-4-7
3 weeks agochg: ci: Set RUNNER_SCRIPT_TIMEOUTs
Michal Nowak [Tue, 12 May 2026 16:04:29 +0000 (18:04 +0200)] 
chg: ci: Set RUNNER_SCRIPT_TIMEOUTs

Merge branch 'mnowak/set-script-timeouts' into 'main'

See merge request isc-projects/bind9!11750

3 weeks agoGet some useful data out of respdiff even in case of a failure
Michal Nowak [Mon, 11 May 2026 17:20:23 +0000 (19:20 +0200)] 
Get some useful data out of respdiff even in case of a failure

Assisted-by: Claude:claude-opus-4-7
3 weeks agoPass -r option to respdiff.sh
Michal Nowak [Mon, 11 May 2026 17:19:53 +0000 (19:19 +0200)] 
Pass -r option to respdiff.sh

Tell respdiff.sh where to find the respdiff Python tools (msgdiff.py,
diffsum.py, ...) so the in-tree copy from bind9-qa is used.

Assisted-by: Claude:claude-opus-4-7
3 weeks agoSet RUNNER_SCRIPT_TIMEOUTs
Michal Nowak [Wed, 25 Mar 2026 12:31:49 +0000 (13:31 +0100)] 
Set RUNNER_SCRIPT_TIMEOUTs

Sometimes jobs can get stuck and be terminated by GitLab, leaving us
without artefacts that could contain useful information about why the
job got stuck.

Assisted-by: Claude:claude-opus-4-7
3 weeks agofix: test: Fix cyclic_glue system test
Colin Vidal [Tue, 12 May 2026 14:42:43 +0000 (16:42 +0200)] 
fix: test: Fix cyclic_glue system test

The cyclic_glue system test was waiting for `running` log after
an `rndc reload` command, but wasn't waiting for the log saying a
specific zone which changed has been reloaded `zone <zone>/IN: loaded`.

As a result, the test could randomly fails. This is now fixed.

Closes #5953

Merge branch '5953-fix-cyclic-glue-test' into 'main'

See merge request isc-projects/bind9!12003

3 weeks agoFix cyclic_glue system test
Colin Vidal [Tue, 12 May 2026 12:42:35 +0000 (14:42 +0200)] 
Fix cyclic_glue system test

The cyclic_glue system test was waiting for `running` log after
an `rndc reload` command, but wasn't waiting for the log saying a
specific zone which changed has been reloaded `zone <zone>/IN: loaded`.

As a result, the test could randomly fails. This is now fixed.

3 weeks agochg: usr: Cap glue records cached from a referral
Ondřej Surý [Tue, 12 May 2026 14:17:59 +0000 (16:17 +0200)] 
chg: usr: Cap glue records cached from a referral

named cached every glue record from a referral, retaining far more
than resolution will ever use.  The number of nameservers and
addresses kept per referral is now bounded in the delegation database.

Closes #5701

Merge branch '5701-limit-the-number-of-GLUE-records' into 'main'

See merge request isc-projects/bind9!11970

3 weeks agoCap glue records cached from a referral
Ondřej Surý [Wed, 6 May 2026 10:35:22 +0000 (12:35 +0200)] 
Cap glue records cached from a referral

The resolver populated the delegation database with every NS RR and
every glue address from a referral, with no aggregate bound.  Resolution
only ever uses the first max-delegation-servers NS owners and a handful
of addresses per NS, so anything beyond that is dead memory.

Stop the NS loop in cache_delegns() at view->max_delegation_servers and
cap each glue rdataset at DELEG_MAX_GLUES_PER_NS (20) addresses, so each
NS owner contributes at most 20 A and 20 AAAA glues.

3 weeks agonew: ci: Add Ubuntu 26.04 Resolute Raccoon
Michal Nowak [Mon, 11 May 2026 16:36:17 +0000 (18:36 +0200)] 
new: ci: Add Ubuntu 26.04 Resolute Raccoon

Merge branch 'mnowak/ubuntu-26.04-resolute-raccoon' into 'main'

See merge request isc-projects/bind9!11812

3 weeks agoDo not run Noble Numbat unit test job in MRs
Michal Nowak [Tue, 7 Apr 2026 15:57:45 +0000 (17:57 +0200)] 
Do not run Noble Numbat unit test job in MRs

3 weeks agoAdd Ubuntu 26.04 Resolute Raccoon
Michal Nowak [Tue, 7 Apr 2026 15:55:31 +0000 (17:55 +0200)] 
Add Ubuntu 26.04 Resolute Raccoon

3 weeks agochg: ci: Add commit link and diff to RPM build job logs
Michał Kępień [Mon, 11 May 2026 15:43:55 +0000 (17:43 +0200)] 
chg: ci: Add commit link and diff to RPM build job logs

The output of update_rpms.py is terse, making it difficult to verify its
actions.  Add a commit link and "git show" output to the log of every CI
job running the update_rpms.py script in "build" mode to facilitate
double-checking its actions.

Merge branch 'michal/add-commit-link-and-diff-to-rpm-build-job-logs' into 'main'

See merge request isc-projects/bind9!11828