]> git.ipfire.org Git - thirdparty/coreutils.git/log
thirdparty/coreutils.git
2 weeks agoshred: don't block when opening FIFOs with no readers
Collin Funk [Sat, 9 May 2026 22:43:39 +0000 (15:43 -0700)] 
shred: don't block when opening FIFOs with no readers

* NEWS: Mention the bug fix.
* src/shred.c (wipefile): Open the file with O_NONBLOCK.
* tests/shred/fifo.sh: New file.
* tests/local.mk (all_tests): Add the new test.

2 weeks agodoc: help2man: preserve layout of tables
Pádraig Brady [Fri, 8 May 2026 18:39:00 +0000 (19:39 +0100)] 
doc: help2man: preserve layout of tables

This is useful in many man pages like date , dd, od, tr, ...
where there are tables presented, where extraneous lines
between each entry are best avoided.

* man/help2man: Use .PD 0 (Paragraph Distance)
to avoid extraneous blank lines within .TP delineated tables.
Also use explicit widths with .TP in such tables,
to preserve the alignment from the --help output.

2 weeks agodoc: date: group format sequences by function
Pádraig Brady [Sat, 9 May 2026 16:46:48 +0000 (17:46 +0100)] 
doc: date: group format sequences by function

* src/date.c (usage): Grouping alphabetically is less useful.
Suggested by Bruno Haible.

2 weeks agodoc: date: show examples for format sequences in --help
Pádraig Brady [Thu, 7 May 2026 20:08:21 +0000 (21:08 +0100)] 
doc: date: show examples for format sequences in --help

* src/date.c (usage): Show example to aid scanning
of format sequences.

2 weeks agoshuf: prefer fwrite over fputs and fputc
Collin Funk [Thu, 7 May 2026 03:39:20 +0000 (20:39 -0700)] 
shuf: prefer fwrite over fputs and fputc

On an AMD Ryzen 7 3700X running GNU/Linux:

    $ timeout 30 taskset 1 ./src/shuf-prev \
        -r -i 1000000-1000000 | pv -r > /dev/null
    [ 302MiB/s]
    $ timeout 30 taskset 1 ./src/shuf \
        -r -i 1000000-1000000 | pv -r > /dev/null
    [ 434MiB/s]

* src/shuf.c (print_number): New function.
(write_permuted_numbers, write_random_numbers): Use it.
* tests/shuf/shuf.sh: Add a test case to run 'shuf -i' with varying
numbers of digits to check that the string conversion is correct.

2 weeks agotests: head: test 'head -n 0' and 'head -c 0' open files for reading
Collin Funk [Wed, 6 May 2026 04:24:29 +0000 (21:24 -0700)] 
tests: head: test 'head -n 0' and 'head -c 0' open files for reading

* tests/head/head-n0.sh: New file.
* tests/local.mk: Add the new test case.

2 weeks agotests: ls: verify correct alignment with ACLs
Sylvestre Ledru [Sun, 12 Apr 2026 20:18:13 +0000 (22:18 +0200)] 
tests: ls: verify correct alignment with ACLs

* tests/ls/acl.sh: Check that the gap between the '+' indicator and
the link count is the same whether the listing contains one or
several ACL entries.
https://github.com/coreutils/coreutils/pull/251

2 weeks agols: exclude newline from consideration in line width
Pádraig Brady [Mon, 4 May 2026 14:34:32 +0000 (15:34 +0100)] 
ls: exclude newline from consideration in line width

* src/ls.c (calculate_columns): Treat width as inclusive max.
(print_with_separator): Likewise.  Also handle commas explicitly,
since they're not catered for by an implicit newline in the count.
* tests/ls/w-option.sh: Adjust exact-fit column tests.
Note this change also makes the existing `ls -w4 -x -T0 a b` test
behave consistently with other output width limits.
Also add the test case from:
https://github.com/coreutils/coreutils/pull/213
* tests/ls/m-option.sh: Add a test case to ensure appropriate
wrapping when trailing comma at the line limit.
* NEWS: Mention the change in behavior.

2 weeks agols: fix too few display columns edge case
Pádraig Brady [Mon, 4 May 2026 14:34:01 +0000 (15:34 +0100)] 
ls: fix too few display columns edge case

In the edge case where the right most column would
consist of only files taking 1 or 2 cells, we accounted
for 3 cells, which would result in using 1 column too few.
This should have been part of commit v8.24-59-ge71be1292

* src/ls.c (init_column_info): Don't account for separator
in the the final column.
* tests/ls/w-option.sh: Add a test case.

2 weeks agotests: fix false failure with spaces in hierarchy
Pádraig Brady [Mon, 4 May 2026 22:18:52 +0000 (23:18 +0100)] 
tests: fix false failure with spaces in hierarchy

* tests/sort/sort-buffer-size.sh: Use `pwd` rather than $PWD,
and quote appropriately.
Reported by Bruno Haible.

3 weeks agotests: tee: ensure tee is non buffered
Pádraig Brady [Sun, 3 May 2026 10:28:19 +0000 (11:28 +0100)] 
tests: tee: ensure tee is non buffered

* tests/tee/tee.sh: tests/misc/responsive.sh only confirms
responsiveness to lines, so add a test for non line terminated.
https://github.com/coreutils/coreutils/pull/259

3 weeks agodoc: fix typo in chmod example
Pádraig Brady [Sun, 3 May 2026 09:39:45 +0000 (10:39 +0100)] 
doc: fix typo in chmod example

* doc/coreutils.texi (chmod invocation): s/file/foo/ to match comment,
and previous example.

3 weeks agotests: all: ensure closed stdin is handled appropriately
Collin Funk [Sat, 2 May 2026 18:44:04 +0000 (11:44 -0700)] 
tests: all: ensure closed stdin is handled appropriately

* tests/misc/close-stdin.sh: New file.
* tests/local.mk (all_tests): Add the new test.

3 weeks agodoc: reference detailed "numeric mode" info from chmod.1
Pádraig Brady [Fri, 1 May 2026 17:48:39 +0000 (18:48 +0100)] 
doc: reference detailed "numeric mode" info from chmod.1

Note were links are not supported (like on Solaris or FreeBSD),
the text still displays normally.

* man/chmod.x: Link from "numeric mode" in chmod man page,
to more detailed online info.

3 weeks agobuild: fix compilation error on Alpine Linux and OpenBSD
Pádraig Brady [Fri, 1 May 2026 12:48:39 +0000 (13:48 +0100)] 
build: fix compilation error on Alpine Linux and OpenBSD

* gl/lib/mbbuf.h: Define MBBUF_EOF in terms of MCEL_CHAR_MAX,
rather than depending on the stdint module.
Reported by Bruno Haible.

3 weeks agosum,cksum: consistently emit detailed write errors
Collin Funk [Fri, 1 May 2026 00:59:38 +0000 (17:59 -0700)] 
sum,cksum: consistently emit detailed write errors

Previously the string from strerror would only be printed for some
algorithms:

    $ cksum -a sha2 -l 256 /dev/null > /dev/full
    cksum: write error: No space left on device
    $ cksum -a sysv /dev/null > /dev/full
    cksum: write error

This patch fixes it so that the error information is always printed:

    $ ./src/cksum -a sha2 -l 256 /dev/null > /dev/full
    cksum: write error: No space left on device
    $ ./src/cksum -a sysv /dev/null > /dev/full
    cksum: write error: No space left on device

* src/cksum.c (output_file): Don't check for a write error here.
(main): Check for it here instead.
* tests/misc/io-errors.sh: Add a 'cksum' invocation for each supported
algorithm.
https://github.com/coreutils/coreutils/issues/258

3 weeks agotest: adjust -g description in --help
Max Downey Twiss [Thu, 30 Apr 2026 12:27:01 +0000 (22:27 +1000)] 
test: adjust -g description in --help

This matches the manual, as well as the -u option,
and should help reduce confusion.

* src/test.c (usage): Fix -g documentation to match the structure of -u

3 weeks agounexpand: fix heap overflow
Pádraig Brady [Tue, 28 Apr 2026 19:33:10 +0000 (20:33 +0100)] 
unexpand: fix heap overflow

* src/unexpand.c (unexpand): Use xinmalloc() to gracefully
handle overflow.  Also use the runtime locale specific MB_CUR_MAX
rather than the worst case MB_LEN_MAX.
* tests/unexpand/mb.sh: Add a test case that fails in a default
glibc build with either MB_CUR_MAX or MB_LEN_MAX.
* NEWS: Mention the bug fix.
Reported by Michał Majchrowicz.

3 weeks agounexpand: consolidate error messages
Pádraig Brady [Wed, 29 Apr 2026 10:11:36 +0000 (11:11 +0100)] 
unexpand: consolidate error messages

* src/unexpand.c (main): Use the same error
as in parse_tab_stops().

3 weeks agocut: use MCEL_LEN_MAX rather than MB_LEN_MAX
Pádraig Brady [Wed, 29 Apr 2026 10:48:15 +0000 (11:48 +0100)] 
cut: use MCEL_LEN_MAX rather than MB_LEN_MAX

* src/cut.c: We use the mcel interface to populate these arrays,
so restrict to the mcel supported max.  This is more efficient
as generally stateful encodings are not used or supported.

3 weeks agosort: use more dynamic memory allocation with pipes
Pádraig Brady [Mon, 27 Apr 2026 14:48:30 +0000 (15:48 +0100)] 
sort: use more dynamic memory allocation with pipes

The default memory allocation with pipes was too passive/static,
resulting in not allocating enough memory to enable threading.
By dynamically reallocating the buffer when reading from
unknown sized inputs we better use available memory and threads.

  $ time seq 10000000 -1 0 | sort-old >/dev/null
  real 0m16.523s
  user 0m16.900s
  sys 0m0.167s

  $ time seq 10000000 -1 0 | sort-old -S1G >/dev/null
  real 0m12.263s
  user 0m29.646s
  sys 0m0.527s

  $ time seq 10000000 -1 0 | sort-new >/dev/null
  real 0m12.994s
  user 0m31.266s
  sys 0m0.716s

It also avoids the overhead of writing to temp files
for modestly sized inputs. For example the following
input would induce interaction with temp storage:

  $ seq 125000 | wc -c
  763895

* src/sort.c (sort_buffer_size): Rename to ...
(sort_buffer_policy): ... here, and adjust to set
an initial size and limit, rather than just a size.
(fillbuf): Add a POLICY parameter, and use that
to call maybe_growbuf() as needed.
(maybe_growbuf): Return true if POLICY dictates we
should grow the buffer, and try_growbuf() was
able to reallocate the larger buffer.
* tests/sort/sort-buffer-size.sh: Add a new test.
* tests/local.mk: Reference new test.
* NEWS: Mention the improvement.
Related to https://bugs.gnu.org/10877

3 weeks agopinky: don't print output in the wrong order when fully buffered
Collin Funk [Wed, 29 Apr 2026 01:28:25 +0000 (18:28 -0700)] 
pinky: don't print output in the wrong order when fully buffered

* NEWS: Mention the bug fix.
* src/pinky.c (cat_file): Prefer streams to file descriptors when
writing to standard output.

3 weeks agouniq: fix read overrun with -w
Paul Eggert [Tue, 28 Apr 2026 18:25:00 +0000 (11:25 -0700)] 
uniq: fix read overrun with -w

Problem reported by Michał Majchrowicz.
* src/uniq.c (find_field): Fix typo.
* tests/uniq/uniq.pl (add_z_variants): Test for the bug.

3 weeks agotests: avoid false failure with perl-IO-Tty >= 1.24
Pádraig Brady [Mon, 27 Apr 2026 10:14:51 +0000 (11:14 +0100)] 
tests: avoid false failure with perl-IO-Tty >= 1.24

* tests/misc/tty-eof.pl: https://bugzilla.redhat.com/2463168

4 weeks agobuild: remove USE_NLS
Paul Eggert [Sun, 26 Apr 2026 15:05:09 +0000 (08:05 -0700)] 
build: remove USE_NLS

* configure.ac (USE_NLS): Remove.  The need for this went away
in commit 1d58e4ddab548f574210da57ca44890a73efe9f8 dated
2025-11-20 10:43:06 2025 +0000.

4 weeks agodoc: apply man page formatting suggestions from manpage-l10n
Pádraig Brady [Sat, 25 Apr 2026 18:01:53 +0000 (19:01 +0100)] 
doc: apply man page formatting suggestions from manpage-l10n

* src/basenc.c: Add (1) to base64 and base32 references.
* src/cksum.c. Likewise for cksum references.
* src/echo.c: Use "bell" in descriptions rather than BEL.
* src/printf.c: Likewise.
* src/id.c: Separate -u,-U,-G so marked up appropriately.
Fixes https://bugs.gnu.org/80904

4 weeks agotests: all: ensure closed stdout is handled appropriately
Pádraig Brady [Sat, 25 Apr 2026 15:16:49 +0000 (16:16 +0100)] 
tests: all: ensure closed stdout is handled appropriately

* tests/misc/io-errors.sh: Add a check to ensure we diagose
writing to closed stdout.  Also ensure we exit with failure
in other cases.
* tests/misc/write-errors.sh: Likewise.

4 weeks agodoc: remove redundant "Report translation bugs to" in --help
Bruno Haible [Fri, 24 Apr 2026 13:36:51 +0000 (15:36 +0200)] 
doc: remove redundant "Report translation bugs to" in --help

* configure.ac: Define PACKAGE_L10N_BUGREPORT.
* man/local.mk (run_help2man): Set the IN_HELP2MAN environment variable.
* src/system.h (emit_ancillary_info): Don't emit "Report any translation
bugs to" line; this is already done by emit_bug_reporting_address() in
version-etc.c.
Fixes https://bugs.gnu.org/80886

4 weeks agobuild: update gnulib to latest
Pádraig Brady [Sat, 25 Apr 2026 11:14:20 +0000 (12:14 +0100)] 
build: update gnulib to latest

* gl/lib/mbbuf.h: Explicitly include string.h
needed since gnulib commit b6d5b2f72

4 weeks agotests: tail: avoid a rare false failure
Pádraig Brady [Fri, 24 Apr 2026 13:16:45 +0000 (14:16 +0100)] 
tests: tail: avoid a rare false failure

I noticed a single failure on cfarm29 (Linux 6.12 ppc64le),
where the output was missing:
-tail: directory containing watched file was removed
-tail: inotify cannot be used, reverting to polling
-tail: 'dir/file' has appeared;  following new file

* tests/tail/inotify-dir-recreate.sh: Leverage the new tail --debug
output to sync to a point where we know the inotify watches are in
place.  Also normalize the file argument quoting a bit.

4 weeks agodd: avoid recursive parsing of multipliers
Pádraig Brady [Thu, 23 Apr 2026 12:17:37 +0000 (13:17 +0100)] 
dd: avoid recursive parsing of multipliers

* src/dd.c (parse_integer): Use iterative rather than recursive parsing,
to avoid potential stack overflow.
* tests/dd/bytes.sh: Add a test case.
https://github.com/coreutils/coreutils/issues/254

4 weeks agocomm: don't close standard input twice
Collin Funk [Wed, 22 Apr 2026 03:10:55 +0000 (20:10 -0700)] 
comm: don't close standard input twice

* NEWS: Mention the bug fix.
* src/comm.c (usage): Remove mention that FILE1 and FILE2 cannot both be
standard input.
(compare_files): Only close standard input once.
* doc/coreutils.texi (comm invocation): Document the behavior of
'comm - -' which is not portable to all implementations.
* tests/comm/dash-dash.sh: New file.
* tests/misc/comm.pl: Move to tests/comm/comm.pl.
* tests/local.mk (all_tests): Add the new test. Rename the existing
test.

4 weeks agomaint: post-release administrivia
Pádraig Brady [Mon, 20 Apr 2026 13:17:01 +0000 (14:17 +0100)] 
maint: post-release administrivia

* NEWS: Add header line for next release.
* .prev-version: Record previous version.
* cfg.mk (old_NEWS_hash): Auto-update.

4 weeks agoversion 9.11 v9.11
Pádraig Brady [Mon, 20 Apr 2026 12:41:57 +0000 (13:41 +0100)] 
version 9.11

* NEWS: Record release date.

5 weeks agodoc: NEWS item for who systemd fix
Paul Eggert [Sun, 19 Apr 2026 18:50:19 +0000 (11:50 -0700)] 
doc: NEWS item for who systemd fix

5 weeks agobuild: update gnulib submodule to latest
Paul Eggert [Sun, 19 Apr 2026 18:13:50 +0000 (11:13 -0700)] 
build: update gnulib submodule to latest

5 weeks agoyes: make operation independent of pipe size
Pádraig Brady [Fri, 17 Apr 2026 13:36:26 +0000 (14:36 +0100)] 
yes: make operation independent of pipe size

* src/yes.c (splice_write): Always drain what we've written
to an internal pipe, so there is no possibility of vmsplice() blocking.
I.e., be defensive in the case that fcntl() fails, and
our default buffer size (currently 16kiB) is larger than the pipe.
https://github.com/coreutils/coreutils/issues/253

5 weeks agotests: reinstate logname error verification
Bruno Haible [Fri, 17 Apr 2026 13:46:19 +0000 (15:46 +0200)] 
tests: reinstate logname error verification

* tests/misc/user.sh: Modify the "unshare -U logname" test, so that it
does not fail on glibc versions (< 2.28, >= 2.38) that do a fallback
lookup based on the tty.

5 weeks agotests: fix false failure with dash
Pádraig Brady [Fri, 17 Apr 2026 12:17:56 +0000 (13:17 +0100)] 
tests: fix false failure with dash

* tests/date/date-locale-hour.sh: Just strip the char before the last x,
assuming it's going to be the newline output by `locale`.
dash doesn't support $'' within ${}.

5 weeks agobuild: update gnulib submodule to latest
Collin Funk [Fri, 17 Apr 2026 05:25:36 +0000 (22:25 -0700)] 
build: update gnulib submodule to latest

5 weeks agotests: Avoid accidental matching of the vendor field of $host, part 2
Collin Funk [Fri, 17 Apr 2026 04:07:26 +0000 (21:07 -0700)] 
tests: Avoid accidental matching of the vendor field of $host, part 2

* tests/local.mk (TESTS_ENVIRONMENT): Remove host_triplet.
* tests/chgrp/basic.sh: Use $host_os instead of $host_triplet.
* tests/misc/io-errors.sh: Likewise.

5 weeks agotests: mktemp: test the behavior when writing to standard output fails
Collin Funk [Thu, 16 Apr 2026 02:40:17 +0000 (19:40 -0700)] 
tests: mktemp: test the behavior when writing to standard output fails

* tests/mktemp/write-error.sh: New file.
* tests/local.mk (all_tests): Add the test.

5 weeks agobuild: update gnulib to latest
Pádraig Brady [Thu, 16 Apr 2026 21:22:41 +0000 (22:22 +0100)] 
build: update gnulib to latest

5 weeks agotests: avoid a failure on musl
Collin Funk [Thu, 9 Apr 2026 01:57:54 +0000 (18:57 -0700)] 
tests: avoid a failure on musl

* tests/misc/io-errors.sh: Allow a generic error string on musl since
the first line is emitted immediately instead of being buffered as
expected.
Reported by Bruno Haible.

5 weeks agobuild: fix build failure on AIX
Pádraig Brady [Thu, 16 Apr 2026 21:02:03 +0000 (22:02 +0100)] 
build: fix build failure on AIX

* m4/jm-macros.m4: AIX has a splice() function for TCP,
so check for vmsplice() instead.
* src/splice.h: Define HAVE_SPLICE if vmsplice available.
Reported by Bruno Haible.

5 weeks agotest: avoid false failure on OpenBSD
Pádraig Brady [Thu, 16 Apr 2026 20:41:40 +0000 (21:41 +0100)] 
test: avoid false failure on OpenBSD

* tests/numfmt/numfmt.pl: Use standard getopt error map,
needed on OpenBSD.
Reported by Bruno Haible.

5 weeks agotests: avoid false failure with hidden /proc on Guix
Pádraig Brady [Thu, 16 Apr 2026 20:27:42 +0000 (21:27 +0100)] 
tests: avoid false failure with hidden /proc on Guix

* tests/stat/stat-mount.sh: Don't try our stat under unshare
unless mount(8) exits gracefully.
Reported by Bruno Haible.

5 weeks agotests: avoid failure on Manjaro Linux
Pádraig Brady [Thu, 16 Apr 2026 20:07:46 +0000 (21:07 +0100)] 
tests: avoid failure on Manjaro Linux

* tests/misc/user.sh: Comment out part of test.
Reported by Bruno Haible.

5 weeks agocksum: fix --length validation on 32 bit platforms
Pádraig Brady [Thu, 16 Apr 2026 19:37:28 +0000 (20:37 +0100)] 
cksum: fix --length validation on 32 bit platforms

Fix an unreleased issue due to the recent change
to using idx_t in commit v9.10-91-g02983e493

* src/cksum.c (main): Limit the possible return to
the range supported by idx_t.
Reported by Bruno Haible.

5 weeks agotests: fix false failure due to ulimit usage
Pádraig Brady [Thu, 16 Apr 2026 18:03:13 +0000 (19:03 +0100)] 
tests: fix false failure due to ulimit usage

* tests/dd/no-allocate.sh: Run getlimits_ to ensure
we have $SSIZE_MAX etc. available.  Also give some buffer
for the configured ulimit to leave space for returns_ to work.

5 weeks agotests: avoid failure on older Centos 7
Pádraig Brady [Thu, 16 Apr 2026 17:35:26 +0000 (18:35 +0100)] 
tests: avoid failure on older Centos 7

* tests/cp/sparse-perf.sh: Old Centos 7 can give EINVAL
from SEEK_DATA on sparse files being copied from /dev/shm.
Avoid this failure as it's not practical to fix.

5 weeks agotests: fix false failure on Centos 7
Pádraig Brady [Thu, 16 Apr 2026 16:42:33 +0000 (17:42 +0100)] 
tests: fix false failure on Centos 7

* tests/date/date-locale-hour.sh: Ensure `locale date_fmt`
is propagated exactly, even when it contains trailing new lines,
as was seen with Serbian locales on Centos 7.

5 weeks agobuild: update gnulib to latest
Pádraig Brady [Wed, 15 Apr 2026 15:20:07 +0000 (16:20 +0100)] 
build: update gnulib to latest

5 weeks agotests: avoid intermittent false failures with ksh
Pádraig Brady [Wed, 15 Apr 2026 14:27:44 +0000 (15:27 +0100)] 
tests: avoid intermittent false failures with ksh

As noted in https://bugs.gnu.org/9089
ksh gives intermittent ECONNRESET errors with closed pipes.
This can be seen reliably on Linux with:
ksh -c 'yes | (sleep .1; head -n10 >/dev/null)'

* tests/misc/io-errors.sh: Avoid part of test on ksh.
* tests/misc/write-errors.sh: Likewise.

5 weeks agotests: use more accurate ulimit with $SHELL -c
Pádraig Brady [Wed, 15 Apr 2026 14:23:11 +0000 (15:23 +0100)] 
tests: use more accurate ulimit with $SHELL -c

* tests/misc/write-errors.sh: Use a more accurate ulimit determination
when we're using $SHELL -c.

5 weeks agotests: avoid $SHELL -c "ulimit ..." pattern
Pádraig Brady [Wed, 15 Apr 2026 14:08:27 +0000 (15:08 +0100)] 
tests: avoid $SHELL -c "ulimit ..." pattern

As described in commit v9.10-283-g5cb0cca3b
avoid using ulimit with $SHELL -c, and explict
invocation of the shell like that can require lots of memory,
often due to loading the locale archive.
* tests/basenc/bounded-memory.sh: Avoid $SHELL -c with ulimit.
* tests/cut/bounded-memory.sh: Likewise.
* tests/expand/bounded-memory.sh Likewise.
* tests/pr/bounded-memory.sh Likewise.
* tests/unexpand/bounded-memory.sh Likewise.
* tests/fold/fold-zero-width.sh: Bring the ulimit bound
down to the standard 6M over the determined limit.

5 weeks agotests: fix false failure due to race
Pádraig Brady [Wed, 15 Apr 2026 12:14:18 +0000 (13:14 +0100)] 
tests: fix false failure due to race

* tests/misc/tty-eof.pl: Fix a race that commit v9.10-269-gf312af49a
made more apparent, and resulted in intermittent failure like:
"... (with input) didn't produce expected output".
Now Instead of waiting for overlapping echo and output,
just wait for EOF, and if received, use exp->before()
to inspect the accumulated output.

5 weeks agodf: improve detection of duplicate entries
Lukáš Zaoral [Tue, 14 Apr 2026 12:09:02 +0000 (14:09 +0200)] 
df: improve detection of duplicate entries

Do not compare only with the latest entry for given device id but also
all previously saved entries with the same id.

* src/df.c (struct devlist): Add next_same_dev struct member.
(filter_mount_list): Iterate over next_same_dev to find duplicates.
* tests/df/skip-duplicates.sh: Add test cases.
* NEWS: Mention the improvement.
https://redhat.atlassian.net/browse/RHEL-5649

6 weeks agotests: fix false failure under some shells
Pádraig Brady [Sat, 11 Apr 2026 21:33:50 +0000 (22:33 +0100)] 
tests: fix false failure under some shells

Verified with:
  make -j4 PREFERABLY_POSIX_SHELL=/bin/ksh SUBDIRS=. check

* tests/fold/fold-zero-width.sh: Don't timeout $SHELL -c ...
as the ulimit induces a failure in the subshell depending
on the order of the allocations it does.  The main issue is
disparity between the probed ulimit and that needed by $SHELL -c.
Such subshells load the often very large locale archive, thus
if there are any allocations done after the now too low ulimit is set,
then the $SHELL command fails. Note we timeout fold rather than
the whole pipeline so any 124 exit status is propagated.

6 weeks agotests: validate error handling when reading multiple files
Pádraig Brady [Sat, 11 Apr 2026 12:57:31 +0000 (13:57 +0100)] 
tests: validate error handling when reading multiple files

* tests/misc/read-errors.sh: Validate that commands which read multiple
files, read all files on error, and exit with appropriate status.

6 weeks agomktemp: prefer rmdir and unlink to remove
Collin Funk [Sat, 11 Apr 2026 03:29:54 +0000 (20:29 -0700)] 
mktemp: prefer rmdir and unlink to remove

This avoids the following behavior:

    $ strace -e silence=exit -e trace=unlink,rmdir \
        mktemp -d > /dev/full
    unlink("/tmp/tmp.ZBuPmS9ZGD") = -1 EISDIR (Is a directory)
    rmdir("/tmp/tmp.ZBuPmS9ZGD")  = 0
    mktemp: write error: No space left on device

In the above invocation we know that we created a directory, so we
should not remove a regular file that must have been created by another
process:

    $ strace -e silence=exit -e trace=unlink,rmdir \
        ./src/mktemp -d > /dev/full
    rmdir("/tmp/tmp.hGbME1HmJr") = 0
    mktemp: write error: No space left on device

* src/mktemp.c (main): Prefer rmdir and unlink depending on whether we
created a directory or regular file.
* bootstrap.conf (gnulib_modules): Remove the remove module.

6 weeks agocat: avoid redundant pipe creation and resizing
Collin Funk [Fri, 10 Apr 2026 02:41:48 +0000 (19:41 -0700)] 
cat: avoid redundant pipe creation and resizing

* src/cat.c (splice_cat): Don't bother resizing input as it generally
doesn't help perf, and also save an fstat per input. Don't close the
intermediate pipe once created, unless there is an error reading from
it.

Co-authored-by: Pádraig Brady <P@draigBrady.com>
6 weeks agotests: validate command responsiveness
Pádraig Brady [Fri, 10 Apr 2026 16:15:01 +0000 (17:15 +0100)] 
tests: validate command responsiveness

* tests/misc/responsive.sh: Test commands that should output immediately
upon receiving input, and that there is no unecessary buffering.
* cfg.mk: Avoid false failure in sc_prohibit_test_backticks.
* tests/local.mk: Reference the new test.

6 weeks agotests: stat: ensure independence from /proc/
Pádraig Brady [Fri, 10 Apr 2026 13:55:07 +0000 (14:55 +0100)] 
tests: stat: ensure independence from /proc/

* tests/stat/stat-mount.sh: Ensure stat -c '%a'
is independent from /proc.
https://github.com/coreutils/coreutils/pull/250

6 weeks agotests: cut: ensure separate read paths checked
Pádraig Brady [Fri, 10 Apr 2026 10:24:58 +0000 (11:24 +0100)] 
tests: cut: ensure separate read paths checked

* tests/misc/read-errors.sh: Use cut -b as that has a separate
read path to cut -c.

6 weeks agotests: Avoid accidental matching of the vendor field of $host
Bruno Haible [Fri, 10 Apr 2026 06:13:24 +0000 (08:13 +0200)] 
tests: Avoid accidental matching of the vendor field of $host

* tests/chgrp/basic.sh: Test $host_os, not $host_triplet.
* tests/chown/separator.sh: Likewise.
* tests/rm/r-root.sh: Likewise.
* tests/tail/pipe-f.sh: Likewise.
* tests/tail/tail-c.sh: Likewise.
* tests/tee/tee.sh: Likewise.
* tests/touch/dangling-symlink.sh: Likewise.

6 weeks agoenv: avoid locking standard output for each printed variable
Collin Funk [Fri, 10 Apr 2026 04:59:12 +0000 (21:59 -0700)] 
env: avoid locking standard output for each printed variable

* src/env.c (main): Use fputs and putchar instead of printf.

6 weeks agoprintenv: avoid locking standard output for each printed variable
Collin Funk [Fri, 10 Apr 2026 04:53:28 +0000 (21:53 -0700)] 
printenv: avoid locking standard output for each printed variable

* src/printenv.c (main): Use fputs and putchar instead of printf.

6 weeks agomaint: remove last remaining assert()
Pádraig Brady [Thu, 9 Apr 2026 20:36:12 +0000 (21:36 +0100)] 
maint: remove last remaining assert()

* src/split.c (bytes_chunk_extract): Prefer affirm to assert,
as it allows for better static checking when compiling with -DNDEBUG.

6 weeks agomaint: move tty-eof.pl to misc directory
Pádraig Brady [Thu, 9 Apr 2026 15:30:13 +0000 (16:30 +0100)] 
maint: move tty-eof.pl to misc directory

* tests/tty/tty-eof.pl: Rename to ...
* tests/misc/tty-eof.pl: ... this more general directory.
* tests/local.mk: Adjust accordingly.

6 weeks agotests: tty-eof.pl: address FIXME re hardcoded Ctrl-d
Pádraig Brady [Thu, 9 Apr 2026 15:09:38 +0000 (16:09 +0100)] 
tests: tty-eof.pl: address FIXME re hardcoded Ctrl-d

* tests/tty/tty-eof.pl: Try to explicitly set EOF char to Ctrl-d
in case it's different.

6 weeks agotests: tty-eof.pl: make fully table driven
Pádraig Brady [Thu, 9 Apr 2026 14:32:29 +0000 (15:32 +0100)] 
tests: tty-eof.pl: make fully table driven

* tests/tty/tty-eof.pl: Remove command specific logic,
and adjust commands to support general input.
Also add cut -b, as cut_bytes has its own read loop.

6 weeks agotests: all: check empty tty input is handled appropriately
Pádraig Brady [Thu, 9 Apr 2026 14:12:45 +0000 (15:12 +0100)] 
tests: all: check empty tty input is handled appropriately

* tests/tty/tty-eof.pl: Test all commands twice.
Once with input and once with empty input.

6 weeks agomaint: cat: avoid coverity NULL dreference warning
Pádraig Brady [Thu, 9 Apr 2026 20:23:35 +0000 (21:23 +0100)] 
maint: cat: avoid coverity NULL dreference warning

* src/cat.c (ensure_buf_size): Affirm we won't return NULL;

6 weeks agocat: avoid memory allocation per file
Pádraig Brady [Wed, 8 Apr 2026 12:20:12 +0000 (13:20 +0100)] 
cat: avoid memory allocation per file

* src/cat.c (main): Only resize the allocated buffer when needed,
which avoids per file heap manipulation and mmap/munmap syscalls.

6 weeks agocat: fix splice() from empty input
Pádraig Brady [Thu, 9 Apr 2026 10:17:10 +0000 (11:17 +0100)] 
cat: fix splice() from empty input

* src/cat.c (splice_cat): Ensure we don't retry a read() after
splice() completes, as this is significant on a tty.

6 weeks agotests: tee: ensure intermittent data is handled
oech3 [Thu, 9 Apr 2026 04:52:50 +0000 (13:52 +0900)] 
tests: tee: ensure intermittent data is handled

* tests/tee/tee.sh: Add test case for input from pipe containing sleep.
https://github.com/coreutils/coreutils/pull/247

6 weeks agomaint: touch: prefer timespec_cmp
Collin Funk [Thu, 9 Apr 2026 05:34:13 +0000 (22:34 -0700)] 
maint: touch: prefer timespec_cmp

* src/touch.c (main): Use timespec_cmp instead of comparing each member
of the timespec.

6 weeks agotests: date: fix false failure on OpenBSD 7.8
Pádraig Brady [Tue, 7 Apr 2026 22:17:36 +0000 (23:17 +0100)] 
tests: date: fix false failure on OpenBSD 7.8

* tests/date/date.pl: Set the max supported year to INT_MAX.
Most systems support INT_MAX+1900, but mktime() on OpenBSD 7.8
limits the passed tm_year to INT_MAX.
Reported by Bruno Haible.

6 weeks agotests: numfmt: avoid false failure on systems without long double
Pádraig Brady [Tue, 7 Apr 2026 20:44:56 +0000 (21:44 +0100)] 
tests: numfmt: avoid false failure on systems without long double

* tests/numfmt/numfmt.pl: Move recently added test that depends
on long double support to the appropriately guarded set.
Also reduce the value to be in the definitely safe long double range.
Reported by Bruno Haible.

6 weeks agomaint: cut: avoid discarded-qualifiers warnings
Pádraig Brady [Tue, 7 Apr 2026 13:35:25 +0000 (14:35 +0100)] 
maint: cut: avoid discarded-qualifiers warnings

Seen on GCC 15.2.1 with GLIBC 2.43 on Arch
Not seen on GCC 15.2.1 on GLIBC 2.42 on Fedora

* src/cut.c (search_bytes): Cast the return from memchr()
to avoid const propagation.
(find_field_delim): Adjust the return from strstr() similarly.
https://github.com/coreutils/coreutils/issues/244

6 weeks agotests: cat: avoid false failure on systems without splice
Pádraig Brady [Tue, 7 Apr 2026 11:20:10 +0000 (12:20 +0100)] 
tests: cat: avoid false failure on systems without splice

* tests/cat/splice.sh: Ensure splice is called multiple times
before we check specific invocation counts.
On Linux kernel 5.10 for example, splice from /dev/zero
returns EINVAL.

6 weeks agocat: use splice if operating on pipes or if copy_file_range fails
Collin Funk [Sun, 29 Mar 2026 23:13:01 +0000 (16:13 -0700)] 
cat: use splice if operating on pipes or if copy_file_range fails

On a AMD Ryzen 7 3700X system:

    $ timeout 10 taskset 1 ./src/cat-prev /dev/zero \
        | taskset 2 pv -r > /dev/null
    [1.67GiB/s]
    $ timeout 10 taskset 1 ./src/cat /dev/zero \
        | taskset 2 pv -r > /dev/null
    [9.03GiB/s]

On a Power10 system:

    $ taskset 1 ./src/yes | timeout 10 taskset 2 ./src/cat-prev \
        | taskset 3 pv -r > /dev/null
    [12.9GiB/s]
    $ taskset 1 ./src/yes | timeout 10 taskset 2 ./src/cat \
            | taskset 3 pv -r > /dev/null
    [81.8GiB/s]

* NEWS: Mention the improvement.
* src/cat.c: Include isapipe.h, splice.h, and unistd--.h.
(splice_cat): New function.
(main): Use it.
* src/local.mk (noinst_HEADERS): Add src/splice.h.
* src/splice.h: New file, based on definitions from src/yes.c.
* src/yes.c: Include splice.h.
(pipe_splice_size): Use increase_pipe_size from src/splice.h.
(SPLICE_PIPE_SIZE): Remove definition, moved to src/splice.h.
* tests/cat/splice.sh: New file, based on some tests in
tests/misc/yes.sh.
* tests/local.mk (all_tests): Add the new test.

6 weeks agobuild: update gnulib submodule to latest
Collin Funk [Tue, 7 Apr 2026 00:00:19 +0000 (17:00 -0700)] 
build: update gnulib submodule to latest

For the Gnulib commit 2c480fa522 (mbrtowc, mbrtoc32: Silence -Wshadow
warnings (regr. 2026-04-02)., 2026-04-06).

6 weeks agobuild: cut: fix compilation error on non C23 compilers
Pádraig Brady [Mon, 6 Apr 2026 21:35:39 +0000 (22:35 +0100)] 
build: cut: fix compilation error on non C23 compilers

* src/cut.c (main): Add curly brackets around variable
declaration in case label.
Reported by Bruno Haible.

6 weeks agotests: date: add large year test
Sylvestre Ledru [Thu, 2 Apr 2026 11:10:13 +0000 (13:10 +0200)] 
tests: date: add large year test

* tests/date/date.pl: Add the test case.
Add test case for https://github.com/uutils/coreutils/issues/9774
to verify with large dates.
https://github.com/coreutils/coreutils/pull/237

6 weeks agomaint: revert “avoid pthread_sigmask lock”
Paul Eggert [Mon, 6 Apr 2026 18:12:46 +0000 (11:12 -0700)] 
maint: revert “avoid pthread_sigmask lock”

* configure.ac (GNULIB_SIGACTION_SINGLE_THREAD): Remove.
This never worked (it was a misspelling) and the properly-spelled
identifier (whose spelling has since been renamed) is useful
mostly for programs like gzip that do not need Gnulib’s ‘lock’ module.
For coreutils, which needs ‘lock’ for other reasons, it’s overkill.

maint: avoid pthread_sigmask lock overhead
This matters only for MS-Windows.
* configure.ac (GNULIB_PTHREAD_SIGMASK_SINGLE_THREAD):
Define this instead of defining GNULIB_SIGACTION_SINGLE_THREAD.
The latter was a typo, and Gnulib has evolved anyway.

6 weeks agomaint: simplify c32issep
Paul Eggert [Sun, 5 Apr 2026 22:51:36 +0000 (15:51 -0700)] 
maint: simplify c32issep

* src/system.h (c32issep): Avoid unnecessary ‘!!’.

6 weeks agotests: expr: add short-circuit tests with parenthesized branches
Sylvestre Ledru [Fri, 3 Apr 2026 10:07:44 +0000 (12:07 +0200)] 
tests: expr: add short-circuit tests with parenthesized branches

* tests/expr/expr.pl: Add tests to verify that short-circuit
evaluation of | and & correctly skips parenthesized dead branches,
including nested parenthesized expressions containing division by zero.
https://github.com/uutils/coreutils/pull/11395
https://github.com/coreutils/coreutils/pull/238

6 weeks agotests: split: verify non-UTF-8 bytes are preserved in filenames
Sylvestre Ledru [Fri, 3 Apr 2026 10:23:52 +0000 (12:23 +0200)] 
tests: split: verify non-UTF-8 bytes are preserved in filenames

* tests/split/non-utf8.sh: New test to ensure that non-UTF-8 bytes
in the prefix and --additional-suffix are preserved as-is in output
filenames, rather than being replaced by UTF-8 replacement characters.
* tests/local.mk: Register new test.
https://github.com/uutils/coreutils/pull/11397
https://github.com/coreutils/coreutils/pull/239

6 weeks agotests: ln: add test for non-UTF-8 source names in target-dir mode
Sylvestre Ledru [Fri, 3 Apr 2026 16:09:43 +0000 (18:09 +0200)] 
tests: ln: add test for non-UTF-8 source names in target-dir mode

* tests/ln/non-utf8-src.sh: New test ensuring ln handles source
filenames containing non-UTF-8 bytes when linking into a target
directory, for both hard links and symbolic links with -t.
* tests/local.mk: Register the new test.
https://github.com/uutils/coreutils/pull/11403
https://github.com/coreutils/coreutils/pull/240

6 weeks agotest: od: verify -t f defaults to double precision
Sylvestre Ledru [Mon, 6 Apr 2026 16:10:42 +0000 (17:10 +0100)] 
test: od: verify -t f defaults to double precision

* tests/od/od-float.sh: Add cases to ensure -t f = -t fD,
and also verify the resulting number.
https://github.com/uutils/coreutils/pull/11396
https://github.com/coreutils/coreutils/pull/241

6 weeks agotests: ls: add quoting-utf8 test for Unicode quotes in UTF-8 locales
Sylvestre Ledru [Mon, 6 Apr 2026 13:49:29 +0000 (15:49 +0200)] 
tests: ls: add quoting-utf8 test for Unicode quotes in UTF-8 locales

* tests/ls/quoting-utf8.sh: New test verifying that
--quoting-style=locale and --quoting-style=clocale use Unicode
left/right single quotation marks in UTF-8 locales, and that
embedded apostrophes and double quotes are not escaped when the
delimiters are different characters.
Also check C locale fallback to ASCII quotes.
* tests/local.mk: Reference the new test.
https://github.com/coreutils/coreutils/pull/243

6 weeks agotests: numfmt: cover GNU/uutils compatibility edge cases
Sylvestre Ledru [Sun, 5 Apr 2026 22:14:25 +0000 (00:14 +0200)] 
tests: numfmt: cover GNU/uutils compatibility edge cases

* tests/numfmt/numfmt.pl: Add tests exercising corner cases around
negative-argument rejection, large integer precision, scientific
notation rejection, '--from-unit' fractional precision, zero-padded
format sign ordering, '--to-unit' prefix selection, and
'--format=%.0f' with '--to=<scale>'.
https://github.com/uutils/coreutils/pull/11668

6 weeks agodoc: document cut(1) multi-byte and interface consolidation
Pádraig Brady [Thu, 12 Mar 2026 17:49:27 +0000 (17:49 +0000)] 
doc: document cut(1) multi-byte and interface consolidation

This patch set updates cut(1) to be multi-byte aware.
It also reduces interface divergence across implementations.

multi-byte awareness was added to the existing -c, n, and -d options.
Also considered for compatibility are the -w, -F, and -O options,
as these are present on at least two other common implementations.

= Interface / New functionality =

    macOS,  i18n, uutils, Toybox, Busybox, GNU
-c    x      x       x      x        x      x
-n    x      x                              x
-w    x              x                      x
-F                          x        x      x
-O                          x        x      x

-c is needed anyway as specified by all, including POSIX.
-n is needed also as specified by i18n/macOS/POSIX
-w is somewhat less important, but seeing as it's
on two other common platforms (and its functionality is
provided on two more), providing it is worthwhile for compat.
-F and -O are really just aliases to other options
so trivial to add, and probably worthwhile for compatibility.

Interface / functionality notes:

There is a slight divergence between -n implementations.
There was already a difference between FreeBSD and i18n, and
we've aligned with the more sensible FreeBSD implementation.
Note the i18n -n implementation is otherwise buggy in any case,
so I doubt this will be a practical compatibility concern.
Actually -n is specified by POSIX, and it matches FreeBSD.
Specifically our -n will not output a character unless the
byte range encompasses _the end_ of the multi-byte character.
I.e. the -b is a limit that is not passed, and thus ensures
we don't output overlapping characters for separate cut
invocations that do not have overlapping byte ranges.

-d <regex> from toybox is not implemented.
That's edge case functionality IMHO and not well suited to cut(1).
This functionality is supported by awk, and regex functionality
is best restricted to awk I think.

cut is a significant part of the i18n patch, so it will be good
to avoid that downstream divergence.  Unfortunately there were
no tests with the cut i18n implementation.
Note the i18n cut implementation used fread() as so was
not reponsive to new data < BUFSIZ, whereas this implementation
uses read() and thus is responsive to data as it becomes available.

= Performance =

General performance notes:

We prefer byte searching (with -d) as that can be much faster
than character by character processing, and it's supported
on single byte and UTF-8 charsets.  We also use byte searching
with -w on uni-byte locales.
This was seen to give up to 100x perf increase over the i18n patch.

Where we do use per character processing, we avoid conversion to
wide char when processing ASCII data (mcel provides this optimization).
This was seen to give a 14x performance increase over the i18n patch.

We prefer memchr() and strstr() as these are tuned for specific
platforms on glibc, even if memchr2() or memmem()
are algorithmically better.

We maintain the important memory behavior
of only buffering when necessary.

Performance testing:

There are _lots_ of combinations and optimziation opportunities.
I performance tested this patch set with the following setup:

$ yes | head -n10M > sl.in
$ yes $(yes eeeaae | head -n10K | paste -s -d,) | head -n10K > ll.in
$ yes $(yes eeeaae | head -n9 | paste -s -d,) | head -n1M > as.in
$ yes $(yes éééááé | head -n9 | paste -s -d,) | head -n1M \
  > mb.in

$ for type in sl ll as mb; do
    cat $type.in >/dev/null;
    for imp in '' src/; do  # '' maps to the system i18n ver on Fedora
      echo ============ "${imp:-i18n}" $type ==============;
      for d in -d, -dc -d, -dç -w -b -c; do
        fields='-f1 -f10 -f100'
        test "$d" = "-b" && { fields='-b1 -b10 -b100'; d=''; }
        test "$d" = "-c" && { fields='-c1 -c10 -c100'; d=''; }
        for f in $fields; do
          for loc in C C.UTF-8; do
            # SKip -b for UTF-8 as no different
            test "$loc" = C.UTF-8 && echo "$f" | grep -q -- -b \
             && continue
            # Skip multi-byte delimiter for C and not allowed
            test "$loc" = C && test $(echo -n "$d" | wc -c) -ge 4 \
             && continue
            LC_ALL=$loc ${imp}cut $f $d /dev/null 2>/dev/null &&
            hyperfine -m2 -M4 \
             "LC_ALL=$loc ${imp}cut $f $d $type.in >/dev/null" ||
            printf 'Benchmark 1: %s\n  unsupported\n\n' \
             "LC_ALL=$loc ${imp}cut $f $d $type.in >/dev/null"
          done;
        done;
      done;
    done;
  done

After a little post-processing of the results, we get:

-- cut-i18n

| command         |       sl |       ll |       as |       mb |
| --------------- | -------- | -------- | -------- | -------- |
| C -f1 -d,       |  66.3 ms |  1.605 s | 145.9 ms | 366.4 ms |
| UTF8 -f1 -d,    |  65.8 ms |  1.593 s | 145.8 ms | 370.0 ms |
| C -f10 -d,      | 301.4 ms |  1.590 s | 161.8 ms | 126.7 ms |
| UTF8 -f10 -d,   | 303.5 ms |  1.599 s | 161.8 ms | 124.6 ms |
| C -f100 -d,     | 300.6 ms |  1.596 s | 162.1 ms | 126.7 ms |
| UTF8 -f100 -d,  | 301.3 ms |  1.595 s | 162.0 ms | 124.9 ms |
| C -f1 -dc       |  66.6 ms |  1.845 s | 179.1 ms | 365.7 ms |
| UTF8 -f1 -dc    |  73.8 ms |  1.878 s | 179.1 ms | 363.1 ms |
| C -f10 -dc      | 300.7 ms | 349.8 ms |  76.0 ms | 125.3 ms |
| UTF8 -f10 -dc   | 300.4 ms | 347.2 ms |  75.7 ms | 124.8 ms |
| C -f100 -dc     | 300.1 ms | 348.1 ms |  76.5 ms | 125.5 ms |
| UTF8 -f100 -dc  | 300.8 ms | 348.7 ms |  76.4 ms | 125.8 ms |
| UTF8 -f1 -d,   | 563.5 ms | 21.775 s |  1.963 s |  1.665 s |
| UTF8 -f10 -d,  | 833.6 ms | 20.504 s |  2.022 s |  1.612 s |
| UTF8 -f100 -d, | 825.2 ms | 20.448 s |  2.009 s |  1.616 s |
| UTF8 -f1 -dç    | 563.7 ms | 21.827 s |  1.964 s |  2.319 s |
| UTF8 -f10 -dç   | 825.3 ms | 21.713 s |  2.011 s |  2.248 s |
| UTF8 -f100 -dç  | 831.6 ms | 20.505 s |  2.019 s |  2.276 s |
| C -f1 -w        |        - |        - |        - |        - |
| UTF8 -f1 -w     |        - |        - |        - |        - |
| C -f10 -w       |        - |        - |        - |        - |
| UTF8 -f10 -w    |        - |        - |        - |        - |
| C -f100 -w      |        - |        - |        - |        - |
| UTF8 -f100 -w   |        - |        - |        - |        - |
| C -b1           |  60.8 ms |  1.596 s | 154.8 ms | 313.7 ms |
| C -b10          |  51.6 ms |  1.594 s | 154.3 ms | 310.8 ms |
| C -b100         |  51.4 ms |  1.594 s | 153.0 ms | 312.2 ms |
| C -c1           |  60.7 ms |  1.597 s | 153.8 ms | 313.0 ms |
| UTF8 -c1        | 526.5 ms | 14.662 s |  1.362 s |  1.573 s |
| C -c10          |  51.8 ms |  1.591 s | 153.3 ms | 311.4 ms |
| UTF8 -c10       | 436.9 ms | 14.450 s |  1.336 s |  1.563 s |
| C -c100         |  51.0 ms |  1.593 s | 152.7 ms | 313.2 ms |
| UTF8 -c100      | 426.7 ms | 14.429 s |  1.344 s |  1.551 s |

-- src/cut

| command         |       sl |       ll |       as |       mb |
| --------------- | -------- | -------- | -------- | -------- |
| C -f1 -d,       |   4.6 ms | 108.2 ms |  45.4 ms |  24.2 ms |
| UTF8 -f1 -d,    |   4.8 ms | 108.4 ms |  45.4 ms |  24.5 ms |
| C -f10 -d,      |   4.5 ms | 109.3 ms | 123.7 ms |  24.3 ms |
| UTF8 -f10 -d,   |   4.9 ms | 114.1 ms | 124.1 ms |  24.5 ms |
| C -f100 -d,     |   4.7 ms | 119.2 ms | 124.1 ms |  24.5 ms |
| UTF8 -f100 -d,  |   4.8 ms | 120.0 ms | 125.1 ms |  24.5 ms |
| C -f1 -dc       |   4.4 ms | 120.5 ms |  11.9 ms |  24.1 ms |
| UTF8 -f1 -dc    |   4.9 ms | 120.5 ms |  12.1 ms |  24.6 ms |
| C -f10 -dc      |   4.7 ms | 125.3 ms |  11.8 ms |  24.1 ms |
| UTF8 -f10 -dc   |   4.8 ms | 126.7 ms |  12.0 ms |  24.4 ms |
| C -f100 -dc     |   4.6 ms | 127.0 ms |  11.9 ms |  24.3 ms |
| UTF8 -f100 -dc  |   4.7 ms | 126.4 ms |  12.0 ms |  24.4 ms |
| UTF8 -f1 -d,   |   6.0 ms | 169.4 ms |  15.6 ms |  67.4 ms |
| UTF8 -f10 -d,  |   6.1 ms | 173.9 ms |  15.6 ms | 237.2 ms |
| UTF8 -f100 -d, |   6.1 ms | 174.0 ms |  15.6 ms | 237.8 ms |
| UTF8 -f1 -dç    |   6.3 ms | 170.8 ms |  15.7 ms |  32.2 ms |
| UTF8 -f10 -dç   |   6.0 ms | 172.9 ms |  15.9 ms |  32.1 ms |
| UTF8 -f100 -dç  |   6.7 ms | 173.1 ms |  15.5 ms |  32.3 ms |
| C -f1 -w        | 159.6 ms | 170.1 ms |  69.1 ms |  98.9 ms |
| UTF8 -f1 -w     | 128.1 ms |  2.525 s | 246.5 ms |  1.086 s |
| C -f10 -w       | 183.3 ms | 199.2 ms |  74.6 ms | 105.0 ms |
| UTF8 -f10 -w    | 130.3 ms |  2.659 s | 276.5 ms |  1.099 s |
| C -f100 -w      | 183.8 ms | 202.5 ms |  74.1 ms | 103.6 ms |
| UTF8 -f100 -w   | 130.1 ms |  2.663 s | 276.6 ms |  1.097 s |
| C -b1           |  65.0 ms | 110.2 ms |  22.4 ms |  35.6 ms |
| C -b10          |  48.7 ms | 109.6 ms |  24.2 ms |  36.7 ms |
| C -b100         |  48.7 ms | 110.6 ms |  19.0 ms |  36.6 ms |
| C -c1           |  65.8 ms | 109.5 ms |  22.4 ms |  35.6 ms |
| UTF8 -c1        |  63.2 ms |  1.130 s | 116.9 ms | 610.2 ms |
| C -c10          |  48.7 ms | 109.8 ms |  24.3 ms |  36.8 ms |
| UTF8 -c10       |  39.7 ms |  1.133 s | 118.7 ms | 610.0 ms |
| C -c100         |  48.3 ms | 110.7 ms |  18.9 ms |  36.7 ms |
| UTF8 -c100      |  39.4 ms |  1.141 s | 115.0 ms | 598.8 ms |

In summary, compared to the i18n patch we're now as fast in all cases,
and much faster in most cases.

We can see the -f byte searching performing well,
being 120x faster in the no matching delimiter case,
to at least 3x faster in the matching delimiter case.

When we resort to per character processing we also compare well,
being 14x faster in the ASCII processing case
(due to mcel short-circuiting the wide char conversion).
Note the processing mb.in results above also show a 2x win
in per character processing cases, but the i18n patch would have
also picked that win up as it's achieved separately to this patch set:
https://lists.gnu.org/r/coreutils/2026-03/msg00117.html

6 weeks agotests: cut: add remaining tests to ensure 100% coverage
Pádraig Brady [Mon, 6 Apr 2026 13:36:28 +0000 (14:36 +0100)] 
tests: cut: add remaining tests to ensure 100% coverage

* tests/cut/cut.pl: Add new tests to ensure
`make coverage` shows 100% coverage for cut.c.

6 weeks agotests: cut: expand GB18030 tests
Pádraig Brady [Mon, 6 Apr 2026 12:44:30 +0000 (13:44 +0100)] 
tests: cut: expand GB18030 tests

* tests/cut/mb-non-utf8.sh: Add more test cases.

6 weeks agomaint: cut: refactor delimiter handling
Paul Eggert [Fri, 3 Apr 2026 20:01:44 +0000 (21:01 +0100)] 
maint: cut: refactor delimiter handling

* src/cut.c: Use mcel_scanz() to parse in all cases,
and avoid redundant storage of delimiter_length and
the single byte delim.

6 weeks agocut: -f: fix handling of multi-byte delimiters that span buffers
Pádraig Brady [Thu, 2 Apr 2026 20:56:23 +0000 (21:56 +0100)] 
cut: -f: fix handling of multi-byte delimiters that span buffers

* src/cut.c (cut_fields_bytesearch): Ensure up to delim_bytes -1
is left for the next refill.
* tests/cut/cut.pl: Add a test case.

6 weeks agocut,fold,expand,unexpand: ensure we process all available characters
Pádraig Brady [Thu, 2 Apr 2026 19:19:07 +0000 (20:19 +0100)] 
cut,fold,expand,unexpand: ensure we process all available characters

* gl/lib/mbbuf.h: Adjust mbbuf_fill() to process full characters
in the slop at the end of a read().  Previously valid characters
in the last MCEL_LEN_MAX bytes were ignored until the next read().
* src/cut.c (cut_fields_bytesearch): Adjust to the new naming.
* NEWS: Mention the fold(1) responsiveness fix, which was
improved with the change from fread() to read(),
and completed with this patch.