]> git.ipfire.org Git - thirdparty/git.git/commitdiff
ref-filter: handle CRLF at end-of-line more gracefully
authorPhilippe Blain <levraiphilippeblain@gmail.com>
Thu, 29 Oct 2020 12:48:28 +0000 (12:48 +0000)
committerJunio C Hamano <gitster@pobox.com>
Thu, 29 Oct 2020 19:57:45 +0000 (12:57 -0700)
The ref-filter code does not correctly handle commit or tag messages
that use CRLF as the line terminator. Such messages can be created with
the `--cleanup=verbatim` option of `git commit` and `git tag`, or by
using `git commit-tree` directly.

The function `find_subpos` in ref-filter.c looks for two consecutive
LFs to find the end of the subject line, a sequence which is absent in
messages using CRLF. This results in the whole message being parsed as
the subject line (`%(contents:subject)`), and the body of the message
(`%(contents:body)`) being empty.

Moreover, in `copy_subject`, which wants to return the subject as a
single line, '\n' is replaced by space, but '\r' is
untouched.

This impacts the output of `git branch`, `git tag` and `git
for-each-ref`.

This behaviour is a regression for `git branch --verbose`, which
bisects down to 949af0684c (branch: use ref-filter printing APIs,
2017-01-10).

Adjust the ref-filter code to be more lenient by hardening the logic in
`copy_subject` and `find_subpos` to correctly parse messages containing
CRLF.

Add a new test script, 't3920-crlf-messages.sh', to test the behaviour
of commands using either the ref-filter or the pretty APIs with messages
using CRLF line endings. The function `test_crlf_subject_body_and_contents`
can be used to test that the `--format` option of `branch`, `tag`,
`for-each-ref`, `log` and `show` correctly displays the subject, body
and raw content of commit and tag messages using CRLF. Test the
output of `branch`, `tag` and `for-each-ref` with such commits.

Helped-by: Junio C Hamano <gitster@pobox.com>
Helped-by: Eric Sunshine <sunshine@sunshineco.com>
Signed-off-by: Philippe Blain <levraiphilippeblain@gmail.com>
Signed-off-by: Junio C Hamano <gitster@pobox.com>
ref-filter.c
t/t3920-crlf-messages.sh [new file with mode: 0755]

index c62f6b482271e124474aab6984820dcdd2db698c..6476686fea1d03d9cc43d5c03f7c0b3fe3052030 100644 (file)
@@ -1097,14 +1097,19 @@ static const char *copy_email(const char *buf, struct used_atom *atom)
 
 static char *copy_subject(const char *buf, unsigned long len)
 {
-       char *r = xmemdupz(buf, len);
+       struct strbuf sb = STRBUF_INIT;
        int i;
 
-       for (i = 0; i < len; i++)
-               if (r[i] == '\n')
-                       r[i] = ' ';
+       for (i = 0; i < len; i++) {
+               if (buf[i] == '\r' && i + 1 < len && buf[i + 1] == '\n')
+                       continue; /* ignore CR in CRLF */
 
-       return r;
+               if (buf[i] == '\n')
+                       strbuf_addch(&sb, ' ');
+               else
+                       strbuf_addch(&sb, buf[i]);
+       }
+       return strbuf_detach(&sb, NULL);
 }
 
 static void grab_date(const char *buf, struct atom_value *v, const char *atomname)
@@ -1228,20 +1233,23 @@ static void find_subpos(const char *buf,
 
        /* subject is first non-empty line */
        *sub = buf;
-       /* subject goes to first empty line */
-       while (buf < *sig && *buf && *buf != '\n') {
-               eol = strchrnul(buf, '\n');
-               if (*eol)
-                       eol++;
-               buf = eol;
-       }
+       /* subject goes to first empty line before signature begins */
+       if ((eol = strstr(*sub, "\n\n"))) {
+               eol = eol < *sig ? eol : *sig;
+       /* check if message uses CRLF */
+       } else if (! (eol = strstr(*sub, "\r\n\r\n"))) {
+               /* treat whole message as subject */
+               eol = strrchr(*sub, '\0');
+       }
+       buf = eol;
        *sublen = buf - *sub;
        /* drop trailing newline, if present */
-       if (*sublen && (*sub)[*sublen - 1] == '\n')
+       while (*sublen && ((*sub)[*sublen - 1] == '\n' ||
+                          (*sub)[*sublen - 1] == '\r'))
                *sublen -= 1;
 
        /* skip any empty lines */
-       while (*buf == '\n')
+       while (*buf == '\n' || *buf == '\r')
                buf++;
        *body = buf;
        *bodylen = strlen(buf);
diff --git a/t/t3920-crlf-messages.sh b/t/t3920-crlf-messages.sh
new file mode 100755 (executable)
index 0000000..3f0ce02
--- /dev/null
@@ -0,0 +1,108 @@
+#!/bin/sh
+
+test_description='Test ref-filter and pretty APIs for commit and tag messages using CRLF'
+. ./test-lib.sh
+
+LIB_CRLF_BRANCHES=""
+
+create_crlf_ref () {
+       branch="$1" &&
+       cat >.crlf-orig-$branch.txt &&
+       cat .crlf-orig-$branch.txt | append_cr >.crlf-message-$branch.txt &&
+       grep 'Subject' .crlf-orig-$branch.txt | tr '\n' ' ' | sed 's/[ ]*$//' | tr -d '\n' >.crlf-subject-$branch.txt &&
+       grep 'Body' .crlf-message-$branch.txt >.crlf-body-$branch.txt || true &&
+       LIB_CRLF_BRANCHES="${LIB_CRLF_BRANCHES} ${branch}" &&
+       test_tick &&
+       hash=$(git commit-tree HEAD^{tree} -p HEAD -F .crlf-message-${branch}.txt) &&
+       git branch ${branch} ${hash} &&
+       git tag tag-${branch} ${branch} -F .crlf-message-${branch}.txt --cleanup=verbatim
+}
+
+create_crlf_refs () {
+       create_crlf_ref crlf <<-\EOF &&
+       Subject first line
+
+       Body first line
+       Body second line
+       EOF
+       create_crlf_ref crlf-empty-lines-after-subject <<-\EOF &&
+       Subject first line
+
+
+       Body first line
+       Body second line
+       EOF
+       create_crlf_ref crlf-two-line-subject <<-\EOF &&
+       Subject first line
+       Subject second line
+
+       Body first line
+       Body second line
+       EOF
+       create_crlf_ref crlf-two-line-subject-no-body <<-\EOF &&
+       Subject first line
+       Subject second line
+       EOF
+       create_crlf_ref crlf-two-line-subject-no-body-trailing-newline <<-\EOF
+       Subject first line
+       Subject second line
+
+       EOF
+}
+
+test_crlf_subject_body_and_contents() {
+       command_and_args="$@" &&
+       command=$1 &&
+       if test ${command} = "branch" || test ${command} = "for-each-ref" || test ${command} = "tag"
+       then
+               atoms="(contents:subject) (contents:body) (contents)"
+       elif test ${command} = "log" || test ${command} = "show"
+       then
+               atoms="s b B"
+       fi &&
+       files="subject body message" &&
+       while test -n "${atoms}"
+       do
+               set ${atoms} && atom=$1 && shift && atoms="$*" &&
+               set ${files} && file=$1 && shift && files="$*" &&
+               test_expect_success "${command}: --format='%${atom}' works with messages using CRLF" "
+                       rm -f expect &&
+                       for ref in ${LIB_CRLF_BRANCHES}
+                       do
+                               cat .crlf-${file}-\"\${ref}\".txt >>expect &&
+                               printf \"\n\" >>expect
+                       done &&
+                       git $command_and_args --format=\"%${atom}\" >actual &&
+                       test_cmp expect actual
+               "
+       done
+}
+
+
+test_expect_success 'Setup refs with commit and tag messages using CRLF' '
+       test_commit inital &&
+       create_crlf_refs
+'
+
+test_expect_success 'branch: --verbose works with messages using CRLF' '
+       rm -f expect &&
+       for branch in $LIB_CRLF_BRANCHES
+       do
+               printf "  " >>expect &&
+               cat .crlf-subject-${branch}.txt >>expect &&
+               printf "\n" >>expect
+       done &&
+       git branch -v >tmp &&
+       # Remove first two columns, and the line for the currently checked out branch
+       current=$(git branch --show-current) &&
+       grep -v $current <tmp | awk "{\$1=\$2=\"\"}1"  >actual &&
+       test_cmp expect actual
+'
+
+test_crlf_subject_body_and_contents branch --list crlf*
+
+test_crlf_subject_body_and_contents tag --list tag-crlf*
+
+test_crlf_subject_body_and_contents for-each-ref refs/heads/crlf*
+
+test_done