]> git.ipfire.org Git - thirdparty/git.git/commitdiff
utf8: fix truncated string lengths in `utf8_strnwidth()`
authorPatrick Steinhardt <ps@pks.im>
Thu, 1 Dec 2022 14:46:53 +0000 (15:46 +0100)
committerJunio C Hamano <gitster@pobox.com>
Fri, 9 Dec 2022 05:26:21 +0000 (14:26 +0900)
The `utf8_strnwidth()` function accepts an optional string length as
input parameter. This parameter can either be set to `-1`, in which case
we call `strlen()` on the input. Or it can be set to a positive integer
that indicates a precomputed length, which callers typically compute by
calling `strlen()` at some point themselves.

The input parameter is an `int` though, whereas `strlen()` returns a
`size_t`. This can lead to implementation-defined behaviour though when
the `size_t` cannot be represented by the `int`. In the general case
though this leads to wrap-around and thus to negative string sizes,
which is sure enough to not lead to well-defined behaviour.

Fix this by accepting a `size_t` instead of an `int` as string length.
While this takes away the ability of callers to simply pass in `-1` as
string length, it really is trivial enough to convert them to instead
pass in `strlen()` instead.

Signed-off-by: Patrick Steinhardt <ps@pks.im>
Signed-off-by: Junio C Hamano <gitster@pobox.com>
column.c
pretty.c
utf8.c
utf8.h

index 1261e18a72e9727e6d4e530e7068ffb319f59548..fbf88639aaed931602b203f012468cdeefda284f 100644 (file)
--- a/column.c
+++ b/column.c
@@ -23,7 +23,7 @@ struct column_data {
 /* return length of 's' in letters, ANSI escapes stripped */
 static int item_length(const char *s)
 {
-       return utf8_strnwidth(s, -1, 1);
+       return utf8_strnwidth(s, strlen(s), 1);
 }
 
 /*
index 7e649b1cec71cd5b32afe837c5ea96602a66f50b..aae6e792bc43097a72f9a62ed6b1a1cd852157e5 100644 (file)
--- a/pretty.c
+++ b/pretty.c
@@ -1483,7 +1483,7 @@ static size_t format_and_pad_commit(struct strbuf *sb, /* in UTF-8 */
                int occupied;
                if (!start)
                        start = sb->buf;
-               occupied = utf8_strnwidth(start, -1, 1);
+               occupied = utf8_strnwidth(start, strlen(start), 1);
                occupied += c->pretty_ctx->graph_width;
                padding = (-padding) - occupied;
        }
@@ -1501,7 +1501,7 @@ static size_t format_and_pad_commit(struct strbuf *sb, /* in UTF-8 */
                placeholder++;
                total_consumed++;
        }
-       len = utf8_strnwidth(local_sb.buf, -1, 1);
+       len = utf8_strnwidth(local_sb.buf, local_sb.len, 1);
 
        if (c->flush_type == flush_left_and_steal) {
                const char *ch = sb->buf + sb->len - 1;
diff --git a/utf8.c b/utf8.c
index 5b39361ada0bbab3dc4df90e64cc6173bb465ff4..504e517c341b8382531f6f7dd0b28b2c2fa0cd30 100644 (file)
--- a/utf8.c
+++ b/utf8.c
@@ -206,13 +206,11 @@ int utf8_width(const char **start, size_t *remainder_p)
  * string, assuming that the string is utf8.  Returns strlen() instead
  * if the string does not look like a valid utf8 string.
  */
-int utf8_strnwidth(const char *string, int len, int skip_ansi)
+int utf8_strnwidth(const char *string, size_t len, int skip_ansi)
 {
        int width = 0;
        const char *orig = string;
 
-       if (len == -1)
-               len = strlen(string);
        while (string && string < orig + len) {
                int skip;
                while (skip_ansi &&
@@ -225,7 +223,7 @@ int utf8_strnwidth(const char *string, int len, int skip_ansi)
 
 int utf8_strwidth(const char *string)
 {
-       return utf8_strnwidth(string, -1, 0);
+       return utf8_strnwidth(string, strlen(string), 0);
 }
 
 int is_utf8(const char *text)
@@ -791,7 +789,7 @@ int skip_utf8_bom(char **text, size_t len)
 void strbuf_utf8_align(struct strbuf *buf, align_type position, unsigned int width,
                       const char *s)
 {
-       int slen = strlen(s);
+       size_t slen = strlen(s);
        int display_len = utf8_strnwidth(s, slen, 0);
        int utf8_compensation = slen - display_len;
 
diff --git a/utf8.h b/utf8.h
index fcd5167bafb38ddafc3c4e22b642b87fb935c8e1..6da1b6d05e232815ef77aaf91dedc30c2137c96d 100644 (file)
--- a/utf8.h
+++ b/utf8.h
@@ -7,7 +7,7 @@ typedef unsigned int ucs_char_t;  /* assuming 32bit int */
 
 size_t display_mode_esc_sequence_len(const char *s);
 int utf8_width(const char **start, size_t *remainder_p);
-int utf8_strnwidth(const char *string, int len, int skip_ansi);
+int utf8_strnwidth(const char *string, size_t len, int skip_ansi);
 int utf8_strwidth(const char *string);
 int is_utf8(const char *text);
 int is_encoding_utf8(const char *name);