]> git.ipfire.org Git - thirdparty/git.git/commit - builtin/fsck.c
fsck: turn off save_commit_buffer
authorJeff King <peff@peff.net>
Thu, 22 Sep 2022 10:13:36 +0000 (06:13 -0400)
committerJunio C Hamano <gitster@pobox.com>
Thu, 22 Sep 2022 18:40:11 +0000 (11:40 -0700)
commit069e4452567143000b839d563d2529cec93ec9e8
treeeb480be8f437f8ce1ff65f6d0882824f24c72786
parentfbce4fa9ae4f010e509be288d8b113610e78781d
fsck: turn off save_commit_buffer

When parsing a commit, the default behavior is to stuff the original
buffer into a commit_slab (which takes ownership of it). But for a tool
like fsck, this isn't useful. While we may look at the buffer further as
part of fsck_commit(), we'll always do so through a separate pointer;
attaching the buffer to the slab doesn't help.

Worse, it means we have to remember to free the commit buffer in all
call paths. We do so in fsck_obj(), which covers a regular "git fsck".
But with "--connectivity-only", we forget to do so in both
traverse_one_object(), which covers reachable objects, and
mark_unreachable_referents(), which covers unreachable ones. As a
result, that mode ends up storing an uncompressed copy of every commit
on the heap at once.

We could teach the code paths for --connectivity-only to also free
commit buffers. But there's an even easier fix: we can just turn off the
save_commit_buffer flag, and then we won't attach them to the commits in
the first place.

This reduces the peak heap of running "git fsck --connectivity-only" in
a clone of linux.git from ~2GB to ~1GB. According to massif, the
remaining memory goes where you'd expect: the object structs themselves,
the obj_hash containing them, and the delta base cache.

Note that we'll leave the call to free commit buffers in fsck_obj() for
now; it's not quite redundant because of a related bug that we'll fix in
a subsequent commit.

Signed-off-by: Jeff King <peff@peff.net>
Signed-off-by: Junio C Hamano <gitster@pobox.com>
builtin/fsck.c