]> git.ipfire.org Git - thirdparty/systemd.git/commit
core: Add PrivateUsers=full (#35183)
authorLuca Boccassi <bluca@debian.org>
Fri, 13 Dec 2024 12:25:13 +0000 (12:25 +0000)
committerGitHub <noreply@github.com>
Fri, 13 Dec 2024 12:25:13 +0000 (12:25 +0000)
commit6dfd290031975cfddf558ac535b73c8e106ce588
tree88d3a76bc95451cac32e8786af5ac538adf4b5c7
parent718b31138b9a93f262259f297ad6b521454decc6
parent2665425176f19ee26568151a3fabf3a117269b50
core: Add PrivateUsers=full (#35183)

Recently, PrivateUsers=identity was added to support mapping the first
65536 UIDs/GIDs from parent to the child namespace and mapping the other
UID/GIDs to the nobody user.

However, there are use cases where users have UIDs/GIDs > 65536 and need
to do a similar identity mapping. Moreover, in some of those cases,
users want a full identity mapping from 0 -> UID_MAX.

To support this, we add PrivateUsers=full that does identity mapping for
all available UID/GIDs.

Note to differentiate ourselves from the init user namespace, we need to
set up the uid_map/gid_map like:
```
0 0 1
1 1 UINT32_MAX - 1
```

as the init user namedspace uses `0 0 UINT32_MAX` and some applications
- like systemd itself - determine if its a non-init user namespace based
on uid_map/gid_map files.

Note systemd will remove this heuristic in running_in_userns() in
version 258 (https://github.com/systemd/systemd/pull/35382) and uses
namespace inode. But some users may be running a container image with
older systemd < 258 so we keep this hack until version 259 for version
N-1 compatibility.

In addition to mapping the whole UID/GID space, we also set
/proc/pid/setgroups to "allow". While we usually set "deny" to avoid
security issues with dropping supplementary groups
(https://lwn.net/Articles/626665/), this ends up breaking dbus-broker
when running /sbin/init in full OS containers.

Fixes: #35168
Fixes: #35425
man/systemd.exec.xml
src/core/exec-invoke.c
src/core/namespace.c
src/core/namespace.h