]> git.ipfire.org Git - thirdparty/kernel/linux.git/commitdiff
cgroup/rstat: Record the cumulative per-cpu time of cgroup and its descendants
authorHao Jia <jiahao.os@bytedance.com>
Mon, 7 Aug 2023 03:29:30 +0000 (11:29 +0800)
committerTejun Heo <tj@kernel.org>
Mon, 7 Aug 2023 18:41:25 +0000 (08:41 -1000)
The member variable bstat of the structure cgroup_rstat_cpu
records the per-cpu time of the cgroup itself, but does not
include the per-cpu time of its descendants. The per-cpu time
including descendants is very useful for calculating the
per-cpu usage of cgroups.

Although we can indirectly obtain the total per-cpu time
of the cgroup and its descendants by accumulating the per-cpu
bstat of each descendant of the cgroup. But after a child cgroup
is removed, we will lose its bstat information. This will cause
the cumulative value to be non-monotonic, thus affecting
the accuracy of cgroup per-cpu usage.

So we add the subtree_bstat variable to record the total
per-cpu time of this cgroup and its descendants, which is
similar to "cpuacct.usage*" in cgroup v1. And this is
also helpful for the migration from cgroup v1 to cgroup v2.
After adding this variable, we can obtain the per-cpu time of
cgroup and its descendants in user mode through eBPF/drgn, etc.
And we are still trying to determine how to expose it in the
cgroupfs interface.

Suggested-by: Tejun Heo <tj@kernel.org>
Signed-off-by: Hao Jia <jiahao.os@bytedance.com>
Signed-off-by: Tejun Heo <tj@kernel.org>
include/linux/cgroup-defs.h
kernel/cgroup/rstat.c

index 8a0d5466c7be1533d29d8d5d5ece2cec919b2886..7a2862172f514a5bca6c98b4f9ac88d9b9f49cae 100644 (file)
@@ -341,6 +341,20 @@ struct cgroup_rstat_cpu {
         */
        struct cgroup_base_stat last_bstat;
 
+       /*
+        * This field is used to record the cumulative per-cpu time of
+        * the cgroup and its descendants. Currently it can be read via
+        * eBPF/drgn etc, and we are still trying to determine how to
+        * expose it in the cgroupfs interface.
+        */
+       struct cgroup_base_stat subtree_bstat;
+
+       /*
+        * Snapshots at the last reading. These are used to calculate the
+        * deltas to propagate to the per-cpu subtree_bstat.
+        */
+       struct cgroup_base_stat last_subtree_bstat;
+
        /*
         * Child cgroups with stat updates on this cpu since the last read
         * are linked on the parent's ->updated_children through
index 2542c21b6b6d782f7a6786d8c74caee5e58c8a26..d80d7a6081412994582e2a3686442226b582cd50 100644 (file)
@@ -344,6 +344,7 @@ static void cgroup_base_stat_flush(struct cgroup *cgrp, int cpu)
 {
        struct cgroup_rstat_cpu *rstatc = cgroup_rstat_cpu(cgrp, cpu);
        struct cgroup *parent = cgroup_parent(cgrp);
+       struct cgroup_rstat_cpu *prstatc;
        struct cgroup_base_stat delta;
        unsigned seq;
 
@@ -357,17 +358,24 @@ static void cgroup_base_stat_flush(struct cgroup *cgrp, int cpu)
                delta = rstatc->bstat;
        } while (__u64_stats_fetch_retry(&rstatc->bsync, seq));
 
-       /* propagate percpu delta to global */
+       /* propagate per-cpu delta to cgroup and per-cpu global statistics */
        cgroup_base_stat_sub(&delta, &rstatc->last_bstat);
        cgroup_base_stat_add(&cgrp->bstat, &delta);
        cgroup_base_stat_add(&rstatc->last_bstat, &delta);
+       cgroup_base_stat_add(&rstatc->subtree_bstat, &delta);
 
-       /* propagate global delta to parent (unless that's root) */
+       /* propagate cgroup and per-cpu global delta to parent (unless that's root) */
        if (cgroup_parent(parent)) {
                delta = cgrp->bstat;
                cgroup_base_stat_sub(&delta, &cgrp->last_bstat);
                cgroup_base_stat_add(&parent->bstat, &delta);
                cgroup_base_stat_add(&cgrp->last_bstat, &delta);
+
+               delta = rstatc->subtree_bstat;
+               prstatc = cgroup_rstat_cpu(parent, cpu);
+               cgroup_base_stat_sub(&delta, &rstatc->last_subtree_bstat);
+               cgroup_base_stat_add(&prstatc->subtree_bstat, &delta);
+               cgroup_base_stat_add(&rstatc->last_subtree_bstat, &delta);
        }
 }