]> git.ipfire.org Git - thirdparty/kernel/linux.git/commitdiff
drm/drm_ras: Add clear-error-counter netlink command to drm_ras
authorRiana Tauro <riana.tauro@intel.com>
Thu, 9 Apr 2026 07:33:19 +0000 (13:03 +0530)
committerRodrigo Vivi <rodrigo.vivi@intel.com>
Fri, 24 Apr 2026 12:43:42 +0000 (08:43 -0400)
Introduce a new 'clear-error-counter' drm_ras command to reset the counter
value for a specific error counter of a given node.

The command is a 'do' netlink request with 'node-id' and 'error-id'
as parameters with no response payload.

Usage:

$ sudo ynl --family drm_ras  --do clear-error-counter --json \
'{"node-id":1, "error-id":1}'
None

Cc: Jakub Kicinski <kuba@kernel.org>
Cc: Zack McKevitt <zachary.mckevitt@oss.qualcomm.com>
Cc: Lijo Lazar <lijo.lazar@amd.com>
Cc: Hawking Zhang <Hawking.Zhang@amd.com>
Cc: David S. Miller <davem@davemloft.net>
Cc: Paolo Abeni <pabeni@redhat.com>
Cc: Eric Dumazet <edumazet@google.com>
Signed-off-by: Riana Tauro <riana.tauro@intel.com>
Reviewed-by: Jakub Kicinski <kuba@kernel.org>
Reviewed-by: Raag Jadav <raag.jadav@intel.com>
Link: https://patch.msgid.link/20260409073318.2909379-5-riana.tauro@intel.com
Signed-off-by: Rodrigo Vivi <rodrigo.vivi@intel.com>
Acked-by: Maxime Ripard <mripard@redhat.com>
Documentation/gpu/drm-ras.rst
Documentation/netlink/specs/drm_ras.yaml
drivers/gpu/drm/drm_ras.c
drivers/gpu/drm/drm_ras_nl.c
drivers/gpu/drm/drm_ras_nl.h
include/drm/drm_ras.h
include/uapi/drm/drm_ras.h

index 70b246a78fc8a1ba3dd24e045225cc9c78315931..4636e68f5678ffa56f81099b07fdd10b49cf0961 100644 (file)
@@ -52,6 +52,8 @@ User space tools can:
   as a parameter.
 * Query specific error counter values with the ``get-error-counter`` command, using both
   ``node-id`` and ``error-id`` as parameters.
+* Clear specific error counters with the ``clear-error-counter`` command, using both
+  ``node-id`` and ``error-id`` as parameters.
 
 YAML-based Interface
 --------------------
@@ -101,3 +103,9 @@ Example: Query an error counter for a given node
     sudo ynl --family drm_ras --do get-error-counter --json '{"node-id":0, "error-id":1}'
     {'error-id': 1, 'error-name': 'error_name1', 'error-value': 0}
 
+Example: Clear an error counter for a given node
+
+.. code-block:: bash
+
+    sudo ynl --family drm_ras --do clear-error-counter --json '{"node-id":0, "error-id":1}'
+    None
index 79af25dac3c57f5b5f359942cd17330e14f44cc6..e113056f8c016c92b23b8e30c62a1f741b7d5879 100644 (file)
@@ -99,7 +99,7 @@ operations:
       flags: [admin-perm]
       do:
         request:
-          attributes:
+          attributes: &id-attrs
             - node-id
             - error-id
         reply:
@@ -113,3 +113,14 @@ operations:
             - node-id
         reply:
           attributes: *errorinfo
+    -
+      name: clear-error-counter
+      doc: >-
+           Clear error counter for a given node.
+           The request includes the error-id and node-id of the
+           counter to be cleared.
+      attribute-set: error-counter-attrs
+      flags: [admin-perm]
+      do:
+        request:
+          attributes: *id-attrs
index b2fa5ab86d870e9153666645966d968030784827..d6eab29a1394ca6358d4b2f38528188f0541739a 100644 (file)
@@ -26,7 +26,7 @@
  * efficient lookup by ID. Nodes can be registered or unregistered
  * dynamically at runtime.
  *
- * A Generic Netlink family `drm_ras` exposes two main operations to
+ * A Generic Netlink family `drm_ras` exposes the below operations to
  * userspace:
  *
  * 1. LIST_NODES: Dump all currently registered RAS nodes.
  *    Returns all counters of a node if only Node ID is provided or specific
  *    error counters.
  *
+ * 3. CLEAR_ERROR_COUNTER: Clear error counter of a given node.
+ *    Userspace must provide Node ID, Error ID.
+ *    Clears specific error counter of a node if supported.
+ *
  * Node registration:
  *
  * - drm_ras_node_register(): Registers a new node and assigns
@@ -66,6 +70,8 @@
  *   operation, fetching all counters from a specific node.
  * - drm_ras_nl_get_error_counter_doit(): Implements the GET_ERROR_COUNTER doit
  *   operation, fetching a counter value from a specific node.
+ * - drm_ras_nl_clear_error_counter_doit(): Implements the CLEAR_ERROR_COUNTER doit
+ *   operation, clearing a counter value from a specific node.
  */
 
 static DEFINE_XARRAY_ALLOC(drm_ras_xa);
@@ -314,6 +320,41 @@ int drm_ras_nl_get_error_counter_doit(struct sk_buff *skb,
        return doit_reply_value(info, node_id, error_id);
 }
 
+/**
+ * drm_ras_nl_clear_error_counter_doit() - Clear an error counter of a node
+ * @skb: Netlink message buffer
+ * @info: Generic Netlink info containing attributes of the request
+ *
+ * Extracts the node ID and error ID from the netlink attributes and
+ * clears the current value.
+ *
+ * Return: 0 on success, or negative errno on failure.
+ */
+int drm_ras_nl_clear_error_counter_doit(struct sk_buff *skb,
+                                       struct genl_info *info)
+{
+       struct drm_ras_node *node;
+       u32 node_id, error_id;
+
+       if (!info->attrs ||
+           GENL_REQ_ATTR_CHECK(info, DRM_RAS_A_ERROR_COUNTER_ATTRS_NODE_ID) ||
+           GENL_REQ_ATTR_CHECK(info, DRM_RAS_A_ERROR_COUNTER_ATTRS_ERROR_ID))
+               return -EINVAL;
+
+       node_id = nla_get_u32(info->attrs[DRM_RAS_A_ERROR_COUNTER_ATTRS_NODE_ID]);
+       error_id = nla_get_u32(info->attrs[DRM_RAS_A_ERROR_COUNTER_ATTRS_ERROR_ID]);
+
+       node = xa_load(&drm_ras_xa, node_id);
+       if (!node || !node->clear_error_counter)
+               return -ENOENT;
+
+       if (error_id < node->error_counter_range.first ||
+           error_id > node->error_counter_range.last)
+               return -EINVAL;
+
+       return node->clear_error_counter(node, error_id);
+}
+
 /**
  * drm_ras_node_register() - Register a new RAS node
  * @node: Node structure to register
index 16803d0c4a44c2a1825bdec1b3e1dd4d68e243f4..dea1c1b2494e814f4f35cc248bce4106ed97cf16 100644 (file)
@@ -22,6 +22,12 @@ static const struct nla_policy drm_ras_get_error_counter_dump_nl_policy[DRM_RAS_
        [DRM_RAS_A_ERROR_COUNTER_ATTRS_NODE_ID] = { .type = NLA_U32, },
 };
 
+/* DRM_RAS_CMD_CLEAR_ERROR_COUNTER - do */
+static const struct nla_policy drm_ras_clear_error_counter_nl_policy[DRM_RAS_A_ERROR_COUNTER_ATTRS_ERROR_ID + 1] = {
+       [DRM_RAS_A_ERROR_COUNTER_ATTRS_NODE_ID] = { .type = NLA_U32, },
+       [DRM_RAS_A_ERROR_COUNTER_ATTRS_ERROR_ID] = { .type = NLA_U32, },
+};
+
 /* Ops table for drm_ras */
 static const struct genl_split_ops drm_ras_nl_ops[] = {
        {
@@ -43,6 +49,13 @@ static const struct genl_split_ops drm_ras_nl_ops[] = {
                .maxattr        = DRM_RAS_A_ERROR_COUNTER_ATTRS_NODE_ID,
                .flags          = GENL_ADMIN_PERM | GENL_CMD_CAP_DUMP,
        },
+       {
+               .cmd            = DRM_RAS_CMD_CLEAR_ERROR_COUNTER,
+               .doit           = drm_ras_nl_clear_error_counter_doit,
+               .policy         = drm_ras_clear_error_counter_nl_policy,
+               .maxattr        = DRM_RAS_A_ERROR_COUNTER_ATTRS_ERROR_ID,
+               .flags          = GENL_ADMIN_PERM | GENL_CMD_CAP_DO,
+       },
 };
 
 struct genl_family drm_ras_nl_family __ro_after_init = {
index 06ccd93427739e0a4aa16ad973d293e4344d8381..a398643572a5a0430edd373f3f8be95a1cdd04d0 100644 (file)
@@ -18,6 +18,8 @@ int drm_ras_nl_get_error_counter_doit(struct sk_buff *skb,
                                      struct genl_info *info);
 int drm_ras_nl_get_error_counter_dumpit(struct sk_buff *skb,
                                        struct netlink_callback *cb);
+int drm_ras_nl_clear_error_counter_doit(struct sk_buff *skb,
+                                       struct genl_info *info);
 
 extern struct genl_family drm_ras_nl_family;
 
index 5d50209e51db43b94fd0ba23ecdc25d5d29f6bb0..f2a787bc4f64a9e2cfce0e394178635a588c56fa 100644 (file)
@@ -58,6 +58,17 @@ struct drm_ras_node {
        int (*query_error_counter)(struct drm_ras_node *node, u32 error_id,
                                   const char **name, u32 *val);
 
+       /**
+        * @clear_error_counter:
+        *
+        * This callback is used by drm_ras to clear a specific error counter.
+        * Driver should implement this callback to support clearing error counters
+        * of a node.
+        *
+        * Returns: 0 on success, negative error code on failure.
+        */
+       int (*clear_error_counter)(struct drm_ras_node *node, u32 error_id);
+
        /** @priv: Driver private data */
        void *priv;
 };
index 5f40fa5b869d03695fa7ac4edbb084b766b59e06..218a3ee868052793945cb25b1b702cd63a9cdad5 100644 (file)
@@ -41,6 +41,7 @@ enum {
 enum {
        DRM_RAS_CMD_LIST_NODES = 1,
        DRM_RAS_CMD_GET_ERROR_COUNTER,
+       DRM_RAS_CMD_CLEAR_ERROR_COUNTER,
 
        __DRM_RAS_CMD_MAX,
        DRM_RAS_CMD_MAX = (__DRM_RAS_CMD_MAX - 1)