drm/sched: Allow drivers to skip the reset and keep on running

author Maíra Canal <mcanal@igalia.com>

Mon, 14 Jul 2025 22:07:03 +0000 (19:07 -0300)

committer Maíra Canal <mcanal@igalia.com>

Tue, 15 Jul 2025 11:27:07 +0000 (08:27 -0300)
author Maíra Canal <mcanal@igalia.com>
Mon, 14 Jul 2025 22:07:03 +0000 (19:07 -0300)
committer Maíra Canal <mcanal@igalia.com>
Tue, 15 Jul 2025 11:27:07 +0000 (08:27 -0300)
diff --git a/drivers/gpu/drm/scheduler/sched_main.c b/drivers/gpu/drm/scheduler/sched_main.c

index 4f2593f0c7d98a20a5d22f05e31c6929ec1cd8f9..e2cda28a1af49dbe4d5cc76ce4f20024d8696d31 100644 (file)
--- a/drivers/gpu/drm/scheduler/sched_main.c
+++ b/drivers/gpu/drm/scheduler/sched_main.c
@@ -366,11 +366,16 @@ static void drm_sched_run_free_queue(struct drm_gpu_scheduler *sched)
  {
         struct drm_sched_job *job;
  
-       spin_lock(&sched->job_list_lock);
         job = list_first_entry_or_null(&sched->pending_list,
                                        struct drm_sched_job, list);
         if (job && dma_fence_is_signaled(&job->s_fence->finished))
                 __drm_sched_run_free_queue(sched);
+}
+
+static void drm_sched_run_free_queue_unlocked(struct drm_gpu_scheduler *sched)
+{
+       spin_lock(&sched->job_list_lock);
+       drm_sched_run_free_queue(sched);
         spin_unlock(&sched->job_list_lock);
  }
  
@@ -523,6 +528,32 @@ static void drm_sched_job_begin(struct drm_sched_job *s_job)
         spin_unlock(&sched->job_list_lock);
  }
  
+/**
+ * drm_sched_job_reinsert_on_false_timeout - reinsert the job on a false timeout
+ * @sched: scheduler instance
+ * @job: job to be reinserted on the pending list
+ *
+ * In the case of a "false timeout" - when a timeout occurs but the GPU isn't
+ * hung and is making progress, the scheduler must reinsert the job back into
+ * @sched->pending_list. Otherwise, the job and its resources won't be freed
+ * through the &struct drm_sched_backend_ops.free_job callback.
+ *
+ * This function must be used in "false timeout" cases only.
+ */
+static void drm_sched_job_reinsert_on_false_timeout(struct drm_gpu_scheduler *sched,
+                                                   struct drm_sched_job *job)
+{
+       spin_lock(&sched->job_list_lock);
+       list_add(&job->list, &sched->pending_list);
+
+       /* After reinserting the job, the scheduler enqueues the free-job work
+        * again if ready. Otherwise, a signaled job could be added to the
+        * pending list, but never freed.
+        */
+       drm_sched_run_free_queue(sched);
+       spin_unlock(&sched->job_list_lock);
+}
+
  static void drm_sched_job_timedout(struct work_struct *work)
  {
         struct drm_gpu_scheduler *sched;
@@ -556,6 +587,9 @@ static void drm_sched_job_timedout(struct work_struct *work)
                         job->sched->ops->free_job(job);
                         sched->free_guilty = false;
                 }
+
+               if (status == DRM_GPU_SCHED_STAT_NO_HANG)
+                       drm_sched_job_reinsert_on_false_timeout(sched, job);
         } else {
                 spin_unlock(&sched->job_list_lock);
         }
@@ -578,6 +612,10 @@ static void drm_sched_job_timedout(struct work_struct *work)
   * This function is typically used for reset recovery (see the docu of
   * drm_sched_backend_ops.timedout_job() for details). Do not call it for
   * scheduler teardown, i.e., before calling drm_sched_fini().
+ *
+ * As it's only used for reset recovery, drivers must not call this function
+ * in their &struct drm_sched_backend_ops.timedout_job callback when they
+ * skip a reset using &enum drm_gpu_sched_stat.DRM_GPU_SCHED_STAT_NO_HANG.
   */
  void drm_sched_stop(struct drm_gpu_scheduler *sched, struct drm_sched_job *bad)
  {
@@ -663,6 +701,10 @@ EXPORT_SYMBOL(drm_sched_stop);
   * drm_sched_backend_ops.timedout_job() for details). Do not call it for
   * scheduler startup. The scheduler itself is fully operational after
   * drm_sched_init() succeeded.
+ *
+ * As it's only used for reset recovery, drivers must not call this function
+ * in their &struct drm_sched_backend_ops.timedout_job callback when they
+ * skip a reset using &enum drm_gpu_sched_stat.DRM_GPU_SCHED_STAT_NO_HANG.
   */
  void drm_sched_start(struct drm_gpu_scheduler *sched, int errno)
  {
@@ -1184,7 +1226,7 @@ static void drm_sched_free_job_work(struct work_struct *w)
         if (job)
                 sched->ops->free_job(job);
  
-       drm_sched_run_free_queue(sched);
+       drm_sched_run_free_queue_unlocked(sched);
         drm_sched_run_job_queue(sched);
  }
  
diff --git a/include/drm/gpu_scheduler.h b/include/drm/gpu_scheduler.h

index ed300920996a8d830af5a4c011173ae4c25919dc..323a505e6e6ae014ea1225e6a3709760236568a5 100644 (file)
--- a/include/drm/gpu_scheduler.h
+++ b/include/drm/gpu_scheduler.h
@@ -393,11 +393,14 @@ struct drm_sched_job {
   * @DRM_GPU_SCHED_STAT_NONE: Reserved. Do not use.
   * @DRM_GPU_SCHED_STAT_RESET: The GPU hung and successfully reset.
   * @DRM_GPU_SCHED_STAT_ENODEV: Error: Device is not available anymore.
+ * @DRM_GPU_SCHED_STAT_NO_HANG: Contrary to scheduler's assumption, the GPU
+ * did not hang and is still running.
   */
  enum drm_gpu_sched_stat {
         DRM_GPU_SCHED_STAT_NONE,
         DRM_GPU_SCHED_STAT_RESET,
         DRM_GPU_SCHED_STAT_ENODEV,
+       DRM_GPU_SCHED_STAT_NO_HANG,
  };
  
  /**
author	Maíra Canal <mcanal@igalia.com>
	Mon, 14 Jul 2025 22:07:03 +0000 (19:07 -0300)
committer	Maíra Canal <mcanal@igalia.com>
	Tue, 15 Jul 2025 11:27:07 +0000 (08:27 -0300)
drivers/gpu/drm/scheduler/sched_main.c		patch \| blob \| blame \| history
include/drm/gpu_scheduler.h		patch \| blob \| blame \| history