drm/amdgpu: fix a job->pasid access race in gpu recovery

author Alex Deucher <alexander.deucher@amd.com>

Wed, 10 Dec 2025 16:02:30 +0000 (11:02 -0500)

committer Alex Deucher <alexander.deucher@amd.com>

Tue, 16 Dec 2025 19:16:08 +0000 (14:16 -0500)
author Alex Deucher <alexander.deucher@amd.com>
Wed, 10 Dec 2025 16:02:30 +0000 (11:02 -0500)
committer Alex Deucher <alexander.deucher@amd.com>
Tue, 16 Dec 2025 19:16:08 +0000 (14:16 -0500)
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_device.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_device.c

index 58c3ffe707d1d3f259dc2b083b9b4fae57416b47..12201b8e99b3fc71815640ae93e01451f859f6ed 100644 (file)
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_device.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_device.c
@@ -6613,6 +6613,8 @@ int amdgpu_device_gpu_recover(struct amdgpu_device *adev,
         struct amdgpu_hive_info *hive = NULL;
         int r = 0;
         bool need_emergency_restart = false;
+       /* save the pasid here as the job may be freed before the end of the reset */
+       int pasid = job ? job->pasid : -EINVAL;
  
         /*
          * If it reaches here because of hang/timeout and a RAS error is
@@ -6713,8 +6715,12 @@ end_reset:
         if (!r) {
                 struct amdgpu_task_info *ti = NULL;
  
-               if (job)
-                       ti = amdgpu_vm_get_task_info_pasid(adev, job->pasid);
+               /*
+                * The job may already be freed at this point via the sched tdr workqueue so
+                * use the cached pasid.
+                */
+               if (pasid >= 0)
+                       ti = amdgpu_vm_get_task_info_pasid(adev, pasid);
  
                 drm_dev_wedged_event(adev_to_drm(adev), DRM_WEDGE_RECOVERY_NONE,
                                      ti ? &ti->task : NULL);
author	Alex Deucher <alexander.deucher@amd.com>
	Wed, 10 Dec 2025 16:02:30 +0000 (11:02 -0500)
committer	Alex Deucher <alexander.deucher@amd.com>
	Tue, 16 Dec 2025 19:16:08 +0000 (14:16 -0500)