]> git.ipfire.org Git - thirdparty/kernel/linux.git/commitdiff
drm/xe/vf: Close multi-GT GGTT shift race
authorMatthew Brost <matthew.brost@intel.com>
Wed, 8 Oct 2025 21:45:12 +0000 (14:45 -0700)
committerMatthew Brost <matthew.brost@intel.com>
Thu, 9 Oct 2025 10:22:34 +0000 (03:22 -0700)
As multi-GT VF post-migration recovery can run in parallel on different
workqueues, but both GTs point to the same GGTT, only one GT needs to
shift the GGTT. However, both GTs need to know when this step has
completed. To coordinate this, perform the GGTT shift under the GGTT
lock. With shift being done under the lock, storing the shift value
becomes unnecessary.

In addition to above, move the GGTT VF config from the GT to the tile.

v3:
 - Update commmit message (Tomasz)
v4:
 - Move GGTT values to tile state (Michal)
 - Use GGTT lock (Michal)
v5:
 - Only take GGTT lock during recovery (CI)
 - Drop goto in vf_get_submission_cfg (Michal)
 - Add kernel doc around recovery in xe_gt_sriov_vf_query_config (Michal)
v7:
 - Drop recovery variable (Michal)
 - Use _locked naming (Michal)
 - Use guard (Michal)
v9:
 - Break LMEM changes into different patch (Michal)
 - Fix layering (Michal)

Signed-off-by: Matthew Brost <matthew.brost@intel.com>
Reviewed-by: Michal Wajdeczko <michal.wajdeczko@intel.com>
Link: https://lore.kernel.org/r/20251008214532.3442967-15-matthew.brost@intel.com
drivers/gpu/drm/xe/xe_gt_sriov_vf.c
drivers/gpu/drm/xe/xe_gt_sriov_vf.h
drivers/gpu/drm/xe/xe_gt_sriov_vf_types.h
drivers/gpu/drm/xe/xe_tile_sriov_vf.c
drivers/gpu/drm/xe/xe_tile_sriov_vf.h
drivers/gpu/drm/xe/xe_tile_sriov_vf_types.h

index ace670a16f53a52b12400441c7508285a53848fb..a16f33fea4fc24ed61b9f671633d8b8cbbc326a1 100644 (file)
@@ -438,13 +438,17 @@ u32 xe_gt_sriov_vf_gmdid(struct xe_gt *gt)
 
 static int vf_get_ggtt_info(struct xe_gt *gt)
 {
-       struct xe_gt_sriov_vf_selfconfig *config = &gt->sriov.vf.self_config;
+       struct xe_tile *tile = gt_to_tile(gt);
+       struct xe_ggtt *ggtt = tile->mem.ggtt;
        struct xe_guc *guc = &gt->uc.guc;
-       u64 start, size;
+       u64 start, size, ggtt_size;
+       s64 shift;
        int err;
 
        xe_gt_assert(gt, IS_SRIOV_VF(gt_to_xe(gt)));
 
+       guard(mutex)(&ggtt->lock);
+
        err = guc_action_query_single_klv64(guc, GUC_KLV_VF_CFG_GGTT_START_KEY, &start);
        if (unlikely(err))
                return err;
@@ -453,20 +457,30 @@ static int vf_get_ggtt_info(struct xe_gt *gt)
        if (unlikely(err))
                return err;
 
-       if (config->ggtt_size && config->ggtt_size != size) {
+       if (!size)
+               return -ENODATA;
+
+       ggtt_size = xe_tile_sriov_vf_ggtt(tile);
+       if (ggtt_size && ggtt_size != size) {
                xe_gt_sriov_err(gt, "Unexpected GGTT reassignment: %lluK != %lluK\n",
-                               size / SZ_1K, config->ggtt_size / SZ_1K);
+                               size / SZ_1K, ggtt_size / SZ_1K);
                return -EREMCHG;
        }
 
        xe_gt_sriov_dbg_verbose(gt, "GGTT %#llx-%#llx = %lluK\n",
                                start, start + size - 1, size / SZ_1K);
 
-       config->ggtt_shift = start - (s64)config->ggtt_base;
-       config->ggtt_base = start;
-       config->ggtt_size = size;
+       shift = start - (s64)xe_tile_sriov_vf_ggtt_base(tile);
+       xe_tile_sriov_vf_ggtt_base_store(tile, start);
+       xe_tile_sriov_vf_ggtt_store(tile, size);
+
+       if (shift && shift != start) {
+               xe_gt_sriov_info(gt, "Shifting GGTT base by %lld to 0x%016llx\n",
+                                shift, start);
+               xe_tile_sriov_vf_fixup_ggtt_nodes_locked(gt_to_tile(gt), shift);
+       }
 
-       return config->ggtt_size ? 0 : -ENODATA;
+       return 0;
 }
 
 static int vf_get_lmem_info(struct xe_gt *gt)
@@ -546,7 +560,9 @@ static void vf_cache_gmdid(struct xe_gt *gt)
  * xe_gt_sriov_vf_query_config - Query SR-IOV config data over MMIO.
  * @gt: the &xe_gt
  *
- * This function is for VF use only.
+ * This function is for VF use only. This function may shift the GGTT and is
+ * performed under GGTT lock, making this step visible to all GTs that share a
+ * GGTT.
  *
  * Return: 0 on success or a negative error code on failure.
  */
@@ -592,58 +608,6 @@ u16 xe_gt_sriov_vf_guc_ids(struct xe_gt *gt)
        return gt->sriov.vf.self_config.num_ctxs;
 }
 
-/**
- * xe_gt_sriov_vf_ggtt - VF GGTT configuration.
- * @gt: the &xe_gt
- *
- * This function is for VF use only.
- *
- * Return: size of the GGTT assigned to VF.
- */
-u64 xe_gt_sriov_vf_ggtt(struct xe_gt *gt)
-{
-       xe_gt_assert(gt, IS_SRIOV_VF(gt_to_xe(gt)));
-       xe_gt_assert(gt, gt->sriov.vf.guc_version.major);
-       xe_gt_assert(gt, gt->sriov.vf.self_config.ggtt_size);
-
-       return gt->sriov.vf.self_config.ggtt_size;
-}
-
-/**
- * xe_gt_sriov_vf_ggtt_base - VF GGTT base offset.
- * @gt: the &xe_gt
- *
- * This function is for VF use only.
- *
- * Return: base offset of the GGTT assigned to VF.
- */
-u64 xe_gt_sriov_vf_ggtt_base(struct xe_gt *gt)
-{
-       xe_gt_assert(gt, IS_SRIOV_VF(gt_to_xe(gt)));
-       xe_gt_assert(gt, gt->sriov.vf.guc_version.major);
-       xe_gt_assert(gt, gt->sriov.vf.self_config.ggtt_size);
-
-       return gt->sriov.vf.self_config.ggtt_base;
-}
-
-/**
- * xe_gt_sriov_vf_ggtt_shift - Return shift in GGTT range due to VF migration
- * @gt: the &xe_gt struct instance
- *
- * This function is for VF use only.
- *
- * Return: The shift value; could be negative
- */
-s64 xe_gt_sriov_vf_ggtt_shift(struct xe_gt *gt)
-{
-       struct xe_gt_sriov_vf_selfconfig *config = &gt->sriov.vf.self_config;
-
-       xe_gt_assert(gt, IS_SRIOV_VF(gt_to_xe(gt)));
-       xe_gt_assert(gt, xe_gt_is_main_type(gt));
-
-       return config->ggtt_shift;
-}
-
 static int relay_action_handshake(struct xe_gt *gt, u32 *major, u32 *minor)
 {
        u32 request[VF2PF_HANDSHAKE_REQUEST_MSG_LEN] = {
@@ -1053,19 +1017,20 @@ void xe_gt_sriov_vf_print_config(struct xe_gt *gt, struct drm_printer *p)
 
        xe_gt_assert(gt, IS_SRIOV_VF(gt_to_xe(gt)));
 
-       drm_printf(p, "GGTT range:\t%#llx-%#llx\n",
-                  config->ggtt_base,
-                  config->ggtt_base + config->ggtt_size - 1);
-
-       string_get_size(config->ggtt_size, 1, STRING_UNITS_2, buf, sizeof(buf));
-       drm_printf(p, "GGTT size:\t%llu (%s)\n", config->ggtt_size, buf);
+       if (xe_gt_is_main_type(gt)) {
+               u64 ggtt_size = xe_tile_sriov_vf_ggtt(gt_to_tile(gt));
+               u64 ggtt_base = xe_tile_sriov_vf_ggtt_base(gt_to_tile(gt));
 
-       drm_printf(p, "GGTT shift on last restore:\t%lld\n", config->ggtt_shift);
+               drm_printf(p, "GGTT range:\t%#llx-%#llx\n",
+                          ggtt_base, ggtt_base + ggtt_size - 1);
+               string_get_size(ggtt_size, 1, STRING_UNITS_2, buf, sizeof(buf));
+               drm_printf(p, "GGTT size:\t%llu (%s)\n", ggtt_size, buf);
 
-       if (IS_DGFX(xe) && xe_gt_is_main_type(gt)) {
-               lmem_size = xe_tile_sriov_vf_lmem(gt_to_tile(gt));
-               string_get_size(lmem_size, 1, STRING_UNITS_2, buf, sizeof(buf));
-               drm_printf(p, "LMEM size:\t%llu (%s)\n", lmem_size, buf);
+               if (IS_DGFX(xe)) {
+                       lmem_size = xe_tile_sriov_vf_lmem(gt_to_tile(gt));
+                       string_get_size(lmem_size, 1, STRING_UNITS_2, buf, sizeof(buf));
+                       drm_printf(p, "LMEM size:\t%llu (%s)\n", lmem_size, buf);
+               }
        }
 
        drm_printf(p, "GuC contexts:\t%u\n", config->num_ctxs);
@@ -1152,21 +1117,17 @@ static size_t post_migration_scratch_size(struct xe_device *xe)
 static int vf_post_migration_fixups(struct xe_gt *gt)
 {
        void *buf = gt->sriov.vf.migration.scratch;
-       s64 shift;
        int err;
 
+       /* xe_gt_sriov_vf_query_config will fixup the GGTT addresses */
        err = xe_gt_sriov_vf_query_config(gt);
        if (err)
                return err;
 
-       shift = xe_gt_sriov_vf_ggtt_shift(gt);
-       if (shift) {
-               xe_tile_sriov_vf_fixup_ggtt_nodes(gt_to_tile(gt), shift);
-               xe_gt_sriov_vf_default_lrcs_hwsp_rebase(gt);
-               err = xe_guc_contexts_hwsp_rebase(&gt->uc.guc, buf);
-               if (err)
-                       return err;
-       }
+       xe_gt_sriov_vf_default_lrcs_hwsp_rebase(gt);
+       err = xe_guc_contexts_hwsp_rebase(&gt->uc.guc, buf);
+       if (err)
+               return err;
 
        return 0;
 }
index 0adebf8aa41908de2cced5476f0853f69b5aaa3c..2eb793a2d8ba2ece1a77dab962b24e7d604d90dc 100644 (file)
@@ -29,9 +29,6 @@ bool xe_gt_sriov_vf_recovery_pending(struct xe_gt *gt);
 u32 xe_gt_sriov_vf_gmdid(struct xe_gt *gt);
 u16 xe_gt_sriov_vf_guc_ids(struct xe_gt *gt);
 u64 xe_gt_sriov_vf_lmem(struct xe_gt *gt);
-u64 xe_gt_sriov_vf_ggtt(struct xe_gt *gt);
-u64 xe_gt_sriov_vf_ggtt_base(struct xe_gt *gt);
-s64 xe_gt_sriov_vf_ggtt_shift(struct xe_gt *gt);
 
 u32 xe_gt_sriov_vf_read32(struct xe_gt *gt, struct xe_reg reg);
 void xe_gt_sriov_vf_write32(struct xe_gt *gt, struct xe_reg reg, u32 val);
index aff76051c9bbd3cbb047c3cc7f25afa0e0bfb648..0d9e217989af495c9eff52ba0ad46326944628c9 100644 (file)
  * struct xe_gt_sriov_vf_selfconfig - VF configuration data.
  */
 struct xe_gt_sriov_vf_selfconfig {
-       /** @ggtt_base: assigned base offset of the GGTT region. */
-       u64 ggtt_base;
-       /** @ggtt_size: assigned size of the GGTT region. */
-       u64 ggtt_size;
-       /** @ggtt_shift: difference in ggtt_base on last migration */
-       s64 ggtt_shift;
        /** @num_ctxs: assigned number of GuC submission context IDs. */
        u16 num_ctxs;
        /** @num_dbs: assigned number of GuC doorbells IDs. */
index 02430a53da9f24615920f35425754681b6bed6df..c9bac2cfdd04451c964ee95863112bd962e41675 100644 (file)
@@ -9,7 +9,6 @@
 
 #include "xe_assert.h"
 #include "xe_ggtt.h"
-#include "xe_gt_sriov_vf.h"
 #include "xe_sriov.h"
 #include "xe_sriov_printk.h"
 #include "xe_tile_sriov_vf.h"
@@ -40,10 +39,10 @@ static int vf_init_ggtt_balloons(struct xe_tile *tile)
  *
  * Return: 0 on success or a negative error code on failure.
  */
-int xe_tile_sriov_vf_balloon_ggtt_locked(struct xe_tile *tile)
+static int xe_tile_sriov_vf_balloon_ggtt_locked(struct xe_tile *tile)
 {
-       u64 ggtt_base = xe_gt_sriov_vf_ggtt_base(tile->primary_gt);
-       u64 ggtt_size = xe_gt_sriov_vf_ggtt(tile->primary_gt);
+       u64 ggtt_base = tile->sriov.vf.self_config.ggtt_base;
+       u64 ggtt_size = tile->sriov.vf.self_config.ggtt_size;
        struct xe_device *xe = tile_to_xe(tile);
        u64 wopcm = xe_wopcm_size(xe);
        u64 start, end;
@@ -232,7 +231,7 @@ int xe_tile_sriov_vf_prepare_ggtt(struct xe_tile *tile)
  */
 
 /**
- * xe_tile_sriov_vf_fixup_ggtt_nodes - Shift GGTT allocations to match assigned range.
+ * xe_tile_sriov_vf_fixup_ggtt_nodes_locked - Shift GGTT allocations to match assigned range.
  * @tile: the &xe_tile struct instance
  * @shift: the shift value
  *
@@ -240,17 +239,15 @@ int xe_tile_sriov_vf_prepare_ggtt(struct xe_tile *tile)
  * within the global space. This range might have changed during migration,
  * which requires all memory addresses pointing to GGTT to be shifted.
  */
-void xe_tile_sriov_vf_fixup_ggtt_nodes(struct xe_tile *tile, s64 shift)
+void xe_tile_sriov_vf_fixup_ggtt_nodes_locked(struct xe_tile *tile, s64 shift)
 {
        struct xe_ggtt *ggtt = tile->mem.ggtt;
 
-       mutex_lock(&ggtt->lock);
+       lockdep_assert_held(&ggtt->lock);
 
        xe_tile_sriov_vf_deballoon_ggtt_locked(tile);
        xe_ggtt_shift_nodes_locked(ggtt, shift);
        xe_tile_sriov_vf_balloon_ggtt_locked(tile);
-
-       mutex_unlock(&ggtt->lock);
 }
 
 /**
@@ -285,3 +282,69 @@ void xe_tile_sriov_vf_lmem_store(struct xe_tile *tile, u64 lmem_size)
 
        config->lmem_size = lmem_size;
 }
+
+/**
+ * xe_tile_sriov_vf_ggtt - VF GGTT configuration.
+ * @tile: the &xe_tile
+ *
+ * This function is for VF use only.
+ *
+ * Return: size of the GGTT assigned to VF.
+ */
+u64 xe_tile_sriov_vf_ggtt(struct xe_tile *tile)
+{
+       struct xe_tile_sriov_vf_selfconfig *config = &tile->sriov.vf.self_config;
+
+       xe_tile_assert(tile, IS_SRIOV_VF(tile_to_xe(tile)));
+
+       return config->ggtt_size;
+}
+
+/**
+ * xe_tile_sriov_vf_ggtt_store - Store VF GGTT configuration
+ * @tile: the &xe_tile
+ * @ggtt_size: VF GGTT size to store
+ *
+ * This function is for VF use only.
+ */
+void xe_tile_sriov_vf_ggtt_store(struct xe_tile *tile, u64 ggtt_size)
+{
+       struct xe_tile_sriov_vf_selfconfig *config = &tile->sriov.vf.self_config;
+
+       xe_tile_assert(tile, IS_SRIOV_VF(tile_to_xe(tile)));
+
+       config->ggtt_size = ggtt_size;
+}
+
+/**
+ * xe_tile_sriov_vf_ggtt_base - VF GGTT base configuration.
+ * @tile: the &xe_tile
+ *
+ * This function is for VF use only.
+ *
+ * Return: base of the GGTT assigned to VF.
+ */
+u64 xe_tile_sriov_vf_ggtt_base(struct xe_tile *tile)
+{
+       struct xe_tile_sriov_vf_selfconfig *config = &tile->sriov.vf.self_config;
+
+       xe_tile_assert(tile, IS_SRIOV_VF(tile_to_xe(tile)));
+
+       return config->ggtt_base;
+}
+
+/**
+ * xe_tile_sriov_vf_ggtt_base_store - Store VF GGTT base configuration
+ * @tile: the &xe_tile
+ * @ggtt_base: VF GGTT base to store
+ *
+ * This function is for VF use only.
+ */
+void xe_tile_sriov_vf_ggtt_base_store(struct xe_tile *tile, u64 ggtt_base)
+{
+       struct xe_tile_sriov_vf_selfconfig *config = &tile->sriov.vf.self_config;
+
+       xe_tile_assert(tile, IS_SRIOV_VF(tile_to_xe(tile)));
+
+       config->ggtt_base = ggtt_base;
+}
index 86d750a57530294e9f44fcee3bd7b00a4c6244fc..749f41504883cf831d721ea18b80648650a55934 100644 (file)
 struct xe_tile;
 
 int xe_tile_sriov_vf_prepare_ggtt(struct xe_tile *tile);
-int xe_tile_sriov_vf_balloon_ggtt_locked(struct xe_tile *tile);
 void xe_tile_sriov_vf_deballoon_ggtt_locked(struct xe_tile *tile);
-void xe_tile_sriov_vf_fixup_ggtt_nodes(struct xe_tile *tile, s64 shift);
+void xe_tile_sriov_vf_fixup_ggtt_nodes_locked(struct xe_tile *tile, s64 shift);
+u64 xe_tile_sriov_vf_ggtt(struct xe_tile *tile);
+void xe_tile_sriov_vf_ggtt_store(struct xe_tile *tile, u64 ggtt_size);
+u64 xe_tile_sriov_vf_ggtt_base(struct xe_tile *tile);
+void xe_tile_sriov_vf_ggtt_base_store(struct xe_tile *tile, u64 ggtt_size);
 u64 xe_tile_sriov_vf_lmem(struct xe_tile *tile);
 void xe_tile_sriov_vf_lmem_store(struct xe_tile *tile, u64 lmem_size);
 
index c3790b478af21a215ee960cd559bd3eeb68640d3..4807ca51614cf57d50e143290d55b4f42296e339 100644 (file)
  * struct xe_tile_sriov_vf_selfconfig - VF configuration data.
  */
 struct xe_tile_sriov_vf_selfconfig {
+       /** @ggtt_base: assigned base offset of the GGTT region. */
+       u64 ggtt_base;
+       /** @ggtt_size: assigned size of the GGTT region. */
+       u64 ggtt_size;
        /** @lmem_size: assigned size of the LMEM. */
        u64 lmem_size;
 };