]> git.ipfire.org Git - thirdparty/linux.git/commitdiff
EDAC/{skx_common,i10nm}: Fix incorrect far-memory error source indicator
authorQiuxu Zhuo <qiuxu.zhuo@intel.com>
Tue, 15 Oct 2024 07:22:36 +0000 (15:22 +0800)
committerTony Luck <tony.luck@intel.com>
Wed, 23 Oct 2024 18:59:21 +0000 (11:59 -0700)
The Granite Rapids CPUs with Flat2LM memory configurations may
mistakenly report near-memory errors as far-memory errors, resulting
in the invalid decoded ADXL results:

  EDAC skx: Bad imc -1

Fix this incorrect far-memory error source indicator by prefetching the
decoded far-memory controller ID, and adjust the error source indicator
to near-memory if the far-memory controller ID is invalid.

Fixes: ba987eaaabf9 ("EDAC/i10nm: Add Intel Granite Rapids server support")
Signed-off-by: Qiuxu Zhuo <qiuxu.zhuo@intel.com>
Signed-off-by: Tony Luck <tony.luck@intel.com>
Tested-by: Diego Garcia Rodriguez <diego.garcia.rodriguez@intel.com>
Link: https://lore.kernel.org/r/20241015072236.24543-3-qiuxu.zhuo@intel.com
drivers/edac/i10nm_base.c
drivers/edac/skx_common.c
drivers/edac/skx_common.h

index e2a954de913b429c38d3b829744cf868b25dc824..51556c72a96746c548ba0381d9a7af0dee8d195b 100644 (file)
@@ -1036,6 +1036,7 @@ static int __init i10nm_init(void)
                return -ENODEV;
 
        cfg = (struct res_config *)id->driver_data;
+       skx_set_res_cfg(cfg);
        res_cfg = cfg;
 
        rc = skx_get_hi_lo(0x09a2, off, &tolm, &tohm);
index 52b462899870073105c025dafbbca4c684c51b78..6cf17af7d9112b0edb9da08fad48dce9893f6093 100644 (file)
@@ -47,6 +47,7 @@ static skx_show_retry_log_f skx_show_retry_rd_err_log;
 static u64 skx_tolm, skx_tohm;
 static LIST_HEAD(dev_edac_list);
 static bool skx_mem_cfg_2lm;
+static struct res_config *skx_res_cfg;
 
 int skx_adxl_get(void)
 {
@@ -135,6 +136,22 @@ static bool skx_adxl_decode(struct decoded_addr *res, enum error_source err_src)
                return false;
        }
 
+       /*
+        * GNR with a Flat2LM memory configuration may mistakenly classify
+        * a near-memory error(DDR5) as a far-memory error(CXL), resulting
+        * in the incorrect selection of decoded ADXL components.
+        * To address this, prefetch the decoded far-memory controller ID
+        * and adjust the error source to near-memory if the far-memory
+        * controller ID is invalid.
+        */
+       if (skx_res_cfg && skx_res_cfg->type == GNR && err_src == ERR_SRC_2LM_FM) {
+               res->imc = (int)adxl_values[component_indices[INDEX_MEMCTRL]];
+               if (res->imc == -1) {
+                       err_src = ERR_SRC_2LM_NM;
+                       edac_dbg(0, "Adjust the error source to near-memory.\n");
+               }
+       }
+
        res->socket  = (int)adxl_values[component_indices[INDEX_SOCKET]];
        if (err_src == ERR_SRC_2LM_NM) {
                res->imc     = (adxl_nm_bitmap & BIT_NM_MEMCTRL) ?
@@ -191,6 +208,12 @@ void skx_set_mem_cfg(bool mem_cfg_2lm)
 }
 EXPORT_SYMBOL_GPL(skx_set_mem_cfg);
 
+void skx_set_res_cfg(struct res_config *cfg)
+{
+       skx_res_cfg = cfg;
+}
+EXPORT_SYMBOL_GPL(skx_set_res_cfg);
+
 void skx_set_decode(skx_decode_f decode, skx_show_retry_log_f show_retry_log)
 {
        driver_decode = decode;
index cd47f81868319b8c647f90b9a118218e178d3e55..54bba8a62f727cae2c3eaf2f0922d3c2d63400c9 100644 (file)
@@ -241,6 +241,7 @@ int skx_adxl_get(void);
 void skx_adxl_put(void);
 void skx_set_decode(skx_decode_f decode, skx_show_retry_log_f show_retry_log);
 void skx_set_mem_cfg(bool mem_cfg_2lm);
+void skx_set_res_cfg(struct res_config *cfg);
 
 int skx_get_src_id(struct skx_dev *d, int off, u8 *id);
 int skx_get_node_id(struct skx_dev *d, u8 *id);