]> git.ipfire.org Git - thirdparty/gcc.git/commitdiff
[og10] vect: Add target hook to prefer gather/scatter instructions
authorJulian Brown <julian@codesourcery.com>
Wed, 25 Nov 2020 17:08:01 +0000 (09:08 -0800)
committerKwok Cheung Yeung <kcy@codesourcery.com>
Thu, 22 Apr 2021 17:14:30 +0000 (10:14 -0700)
For AMD GCN, the instructions available for loading/storing vectors are
always scatter/gather operations (i.e. there are separate addresses for
each vector lane), so the current heuristic to avoid gather/scatter
operations with too many elements in get_group_load_store_type is
counterproductive. Avoiding such operations in that function can
subsequently lead to a missed vectorization opportunity whereby later
analyses in the vectorizer try to use a very wide array type which is
not available on this target, and thus it bails out.

The attached patch adds a target hook to override the "single_element_p"
heuristic in the function as a target hook, and activates it for GCN. This
allows much better code to be generated for affected loops.

2021-01-13  Julian Brown  <julian@codesourcery.com>

gcc/
* doc/tm.texi.in (TARGET_VECTORIZE_PREFER_GATHER_SCATTER): Add
documentation hook.
* doc/tm.texi: Regenerate.
* target.def (prefer_gather_scatter): Add target hook under vectorizer.
* tree-vect-stmts.c (get_group_load_store_type): Optionally prefer
gather/scatter instructions to scalar/elementwise fallback.
* config/gcn/gcn.c (TARGET_VECTORIZE_PREFER_GATHER_SCATTER): Define
hook.

gcc/config/gcn/gcn.c
gcc/doc/tm.texi
gcc/doc/tm.texi.in
gcc/target.def
gcc/tree-vect-stmts.c

index 95b19c485fc18f693f2af613a752ecc999f3efde..c1823e8747e0a1771ba1074c28c69284cb33bae3 100644 (file)
@@ -6534,6 +6534,8 @@ gcn_dwarf_register_span (rtx rtl)
   gcn_vector_alignment_reachable
 #undef  TARGET_VECTOR_MODE_SUPPORTED_P
 #define TARGET_VECTOR_MODE_SUPPORTED_P gcn_vector_mode_supported_p
+#undef  TARGET_VECTORIZE_PREFER_GATHER_SCATTER
+#define TARGET_VECTORIZE_PREFER_GATHER_SCATTER true
 
 struct gcc_target targetm = TARGET_INITIALIZER;
 
index 8259b6dbb38fc4c068481d6565dbcba59621a86b..873c4919a221dffe7b876092a1a056a45ae717ef 100644 (file)
@@ -6143,6 +6143,11 @@ The default is @code{NULL_TREE} which means to not vectorize scatter
 stores.
 @end deftypefn
 
+@deftypevr {Target Hook} bool TARGET_VECTORIZE_PREFER_GATHER_SCATTER
+This hook is set to TRUE if gather loads or scatter stores are cheaper on
+this target than a sequence of elementwise loads or stores.
+@end deftypevr
+
 @deftypefn {Target Hook} int TARGET_SIMD_CLONE_COMPUTE_VECSIZE_AND_SIMDLEN (struct cgraph_node *@var{}, struct cgraph_simd_clone *@var{}, @var{tree}, @var{int})
 This hook should set @var{vecsize_mangle}, @var{vecsize_int}, @var{vecsize_float}
 fields in @var{simd_clone} structure pointed by @var{clone_info} argument and also
index 193b3478b5cc7ac5f629a46878a6c6c49e658f79..69531ac46cf2a7ce720390161b0aa0046aab1466 100644 (file)
@@ -4199,6 +4199,8 @@ address;  but often a machine-dependent strategy can generate better code.
 
 @hook TARGET_VECTORIZE_BUILTIN_SCATTER
 
+@hook TARGET_VECTORIZE_PREFER_GATHER_SCATTER
+
 @hook TARGET_SIMD_CLONE_COMPUTE_VECSIZE_AND_SIMDLEN
 
 @hook TARGET_SIMD_CLONE_ADJUST
index 3b3719dd3b74e42c62808aa216bde38ec3f8a455..a00eded91e074db4f3afc481b5b4ab59884eafab 100644 (file)
@@ -2012,6 +2012,14 @@ all zeros.  GCC can then try to branch around the instruction instead.",
  (unsigned ifn),
  default_empty_mask_is_expensive)
 
+/* Prefer gather/scatter loads/stores to e.g. elementwise accesses if\n\
+we cannot use a contiguous access.  */
+DEFHOOKPOD
+(prefer_gather_scatter,
+ "This hook is set to TRUE if gather loads or scatter stores are cheaper on\n\
+this target than a sequence of elementwise loads or stores.",
+ bool, false)
+
 /* Target builtin that implements vector gather operation.  */
 DEFHOOK
 (builtin_gather,
index 4c01e82ff394f911153b7bfe1dcec36d41853ded..35288a03ab8491575bd9b2a439b85d857bc8ec7c 100644 (file)
@@ -2264,9 +2264,14 @@ get_group_load_store_type (vec_info *vinfo, stmt_vec_info stmt_info,
         it probably isn't a win to use separate strided accesses based
         on nearby locations.  Or, even if it's a win over scalar code,
         it might not be a win over vectorizing at a lower VF, if that
-        allows us to use contiguous accesses.  */
+        allows us to use contiguous accesses.
+
+        On some targets (e.g. AMD GCN), always use gather/scatter accesses
+        here since those are the only types of vector loads/stores available,
+        and the fallback case of using elementwise accesses is very
+        inefficient.  */
       if (*memory_access_type == VMAT_ELEMENTWISE
-         && single_element_p
+         && (targetm.vectorize.prefer_gather_scatter || single_element_p)
          && loop_vinfo
          && vect_use_strided_gather_scatters_p (stmt_info, loop_vinfo,
                                                 masked_p, gs_info))