[Patch 02/02] Introduce prefetch-dynamic-strides option
authorLuis Machado <luis.machado@linaro.org>
Wed, 23 May 2018 16:23:11 +0000 (16:23 +0000)
committerLuis Machado <luisgpm@gcc.gnu.org>
Wed, 23 May 2018 16:23:11 +0000 (16:23 +0000)
The following patch adds an option to control software prefetching of memory
references with non-constant/unknown strides.

Currently we prefetch these references if the pass thinks there is benefit to
doing so. But, since this is all based on heuristics, it's not always the case
that we end up with better performance.

For Falkor there is also the problem of conflicts with the hardware prefetcher,
so we need to be more conservative in terms of what we issue software prefetch
hints for.

This also aligns GCC with what LLVM does for Falkor.

Similarly to the previous patch, the defaults guarantee no change in behavior
for other targets and architectures.

gcc/ChangeLog:

2018-05-23  Luis Machado  <luis.machado@linaro.org>

* config/aarch64/aarch64-protos.h (cpu_prefetch_tune)
<prefetch_dynamic_strides>: New const bool field.
* config/aarch64/aarch64.c (generic_prefetch_tune): Update to include
prefetch_dynamic_strides.
(exynosm1_prefetch_tune): Likewise.
(thunderxt88_prefetch_tune): Likewise.
(thunderx_prefetch_tune): Likewise.
(thunderx2t99_prefetch_tune): Likewise.
(qdf24xx_prefetch_tune): Likewise. Set prefetch_dynamic_strides to
false.
(aarch64_override_options_internal): Update to set
PARAM_PREFETCH_DYNAMIC_STRIDES.
* doc/invoke.texi (prefetch-dynamic-strides): Document new option.
* params.def (PARAM_PREFETCH_DYNAMIC_STRIDES): New.
* params.h (PARAM_PREFETCH_DYNAMIC_STRIDES): Define.
* tree-ssa-loop-prefetch.c (should_issue_prefetch_p): Account for
prefetch-dynamic-strides setting.

From-SVN: r260618

gcc/ChangeLog
gcc/config/aarch64/aarch64-protos.h
gcc/config/aarch64/aarch64.c
gcc/doc/invoke.texi
gcc/params.def
gcc/params.h
gcc/tree-ssa-loop-prefetch.c

index 403ee0e534da38a9f322b8654c6e40f217404d31..38b26b1ad01d497244ebf1775822e9a21b9cae55 100644 (file)
@@ -1,3 +1,23 @@
+2018-05-23  Luis Machado  <luis.machado@linaro.org>
+
+       * config/aarch64/aarch64-protos.h (cpu_prefetch_tune)
+       <prefetch_dynamic_strides>: New const bool field.
+       * config/aarch64/aarch64.c (generic_prefetch_tune): Update to include
+       prefetch_dynamic_strides.
+       (exynosm1_prefetch_tune): Likewise.
+       (thunderxt88_prefetch_tune): Likewise.
+       (thunderx_prefetch_tune): Likewise.
+       (thunderx2t99_prefetch_tune): Likewise.
+       (qdf24xx_prefetch_tune): Likewise. Set prefetch_dynamic_strides to
+       false.
+       (aarch64_override_options_internal): Update to set
+       PARAM_PREFETCH_DYNAMIC_STRIDES.
+       * doc/invoke.texi (prefetch-dynamic-strides): Document new option.
+       * params.def (PARAM_PREFETCH_DYNAMIC_STRIDES): New.
+       * params.h (PARAM_PREFETCH_DYNAMIC_STRIDES): Define.
+       * tree-ssa-loop-prefetch.c (should_issue_prefetch_p): Account for
+       prefetch-dynamic-strides setting.
+
 2018-05-23  Luis Machado  <luis.machado@linaro.org>
 
        * config/aarch64/aarch64-protos.h (cpu_prefetch_tune)
index 7e9fe3ab9fb2374f03fac920fc47ffc855afa5ac..eec86428741ab08b71a62db63d2073c130418ed4 100644 (file)
@@ -230,6 +230,9 @@ struct cpu_prefetch_tune
   const int l1_cache_size;
   const int l1_cache_line_size;
   const int l2_cache_size;
+  /* Whether software prefetch hints should be issued for non-constant
+     strides.  */
+  const bool prefetch_dynamic_strides;
   /* The minimum constant stride beyond which we should use prefetch
      hints for.  */
   const int minimum_stride;
index 561c407156e4aa4fdd23673230d8690a1211c35b..9e385e090355951ee6026be950a6602941eb64e3 100644 (file)
@@ -550,6 +550,7 @@ static const cpu_prefetch_tune generic_prefetch_tune =
   -1,                  /* l1_cache_size  */
   -1,                  /* l1_cache_line_size  */
   -1,                  /* l2_cache_size  */
+  true,                        /* prefetch_dynamic_strides */
   -1,                  /* minimum_stride */
   -1                   /* default_opt_level  */
 };
@@ -560,6 +561,7 @@ static const cpu_prefetch_tune exynosm1_prefetch_tune =
   -1,                  /* l1_cache_size  */
   64,                  /* l1_cache_line_size  */
   -1,                  /* l2_cache_size  */
+  true,                        /* prefetch_dynamic_strides */
   -1,                  /* minimum_stride */
   -1                   /* default_opt_level  */
 };
@@ -570,6 +572,7 @@ static const cpu_prefetch_tune qdf24xx_prefetch_tune =
   32,                  /* l1_cache_size  */
   64,                  /* l1_cache_line_size  */
   512,                 /* l2_cache_size  */
+  false,               /* prefetch_dynamic_strides */
   2048,                        /* minimum_stride */
   3                    /* default_opt_level  */
 };
@@ -580,6 +583,7 @@ static const cpu_prefetch_tune thunderxt88_prefetch_tune =
   32,                  /* l1_cache_size  */
   128,                 /* l1_cache_line_size  */
   16*1024,             /* l2_cache_size  */
+  true,                        /* prefetch_dynamic_strides */
   -1,                  /* minimum_stride */
   3                    /* default_opt_level  */
 };
@@ -590,6 +594,7 @@ static const cpu_prefetch_tune thunderx_prefetch_tune =
   32,                  /* l1_cache_size  */
   128,                 /* l1_cache_line_size  */
   -1,                  /* l2_cache_size  */
+  true,                        /* prefetch_dynamic_strides */
   -1,                  /* minimum_stride */
   -1                   /* default_opt_level  */
 };
@@ -600,6 +605,7 @@ static const cpu_prefetch_tune thunderx2t99_prefetch_tune =
   32,                  /* l1_cache_size  */
   64,                  /* l1_cache_line_size  */
   256,                 /* l2_cache_size  */
+  true,                        /* prefetch_dynamic_strides */
   -1,                  /* minimum_stride */
   -1                   /* default_opt_level  */
 };
@@ -10635,6 +10641,11 @@ aarch64_override_options_internal (struct gcc_options *opts)
                           aarch64_tune_params.prefetch->l2_cache_size,
                           opts->x_param_values,
                           global_options_set.x_param_values);
+  if (!aarch64_tune_params.prefetch->prefetch_dynamic_strides)
+    maybe_set_param_value (PARAM_PREFETCH_DYNAMIC_STRIDES,
+                          0,
+                          opts->x_param_values,
+                          global_options_set.x_param_values);
   if (aarch64_tune_params.prefetch->minimum_stride >= 0)
     maybe_set_param_value (PARAM_PREFETCH_MINIMUM_STRIDE,
                           aarch64_tune_params.prefetch->minimum_stride,
index d1e50a0738c0b310e32f2ca6fc5107da875e3c93..65f32d6764014aa35f293cc67d67f4548aa6d6aa 100644 (file)
@@ -10734,6 +10734,16 @@ The size of L1 cache, in kilobytes.
 @item l2-cache-size
 The size of L2 cache, in kilobytes.
 
+@item prefetch-dynamic-strides
+Whether the loop array prefetch pass should issue software prefetch hints
+for strides that are non-constant.  In some cases this may be
+beneficial, though the fact the stride is non-constant may make it
+hard to predict when there is clear benefit to issuing these hints.
+
+Set to 1, the default, if the prefetch hints should be issued for non-constant
+strides.  Set to 0 if prefetch hints should be issued only for strides that
+are known to be constant and below @option{prefetch-minimum-stride}.
+
 @item prefetch-minimum-stride
 Minimum constant stride, in bytes, to start using prefetch hints for.  If
 the stride is less than this threshold, prefetch hints will not be issued.
index 6b208bfdfeeee884d1ce9917f3009a161898b726..6b955a5deec310eacc2fae288e086375da8b692d 100644 (file)
@@ -795,6 +795,15 @@ DEFPARAM (PARAM_L2_CACHE_SIZE,
          "The size of L2 cache.",
          512, 0, 0)
 
+/* Whether software prefetch hints should be issued for non-constant
+   strides.  */
+
+DEFPARAM (PARAM_PREFETCH_DYNAMIC_STRIDES,
+         "prefetch-dynamic-strides",
+         "Whether software prefetch hints should be issued for non-constant "
+         "strides.",
+         1, 0, 1)
+
 /* The minimum constant stride beyond which we should use prefetch hints
    for.  */
 
index 96012db31ff7f038a6b6689c71ce8a79bf0dad8f..8aa960a904ee7f7ce239aa1323ab25e6043ae7ba 100644 (file)
@@ -196,6 +196,8 @@ extern void init_param_values (int *params);
   PARAM_VALUE (PARAM_L1_CACHE_LINE_SIZE)
 #define L2_CACHE_SIZE \
   PARAM_VALUE (PARAM_L2_CACHE_SIZE)
+#define PREFETCH_DYNAMIC_STRIDES \
+  PARAM_VALUE (PARAM_PREFETCH_DYNAMIC_STRIDES)
 #define PREFETCH_MINIMUM_STRIDE \
   PARAM_VALUE (PARAM_PREFETCH_MINIMUM_STRIDE)
 #define USE_CANONICAL_TYPES \
index ac89bf76a6a4248da118037b3734d2ff9ae9dd82..c3e7fd1e5294a4b8a9f597052ffdebcf71ed8d15 100644 (file)
@@ -992,6 +992,16 @@ prune_by_reuse (struct mem_ref_group *groups)
 static bool
 should_issue_prefetch_p (struct mem_ref *ref)
 {
+  /* Do we want to issue prefetches for non-constant strides?  */
+  if (!cst_and_fits_in_hwi (ref->group->step) && PREFETCH_DYNAMIC_STRIDES == 0)
+    {
+      if (dump_file && (dump_flags & TDF_DETAILS))
+       fprintf (dump_file,
+                "Skipping non-constant step for reference %u:%u\n",
+                ref->group->uid, ref->uid);
+      return false;
+    }
+
   /* Some processors may have a hardware prefetcher that may conflict with
      prefetch hints for a range of strides.  Make sure we don't issue
      prefetches for such cases if the stride is within this particular