Correct imul (r64) latency for modern Intel CPUs
authorMarkus Trippelsdorf <markus@trippelsdorf.de>
Sun, 17 Dec 2017 12:01:25 +0000 (12:01 +0000)
committerMarkus Trippelsdorf <trippels@gcc.gnu.org>
Sun, 17 Dec 2017 12:01:25 +0000 (12:01 +0000)
Since Sandybridge the 64bit multiplication latency is three cycles, not
four. So update the costs to reflect reality.

* x86-tune-costs.h (skylake_cost, core_cost): Decrease r64 multiply
latencies.

* gcc.target/i386/wmul-3.c: New test.

From-SVN: r255760

gcc/ChangeLog
gcc/config/i386/x86-tune-costs.h
gcc/testsuite/ChangeLog
gcc/testsuite/gcc.target/i386/wmul-3.c [new file with mode: 0644]

index 5209a5a22eba6fab627f963775aa361bb2f63df0..0f0418590bead6594931166ad0f7970d8c80deff 100644 (file)
@@ -1,3 +1,8 @@
+2017-12-17  Markus Trippelsdorf  <markus@trippelsdorf.de>
+
+       * x86-tune-costs.h (skylake_cost, core_cost): Decrease r64 multiply
+       latencies.
+
 2017-12-16  Sandra Loosemore  <sandra@codesourcery.com>
 
        * doc/invoke.texi: Fix some typos.
index 64821933830859a1a2707a527bda316e0dd1c15f..477e478f1f7769e92fa5325d5a4d4dde79ac9f42 100644 (file)
@@ -1538,8 +1538,8 @@ struct processor_costs skylake_cost = {
   {COSTS_N_INSNS (3),                  /* cost of starting multiply for QI */
    COSTS_N_INSNS (4),                  /*                               HI */
    COSTS_N_INSNS (3),                  /*                               SI */
-   COSTS_N_INSNS (4),                  /*                               DI */
-   COSTS_N_INSNS (4)},                 /*                            other */
+   COSTS_N_INSNS (3),                  /*                               DI */
+   COSTS_N_INSNS (3)},                 /*                            other */
   0,                                   /* cost of multiply per each bit set */
   /* Expanding div/mod currently doesn't consider parallelism. So the cost
      model is not realistic. We compensate by increasing the latencies a bit.  */
@@ -2341,8 +2341,9 @@ struct processor_costs core_cost = {
   {COSTS_N_INSNS (3),                  /* cost of starting multiply for QI */
    COSTS_N_INSNS (4),                  /*                               HI */
    COSTS_N_INSNS (3),                  /*                               SI */
-   COSTS_N_INSNS (4),                  /*                               DI */
-   COSTS_N_INSNS (4)},                 /*                            other */
+   /* Here we tune for Sandybridge or newer.  */
+   COSTS_N_INSNS (3),                  /*                               DI */
+   COSTS_N_INSNS (3)},                 /*                            other */
   0,                                   /* cost of multiply per each bit set */
   /* Expanding div/mod currently doesn't consider parallelism. So the cost
      model is not realistic. We compensate by increasing the latencies a bit.  */
index 70e9bcf133b5aee83b2e67c969ae9bdad5c0515c..c7d3977e43e8ea19a22fff3104e8c48ce6d87b6f 100644 (file)
@@ -1,3 +1,7 @@
+2017-12-17  Markus Trippelsdorf  <markus@trippelsdorf.de> 
+
+       * gcc.target/i386/wmul-3.c: New test.
+
 2017-12-16  Martin Sebor  <msebor@redhat.com>
 
        PR tree-optimization/78918
diff --git a/gcc/testsuite/gcc.target/i386/wmul-3.c b/gcc/testsuite/gcc.target/i386/wmul-3.c
new file mode 100644 (file)
index 0000000..5f16190
--- /dev/null
@@ -0,0 +1,66 @@
+/* { dg-do compile { target { ! ia32 } } } */
+/* { dg-options "-O2 -march=sandybridge" } */
+
+#include <stdint.h>
+#include <string.h>
+
+static const char b100_tab[200] = {
+    '0', '0', '0', '1', '0', '2', '0', '3', '0', '4',
+    '0', '5', '0', '6', '0', '7', '0', '8', '0', '9',
+    '1', '0', '1', '1', '1', '2', '1', '3', '1', '4',
+    '1', '5', '1', '6', '1', '7', '1', '8', '1', '9',
+    '2', '0', '2', '1', '2', '2', '2', '3', '2', '4',
+    '2', '5', '2', '6', '2', '7', '2', '8', '2', '9',
+    '3', '0', '3', '1', '3', '2', '3', '3', '3', '4',
+    '3', '5', '3', '6', '3', '7', '3', '8', '3', '9',
+    '4', '0', '4', '1', '4', '2', '4', '3', '4', '4',
+    '4', '5', '4', '6', '4', '7', '4', '8', '4', '9',
+    '5', '0', '5', '1', '5', '2', '5', '3', '5', '4',
+    '5', '5', '5', '6', '5', '7', '5', '8', '5', '9',
+    '6', '0', '6', '1', '6', '2', '6', '3', '6', '4',
+    '6', '5', '6', '6', '6', '7', '6', '8', '6', '9',
+    '7', '0', '7', '1', '7', '2', '7', '3', '7', '4',
+    '7', '5', '7', '6', '7', '7', '7', '8', '7', '9',
+    '8', '0', '8', '1', '8', '2', '8', '3', '8', '4',
+    '8', '5', '8', '6', '8', '7', '8', '8', '8', '9',
+    '9', '0', '9', '1', '9', '2', '9', '3', '9', '4',
+    '9', '5', '9', '6', '9', '7', '9', '8', '9', '9',
+};
+
+void uint64_to_ascii_ta7_32_base100(uint64_t val, char *dst) {
+  const int64_t POW10_10 = ((int64_t)10) * 1000 * 1000 * 1000;
+  const uint64_t POW2_57_DIV_POW100_4 =
+      ((int64_t)(1) << 57) / 100 / 100 / 100 / 100 + 1;
+  const uint64_t MASK32 = ((int64_t)(1) << 32) - 1;
+  int64_t hix = val / POW10_10;
+  int64_t lox = val % POW10_10;
+  int64_t lor = lox & (uint64_t)(-2);
+  uint64_t hi = hix * POW2_57_DIV_POW100_4;
+  uint64_t lo = lor * POW2_57_DIV_POW100_4;
+  memcpy(dst + 0 * 10 + 0, &b100_tab[(hi >> 57) * 2], 2);
+  memcpy(dst + 1 * 10 + 0, &b100_tab[(lo >> 57) * 2], 2);
+  hi = (hi >> 25) + 1;
+  lo = (lo >> 25) + 1;
+  hi = (hi & MASK32) * 100;
+  lo = (lo & MASK32) * 100;
+  memcpy(dst + 0 * 10 + 2, &b100_tab[(hi >> 32) * 2], 2);
+  hi = (hi & MASK32) * 100;
+  memcpy(dst + 1 * 10 + 2, &b100_tab[(lo >> 32) * 2], 2);
+  lo = (lo & MASK32) * 100;
+  memcpy(dst + 0 * 10 + 4, &b100_tab[(hi >> 32) * 2], 2);
+  hi = (hi & MASK32) * 100;
+  memcpy(dst + 1 * 10 + 4, &b100_tab[(lo >> 32) * 2], 2);
+  lo = (lo & MASK32) * 100;
+  memcpy(dst + 0 * 10 + 6, &b100_tab[(hi >> 32) * 2], 2);
+  hi = (hi & MASK32) * 100;
+  memcpy(dst + 1 * 10 + 6, &b100_tab[(lo >> 32) * 2], 2);
+  lo = (lo & MASK32) * 100;
+  hi >>= 32;
+  lo >>= 32;
+  lo = (lo & (-2)) | (lox & 1);
+  memcpy(dst + 0 * 10 + 8, &b100_tab[hi * 2], 2);
+  memcpy(dst + 1 * 10 + 8, &b100_tab[lo * 2], 2);
+  dst[2 * 10] = 0;
+}
+
+/* { dg-final { scan-assembler-times "imulq" 11 } } */