Added memcpy/memmove family optimized with AVX512 for KNL hardware.

author Andrew Senkevich <andrew.senkevich@intel.com>

Fri, 15 Jan 2016 19:32:07 +0000 (22:32 +0300)

committer Andrew Senkevich <andrew.senkevich@intel.com>

Fri, 15 Jan 2016 19:32:07 +0000 (22:32 +0300)
author Andrew Senkevich <andrew.senkevich@intel.com>
Fri, 15 Jan 2016 19:32:07 +0000 (22:32 +0300)
committer Andrew Senkevich <andrew.senkevich@intel.com>
Fri, 15 Jan 2016 19:32:07 +0000 (22:32 +0300)
diff --git a/sysdeps/x86_64/multiarch/Makefile b/sysdeps/x86_64/multiarch/Makefile

index b2e31efe020c4e618d350c3a166d08fbe8f8984e..d234f4ab66e6f613aed48b2be58e4853f45e1184 100644 (file)
--- a/sysdeps/x86_64/multiarch/Makefile
+++ b/sysdeps/x86_64/multiarch/Makefile
@@ -7,11 +7,12 @@ ifeq ($(subdir),string)
  
  sysdep_routines += strncat-c stpncpy-c strncpy-c strcmp-ssse3 \
                    strcmp-sse2-unaligned strncmp-ssse3 \
-                  memcmp-sse4 memcpy-ssse3 \
-                  memcpy-sse2-unaligned mempcpy-ssse3 \
-                  memmove-ssse3 memcpy-ssse3-back mempcpy-ssse3-back \
-                  memmove-avx-unaligned memcpy-avx-unaligned mempcpy-avx-unaligned \
-                  memmove-ssse3-back strcasecmp_l-ssse3 \
+                  memcmp-sse4 memcpy-ssse3 memcpy-sse2-unaligned \
+                  memcpy-avx512-no-vzeroupper mempcpy-ssse3 memmove-ssse3 \
+                  memcpy-ssse3-back mempcpy-ssse3-back memmove-avx-unaligned \
+                  memcpy-avx-unaligned mempcpy-avx-unaligned \
+                  mempcpy-avx512-no-vzeroupper memmove-ssse3-back \
+                  memmove-avx512-no-vzeroupper strcasecmp_l-ssse3 \
                    strncase_l-ssse3 strcat-ssse3 strncat-ssse3\
                    strcpy-ssse3 strncpy-ssse3 stpcpy-ssse3 stpncpy-ssse3 \
                    strcpy-sse2-unaligned strncpy-sse2-unaligned \
diff --git a/sysdeps/x86_64/multiarch/ifunc-impl-list.c b/sysdeps/x86_64/multiarch/ifunc-impl-list.c

index 5f600dc1c287330e719892e2bde7ca1e2c17ae6f..d9ff016659afc31b442c624a49e266725b72b897 100644 (file)
--- a/sysdeps/x86_64/multiarch/ifunc-impl-list.c
+++ b/sysdeps/x86_64/multiarch/ifunc-impl-list.c
@@ -24,7 +24,7 @@
  #include "init-arch.h"
  
  /* Maximum number of IFUNC implementations.  */
-#define MAX_IFUNC      4
+#define MAX_IFUNC      5
  
  /* Fill ARRAY of MAX elements with IFUNC implementations for function
     NAME supported on target machine and return the number of valid
@@ -46,8 +46,11 @@ __libc_ifunc_impl_list (const char *name, struct libc_ifunc_impl *array,
                               __memcmp_ssse3)
               IFUNC_IMPL_ADD (array, i, memcmp, 1, __memcmp_sse2))
  
-  /* Support sysdeps/x86_64/multiarch/memmove_chk.S.  */
+  /* Support sysdeps/x86_64/multiarch/memmove_chk.c.  */
    IFUNC_IMPL (i, name, __memmove_chk,
+             IFUNC_IMPL_ADD (array, i, __memmove_chk,
+                             HAS_ARCH_FEATURE (AVX512F_Usable),
+                             __memmove_chk_avx512_no_vzeroupper)
               IFUNC_IMPL_ADD (array, i, __memmove_chk,
                               HAS_ARCH_FEATURE (AVX_Usable),
                               __memmove_chk_avx_unaligned)
@@ -65,6 +68,9 @@ __libc_ifunc_impl_list (const char *name, struct libc_ifunc_impl *array,
               IFUNC_IMPL_ADD (array, i, memmove,
                               HAS_ARCH_FEATURE (AVX_Usable),
                               __memmove_avx_unaligned)
+             IFUNC_IMPL_ADD (array, i, memmove,
+                             HAS_ARCH_FEATURE (AVX512F_Usable),
+                             __memmove_avx512_no_vzeroupper)
               IFUNC_IMPL_ADD (array, i, memmove, HAS_CPU_FEATURE (SSSE3),
                               __memmove_ssse3_back)
               IFUNC_IMPL_ADD (array, i, memmove, HAS_CPU_FEATURE (SSSE3),
@@ -253,6 +259,9 @@ __libc_ifunc_impl_list (const char *name, struct libc_ifunc_impl *array,
  #ifdef SHARED
    /* Support sysdeps/x86_64/multiarch/memcpy_chk.S.  */
    IFUNC_IMPL (i, name, __memcpy_chk,
+             IFUNC_IMPL_ADD (array, i, __memcpy_chk,
+                             HAS_ARCH_FEATURE (AVX512F_Usable),
+                             __memcpy_chk_avx512_no_vzeroupper)
               IFUNC_IMPL_ADD (array, i, __memcpy_chk,
                               HAS_ARCH_FEATURE (AVX_Usable),
                               __memcpy_chk_avx_unaligned)
@@ -274,11 +283,17 @@ __libc_ifunc_impl_list (const char *name, struct libc_ifunc_impl *array,
                               __memcpy_ssse3_back)
               IFUNC_IMPL_ADD (array, i, memcpy, HAS_CPU_FEATURE (SSSE3),
                               __memcpy_ssse3)
+             IFUNC_IMPL_ADD (array, i, memcpy,
+                             HAS_ARCH_FEATURE (AVX512F_Usable),
+                             __memcpy_avx512_no_vzeroupper)
               IFUNC_IMPL_ADD (array, i, memcpy, 1, __memcpy_sse2_unaligned)
               IFUNC_IMPL_ADD (array, i, memcpy, 1, __memcpy_sse2))
  
    /* Support sysdeps/x86_64/multiarch/mempcpy_chk.S.  */
    IFUNC_IMPL (i, name, __mempcpy_chk,
+             IFUNC_IMPL_ADD (array, i, __mempcpy_chk,
+                             HAS_ARCH_FEATURE (AVX512F_Usable),
+                             __mempcpy_chk_avx512_no_vzeroupper)
               IFUNC_IMPL_ADD (array, i, __mempcpy_chk,
                               HAS_ARCH_FEATURE (AVX_Usable),
                               __mempcpy_chk_avx_unaligned)
@@ -293,6 +308,9 @@ __libc_ifunc_impl_list (const char *name, struct libc_ifunc_impl *array,
  
    /* Support sysdeps/x86_64/multiarch/mempcpy.S.  */
    IFUNC_IMPL (i, name, mempcpy,
+             IFUNC_IMPL_ADD (array, i, mempcpy,
+                             HAS_ARCH_FEATURE (AVX512F_Usable),
+                             __mempcpy_avx512_no_vzeroupper)
               IFUNC_IMPL_ADD (array, i, mempcpy,
                               HAS_ARCH_FEATURE (AVX_Usable),
                               __mempcpy_avx_unaligned)
diff --git a/sysdeps/x86_64/multiarch/memcpy-avx512-no-vzeroupper.S b/sysdeps/x86_64/multiarch/memcpy-avx512-no-vzeroupper.S

new file mode 100644 (file)

index 0000000..cc02934
--- /dev/null
+++ b/sysdeps/x86_64/multiarch/memcpy-avx512-no-vzeroupper.S
@@ -0,0 +1,410 @@
+/* memcpy optimized with AVX512 for KNL hardware.\r
+   Copyright (C) 2016 Free Software Foundation, Inc.\r
+   This file is part of the GNU C Library.\r
+\r
+   The GNU C Library is free software; you can redistribute it and/or\r
+   modify it under the terms of the GNU Lesser General Public\r
+   License as published by the Free Software Foundation; either\r
+   version 2.1 of the License, or (at your option) any later version.\r
+\r
+   The GNU C Library is distributed in the hope that it will be useful,\r
+   but WITHOUT ANY WARRANTY; without even the implied warranty of\r
+   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU\r
+   Lesser General Public License for more details.\r
+\r
+   You should have received a copy of the GNU Lesser General Public\r
+   License along with the GNU C Library; if not, see\r
+   <http://www.gnu.org/licenses/>.  */\r
+\r
+#include <sysdep.h>\r
+\r
+#if defined HAVE_AVX512_ASM_SUPPORT && IS_IN (libc) \\r
+    && (defined SHARED \\r
+       || defined USE_AS_MEMMOVE \\r
+       || !defined USE_MULTIARCH)\r
+\r
+#include "asm-syntax.h"\r
+#ifndef MEMCPY\r
+# define MEMCPY                __memcpy_avx512_no_vzeroupper\r
+# define MEMCPY_CHK    __memcpy_chk_avx512_no_vzeroupper\r
+#endif\r
+\r
+       .section .text,"ax",@progbits\r
+#if !defined USE_AS_BCOPY\r
+ENTRY (MEMCPY_CHK)\r
+       cmpq    %rdx, %rcx\r
+       jb      HIDDEN_JUMPTARGET (__chk_fail)\r
+END (MEMCPY_CHK)\r
+#endif\r
+\r
+ENTRY (MEMCPY)\r
+       mov     %rdi, %rax\r
+#ifdef USE_AS_MEMPCPY\r
+       add     %rdx, %rax\r
+#endif\r
+       lea     (%rsi, %rdx), %rcx\r
+       lea     (%rdi, %rdx), %r9\r
+       cmp     $512, %rdx\r
+       ja      L(512bytesormore)\r
+\r
+L(check):\r
+       cmp     $16, %rdx\r
+       jbe     L(less_16bytes)\r
+       cmp     $256, %rdx\r
+       jb      L(less_256bytes)\r
+       vmovups (%rsi), %zmm0\r
+       vmovups 0x40(%rsi), %zmm1\r
+       vmovups 0x80(%rsi), %zmm2\r
+       vmovups 0xC0(%rsi), %zmm3\r
+       vmovups -0x100(%rcx), %zmm4\r
+       vmovups -0xC0(%rcx), %zmm5\r
+       vmovups -0x80(%rcx), %zmm6\r
+       vmovups -0x40(%rcx), %zmm7\r
+       vmovups %zmm0, (%rdi)\r
+       vmovups %zmm1, 0x40(%rdi)\r
+       vmovups %zmm2, 0x80(%rdi)\r
+       vmovups %zmm3, 0xC0(%rdi)\r
+       vmovups %zmm4, -0x100(%r9)\r
+       vmovups %zmm5, -0xC0(%r9)\r
+       vmovups %zmm6, -0x80(%r9)\r
+       vmovups %zmm7, -0x40(%r9)\r
+       ret\r
+\r
+L(less_256bytes):\r
+       cmp     $128, %dl\r
+       jb      L(less_128bytes)\r
+       vmovups (%rsi), %zmm0\r
+       vmovups 0x40(%rsi), %zmm1\r
+       vmovups -0x80(%rcx), %zmm2\r
+       vmovups -0x40(%rcx), %zmm3\r
+       vmovups %zmm0, (%rdi)\r
+       vmovups %zmm1, 0x40(%rdi)\r
+       vmovups %zmm2, -0x80(%r9)\r
+       vmovups %zmm3, -0x40(%r9)\r
+       ret\r
+\r
+L(less_128bytes):\r
+       cmp     $64, %dl\r
+       jb      L(less_64bytes)\r
+       vmovdqu (%rsi), %ymm0\r
+       vmovdqu 0x20(%rsi), %ymm1\r
+       vmovdqu -0x40(%rcx), %ymm2\r
+       vmovdqu -0x20(%rcx), %ymm3\r
+       vmovdqu %ymm0, (%rdi)\r
+       vmovdqu %ymm1, 0x20(%rdi)\r
+       vmovdqu %ymm2, -0x40(%r9)\r
+       vmovdqu %ymm3, -0x20(%r9)\r
+       ret\r
+\r
+L(less_64bytes):\r
+       cmp     $32, %dl\r
+       jb      L(less_32bytes)\r
+       vmovdqu (%rsi), %ymm0\r
+       vmovdqu -0x20(%rcx), %ymm1\r
+       vmovdqu %ymm0, (%rdi)\r
+       vmovdqu %ymm1, -0x20(%r9)\r
+       ret\r
+\r
+L(less_32bytes):\r
+       vmovdqu (%rsi), %xmm0\r
+       vmovdqu -0x10(%rcx), %xmm1\r
+       vmovdqu %xmm0, (%rdi)\r
+       vmovdqu %xmm1, -0x10(%r9)\r
+       ret\r
+\r
+L(less_16bytes):\r
+       cmp     $8, %dl\r
+       jb      L(less_8bytes)\r
+       movq    (%rsi), %rsi\r
+       movq    -0x8(%rcx), %rcx\r
+       movq    %rsi, (%rdi)\r
+       movq    %rcx, -0x8(%r9)\r
+       ret\r
+\r
+L(less_8bytes):\r
+       cmp     $4, %dl\r
+       jb      L(less_4bytes)\r
+       mov     (%rsi), %esi\r
+       mov     -0x4(%rcx), %ecx\r
+       mov     %esi, (%rdi)\r
+       mov     %ecx, -0x4(%r9)\r
+       ret\r
+\r
+L(less_4bytes):\r
+       cmp     $2, %dl\r
+       jb      L(less_2bytes)\r
+       mov     (%rsi), %si\r
+       mov     -0x2(%rcx), %cx\r
+       mov     %si, (%rdi)\r
+       mov     %cx, -0x2(%r9)\r
+       ret\r
+\r
+L(less_2bytes):\r
+       cmp     $1, %dl\r
+       jb      L(less_1bytes)  \r
+       mov     (%rsi), %cl\r
+       mov     %cl, (%rdi)\r
+L(less_1bytes):\r
+       ret\r
+\r
+L(512bytesormore):\r
+#ifdef SHARED_CACHE_SIZE_HALF\r
+       mov     $SHARED_CACHE_SIZE_HALF, %r8\r
+#else\r
+       mov     __x86_shared_cache_size_half(%rip), %r8\r
+#endif\r
+       cmp     %r8, %rdx\r
+       jae     L(preloop_large)\r
+       cmp     $1024, %rdx\r
+       ja      L(1024bytesormore)\r
+       prefetcht1 (%rsi)\r
+       prefetcht1 0x40(%rsi)\r
+       prefetcht1 0x80(%rsi)\r
+       prefetcht1 0xC0(%rsi)\r
+       prefetcht1 0x100(%rsi)\r
+       prefetcht1 0x140(%rsi)\r
+       prefetcht1 0x180(%rsi)\r
+       prefetcht1 0x1C0(%rsi)\r
+       prefetcht1 -0x200(%rcx)\r
+       prefetcht1 -0x1C0(%rcx)\r
+       prefetcht1 -0x180(%rcx)\r
+       prefetcht1 -0x140(%rcx)\r
+       prefetcht1 -0x100(%rcx)\r
+       prefetcht1 -0xC0(%rcx)\r
+       prefetcht1 -0x80(%rcx)\r
+       prefetcht1 -0x40(%rcx)  \r
+       vmovups (%rsi), %zmm0\r
+       vmovups 0x40(%rsi), %zmm1\r
+       vmovups 0x80(%rsi), %zmm2\r
+       vmovups 0xC0(%rsi), %zmm3\r
+       vmovups 0x100(%rsi), %zmm4\r
+       vmovups 0x140(%rsi), %zmm5\r
+       vmovups 0x180(%rsi), %zmm6\r
+       vmovups 0x1C0(%rsi), %zmm7\r
+       vmovups -0x200(%rcx), %zmm8\r
+       vmovups -0x1C0(%rcx), %zmm9\r
+       vmovups -0x180(%rcx), %zmm10\r
+       vmovups -0x140(%rcx), %zmm11\r
+       vmovups -0x100(%rcx), %zmm12\r
+       vmovups -0xC0(%rcx), %zmm13\r
+       vmovups -0x80(%rcx), %zmm14\r
+       vmovups -0x40(%rcx), %zmm15\r
+       vmovups %zmm0, (%rdi)\r
+       vmovups %zmm1, 0x40(%rdi)\r
+       vmovups %zmm2, 0x80(%rdi)\r
+       vmovups %zmm3, 0xC0(%rdi)\r
+       vmovups %zmm4, 0x100(%rdi)\r
+       vmovups %zmm5, 0x140(%rdi)\r
+       vmovups %zmm6, 0x180(%rdi)\r
+       vmovups %zmm7, 0x1C0(%rdi)\r
+       vmovups %zmm8, -0x200(%r9)\r
+       vmovups %zmm9, -0x1C0(%r9)\r
+       vmovups %zmm10, -0x180(%r9)\r
+       vmovups %zmm11, -0x140(%r9)\r
+       vmovups %zmm12, -0x100(%r9)\r
+       vmovups %zmm13, -0xC0(%r9)\r
+       vmovups %zmm14, -0x80(%r9)\r
+       vmovups %zmm15, -0x40(%r9)\r
+       ret\r
+\r
+L(1024bytesormore):\r
+       cmp     %rsi, %rdi\r
+       ja      L(1024bytesormore_bkw)\r
+       sub     $512, %r9\r
+       vmovups -0x200(%rcx), %zmm8\r
+       vmovups -0x1C0(%rcx), %zmm9\r
+       vmovups -0x180(%rcx), %zmm10\r
+       vmovups -0x140(%rcx), %zmm11\r
+       vmovups -0x100(%rcx), %zmm12\r
+       vmovups -0xC0(%rcx), %zmm13\r
+       vmovups -0x80(%rcx), %zmm14\r
+       vmovups -0x40(%rcx), %zmm15\r
+       prefetcht1 (%rsi)\r
+       prefetcht1 0x40(%rsi)\r
+       prefetcht1 0x80(%rsi)\r
+       prefetcht1 0xC0(%rsi)\r
+       prefetcht1 0x100(%rsi)\r
+       prefetcht1 0x140(%rsi)\r
+       prefetcht1 0x180(%rsi)\r
+       prefetcht1 0x1C0(%rsi)\r
+\r
+/* Loop with unaligned memory access.  */\r
+L(gobble_512bytes_loop):\r
+       vmovups (%rsi), %zmm0\r
+       vmovups 0x40(%rsi), %zmm1\r
+       vmovups 0x80(%rsi), %zmm2\r
+       vmovups 0xC0(%rsi), %zmm3\r
+       vmovups 0x100(%rsi), %zmm4\r
+       vmovups 0x140(%rsi), %zmm5\r
+       vmovups 0x180(%rsi), %zmm6\r
+       vmovups 0x1C0(%rsi), %zmm7\r
+       add     $512, %rsi\r
+       prefetcht1 (%rsi)\r
+       prefetcht1 0x40(%rsi)\r
+       prefetcht1 0x80(%rsi)\r
+       prefetcht1 0xC0(%rsi)\r
+       prefetcht1 0x100(%rsi)\r
+       prefetcht1 0x140(%rsi)\r
+       prefetcht1 0x180(%rsi)\r
+       prefetcht1 0x1C0(%rsi)\r
+       vmovups %zmm0, (%rdi)\r
+       vmovups %zmm1, 0x40(%rdi)\r
+       vmovups %zmm2, 0x80(%rdi)\r
+       vmovups %zmm3, 0xC0(%rdi)\r
+       vmovups %zmm4, 0x100(%rdi)\r
+       vmovups %zmm5, 0x140(%rdi)\r
+       vmovups %zmm6, 0x180(%rdi)\r
+       vmovups %zmm7, 0x1C0(%rdi)\r
+       add     $512, %rdi\r
+       cmp     %r9, %rdi\r
+       jb      L(gobble_512bytes_loop)\r
+       vmovups %zmm8, (%r9)\r
+       vmovups %zmm9, 0x40(%r9)\r
+       vmovups %zmm10, 0x80(%r9)\r
+       vmovups %zmm11, 0xC0(%r9)\r
+       vmovups %zmm12, 0x100(%r9)\r
+       vmovups %zmm13, 0x140(%r9)\r
+       vmovups %zmm14, 0x180(%r9)\r
+       vmovups %zmm15, 0x1C0(%r9)\r
+       ret\r
+\r
+L(1024bytesormore_bkw):\r
+       add     $512, %rdi\r
+       vmovups 0x1C0(%rsi), %zmm8\r
+       vmovups 0x180(%rsi), %zmm9\r
+       vmovups 0x140(%rsi), %zmm10\r
+       vmovups 0x100(%rsi), %zmm11\r
+       vmovups 0xC0(%rsi), %zmm12\r
+       vmovups 0x80(%rsi), %zmm13\r
+       vmovups 0x40(%rsi), %zmm14\r
+       vmovups (%rsi), %zmm15\r
+       prefetcht1 -0x40(%rcx)\r
+       prefetcht1 -0x80(%rcx)\r
+       prefetcht1 -0xC0(%rcx)\r
+       prefetcht1 -0x100(%rcx)\r
+       prefetcht1 -0x140(%rcx)\r
+       prefetcht1 -0x180(%rcx)\r
+       prefetcht1 -0x1C0(%rcx)\r
+       prefetcht1 -0x200(%rcx)\r
+       \r
+/* Backward loop with unaligned memory access.  */\r
+L(gobble_512bytes_loop_bkw):\r
+       vmovups -0x40(%rcx), %zmm0\r
+       vmovups -0x80(%rcx), %zmm1\r
+       vmovups -0xC0(%rcx), %zmm2\r
+       vmovups -0x100(%rcx), %zmm3\r
+       vmovups -0x140(%rcx), %zmm4\r
+       vmovups -0x180(%rcx), %zmm5\r
+       vmovups -0x1C0(%rcx), %zmm6\r
+       vmovups -0x200(%rcx), %zmm7\r
+       sub     $512, %rcx\r
+       prefetcht1 -0x40(%rcx)\r
+       prefetcht1 -0x80(%rcx)\r
+       prefetcht1 -0xC0(%rcx)\r
+       prefetcht1 -0x100(%rcx)\r
+       prefetcht1 -0x140(%rcx)\r
+       prefetcht1 -0x180(%rcx)\r
+       prefetcht1 -0x1C0(%rcx)\r
+       prefetcht1 -0x200(%rcx)\r
+       vmovups %zmm0, -0x40(%r9)       \r
+       vmovups %zmm1, -0x80(%r9)       \r
+       vmovups %zmm2, -0xC0(%r9)       \r
+       vmovups %zmm3, -0x100(%r9)      \r
+       vmovups %zmm4, -0x140(%r9)      \r
+       vmovups %zmm5, -0x180(%r9)      \r
+       vmovups %zmm6, -0x1C0(%r9)\r
+       vmovups %zmm7, -0x200(%r9)      \r
+       sub     $512, %r9\r
+       cmp     %rdi, %r9\r
+       ja      L(gobble_512bytes_loop_bkw)\r
+       vmovups %zmm8, -0x40(%rdi)\r
+       vmovups %zmm9, -0x80(%rdi)\r
+       vmovups %zmm10, -0xC0(%rdi)\r
+       vmovups %zmm11, -0x100(%rdi)\r
+       vmovups %zmm12, -0x140(%rdi)\r
+       vmovups %zmm13, -0x180(%rdi)\r
+       vmovups %zmm14, -0x1C0(%rdi)\r
+       vmovups %zmm15, -0x200(%rdi)\r
+       ret\r
+\r
+L(preloop_large):\r
+       cmp     %rsi, %rdi\r
+       ja      L(preloop_large_bkw)\r
+       vmovups (%rsi), %zmm4\r
+       vmovups 0x40(%rsi), %zmm5\r
+\r
+/* Align destination for access with non-temporal stores in the loop.  */\r
+       mov     %rdi, %r8\r
+       and     $-0x80, %rdi\r
+       add     $0x80, %rdi\r
+       sub     %rdi, %r8       \r
+       sub     %r8, %rsi\r
+       add     %r8, %rdx\r
+       prefetcht1 (%rsi)\r
+       prefetcht1 0x40(%rsi)\r
+       prefetcht1 0x80(%rsi)\r
+       prefetcht1 0xC0(%rsi)\r
+L(gobble_256bytes_nt_loop):\r
+       vmovups (%rsi), %zmm0\r
+       prefetcht1 0x100(%rsi)\r
+       vmovups 0x40(%rsi), %zmm1\r
+       prefetcht1 0x140(%rsi)\r
+       vmovups 0x80(%rsi), %zmm2\r
+       prefetcht1 0x180(%rsi)\r
+       vmovups 0xC0(%rsi), %zmm3\r
+       prefetcht1 0x1C0(%rsi)\r
+       vmovntdq %zmm0, (%rdi)\r
+       vmovntdq %zmm1, 0x40(%rdi)\r
+       vmovntdq %zmm2, 0x80(%rdi)\r
+       vmovntdq %zmm3, 0xC0(%rdi)\r
+       sub     $256, %rdx\r
+       add     $256, %rsi\r
+       add     $256, %rdi\r
+       cmp     $256, %rdx\r
+       ja      L(gobble_256bytes_nt_loop)\r
+       sfence\r
+       vmovups %zmm4, (%rax)\r
+       vmovups %zmm5, 0x40(%rax)\r
+       jmp     L(check)\r
+\r
+L(preloop_large_bkw):\r
+       vmovups -0x80(%rcx), %zmm4\r
+       vmovups -0x40(%rcx), %zmm5\r
+\r
+/* Align end of destination for access with non-temporal stores.  */\r
+       mov     %r9, %r8\r
+       and     $-0x80, %r9\r
+       sub     %r9, %r8\r
+       sub     %r8, %rcx\r
+       sub     %r8, %rdx\r
+       add     %r9, %r8\r
+       prefetcht1 -0x100(%rcx)\r
+       prefetcht1 -0xC0(%rcx)\r
+       prefetcht1 -0x80(%rcx)\r
+       prefetcht1 -0x40(%rcx)\r
+L(gobble_256bytes_nt_loop_bkw):\r
+       vmovups -0x100(%rcx), %zmm0\r
+       prefetcht1 -0x200(%rcx)\r
+       vmovups -0xC0(%rcx), %zmm1\r
+       prefetcht1 -0x1C0(%rcx)\r
+       vmovups -0x80(%rcx), %zmm2\r
+       prefetcht1 -0x180(%rcx)\r
+       vmovups -0x40(%rcx), %zmm3\r
+       prefetcht1 -0x140(%rcx)\r
+       vmovntdq %zmm0, -0x100(%r9)\r
+       vmovntdq %zmm1, -0xC0(%r9)\r
+       vmovntdq %zmm2, -0x80(%r9)\r
+       vmovntdq %zmm3, -0x40(%r9)\r
+       sub     $256, %rdx\r
+       sub     $256, %rcx\r
+       sub     $256, %r9\r
+       cmp     $256, %rdx\r
+       ja      L(gobble_256bytes_nt_loop_bkw)\r
+       sfence\r
+       vmovups %zmm4, -0x80(%r8)\r
+       vmovups %zmm5, -0x40(%r8)\r
+       jmp     L(check)\r
+\r
+END (MEMCPY)\r
+\r
+#endif\r
diff --git a/sysdeps/x86_64/multiarch/memcpy.S b/sysdeps/x86_64/multiarch/memcpy.S

index 27fca2957eef7b4bc3e75337112c431b9fb3afc6..64a1bcd137d3db85e23d0132aec47ad3b0476a50 100644 (file)
--- a/sysdeps/x86_64/multiarch/memcpy.S
+++ b/sysdeps/x86_64/multiarch/memcpy.S
@@ -30,19 +30,27 @@
  ENTRY(__new_memcpy)
         .type   __new_memcpy, @gnu_indirect_function
         LOAD_RTLD_GLOBAL_RO_RDX
-       leaq    __memcpy_avx_unaligned(%rip), %rax
+#ifdef HAVE_AVX512_ASM_SUPPORT
+       HAS_ARCH_FEATURE (AVX512F_Usable)
+       jz      1f
+       HAS_ARCH_FEATURE (Prefer_No_VZEROUPPER)
+       jz      1f
+       leaq    __memcpy_avx512_no_vzeroupper(%rip), %rax
+       ret
+#endif
+1:     leaq    __memcpy_avx_unaligned(%rip), %rax
         HAS_ARCH_FEATURE (AVX_Fast_Unaligned_Load)
-       jz 1f
+       jz 2f
         ret
-1:     leaq    __memcpy_sse2(%rip), %rax
+2:     leaq    __memcpy_sse2(%rip), %rax
         HAS_ARCH_FEATURE (Slow_BSF)
-       jnz     2f
+       jnz     3f
         leaq    __memcpy_sse2_unaligned(%rip), %rax
         ret
-2:     HAS_CPU_FEATURE (SSSE3)
-       jz 3f
+3:     HAS_CPU_FEATURE (SSSE3)
+       jz 4f
         leaq    __memcpy_ssse3(%rip), %rax
-3:     ret
+4:     ret
  END(__new_memcpy)
  
  # undef ENTRY
diff --git a/sysdeps/x86_64/multiarch/memcpy_chk.S b/sysdeps/x86_64/multiarch/memcpy_chk.S

index 6476c624f994028a9274a57c7525009307001e55..a0d56d40cd4041f8be355bc1a59dbcc897f73786 100644 (file)
--- a/sysdeps/x86_64/multiarch/memcpy_chk.S
+++ b/sysdeps/x86_64/multiarch/memcpy_chk.S
@@ -30,7 +30,15 @@
  ENTRY(__memcpy_chk)
         .type   __memcpy_chk, @gnu_indirect_function
         LOAD_RTLD_GLOBAL_RO_RDX
-       leaq    __memcpy_chk_sse2(%rip), %rax
+#ifdef HAVE_AVX512_ASM_SUPPORT
+       HAS_ARCH_FEATURE (AVX512F_Usable)
+       jz      1f
+#      HAS_ARCH_FEATURE (Prefer_No_VZEROUPPER)
+#      jz      1f
+       leaq    __memcpy_avx512_no_vzeroupper(%rip), %rax
+       ret
+#endif
+1:     leaq    __memcpy_chk_sse2(%rip), %rax
         HAS_CPU_FEATURE (SSSE3)
         jz      2f
         leaq    __memcpy_chk_ssse3(%rip), %rax
diff --git a/sysdeps/x86_64/multiarch/memmove-avx512-no-vzeroupper.S b/sysdeps/x86_64/multiarch/memmove-avx512-no-vzeroupper.S

new file mode 100644 (file)

index 0000000..518d1fe
--- /dev/null
+++ b/sysdeps/x86_64/multiarch/memmove-avx512-no-vzeroupper.S
@@ -0,0 +1,22 @@
+/* memmove optimized with AVX512 for KNL hardware.
+   Copyright (C) 2016 Free Software Foundation, Inc.
+   This file is part of the GNU C Library.
+
+   The GNU C Library is free software; you can redistribute it and/or
+   modify it under the terms of the GNU Lesser General Public
+   License as published by the Free Software Foundation; either
+   version 2.1 of the License, or (at your option) any later version.
+
+   The GNU C Library is distributed in the hope that it will be useful,
+   but WITHOUT ANY WARRANTY; without even the implied warranty of
+   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+   Lesser General Public License for more details.
+
+   You should have received a copy of the GNU Lesser General Public
+   License along with the GNU C Library; if not, see
+   <http://www.gnu.org/licenses/>.  */
+
+#define USE_AS_MEMMOVE
+#define MEMCPY         __memmove_avx512_no_vzeroupper
+#define MEMCPY_CHK     __memmove_chk_avx512_no_vzeroupper
+#include "memcpy-avx512-no-vzeroupper.S"
diff --git a/sysdeps/x86_64/multiarch/memmove.c b/sysdeps/x86_64/multiarch/memmove.c

index e8445317a2a2b382d58ea440784055a15474b2d6..8da5640bb0528dbb7f02e8fe2b90069acb5ac250 100644 (file)
--- a/sysdeps/x86_64/multiarch/memmove.c
+++ b/sysdeps/x86_64/multiarch/memmove.c
@@ -36,6 +36,9 @@ extern __typeof (__redirect_memmove) __memmove_sse2 attribute_hidden;
  extern __typeof (__redirect_memmove) __memmove_ssse3 attribute_hidden;
  extern __typeof (__redirect_memmove) __memmove_ssse3_back attribute_hidden;
  extern __typeof (__redirect_memmove) __memmove_avx_unaligned attribute_hidden;
+# ifdef HAVE_AVX512_ASM_SUPPORT
+  extern __typeof (__redirect_memmove) __memmove_avx512_no_vzeroupper attribute_hidden;
+# endif
  
  #endif
  
@@ -49,12 +52,18 @@ extern __typeof (__redirect_memmove) __memmove_avx_unaligned attribute_hidden;
     ifunc symbol properly.  */
  extern __typeof (__redirect_memmove) __libc_memmove;
  libc_ifunc (__libc_memmove,
-           HAS_ARCH_FEATURE (AVX_Fast_Unaligned_Load)
+#ifdef HAVE_AVX512_ASM_SUPPORT
+           HAS_ARCH_FEATURE (AVX512F_Usable)
+             && HAS_ARCH_FEATURE (Prefer_No_VZEROUPPER)
+           ? __memmove_avx512_no_vzeroupper
+           :
+#endif
+           (HAS_ARCH_FEATURE (AVX_Fast_Unaligned_Load)
             ? __memmove_avx_unaligned
             : (HAS_CPU_FEATURE (SSSE3)
                ? (HAS_ARCH_FEATURE (Fast_Copy_Backward)
                   ? __memmove_ssse3_back : __memmove_ssse3)
-              : __memmove_sse2));
+              : __memmove_sse2)));
  
  strong_alias (__libc_memmove, memmove)
  
diff --git a/sysdeps/x86_64/multiarch/memmove_chk.c b/sysdeps/x86_64/multiarch/memmove_chk.c

index 60ed98fd40ec3b1fef1dc9a4aae47b98728988cc..f64da631807b815821fcc930317fd784ec2265f2 100644 (file)
--- a/sysdeps/x86_64/multiarch/memmove_chk.c
+++ b/sysdeps/x86_64/multiarch/memmove_chk.c
@@ -26,10 +26,19 @@ extern __typeof (__memmove_chk) __memmove_chk_sse2 attribute_hidden;
  extern __typeof (__memmove_chk) __memmove_chk_ssse3 attribute_hidden;
  extern __typeof (__memmove_chk) __memmove_chk_ssse3_back attribute_hidden;
  extern __typeof (__memmove_chk) __memmove_chk_avx_unaligned attribute_hidden;
+# ifdef HAVE_AVX512_ASM_SUPPORT
+  extern __typeof (__memmove_chk) __memmove_chk_avx512_no_vzeroupper attribute_hidden;
+# endif
  
  #include "debug/memmove_chk.c"
  
  libc_ifunc (__memmove_chk,
+#ifdef HAVE_AVX512_ASM_SUPPORT
+           HAS_ARCH_FEATURE (AVX512F_Usable)
+             && HAS_ARCH_FEATURE (Prefer_No_VZEROUPPER)
+           ? __memmove_chk_avx512_no_vzeroupper
+           :
+#endif
             HAS_ARCH_FEATURE (AVX_Fast_Unaligned_Load) ? __memmove_chk_avx_unaligned :
             (HAS_CPU_FEATURE (SSSE3)
             ? (HAS_ARCH_FEATURE (Fast_Copy_Backward)
diff --git a/sysdeps/x86_64/multiarch/mempcpy-avx512-no-vzeroupper.S b/sysdeps/x86_64/multiarch/mempcpy-avx512-no-vzeroupper.S

new file mode 100644 (file)

index 0000000..ccffb31
--- /dev/null
+++ b/sysdeps/x86_64/multiarch/mempcpy-avx512-no-vzeroupper.S
@@ -0,0 +1,22 @@
+/* mempcpy optimized with AVX512 for KNL hardware.\r
+   Copyright (C) 2016 Free Software Foundation, Inc.\r
+   This file is part of the GNU C Library.\r
+\r
+   The GNU C Library is free software; you can redistribute it and/or\r
+   modify it under the terms of the GNU Lesser General Public\r
+   License as published by the Free Software Foundation; either\r
+   version 2.1 of the License, or (at your option) any later version.\r
+\r
+   The GNU C Library is distributed in the hope that it will be useful,\r
+   but WITHOUT ANY WARRANTY; without even the implied warranty of\r
+   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU\r
+   Lesser General Public License for more details.\r
+\r
+   You should have received a copy of the GNU Lesser General Public\r
+   License along with the GNU C Library; if not, see\r
+   <http://www.gnu.org/licenses/>.  */\r
+\r
+#define USE_AS_MEMPCPY\r
+#define MEMCPY         __mempcpy_avx512_no_vzeroupper\r
+#define MEMCPY_CHK     __mempcpy_chk_avx512_no_vzeroupper\r
+#include "memcpy-avx512-no-vzeroupper.S"\r
diff --git a/sysdeps/x86_64/multiarch/mempcpy.S b/sysdeps/x86_64/multiarch/mempcpy.S

index 96ffb2881bee12a9ec112a47078b56d32fe2fdec..ed786235656d7f61ce57d191621d81b34df98f71 100644 (file)
--- a/sysdeps/x86_64/multiarch/mempcpy.S
+++ b/sysdeps/x86_64/multiarch/mempcpy.S
@@ -28,7 +28,15 @@
  ENTRY(__mempcpy)
         .type   __mempcpy, @gnu_indirect_function
         LOAD_RTLD_GLOBAL_RO_RDX
-       leaq    __mempcpy_sse2(%rip), %rax
+#ifdef HAVE_AVX512_ASM_SUPPORT
+       HAS_ARCH_FEATURE (AVX512F_Usable)
+       jz      1f
+       HAS_ARCH_FEATURE (Prefer_No_VZEROUPPER)
+       jz      1f
+       leaq    __mempcpy_avx512_no_vzeroupper(%rip), %rax
+       ret
+#endif
+1:     leaq    __mempcpy_sse2(%rip), %rax
         HAS_CPU_FEATURE (SSSE3)
         jz      2f
         leaq    __mempcpy_ssse3(%rip), %rax
diff --git a/sysdeps/x86_64/multiarch/mempcpy_chk.S b/sysdeps/x86_64/multiarch/mempcpy_chk.S

index ae7a76522457e1b557ae81735393f78e05007d04..6e8a89d38c24c047e5fe0ddef80959e8e8e06fcb 100644 (file)
--- a/sysdeps/x86_64/multiarch/mempcpy_chk.S
+++ b/sysdeps/x86_64/multiarch/mempcpy_chk.S
@@ -30,7 +30,15 @@
  ENTRY(__mempcpy_chk)
         .type   __mempcpy_chk, @gnu_indirect_function
         LOAD_RTLD_GLOBAL_RO_RDX
-       leaq    __mempcpy_chk_sse2(%rip), %rax
+#ifdef HAVE_AVX512_ASM_SUPPORT
+       HAS_ARCH_FEATURE (AVX512F_Usable)
+       jz      1f
+       HAS_ARCH_FEATURE (Prefer_No_VZEROUPPER)
+       jz      1f
+       leaq    __mempcpy_chk_avx512_no_vzeroupper(%rip), %rax
+       ret
+#endif
+1:     leaq    __mempcpy_chk_sse2(%rip), %rax
         HAS_CPU_FEATURE (SSSE3)
         jz      2f
         leaq    __mempcpy_chk_ssse3(%rip), %rax
author	Andrew Senkevich <andrew.senkevich@intel.com>
	Fri, 15 Jan 2016 19:32:07 +0000 (22:32 +0300)
committer	Andrew Senkevich <andrew.senkevich@intel.com>
	Fri, 15 Jan 2016 19:32:07 +0000 (22:32 +0300)
sysdeps/x86_64/multiarch/Makefile		patch \| blob \| blame \| history
sysdeps/x86_64/multiarch/ifunc-impl-list.c		patch \| blob \| blame \| history
sysdeps/x86_64/multiarch/memcpy-avx512-no-vzeroupper.S	[new file with mode: 0644]	patch \| blob
sysdeps/x86_64/multiarch/memcpy.S		patch \| blob \| blame \| history
sysdeps/x86_64/multiarch/memcpy_chk.S		patch \| blob \| blame \| history
sysdeps/x86_64/multiarch/memmove-avx512-no-vzeroupper.S	[new file with mode: 0644]	patch \| blob
sysdeps/x86_64/multiarch/memmove.c		patch \| blob \| blame \| history
sysdeps/x86_64/multiarch/memmove_chk.c		patch \| blob \| blame \| history
sysdeps/x86_64/multiarch/mempcpy-avx512-no-vzeroupper.S	[new file with mode: 0644]	patch \| blob
sysdeps/x86_64/multiarch/mempcpy.S		patch \| blob \| blame \| history
sysdeps/x86_64/multiarch/mempcpy_chk.S		patch \| blob \| blame \| history