**foo:
**.LFB[0-9]+:
** .cfi_startproc
-** xorl %edx, %edx
+** xorl %eax, %eax
**.L[0-9]+:
-** movl %edx, %eax
-** addl \$64, %edx
-** movdqa src\(%rax\), %xmm3
-** movdqa src\+16\(%rax\), %xmm2
-** movdqa src\+32\(%rax\), %xmm1
-** movdqa src\+48\(%rax\), %xmm0
-** movaps %xmm3, dest\(%rax\)
-** movaps %xmm2, dest\+16\(%rax\)
-** movaps %xmm1, dest\+32\(%rax\)
-** movaps %xmm0, dest\+48\(%rax\)
-** cmpl \$256, %edx
+** movl %eax, %edx
+** addl \$64, %eax
+** movdqa src\(%rdx\), %xmm3
+** movdqa src\+16\(%rdx\), %xmm2
+** movdqa src\+32\(%rdx\), %xmm1
+** movdqa src\+48\(%rdx\), %xmm0
+** movaps %xmm3, dest\(%rdx\)
+** movaps %xmm2, dest\+16\(%rdx\)
+** movaps %xmm1, dest\+32\(%rdx\)
+** movaps %xmm0, dest\+48\(%rdx\)
+** cmpl \$256, %eax
** jb .L[0-9]+
-** movdqa src\(%rdx\), %xmm0
-** movaps %xmm0, dest\(%rdx\)
+** movdqa src\(%rax\), %xmm0
+** movaps %xmm0, dest\(%rax\)
** ret
**...
*/
**foo:
**.LFB[0-9]+:
** .cfi_startproc
-** xorl %edx, %edx
+** xorl %eax, %eax
**.L[0-9]+:
-** movl %edx, %eax
-** addl \$64, %edx
-** movdqa src\(%rax\), %xmm3
-** movdqa src\+16\(%rax\), %xmm2
-** movdqa src\+32\(%rax\), %xmm1
-** movdqa src\+48\(%rax\), %xmm0
-** movaps %xmm3, dest\(%rax\)
-** movaps %xmm2, dest\+16\(%rax\)
-** movaps %xmm1, dest\+32\(%rax\)
-** movaps %xmm0, dest\+48\(%rax\)
-** cmpl \$256, %edx
+** movl %eax, %edx
+** addl \$64, %eax
+** movdqa src\(%rdx\), %xmm3
+** movdqa src\+16\(%rdx\), %xmm2
+** movdqa src\+32\(%rdx\), %xmm1
+** movdqa src\+48\(%rdx\), %xmm0
+** movaps %xmm3, dest\(%rdx\)
+** movaps %xmm2, dest\+16\(%rdx\)
+** movaps %xmm1, dest\+32\(%rdx\)
+** movaps %xmm0, dest\+48\(%rdx\)
+** cmpl \$256, %eax
** jb .L[0-9]+
-** movdqa src\(%rdx\), %xmm0
-** movaps %xmm0, dest\(%rdx\)
-** movdqu src\+15\(%rdx\), %xmm0
-** movups %xmm0, dest\+15\(%rdx\)
+** movdqa src\(%rax\), %xmm0
+** movaps %xmm0, dest\(%rax\)
+** movdqu src\+15\(%rax\), %xmm0
+** movups %xmm0, dest\+15\(%rax\)
** ret
**...
*/
**foo:
**.LFB[0-9]+:
** .cfi_startproc
-** xorl %edx, %edx
+** xorl %eax, %eax
**.L[0-9]+:
-** movl %edx, %eax
-** subl \$-128, %edx
-** vmovdqa src\(%rax\), %ymm3
-** vmovdqa src\+32\(%rax\), %ymm2
-** vmovdqa src\+64\(%rax\), %ymm1
-** vmovdqa src\+96\(%rax\), %ymm0
-** vmovdqa %ymm3, dest\(%rax\)
-** vmovdqa %ymm2, dest\+32\(%rax\)
-** vmovdqa %ymm1, dest\+64\(%rax\)
-** vmovdqa %ymm0, dest\+96\(%rax\)
-** cmpl \$512, %edx
+** movl %eax, %edx
+** subl \$-128, %eax
+** vmovdqa src\(%rdx\), %ymm3
+** vmovdqa src\+32\(%rdx\), %ymm2
+** vmovdqa src\+64\(%rdx\), %ymm1
+** vmovdqa src\+96\(%rdx\), %ymm0
+** vmovdqa %ymm3, dest\(%rdx\)
+** vmovdqa %ymm2, dest\+32\(%rdx\)
+** vmovdqa %ymm1, dest\+64\(%rdx\)
+** vmovdqa %ymm0, dest\+96\(%rdx\)
+** cmpl \$512, %eax
** jb .L[0-9]+
-** vmovdqa src\(%rdx\), %ymm0
-** vmovdqa %ymm0, dest\(%rdx\)
+** vmovdqa src\(%rax\), %ymm0
+** vmovdqa %ymm0, dest\(%rax\)
** vzeroupper
** ret
**...
**foo:
**.LFB[0-9]+:
** .cfi_startproc
-** xorl %edx, %edx
+** xorl %eax, %eax
**.L[0-9]+:
-** movl %edx, %eax
-** subl \$-128, %edx
-** vmovdqa src\(%rax\), %ymm3
-** vmovdqa src\+32\(%rax\), %ymm2
-** vmovdqa src\+64\(%rax\), %ymm1
-** vmovdqa src\+96\(%rax\), %ymm0
-** vmovdqa %ymm3, dest\(%rax\)
-** vmovdqa %ymm2, dest\+32\(%rax\)
-** vmovdqa %ymm1, dest\+64\(%rax\)
-** vmovdqa %ymm0, dest\+96\(%rax\)
-** cmpl \$512, %edx
+** movl %eax, %edx
+** subl \$-128, %eax
+** vmovdqa src\(%rdx\), %ymm3
+** vmovdqa src\+32\(%rdx\), %ymm2
+** vmovdqa src\+64\(%rdx\), %ymm1
+** vmovdqa src\+96\(%rdx\), %ymm0
+** vmovdqa %ymm3, dest\(%rdx\)
+** vmovdqa %ymm2, dest\+32\(%rdx\)
+** vmovdqa %ymm1, dest\+64\(%rdx\)
+** vmovdqa %ymm0, dest\+96\(%rdx\)
+** cmpl \$512, %eax
** jb .L[0-9]+
-** vmovdqa src\(%rdx\), %ymm0
-** vmovdqa %ymm0, dest\(%rdx\)
-** vmovdqu src\+31\(%rdx\), %ymm0
-** vmovdqu %ymm0, dest\+31\(%rdx\)
+** vmovdqa src\(%rax\), %ymm0
+** vmovdqa %ymm0, dest\(%rax\)
+** vmovdqu src\+31\(%rax\), %ymm0
+** vmovdqu %ymm0, dest\+31\(%rax\)
** vzeroupper
** ret
**...
**foo:
**.LFB[0-9]+:
** .cfi_startproc
-** xorl %edx, %edx
+** xorl %eax, %eax
**.L[0-9]+:
-** movl %edx, %eax
-** addl \$256, %edx
-** vmovdqa64 src\(%rax\), %zmm3
-** vmovdqa64 src\+64\(%rax\), %zmm2
-** vmovdqa64 src\+128\(%rax\), %zmm1
-** vmovdqa64 src\+192\(%rax\), %zmm0
-** vmovdqa64 %zmm3, dest\(%rax\)
-** vmovdqa64 %zmm2, dest\+64\(%rax\)
-** vmovdqa64 %zmm1, dest\+128\(%rax\)
-** vmovdqa64 %zmm0, dest\+192\(%rax\)
-** cmpl \$1024, %edx
+** movl %eax, %edx
+** addl \$256, %eax
+** vmovdqa64 src\(%rdx\), %zmm3
+** vmovdqa64 src\+64\(%rdx\), %zmm2
+** vmovdqa64 src\+128\(%rdx\), %zmm1
+** vmovdqa64 src\+192\(%rdx\), %zmm0
+** vmovdqa64 %zmm3, dest\(%rdx\)
+** vmovdqa64 %zmm2, dest\+64\(%rdx\)
+** vmovdqa64 %zmm1, dest\+128\(%rdx\)
+** vmovdqa64 %zmm0, dest\+192\(%rdx\)
+** cmpl \$1024, %eax
** jb .L[0-9]+
-** vmovdqa64 src\(%rdx\), %zmm0
-** vmovdqa64 %zmm0, dest\(%rdx\)
+** vmovdqa64 src\(%rax\), %zmm0
+** vmovdqa64 %zmm0, dest\(%rax\)
** vzeroupper
** ret
**...
**foo:
**.LFB[0-9]+:
** .cfi_startproc
-** xorl %edx, %edx
+** xorl %eax, %eax
**.L[0-9]+:
-** movl %edx, %eax
-** addl \$256, %edx
-** vmovdqa64 src\(%rax\), %zmm3
-** vmovdqa64 src\+64\(%rax\), %zmm2
-** vmovdqa64 src\+128\(%rax\), %zmm1
-** vmovdqa64 src\+192\(%rax\), %zmm0
-** vmovdqa64 %zmm3, dest\(%rax\)
-** vmovdqa64 %zmm2, dest\+64\(%rax\)
-** vmovdqa64 %zmm1, dest\+128\(%rax\)
-** vmovdqa64 %zmm0, dest\+192\(%rax\)
-** cmpl \$1024, %edx
+** movl %eax, %edx
+** addl \$256, %eax
+** vmovdqa64 src\(%rdx\), %zmm3
+** vmovdqa64 src\+64\(%rdx\), %zmm2
+** vmovdqa64 src\+128\(%rdx\), %zmm1
+** vmovdqa64 src\+192\(%rdx\), %zmm0
+** vmovdqa64 %zmm3, dest\(%rdx\)
+** vmovdqa64 %zmm2, dest\+64\(%rdx\)
+** vmovdqa64 %zmm1, dest\+128\(%rdx\)
+** vmovdqa64 %zmm0, dest\+192\(%rdx\)
+** cmpl \$1024, %eax
** jb .L[0-9]+
-** vmovdqa src\(%rdx\), %ymm0
-** vmovdqa %ymm0, dest\(%rdx\)
-** vmovdqu src\+31\(%rdx\), %ymm0
-** vmovdqu %ymm0, dest\+31\(%rdx\)
+** vmovdqa src\(%rax\), %ymm0
+** vmovdqa %ymm0, dest\(%rax\)
+** vmovdqu src\+31\(%rax\), %ymm0
+** vmovdqu %ymm0, dest\+31\(%rax\)
** vzeroupper
** ret
**...
**bar:
**...
**.L[0-9]+:
-** movl %edx, %eax
-** addl \$32, %edx
-** movq %gs:m\(%rax\), %r9
-** movq %gs:m\+8\(%rax\), %r8
-** movq %gs:m\+16\(%rax\), %rsi
-** movq %gs:m\+24\(%rax\), %rcx
-** movq %r9, \(%rdi,%rax\)
-** movq %r8, 8\(%rdi,%rax\)
-** movq %rsi, 16\(%rdi,%rax\)
-** movq %rcx, 24\(%rdi,%rax\)
-** cmpl \$224, %edx
+** movl %eax, %edx
+** addl \$32, %eax
+** movq %gs:m\(%rdx\), %r9
+** movq %gs:m\+8\(%rdx\), %r8
+** movq %gs:m\+16\(%rdx\), %rsi
+** movq %gs:m\+24\(%rdx\), %rcx
+** movq %r9, \(%rdi,%rdx\)
+** movq %r8, 8\(%rdi,%rdx\)
+** movq %rsi, 16\(%rdi,%rdx\)
+** movq %rcx, 24\(%rdi,%rdx\)
+** cmpl \$224, %eax
** jb .L[0-9]+
**...
*/