sysdeps/powerpc/powerpc64/power8/memcmp.S

   1 /* Optimized memcmp implementation for POWER7/PowerPC64.
   2    Copyright (C) 2010-2020 Free Software Foundation, Inc.
   3    This file is part of the GNU C Library.
   4
   5    The GNU C Library is free software; you can redistribute it and/or
   6    modify it under the terms of the GNU Lesser General Public
   7    License as published by the Free Software Foundation; either
   8    version 2.1 of the License, or (at your option) any later version.
   9
  10    The GNU C Library is distributed in the hope that it will be useful,
  11    but WITHOUT ANY WARRANTY; without even the implied warranty of
  12    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  13    Lesser General Public License for more details.
  14
  15    You should have received a copy of the GNU Lesser General Public
  16    License along with the GNU C Library; if not, see
  17    <https://www.gnu.org/licenses/>.  */
  18
  19 #include <sysdep.h>
  20
  21 /* int [r3] memcmp (const char *s1 [r3],
  22                     const char *s2 [r4],
  23                     size_t size [r5])  */
  24
  25 #ifndef MEMCMP
  26 # define MEMCMP memcmp
  27 #endif
  28         .machine  power8
  29 ENTRY_TOCLESS (MEMCMP, 4)
  30         CALL_MCOUNT 3
  31
  32 #define rRTN            r3
  33 #define rSTR1           r3      /* First string arg.  */
  34 #define rSTR2           r4      /* Second string arg.  */
  35 #define rN              r5      /* Max string length.  */
  36 #define rWORD1          r6      /* Current word in s1.  */
  37 #define rWORD2          r7      /* Current word in s2.  */
  38 #define rWORD3          r8      /* Next word in s1.  */
  39 #define rWORD4          r9      /* Next word in s2.  */
  40 #define rWORD5          r10     /* Next word in s1.  */
  41 #define rWORD6          r11     /* Next word in s2.  */
  42
  43 #define rOFF8           r20     /* 8 bytes offset.  */
  44 #define rOFF16          r21     /* 16 bytes offset.  */
  45 #define rOFF24          r22     /* 24 bytes offset.  */
  46 #define rOFF32          r23     /* 24 bytes offset.  */
  47 #define rWORD6_SHIFT    r24     /* Left rotation temp for rWORD8.  */
  48 #define rWORD4_SHIFT    r25     /* Left rotation temp for rWORD6.  */
  49 #define rWORD2_SHIFT    r26     /* Left rotation temp for rWORD4.  */
  50 #define rWORD8_SHIFT    r27     /* Left rotation temp for rWORD2.  */
  51 #define rSHR            r28     /* Unaligned shift right count.  */
  52 #define rSHL            r29     /* Unaligned shift left count.  */
  53 #define rWORD7          r30     /* Next word in s1.  */
  54 #define rWORD8          r31     /* Next word in s2.  */
  55
  56 #define rWORD8SAVE      (-8)
  57 #define rWORD7SAVE      (-16)
  58 #define rOFF8SAVE       (-24)
  59 #define rOFF16SAVE      (-32)
  60 #define rOFF24SAVE      (-40)
  61 #define rOFF32SAVE      (-48)
  62 #define rSHRSAVE        (-56)
  63 #define rSHLSAVE        (-64)
  64 #define rWORD8SHIFTSAVE (-72)
  65 #define rWORD2SHIFTSAVE (-80)
  66 #define rWORD4SHIFTSAVE (-88)
  67 #define rWORD6SHIFTSAVE (-96)
  68
  69 #ifdef __LITTLE_ENDIAN__
  70 # define LD     ldbrx
  71 #else
  72 # define LD     ldx
  73 #endif
  74
  75         xor     r10, rSTR2, rSTR1
  76         cmpldi  cr6, rN, 0
  77         cmpldi  cr1, rN, 8
  78         clrldi. r0, r10, 61
  79         clrldi  r12, rSTR1, 61
  80         cmpldi  cr5, r12, 0
  81         beq-    cr6, L(zeroLength)
  82         dcbt    0, rSTR1
  83         dcbt    0, rSTR2
  84         /* If less than 8 bytes or not aligned, use the unaligned
  85            byte loop.  */
  86         blt     cr1, L(bytealigned)
  87         bne     L(unalignedqw)
  88 /* At this point we know both strings have the same alignment and the
  89    compare length is at least 8 bytes.  r12 contains the low order
  90    3 bits of rSTR1 and cr5 contains the result of the logical compare
  91    of r12 to 0.  If r12 == 0 then we are already double word
  92    aligned and can perform the DW aligned loop.  */
  93
  94         .align  4
  95 L(samealignment):
  96         or      r11, rSTR2, rSTR1
  97         clrldi. r11, r11, 60
  98         beq     L(qw_align)
  99         /* Try to align to QW else proceed to DW loop.  */
 100         clrldi. r10, r10, 60
 101         bne     L(DW)
 102         /* For the difference to reach QW alignment, load as DW.  */
 103         clrrdi  rSTR1, rSTR1, 3
 104         clrrdi  rSTR2, rSTR2, 3
 105         subfic  r10, r12, 8
 106         LD      rWORD1, 0, rSTR1
 107         LD      rWORD2, 0, rSTR2
 108         sldi    r9, r10, 3
 109         subfic  r9, r9, 64
 110         sld     rWORD1, rWORD1, r9
 111         sld     rWORD2, rWORD2, r9
 112         cmpld   cr6, rWORD1, rWORD2
 113         addi    rSTR1, rSTR1, 8
 114         addi    rSTR2, rSTR2, 8
 115         bne     cr6, L(ret_diff)
 116         subf    rN, r10, rN
 117
 118         cmpld   cr6, r11, r12
 119         bgt     cr6, L(qw_align)
 120         LD      rWORD1, 0, rSTR1
 121         LD      rWORD2, 0, rSTR2
 122         cmpld   cr6, rWORD1, rWORD2
 123         addi    rSTR1, rSTR1, 8
 124         addi    rSTR2, rSTR2, 8
 125         bne     cr6, L(different)
 126         cmpldi  cr6, rN, 8
 127         ble     cr6, L(zeroLength)
 128         addi    rN, rN, -8
 129         /* Now both rSTR1 and rSTR2 are aligned to QW.  */
 130         .align  4
 131 L(qw_align):
 132         vspltisb        v0, 0
 133         srdi.   r6, rN, 6
 134         li      r8, 16
 135         li      r10, 32
 136         li      r11, 48
 137         ble     cr0, L(lessthan64)
 138         mtctr   r6
 139         vspltisb        v8, 0
 140         vspltisb        v6, 0
 141         /* Aligned vector loop.  */
 142         .align  4
 143 L(aligned_loop):
 144         lvx     v4, 0, rSTR1
 145         lvx     v5, 0, rSTR2
 146         vcmpequb.       v7, v6, v8
 147         bnl     cr6, L(different3)
 148         lvx     v6, rSTR1, r8
 149         lvx     v8, rSTR2, r8
 150         vcmpequb.       v7, v5, v4
 151         bnl     cr6, L(different2)
 152         lvx     v4, rSTR1, r10
 153         lvx     v5, rSTR2, r10
 154         vcmpequb.       v7, v6, v8
 155         bnl     cr6, L(different3)
 156         lvx     v6, rSTR1, r11
 157         lvx     v8, rSTR2, r11
 158         vcmpequb.       v7, v5, v4
 159         bnl     cr6, L(different2)
 160         addi    rSTR1, rSTR1, 64
 161         addi    rSTR2, rSTR2, 64
 162         bdnz    L(aligned_loop)
 163         vcmpequb.       v7, v6, v8
 164         bnl     cr6, L(different3)
 165         clrldi  rN, rN, 58
 166         /* Handle remainder for aligned loop.  */
 167         .align  4
 168 L(lessthan64):
 169         mr      r9, rSTR1
 170         cmpdi   cr6, rN, 0
 171         li      rSTR1, 0
 172         blelr   cr6
 173         lvx     v4, 0, r9
 174         lvx     v5, 0, rSTR2
 175         vcmpequb.       v7, v5, v4
 176         bnl     cr6, L(different1)
 177         addi    rN, rN, -16
 178
 179         cmpdi   cr6, rN, 0
 180         blelr   cr6
 181         lvx     v4, r9, r8
 182         lvx     v5, rSTR2, r8
 183         vcmpequb.       v7, v5, v4
 184         bnl     cr6, L(different1)
 185         addi    rN, rN, -16
 186
 187         cmpdi   cr6, rN, 0
 188         blelr   cr6
 189         lvx     v4, r9, r10
 190         lvx     v5, rSTR2, r10
 191         vcmpequb.       v7, v5, v4
 192         bnl     cr6, L(different1)
 193         addi    rN, rN, -16
 194
 195         cmpdi   cr6, rN, 0
 196         blelr   cr6
 197         lvx     v4, r9, r11
 198         lvx     v5, rSTR2, r11
 199         vcmpequb.       v7, v5, v4
 200         bnl     cr6, L(different1)
 201         blr
 202
 203         /* Calculate and return the difference.  */
 204         .align 4
 205 L(different1):
 206         cmpdi   cr6, rN, 16
 207         bge     cr6, L(different2)
 208         /* Discard unwanted bytes.  */
 209 #ifdef __LITTLE_ENDIAN__
 210         lvsr    v1, 0, rN
 211         vperm   v4, v4, v0, v1
 212         vperm   v5, v5, v0, v1
 213 #else
 214         lvsl    v1, 0, rN
 215         vperm   v4, v0, v4, v1
 216         vperm   v5, v0, v5, v1
 217 #endif
 218         vcmpequb.       v7, v4, v5
 219         li      rRTN, 0
 220         bltlr   cr6
 221         .align 4
 222 L(different2):
 223 #ifdef __LITTLE_ENDIAN__
 224         /* Reverse bytes for direct comparison.  */
 225         lvsl    v10, r0, r0
 226         vspltisb        v8, 15
 227         vsububm v9, v8, v10
 228         vperm   v4, v4, v0, v9
 229         vperm   v5, v5, v0, v9
 230 #endif
 231         mfvrd   r7, v4
 232         mfvrd   r9, v5
 233         cmpld   cr6, r7, r9
 234         bne     cr6, L(ret_diff)
 235         /* Difference in second DW.  */
 236         vsldoi  v4, v4, v4, 8
 237         vsldoi  v5, v5, v5, 8
 238         mfvrd   r7, v4
 239         mfvrd   r9, v5
 240         cmpld   cr6, r7, r9
 241 L(ret_diff):
 242         li      rRTN, 1
 243         bgtlr   cr6
 244         li      rRTN, -1
 245         blr
 246         .align  4
 247 L(different3):
 248 #ifdef __LITTLE_ENDIAN__
 249         /* Reverse bytes for direct comparison.  */
 250         vspltisb        v9, 15
 251         lvsl    v10, r0, r0
 252         vsububm v9, v9, v10
 253         vperm   v6, v6, v0, v9
 254         vperm   v8, v8, v0, v9
 255 #endif
 256         mfvrd   r7, v6
 257         mfvrd   r9, v8
 258         cmpld   cr6, r7, r9
 259         bne     cr6, L(ret_diff)
 260         /* Difference in second DW.  */
 261         vsldoi  v6, v6, v6, 8
 262         vsldoi  v8, v8, v8, 8
 263         mfvrd   r7, v6
 264         mfvrd   r9, v8
 265         cmpld   cr6, r7, r9
 266         li      rRTN, 1
 267         bgtlr   cr6
 268         li      rRTN, -1
 269         blr
 270
 271         .align 4
 272 L(different):
 273         cmpldi  cr7, rN, 8
 274         bgt     cr7, L(end)
 275         /* Skip unwanted bytes.  */
 276         sldi    r8, rN, 3
 277         subfic  r8, r8, 64
 278         srd     rWORD1, rWORD1, r8
 279         srd     rWORD2, rWORD2, r8
 280         cmpld   cr6, rWORD1, rWORD2
 281         li      rRTN, 0
 282         beqlr   cr6
 283 L(end):
 284         li      rRTN, 1
 285         bgtlr   cr6
 286         li      rRTN, -1
 287         blr
 288
 289         .align  4
 290 L(unalignedqw):
 291         /* Proceed to DW unaligned loop,if there is a chance of pagecross.  */
 292         rldicl  r9, rSTR1, 0, 52
 293         add     r9, r9, rN
 294         cmpldi  cr0, r9, 4096-16
 295         bgt     cr0, L(unaligned)
 296         rldicl  r9, rSTR2, 0, 52
 297         add     r9, r9, rN
 298         cmpldi  cr0, r9, 4096-16
 299         bgt     cr0, L(unaligned)
 300         li      r0, 0
 301         li      r8, 16
 302         vspltisb        v0, 0
 303         /* Check if rSTR1 is aligned to QW.  */
 304         andi.   r11, rSTR1, 0xF
 305         beq     L(s1_align)
 306
 307         /* Compare 16B and align S1 to QW.  */
 308 #ifdef __LITTLE_ENDIAN__
 309         lvsr    v10, 0, rSTR1   /* Compute mask.  */
 310         lvsr    v6, 0, rSTR2    /* Compute mask.  */
 311 #else
 312         lvsl    v10, 0, rSTR1   /* Compute mask.  */
 313         lvsl    v6, 0, rSTR2    /* Compute mask.  */
 314 #endif
 315         lvx     v5, 0, rSTR2
 316         lvx     v9, rSTR2, r8
 317 #ifdef __LITTLE_ENDIAN__
 318         vperm   v5, v9, v5, v6
 319 #else
 320         vperm   v5, v5, v9, v6
 321 #endif
 322         lvx     v4, 0, rSTR1
 323         lvx     v9, rSTR1, r8
 324 #ifdef __LITTLE_ENDIAN__
 325         vperm   v4, v9, v4, v10
 326 #else
 327         vperm   v4, v4, v9, v10
 328 #endif
 329         vcmpequb.       v7, v5, v4
 330         bnl     cr6, L(different1)
 331         cmpldi  cr6, rN, 16
 332         ble     cr6, L(zeroLength)
 333         subfic  r11, r11, 16
 334         subf    rN, r11, rN
 335         add     rSTR1, rSTR1, r11
 336         add     rSTR2, rSTR2, r11
 337
 338         /* As s1 is QW aligned prepare for unaligned loop.  */
 339         .align  4
 340 L(s1_align):
 341 #ifdef __LITTLE_ENDIAN__
 342         lvsr    v6, 0, rSTR2
 343 #else
 344         lvsl    v6, 0, rSTR2
 345 #endif
 346         lvx     v5, 0, rSTR2
 347         srdi.   r6, rN, 6
 348         li      r10, 32
 349         li      r11, 48
 350         ble     cr0, L(lessthan64_unalign)
 351         mtctr   r6
 352         li      r9, 64
 353         /* Unaligned vector loop.  */
 354         .align  4
 355 L(unalign_qwloop):
 356         lvx     v4, 0, rSTR1
 357         lvx     v10, rSTR2, r8
 358 #ifdef __LITTLE_ENDIAN__
 359         vperm   v5, v10, v5, v6
 360 #else
 361         vperm   v5, v5, v10, v6
 362 #endif
 363         vcmpequb.       v7, v5, v4
 364         bnl     cr6, L(different2)
 365         vor     v5, v10, v10
 366         lvx     v4, rSTR1, r8
 367         lvx     v10, rSTR2, r10
 368 #ifdef __LITTLE_ENDIAN__
 369         vperm   v5, v10, v5, v6
 370 #else
 371         vperm   v5, v5, v10, v6
 372 #endif
 373         vcmpequb.       v7, v5, v4
 374         bnl     cr6, L(different2)
 375         vor     v5, v10, v10
 376         lvx     v4, rSTR1, r10
 377         lvx     v10, rSTR2, r11
 378 #ifdef __LITTLE_ENDIAN__
 379         vperm   v5, v10, v5, v6
 380 #else
 381         vperm   v5, v5, v10, v6
 382 #endif
 383         vcmpequb.       v7, v5, v4
 384         bnl     cr6, L(different2)
 385         vor     v5, v10, v10
 386         lvx     v4, rSTR1, r11
 387         lvx     v10, rSTR2, r9
 388 #ifdef __LITTLE_ENDIAN__
 389         vperm   v5, v10, v5, v6
 390 #else
 391         vperm   v5, v5, v10, v6
 392 #endif
 393         vcmpequb.       v7, v5, v4
 394         bnl     cr6, L(different2)
 395         vor     v5, v10, v10
 396         addi    rSTR1, rSTR1, 64
 397         addi    rSTR2, rSTR2, 64
 398         bdnz    L(unalign_qwloop)
 399         clrldi  rN, rN, 58
 400         /* Handle remainder for unaligned loop.  */
 401         .align  4
 402 L(lessthan64_unalign):
 403         mr      r9, rSTR1
 404         cmpdi   cr6, rN, 0
 405         li      rSTR1, 0
 406         blelr   cr6
 407         lvx     v4, 0, r9
 408         lvx     v10, rSTR2, r8
 409 #ifdef __LITTLE_ENDIAN__
 410         vperm   v5, v10, v5, v6
 411 #else
 412         vperm   v5, v5, v10, v6
 413 #endif
 414         vcmpequb.       v7, v5, v4
 415         bnl     cr6, L(different1)
 416         vor     v5, v10, v10
 417         addi    rN, rN, -16
 418
 419         cmpdi   cr6, rN, 0
 420         blelr   cr6
 421         lvx     v4, r9, r8
 422         lvx     v10, rSTR2, r10
 423 #ifdef __LITTLE_ENDIAN__
 424         vperm   v5, v10, v5, v6
 425 #else
 426         vperm   v5, v5, v10, v6
 427 #endif
 428         vcmpequb.       v7, v5, v4
 429         bnl     cr6, L(different1)
 430         vor     v5, v10, v10
 431         addi    rN, rN, -16
 432
 433         cmpdi   cr6, rN, 0
 434         blelr   cr6
 435         lvx     v4, r9, r10
 436         lvx     v10, rSTR2, r11
 437 #ifdef __LITTLE_ENDIAN__
 438         vperm   v5, v10, v5, v6
 439 #else
 440         vperm   v5, v5, v10, v6
 441 #endif
 442         vcmpequb.       v7, v5, v4
 443         bnl     cr6, L(different1)
 444         vor     v5, v10, v10
 445         addi    rN, rN, -16
 446
 447         cmpdi   cr6, rN, 0
 448         blelr   cr6
 449         lvx     v4, r9, r11
 450         addi    r11, r11, 16
 451         lvx     v10, rSTR2, r11
 452 #ifdef __LITTLE_ENDIAN__
 453         vperm   v5, v10, v5, v6
 454 #else
 455         vperm   v5, v5, v10, v6
 456 #endif
 457         vcmpequb.       v7, v5, v4
 458         bnl     cr6, L(different1)
 459         blr
 460
 461 /* Otherwise we know the two strings have the same alignment (but not
 462    yet DW).  So we force the string addresses to the next lower DW
 463    boundary and special case this first DW using shift left to
 464    eliminate bits preceding the first byte.  Since we want to join the
 465    normal (DW aligned) compare loop, starting at the second double word,
 466    we need to adjust the length (rN) and special case the loop
 467    versioning for the first DW.  This ensures that the loop count is
 468    correct and the first DW (shifted) is in the expected register pair.  */
 469         .align  4
 470 L(DW):
 471         std     rWORD8, rWORD8SAVE(r1)
 472         std     rWORD7, rWORD7SAVE(r1)
 473         std     rOFF8, rOFF8SAVE(r1)
 474         std     rOFF16, rOFF16SAVE(r1)
 475         std     rOFF24, rOFF24SAVE(r1)
 476         std     rOFF32, rOFF32SAVE(r1)
 477         cfi_offset(rWORD8, rWORD8SAVE)
 478         cfi_offset(rWORD7, rWORD7SAVE)
 479         cfi_offset(rOFF8, rOFF8SAVE)
 480         cfi_offset(rOFF16, rOFF16SAVE)
 481         cfi_offset(rOFF24, rOFF24SAVE)
 482         cfi_offset(rOFF32, rOFF32SAVE)
 483
 484         li      rOFF8,8
 485         li      rOFF16,16
 486         li      rOFF24,24
 487         li      rOFF32,32
 488         clrrdi  rSTR1, rSTR1, 3
 489         clrrdi  rSTR2, rSTR2, 3
 490         beq     cr5, L(DWaligned)
 491         add     rN, rN, r12
 492         sldi    rWORD6, r12, 3
 493         srdi    r0, rN, 5       /* Divide by 32.  */
 494         andi.   r12, rN, 24     /* Get the DW remainder.  */
 495         LD      rWORD1, 0, rSTR1
 496         LD      rWORD2, 0, rSTR2
 497         cmpldi  cr1, r12, 16
 498         cmpldi  cr7, rN, 32
 499         clrldi  rN, rN, 61
 500         beq     L(dPs4)
 501         mtctr   r0
 502         bgt     cr1, L(dPs3)
 503         beq     cr1, L(dPs2)
 504
 505 /* Remainder is 8.  */
 506         .align  3
 507 L(dsP1):
 508         sld     rWORD5, rWORD1, rWORD6
 509         sld     rWORD6, rWORD2, rWORD6
 510         cmpld   cr5, rWORD5, rWORD6
 511         blt     cr7, L(dP1x)
 512 /* Do something useful in this cycle since we have to branch anyway.  */
 513         LD      rWORD1, rOFF8, rSTR1
 514         LD      rWORD2, rOFF8, rSTR2
 515         cmpld   cr7, rWORD1, rWORD2
 516         b       L(dP1e)
 517 /* Remainder is 16.  */
 518         .align  4
 519 L(dPs2):
 520         sld     rWORD5, rWORD1, rWORD6
 521         sld     rWORD6, rWORD2, rWORD6
 522         cmpld   cr6, rWORD5, rWORD6
 523         blt     cr7, L(dP2x)
 524 /* Do something useful in this cycle since we have to branch anyway.  */
 525         LD      rWORD7, rOFF8, rSTR1
 526         LD      rWORD8, rOFF8, rSTR2
 527         cmpld   cr5, rWORD7, rWORD8
 528         b       L(dP2e)
 529 /* Remainder is 24.  */
 530         .align  4
 531 L(dPs3):
 532         sld     rWORD3, rWORD1, rWORD6
 533         sld     rWORD4, rWORD2, rWORD6
 534         cmpld   cr1, rWORD3, rWORD4
 535         b       L(dP3e)
 536 /* Count is a multiple of 32, remainder is 0.  */
 537         .align  4
 538 L(dPs4):
 539         mtctr   r0
 540         sld     rWORD1, rWORD1, rWORD6
 541         sld     rWORD2, rWORD2, rWORD6
 542         cmpld   cr7, rWORD1, rWORD2
 543         b       L(dP4e)
 544
 545 /* At this point we know both strings are double word aligned and the
 546    compare length is at least 8 bytes.  */
 547         .align  4
 548 L(DWaligned):
 549         andi.   r12, rN, 24     /* Get the DW remainder.  */
 550         srdi    r0, rN, 5       /* Divide by 32.  */
 551         cmpldi  cr1, r12, 16
 552         cmpldi  cr7, rN, 32
 553         clrldi  rN, rN, 61
 554         beq     L(dP4)
 555         bgt     cr1, L(dP3)
 556         beq     cr1, L(dP2)
 557
 558 /* Remainder is 8.  */
 559         .align  4
 560 L(dP1):
 561         mtctr   r0
 562 /* Normally we'd use rWORD7/rWORD8 here, but since we might exit early
 563    (8-15 byte compare), we want to use only volatile registers.  This
 564    means we can avoid restoring non-volatile registers since we did not
 565    change any on the early exit path.  The key here is the non-early
 566    exit path only cares about the condition code (cr5), not about which
 567    register pair was used.  */
 568         LD      rWORD5, 0, rSTR1
 569         LD      rWORD6, 0, rSTR2
 570         cmpld   cr5, rWORD5, rWORD6
 571         blt     cr7, L(dP1x)
 572         LD      rWORD1, rOFF8, rSTR1
 573         LD      rWORD2, rOFF8, rSTR2
 574         cmpld   cr7, rWORD1, rWORD2
 575 L(dP1e):
 576         LD      rWORD3, rOFF16, rSTR1
 577         LD      rWORD4, rOFF16, rSTR2
 578         cmpld   cr1, rWORD3, rWORD4
 579         LD      rWORD5, rOFF24, rSTR1
 580         LD      rWORD6, rOFF24, rSTR2
 581         cmpld   cr6, rWORD5, rWORD6
 582         bne     cr5, L(dLcr5x)
 583         bne     cr7, L(dLcr7x)
 584
 585         LD      rWORD7, rOFF32, rSTR1
 586         LD      rWORD8, rOFF32, rSTR2
 587         addi    rSTR1, rSTR1, 32
 588         addi    rSTR2, rSTR2, 32
 589         bne     cr1, L(dLcr1)
 590         cmpld   cr5, rWORD7, rWORD8
 591         bdnz    L(dLoop)
 592         bne     cr6, L(dLcr6)
 593         ld      rWORD8, rWORD8SAVE(r1)
 594         ld      rWORD7, rWORD7SAVE(r1)
 595         .align  3
 596 L(dP1x):
 597         sldi.   r12, rN, 3
 598         bne     cr5, L(dLcr5x)
 599         subfic  rN, r12, 64     /* Shift count is 64 - (rN * 8).  */
 600         bne     L(d00)
 601         ld      rOFF8,  rOFF8SAVE(r1)
 602         ld      rOFF16, rOFF16SAVE(r1)
 603         ld      rOFF24, rOFF24SAVE(r1)
 604         ld      rOFF32, rOFF32SAVE(r1)
 605         li      rRTN, 0
 606         blr
 607
 608 /* Remainder is 16.  */
 609         .align  4
 610 L(dP2):
 611         mtctr   r0
 612         LD      rWORD5, 0, rSTR1
 613         LD      rWORD6, 0, rSTR2
 614         cmpld   cr6, rWORD5, rWORD6
 615         blt     cr7, L(dP2x)
 616         LD      rWORD7, rOFF8, rSTR1
 617         LD      rWORD8, rOFF8, rSTR2
 618         cmpld   cr5, rWORD7, rWORD8
 619 L(dP2e):
 620         LD      rWORD1, rOFF16, rSTR1
 621         LD      rWORD2, rOFF16, rSTR2
 622         cmpld   cr7, rWORD1, rWORD2
 623         LD      rWORD3, rOFF24, rSTR1
 624         LD      rWORD4, rOFF24, rSTR2
 625         cmpld   cr1, rWORD3, rWORD4
 626         addi    rSTR1, rSTR1, 8
 627         addi    rSTR2, rSTR2, 8
 628         bne     cr6, L(dLcr6)
 629         bne     cr5, L(dLcr5)
 630         b       L(dLoop2)
 631         .align  4
 632 L(dP2x):
 633         LD      rWORD3, rOFF8, rSTR1
 634         LD      rWORD4, rOFF8, rSTR2
 635         cmpld   cr1, rWORD3, rWORD4
 636         sldi.   r12, rN, 3
 637         bne     cr6, L(dLcr6x)
 638         addi    rSTR1, rSTR1, 8
 639         addi    rSTR2, rSTR2, 8
 640         bne     cr1, L(dLcr1x)
 641         subfic  rN, r12, 64     /* Shift count is 64 - (rN * 8).  */
 642         bne     L(d00)
 643         ld      rOFF8,  rOFF8SAVE(r1)
 644         ld      rOFF16, rOFF16SAVE(r1)
 645         ld      rOFF24, rOFF24SAVE(r1)
 646         ld      rOFF32, rOFF32SAVE(r1)
 647         li      rRTN, 0
 648         blr
 649
 650 /* Remainder is 24.  */
 651         .align  4
 652 L(dP3):
 653         mtctr   r0
 654         LD      rWORD3, 0, rSTR1
 655         LD      rWORD4, 0, rSTR2
 656         cmpld   cr1, rWORD3, rWORD4
 657 L(dP3e):
 658         LD      rWORD5, rOFF8, rSTR1
 659         LD      rWORD6, rOFF8, rSTR2
 660         cmpld   cr6, rWORD5, rWORD6
 661         blt     cr7, L(dP3x)
 662         LD      rWORD7, rOFF16, rSTR1
 663         LD      rWORD8, rOFF16, rSTR2
 664         cmpld   cr5, rWORD7, rWORD8
 665         LD      rWORD1, rOFF24, rSTR1
 666         LD      rWORD2, rOFF24, rSTR2
 667         cmpld   cr7, rWORD1, rWORD2
 668         addi    rSTR1, rSTR1, 16
 669         addi    rSTR2, rSTR2, 16
 670         bne     cr1, L(dLcr1)
 671         bne     cr6, L(dLcr6)
 672         b       L(dLoop1)
 673 /* Again we are on a early exit path (24-31 byte compare), we want to
 674    only use volatile registers and avoid restoring non-volatile
 675    registers.  */
 676         .align  4
 677 L(dP3x):
 678         LD      rWORD1, rOFF16, rSTR1
 679         LD      rWORD2, rOFF16, rSTR2
 680         cmpld   cr7, rWORD1, rWORD2
 681         sldi.   r12, rN, 3
 682         bne     cr1, L(dLcr1x)
 683         addi    rSTR1, rSTR1, 16
 684         addi    rSTR2, rSTR2, 16
 685         bne     cr6, L(dLcr6x)
 686         subfic  rN, r12, 64     /* Shift count is 64 - (rN * 8).  */
 687         bne     cr7, L(dLcr7x)
 688         bne     L(d00)
 689         ld      rOFF8,  rOFF8SAVE(r1)
 690         ld      rOFF16, rOFF16SAVE(r1)
 691         ld      rOFF24, rOFF24SAVE(r1)
 692         ld      rOFF32, rOFF32SAVE(r1)
 693         li      rRTN, 0
 694         blr
 695
 696 /* Count is a multiple of 32, remainder is 0.  */
 697         .align  4
 698 L(dP4):
 699         mtctr   r0
 700         LD      rWORD1, 0, rSTR1
 701         LD      rWORD2, 0, rSTR2
 702         cmpld   cr7, rWORD1, rWORD2
 703 L(dP4e):
 704         LD      rWORD3, rOFF8, rSTR1
 705         LD      rWORD4, rOFF8, rSTR2
 706         cmpld   cr1, rWORD3, rWORD4
 707         LD      rWORD5, rOFF16, rSTR1
 708         LD      rWORD6, rOFF16, rSTR2
 709         cmpld   cr6, rWORD5, rWORD6
 710         LD      rWORD7, rOFF24, rSTR1
 711         LD      rWORD8, rOFF24, rSTR2
 712         addi    rSTR1, rSTR1, 24
 713         addi    rSTR2, rSTR2, 24
 714         cmpld   cr5, rWORD7, rWORD8
 715         bne     cr7, L(dLcr7)
 716         bne     cr1, L(dLcr1)
 717         bdz-    L(d24)          /* Adjust CTR as we start with +4.  */
 718 /* This is the primary loop.  */
 719         .align  4
 720 L(dLoop):
 721         LD      rWORD1, rOFF8, rSTR1
 722         LD      rWORD2, rOFF8, rSTR2
 723         cmpld   cr1, rWORD3, rWORD4
 724         bne     cr6, L(dLcr6)
 725 L(dLoop1):
 726         LD      rWORD3, rOFF16, rSTR1
 727         LD      rWORD4, rOFF16, rSTR2
 728         cmpld   cr6, rWORD5, rWORD6
 729         bne     cr5, L(dLcr5)
 730 L(dLoop2):
 731         LD      rWORD5, rOFF24, rSTR1
 732         LD      rWORD6, rOFF24, rSTR2
 733         cmpld   cr5, rWORD7, rWORD8
 734         bne     cr7, L(dLcr7)
 735 L(dLoop3):
 736         LD      rWORD7, rOFF32, rSTR1
 737         LD      rWORD8, rOFF32, rSTR2
 738         addi    rSTR1, rSTR1, 32
 739         addi    rSTR2, rSTR2, 32
 740         bne     cr1, L(dLcr1)
 741         cmpld   cr7, rWORD1, rWORD2
 742         bdnz    L(dLoop)
 743
 744 L(dL4):
 745         cmpld   cr1, rWORD3, rWORD4
 746         bne     cr6, L(dLcr6)
 747         cmpld   cr6, rWORD5, rWORD6
 748         bne     cr5, L(dLcr5)
 749         cmpld   cr5, rWORD7, rWORD8
 750 L(d44):
 751         bne     cr7, L(dLcr7)
 752 L(d34):
 753         bne     cr1, L(dLcr1)
 754 L(d24):
 755         bne     cr6, L(dLcr6)
 756 L(d14):
 757         sldi.   r12, rN, 3
 758         bne     cr5, L(dLcr5)
 759 L(d04):
 760         ld      rWORD8, rWORD8SAVE(r1)
 761         ld      rWORD7, rWORD7SAVE(r1)
 762         subfic  rN, r12, 64     /* Shift count is 64 - (rN * 8).  */
 763         beq     L(duzeroLength)
 764 /* At this point we have a remainder of 1 to 7 bytes to compare.  Since
 765    we are aligned it is safe to load the whole double word, and use
 766    shift right double to eliminate bits beyond the compare length.  */
 767 L(d00):
 768         LD      rWORD1, rOFF8, rSTR1
 769         LD      rWORD2, rOFF8, rSTR2
 770         srd     rWORD1, rWORD1, rN
 771         srd     rWORD2, rWORD2, rN
 772         cmpld   cr7, rWORD1, rWORD2
 773         bne     cr7, L(dLcr7x)
 774         ld      rOFF8,  rOFF8SAVE(r1)
 775         ld      rOFF16, rOFF16SAVE(r1)
 776         ld      rOFF24, rOFF24SAVE(r1)
 777         ld      rOFF32, rOFF32SAVE(r1)
 778         li      rRTN, 0
 779         blr
 780
 781         .align  4
 782 L(dLcr7):
 783         ld      rWORD8, rWORD8SAVE(r1)
 784         ld      rWORD7, rWORD7SAVE(r1)
 785 L(dLcr7x):
 786         ld      rOFF8,  rOFF8SAVE(r1)
 787         ld      rOFF16, rOFF16SAVE(r1)
 788         ld      rOFF24, rOFF24SAVE(r1)
 789         ld      rOFF32, rOFF32SAVE(r1)
 790         li      rRTN, 1
 791         bgtlr   cr7
 792         li      rRTN, -1
 793         blr
 794         .align  4
 795 L(dLcr1):
 796         ld      rWORD8, rWORD8SAVE(r1)
 797         ld      rWORD7, rWORD7SAVE(r1)
 798 L(dLcr1x):
 799         ld      rOFF8,  rOFF8SAVE(r1)
 800         ld      rOFF16, rOFF16SAVE(r1)
 801         ld      rOFF24, rOFF24SAVE(r1)
 802         ld      rOFF32, rOFF32SAVE(r1)
 803         li      rRTN, 1
 804         bgtlr   cr1
 805         li      rRTN, -1
 806         blr
 807         .align  4
 808 L(dLcr6):
 809         ld      rWORD8, rWORD8SAVE(r1)
 810         ld      rWORD7, rWORD7SAVE(r1)
 811 L(dLcr6x):
 812         ld      rOFF8,  rOFF8SAVE(r1)
 813         ld      rOFF16, rOFF16SAVE(r1)
 814         ld      rOFF24, rOFF24SAVE(r1)
 815         ld      rOFF32, rOFF32SAVE(r1)
 816         li      rRTN, 1
 817         bgtlr   cr6
 818         li      rRTN, -1
 819         blr
 820         .align  4
 821 L(dLcr5):
 822         ld      rWORD8, rWORD8SAVE(r1)
 823         ld      rWORD7, rWORD7SAVE(r1)
 824 L(dLcr5x):
 825         ld      rOFF8,  rOFF8SAVE(r1)
 826         ld      rOFF16, rOFF16SAVE(r1)
 827         ld      rOFF24, rOFF24SAVE(r1)
 828         ld      rOFF32, rOFF32SAVE(r1)
 829         li      rRTN, 1
 830         bgtlr   cr5
 831         li      rRTN, -1
 832         blr
 833
 834         .align  4
 835 L(bytealigned):
 836         mtctr   rN
 837
 838 /* We need to prime this loop.  This loop is swing modulo scheduled
 839    to avoid pipe delays.  The dependent instruction latencies (load to
 840    compare to conditional branch) is 2 to 3 cycles.  In this loop each
 841    dispatch group ends in a branch and takes 1 cycle.  Effectively
 842    the first iteration of the loop only serves to load operands and
 843    branches based on compares are delayed until the next loop.
 844
 845    So we must precondition some registers and condition codes so that
 846    we don't exit the loop early on the first iteration.  */
 847
 848         lbz     rWORD1, 0(rSTR1)
 849         lbz     rWORD2, 0(rSTR2)
 850         bdz     L(b11)
 851         cmpld   cr7, rWORD1, rWORD2
 852         lbz     rWORD3, 1(rSTR1)
 853         lbz     rWORD4, 1(rSTR2)
 854         bdz     L(b12)
 855         cmpld   cr1, rWORD3, rWORD4
 856         lbzu    rWORD5, 2(rSTR1)
 857         lbzu    rWORD6, 2(rSTR2)
 858         bdz     L(b13)
 859         .align  4
 860 L(bLoop):
 861         lbzu    rWORD1, 1(rSTR1)
 862         lbzu    rWORD2, 1(rSTR2)
 863         bne     cr7, L(bLcr7)
 864
 865         cmpld   cr6, rWORD5, rWORD6
 866         bdz     L(b3i)
 867
 868         lbzu    rWORD3, 1(rSTR1)
 869         lbzu    rWORD4, 1(rSTR2)
 870         bne     cr1, L(bLcr1)
 871
 872         cmpld   cr7, rWORD1, rWORD2
 873         bdz     L(b2i)
 874
 875         lbzu    rWORD5, 1(rSTR1)
 876         lbzu    rWORD6, 1(rSTR2)
 877         bne     cr6, L(bLcr6)
 878
 879         cmpld   cr1, rWORD3, rWORD4
 880         bdnz    L(bLoop)
 881
 882 /* We speculatively loading bytes before we have tested the previous
 883    bytes.  But we must avoid overrunning the length (in the ctr) to
 884    prevent these speculative loads from causing a segfault.  In this
 885    case the loop will exit early (before the all pending bytes are
 886    tested.  In this case we must complete the pending operations
 887    before returning.  */
 888 L(b1i):
 889         bne     cr7, L(bLcr7)
 890         bne     cr1, L(bLcr1)
 891         b       L(bx56)
 892         .align  4
 893 L(b2i):
 894         bne     cr6, L(bLcr6)
 895         bne     cr7, L(bLcr7)
 896         b       L(bx34)
 897         .align  4
 898 L(b3i):
 899         bne     cr1, L(bLcr1)
 900         bne     cr6, L(bLcr6)
 901         b       L(bx12)
 902         .align  4
 903 L(bLcr7):
 904         li      rRTN, 1
 905         bgtlr   cr7
 906         li      rRTN, -1
 907         blr
 908 L(bLcr1):
 909         li      rRTN, 1
 910         bgtlr   cr1
 911         li      rRTN, -1
 912         blr
 913 L(bLcr6):
 914         li      rRTN, 1
 915         bgtlr   cr6
 916         li      rRTN, -1
 917         blr
 918
 919 L(b13):
 920         bne     cr7, L(bx12)
 921         bne     cr1, L(bx34)
 922 L(bx56):
 923         sub     rRTN, rWORD5, rWORD6
 924         blr
 925         nop
 926 L(b12):
 927         bne     cr7, L(bx12)
 928 L(bx34):
 929         sub     rRTN, rWORD3, rWORD4
 930         blr
 931 L(b11):
 932 L(bx12):
 933         sub     rRTN, rWORD1, rWORD2
 934         blr
 935
 936         .align  4
 937 L(zeroLength):
 938         li      rRTN, 0
 939         blr
 940
 941         .align  4
 942 /* At this point we know the strings have different alignment and the
 943    compare length is at least 8 bytes.  r12 contains the low order
 944    3 bits of rSTR1 and cr5 contains the result of the logical compare
 945    of r12 to 0.  If r12 == 0 then rStr1 is double word
 946    aligned and can perform the DWunaligned loop.
 947
 948    Otherwise we know that rSTR1 is not already DW aligned yet.
 949    So we can force the string addresses to the next lower DW
 950    boundary and special case this first DW using shift left to
 951    eliminate bits preceding the first byte.  Since we want to join the
 952    normal (DWaligned) compare loop, starting at the second double word,
 953    we need to adjust the length (rN) and special case the loop
 954    versioning for the first DW.  This ensures that the loop count is
 955    correct and the first DW (shifted) is in the expected resister pair.  */
 956 L(unaligned):
 957         std     rWORD8, rWORD8SAVE(r1)
 958         std     rWORD7, rWORD7SAVE(r1)
 959         std     rOFF8, rOFF8SAVE(r1)
 960         std     rOFF16, rOFF16SAVE(r1)
 961         std     rOFF24, rOFF24SAVE(r1)
 962         std     rOFF32, rOFF32SAVE(r1)
 963         cfi_offset(rWORD8, rWORD8SAVE)
 964         cfi_offset(rWORD7, rWORD7SAVE)
 965         cfi_offset(rOFF8, rOFF8SAVE)
 966         cfi_offset(rOFF16, rOFF16SAVE)
 967         cfi_offset(rOFF24, rOFF24SAVE)
 968         cfi_offset(rOFF32, rOFF32SAVE)
 969         li      rOFF8,8
 970         li      rOFF16,16
 971         li      rOFF24,24
 972         li      rOFF32,32
 973         std     rSHL, rSHLSAVE(r1)
 974         cfi_offset(rSHL, rSHLSAVE)
 975         clrldi  rSHL, rSTR2, 61
 976         beq     cr6, L(duzeroLength)
 977         std     rSHR, rSHRSAVE(r1)
 978         cfi_offset(rSHR, rSHRSAVE)
 979         beq     cr5, L(DWunaligned)
 980         std     rWORD8_SHIFT, rWORD8SHIFTSAVE(r1)
 981         cfi_offset(rWORD8_SHIFT, rWORD8SHIFTSAVE)
 982 /* Adjust the logical start of rSTR2 to compensate for the extra bits
 983    in the 1st rSTR1 DW.  */
 984         sub     rWORD8_SHIFT, rSTR2, r12
 985 /* But do not attempt to address the DW before that DW that contains
 986    the actual start of rSTR2.  */
 987         clrrdi  rSTR2, rSTR2, 3
 988         std     rWORD2_SHIFT, rWORD2SHIFTSAVE(r1)
 989 /* Compute the left/right shift counts for the unaligned rSTR2,
 990    compensating for the logical (DW aligned) start of rSTR1.  */
 991         clrldi  rSHL, rWORD8_SHIFT, 61
 992         clrrdi  rSTR1, rSTR1, 3
 993         std     rWORD4_SHIFT, rWORD4SHIFTSAVE(r1)
 994         sldi    rSHL, rSHL, 3
 995         cmpld   cr5, rWORD8_SHIFT, rSTR2
 996         add     rN, rN, r12
 997         sldi    rWORD6, r12, 3
 998         std     rWORD6_SHIFT, rWORD6SHIFTSAVE(r1)
 999         cfi_offset(rWORD2_SHIFT, rWORD2SHIFTSAVE)
1000         cfi_offset(rWORD4_SHIFT, rWORD4SHIFTSAVE)
1001         cfi_offset(rWORD6_SHIFT, rWORD6SHIFTSAVE)
1002         subfic  rSHR, rSHL, 64
1003         srdi    r0, rN, 5       /* Divide by 32.  */
1004         andi.   r12, rN, 24     /* Get the DW remainder.  */
1005 /* We normally need to load 2 DWs to start the unaligned rSTR2, but in
1006    this special case those bits may be discarded anyway.  Also we
1007    must avoid loading a DW where none of the bits are part of rSTR2 as
1008    this may cross a page boundary and cause a page fault.  */
1009         li      rWORD8, 0
1010         blt     cr5, L(dus0)
1011         LD      rWORD8, 0, rSTR2
1012         addi    rSTR2, rSTR2, 8
1013         sld     rWORD8, rWORD8, rSHL
1014
1015 L(dus0):
1016         LD      rWORD1, 0, rSTR1
1017         LD      rWORD2, 0, rSTR2
1018         cmpldi  cr1, r12, 16
1019         cmpldi  cr7, rN, 32
1020         srd     r12, rWORD2, rSHR
1021         clrldi  rN, rN, 61
1022         beq     L(duPs4)
1023         mtctr   r0
1024         or      rWORD8, r12, rWORD8
1025         bgt     cr1, L(duPs3)
1026         beq     cr1, L(duPs2)
1027
1028 /* Remainder is 8.  */
1029         .align  4
1030 L(dusP1):
1031         sld     rWORD8_SHIFT, rWORD2, rSHL
1032         sld     rWORD7, rWORD1, rWORD6
1033         sld     rWORD8, rWORD8, rWORD6
1034         bge     cr7, L(duP1e)
1035 /* At this point we exit early with the first double word compare
1036    complete and remainder of 0 to 7 bytes.  See L(du14) for details on
1037    how we handle the remaining bytes.  */
1038         cmpld   cr5, rWORD7, rWORD8
1039         sldi.   rN, rN, 3
1040         bne     cr5, L(duLcr5)
1041         cmpld   cr7, rN, rSHR
1042         beq     L(duZeroReturn)
1043         li      r0, 0
1044         ble     cr7, L(dutrim)
1045         LD      rWORD2, rOFF8, rSTR2
1046         srd     r0, rWORD2, rSHR
1047         b       L(dutrim)
1048 /* Remainder is 16.  */
1049         .align  4
1050 L(duPs2):
1051         sld     rWORD6_SHIFT, rWORD2, rSHL
1052         sld     rWORD5, rWORD1, rWORD6
1053         sld     rWORD6, rWORD8, rWORD6
1054         b       L(duP2e)
1055 /* Remainder is 24.  */
1056         .align  4
1057 L(duPs3):
1058         sld     rWORD4_SHIFT, rWORD2, rSHL
1059         sld     rWORD3, rWORD1, rWORD6
1060         sld     rWORD4, rWORD8, rWORD6
1061         b       L(duP3e)
1062 /* Count is a multiple of 32, remainder is 0.  */
1063         .align  4
1064 L(duPs4):
1065         mtctr   r0
1066         or      rWORD8, r12, rWORD8
1067         sld     rWORD2_SHIFT, rWORD2, rSHL
1068         sld     rWORD1, rWORD1, rWORD6
1069         sld     rWORD2, rWORD8, rWORD6
1070         b       L(duP4e)
1071
1072 /* At this point we know rSTR1 is double word aligned and the
1073    compare length is at least 8 bytes.  */
1074         .align  4
1075 L(DWunaligned):
1076         std     rWORD8_SHIFT, rWORD8SHIFTSAVE(r1)
1077         clrrdi  rSTR2, rSTR2, 3
1078         std     rWORD2_SHIFT, rWORD2SHIFTSAVE(r1)
1079         srdi    r0, rN, 5       /* Divide by 32.  */
1080         std     rWORD4_SHIFT, rWORD4SHIFTSAVE(r1)
1081         andi.   r12, rN, 24     /* Get the DW remainder.  */
1082         std     rWORD6_SHIFT, rWORD6SHIFTSAVE(r1)
1083         cfi_offset(rWORD8_SHIFT, rWORD8SHIFTSAVE)
1084         cfi_offset(rWORD2_SHIFT, rWORD2SHIFTSAVE)
1085         cfi_offset(rWORD4_SHIFT, rWORD4SHIFTSAVE)
1086         cfi_offset(rWORD6_SHIFT, rWORD6SHIFTSAVE)
1087         sldi    rSHL, rSHL, 3
1088         LD      rWORD6, 0, rSTR2
1089         LD      rWORD8, rOFF8, rSTR2
1090         addi    rSTR2, rSTR2, 8
1091         cmpldi  cr1, r12, 16
1092         cmpldi  cr7, rN, 32
1093         clrldi  rN, rN, 61
1094         subfic  rSHR, rSHL, 64
1095         sld     rWORD6_SHIFT, rWORD6, rSHL
1096         beq     L(duP4)
1097         mtctr   r0
1098         bgt     cr1, L(duP3)
1099         beq     cr1, L(duP2)
1100
1101 /* Remainder is 8.  */
1102         .align  4
1103 L(duP1):
1104         srd     r12, rWORD8, rSHR
1105         LD      rWORD7, 0, rSTR1
1106         sld     rWORD8_SHIFT, rWORD8, rSHL
1107         or      rWORD8, r12, rWORD6_SHIFT
1108         blt     cr7, L(duP1x)
1109 L(duP1e):
1110         LD      rWORD1, rOFF8, rSTR1
1111         LD      rWORD2, rOFF8, rSTR2
1112         cmpld   cr5, rWORD7, rWORD8
1113         srd     r0, rWORD2, rSHR
1114         sld     rWORD2_SHIFT, rWORD2, rSHL
1115         or      rWORD2, r0, rWORD8_SHIFT
1116         LD      rWORD3, rOFF16, rSTR1
1117         LD      rWORD4, rOFF16, rSTR2
1118         cmpld   cr7, rWORD1, rWORD2
1119         srd     r12, rWORD4, rSHR
1120         sld     rWORD4_SHIFT, rWORD4, rSHL
1121         bne     cr5, L(duLcr5)
1122         or      rWORD4, r12, rWORD2_SHIFT
1123         LD      rWORD5, rOFF24, rSTR1
1124         LD      rWORD6, rOFF24, rSTR2
1125         cmpld   cr1, rWORD3, rWORD4
1126         srd     r0, rWORD6, rSHR
1127         sld     rWORD6_SHIFT, rWORD6, rSHL
1128         bne     cr7, L(duLcr7)
1129         or      rWORD6, r0, rWORD4_SHIFT
1130         cmpld   cr6, rWORD5, rWORD6
1131         b       L(duLoop3)
1132         .align  4
1133 /* At this point we exit early with the first double word compare
1134    complete and remainder of 0 to 7 bytes.  See L(du14) for details on
1135    how we handle the remaining bytes.  */
1136 L(duP1x):
1137         cmpld   cr5, rWORD7, rWORD8
1138         sldi.   rN, rN, 3
1139         bne     cr5, L(duLcr5)
1140         cmpld   cr7, rN, rSHR
1141         beq     L(duZeroReturn)
1142         li      r0, 0
1143         ble     cr7, L(dutrim)
1144         LD      rWORD2, rOFF8, rSTR2
1145         srd     r0, rWORD2, rSHR
1146         b       L(dutrim)
1147 /* Remainder is 16.  */
1148         .align  4
1149 L(duP2):
1150         srd     r0, rWORD8, rSHR
1151         LD      rWORD5, 0, rSTR1
1152         or      rWORD6, r0, rWORD6_SHIFT
1153         sld     rWORD6_SHIFT, rWORD8, rSHL
1154 L(duP2e):
1155         LD      rWORD7, rOFF8, rSTR1
1156         LD      rWORD8, rOFF8, rSTR2
1157         cmpld   cr6, rWORD5, rWORD6
1158         srd     r12, rWORD8, rSHR
1159         sld     rWORD8_SHIFT, rWORD8, rSHL
1160         or      rWORD8, r12, rWORD6_SHIFT
1161         blt     cr7, L(duP2x)
1162         LD      rWORD1, rOFF16, rSTR1
1163         LD      rWORD2, rOFF16, rSTR2
1164         cmpld   cr5, rWORD7, rWORD8
1165         bne     cr6, L(duLcr6)
1166         srd     r0, rWORD2, rSHR
1167         sld     rWORD2_SHIFT, rWORD2, rSHL
1168         or      rWORD2, r0, rWORD8_SHIFT
1169         LD      rWORD3, rOFF24, rSTR1
1170         LD      rWORD4, rOFF24, rSTR2
1171         cmpld   cr7, rWORD1, rWORD2
1172         bne     cr5, L(duLcr5)
1173         srd     r12, rWORD4, rSHR
1174         sld     rWORD4_SHIFT, rWORD4, rSHL
1175         or      rWORD4, r12, rWORD2_SHIFT
1176         addi    rSTR1, rSTR1, 8
1177         addi    rSTR2, rSTR2, 8
1178         cmpld   cr1, rWORD3, rWORD4
1179         b       L(duLoop2)
1180         .align  4
1181 L(duP2x):
1182         cmpld   cr5, rWORD7, rWORD8
1183         addi    rSTR1, rSTR1, 8
1184         addi    rSTR2, rSTR2, 8
1185         bne     cr6, L(duLcr6)
1186         sldi.   rN, rN, 3
1187         bne     cr5, L(duLcr5)
1188         cmpld   cr7, rN, rSHR
1189         beq     L(duZeroReturn)
1190         li      r0, 0
1191         ble     cr7, L(dutrim)
1192         LD      rWORD2, rOFF8, rSTR2
1193         srd     r0, rWORD2, rSHR
1194         b       L(dutrim)
1195
1196 /* Remainder is 24.  */
1197         .align  4
1198 L(duP3):
1199         srd     r12, rWORD8, rSHR
1200         LD      rWORD3, 0, rSTR1
1201         sld     rWORD4_SHIFT, rWORD8, rSHL
1202         or      rWORD4, r12, rWORD6_SHIFT
1203 L(duP3e):
1204         LD      rWORD5, rOFF8, rSTR1
1205         LD      rWORD6, rOFF8, rSTR2
1206         cmpld   cr1, rWORD3, rWORD4
1207         srd     r0, rWORD6, rSHR
1208         sld     rWORD6_SHIFT, rWORD6, rSHL
1209         or      rWORD6, r0, rWORD4_SHIFT
1210         LD      rWORD7, rOFF16, rSTR1
1211         LD      rWORD8, rOFF16, rSTR2
1212         cmpld   cr6, rWORD5, rWORD6
1213         bne     cr1, L(duLcr1)
1214         srd     r12, rWORD8, rSHR
1215         sld     rWORD8_SHIFT, rWORD8, rSHL
1216         or      rWORD8, r12, rWORD6_SHIFT
1217         blt     cr7, L(duP3x)
1218         LD      rWORD1, rOFF24, rSTR1
1219         LD      rWORD2, rOFF24, rSTR2
1220         cmpld   cr5, rWORD7, rWORD8
1221         bne     cr6, L(duLcr6)
1222         srd     r0, rWORD2, rSHR
1223         sld     rWORD2_SHIFT, rWORD2, rSHL
1224         or      rWORD2, r0, rWORD8_SHIFT
1225         addi    rSTR1, rSTR1, 16
1226         addi    rSTR2, rSTR2, 16
1227         cmpld   cr7, rWORD1, rWORD2
1228         b       L(duLoop1)
1229         .align  4
1230 L(duP3x):
1231         addi    rSTR1, rSTR1, 16
1232         addi    rSTR2, rSTR2, 16
1233         cmpld   cr5, rWORD7, rWORD8
1234         bne     cr6, L(duLcr6)
1235         sldi.   rN, rN, 3
1236         bne     cr5, L(duLcr5)
1237         cmpld   cr7, rN, rSHR
1238         beq     L(duZeroReturn)
1239         li      r0, 0
1240         ble     cr7, L(dutrim)
1241         LD      rWORD2, rOFF8, rSTR2
1242         srd     r0, rWORD2, rSHR
1243         b       L(dutrim)
1244
1245 /* Count is a multiple of 32, remainder is 0.  */
1246         .align  4
1247 L(duP4):
1248         mtctr   r0
1249         srd     r0, rWORD8, rSHR
1250         LD      rWORD1, 0, rSTR1
1251         sld     rWORD2_SHIFT, rWORD8, rSHL
1252         or      rWORD2, r0, rWORD6_SHIFT
1253 L(duP4e):
1254         LD      rWORD3, rOFF8, rSTR1
1255         LD      rWORD4, rOFF8, rSTR2
1256         cmpld   cr7, rWORD1, rWORD2
1257         srd     r12, rWORD4, rSHR
1258         sld     rWORD4_SHIFT, rWORD4, rSHL
1259         or      rWORD4, r12, rWORD2_SHIFT
1260         LD      rWORD5, rOFF16, rSTR1
1261         LD      rWORD6, rOFF16, rSTR2
1262         cmpld   cr1, rWORD3, rWORD4
1263         bne     cr7, L(duLcr7)
1264         srd     r0, rWORD6, rSHR
1265         sld     rWORD6_SHIFT, rWORD6, rSHL
1266         or      rWORD6, r0, rWORD4_SHIFT
1267         LD      rWORD7, rOFF24, rSTR1
1268         LD      rWORD8, rOFF24, rSTR2
1269         addi    rSTR1, rSTR1, 24
1270         addi    rSTR2, rSTR2, 24
1271         cmpld   cr6, rWORD5, rWORD6
1272         bne     cr1, L(duLcr1)
1273         srd     r12, rWORD8, rSHR
1274         sld     rWORD8_SHIFT, rWORD8, rSHL
1275         or      rWORD8, r12, rWORD6_SHIFT
1276         cmpld   cr5, rWORD7, rWORD8
1277         bdz     L(du24)         /* Adjust CTR as we start with +4.  */
1278 /* This is the primary loop.  */
1279         .align  4
1280 L(duLoop):
1281         LD      rWORD1, rOFF8, rSTR1
1282         LD      rWORD2, rOFF8, rSTR2
1283         cmpld   cr1, rWORD3, rWORD4
1284         bne     cr6, L(duLcr6)
1285         srd     r0, rWORD2, rSHR
1286         sld     rWORD2_SHIFT, rWORD2, rSHL
1287         or      rWORD2, r0, rWORD8_SHIFT
1288 L(duLoop1):
1289         LD      rWORD3, rOFF16, rSTR1
1290         LD      rWORD4, rOFF16, rSTR2
1291         cmpld   cr6, rWORD5, rWORD6
1292         bne     cr5, L(duLcr5)
1293         srd     r12, rWORD4, rSHR
1294         sld     rWORD4_SHIFT, rWORD4, rSHL
1295         or      rWORD4, r12, rWORD2_SHIFT
1296 L(duLoop2):
1297         LD      rWORD5, rOFF24, rSTR1
1298         LD      rWORD6, rOFF24, rSTR2
1299         cmpld   cr5, rWORD7, rWORD8
1300         bne     cr7, L(duLcr7)
1301         srd     r0, rWORD6, rSHR
1302         sld     rWORD6_SHIFT, rWORD6, rSHL
1303         or      rWORD6, r0, rWORD4_SHIFT
1304 L(duLoop3):
1305         LD      rWORD7, rOFF32, rSTR1
1306         LD      rWORD8, rOFF32, rSTR2
1307         addi    rSTR1, rSTR1, 32
1308         addi    rSTR2, rSTR2, 32
1309         cmpld   cr7, rWORD1, rWORD2
1310         bne     cr1, L(duLcr1)
1311         srd     r12, rWORD8, rSHR
1312         sld     rWORD8_SHIFT, rWORD8, rSHL
1313         or      rWORD8, r12, rWORD6_SHIFT
1314         bdnz    L(duLoop)
1315
1316 L(duL4):
1317         cmpld   cr1, rWORD3, rWORD4
1318         bne     cr6, L(duLcr6)
1319         cmpld   cr6, rWORD5, rWORD6
1320         bne     cr5, L(duLcr5)
1321         cmpld   cr5, rWORD7, rWORD8
1322 L(du44):
1323         bne     cr7, L(duLcr7)
1324 L(du34):
1325         bne     cr1, L(duLcr1)
1326 L(du24):
1327         bne     cr6, L(duLcr6)
1328 L(du14):
1329         sldi.   rN, rN, 3
1330         bne     cr5, L(duLcr5)
1331 /* At this point we have a remainder of 1 to 7 bytes to compare.  We use
1332    shift right double to eliminate bits beyond the compare length.
1333
1334    However it may not be safe to load rWORD2 which may be beyond the
1335    string length.  So we compare the bit length of the remainder to
1336    the right shift count (rSHR).  If the bit count is less than or equal
1337    we do not need to load rWORD2 (all significant bits are already in
1338    rWORD8_SHIFT).  */
1339         cmpld   cr7, rN, rSHR
1340         beq     L(duZeroReturn)
1341         li      r0, 0
1342         ble     cr7, L(dutrim)
1343         LD      rWORD2, rOFF8, rSTR2
1344         srd     r0, rWORD2, rSHR
1345         .align  4
1346 L(dutrim):
1347         LD      rWORD1, rOFF8, rSTR1
1348         ld      rWORD8, -8(r1)
1349         subfic  rN, rN, 64      /* Shift count is 64 - (rN * 8).  */
1350         or      rWORD2, r0, rWORD8_SHIFT
1351         ld      rWORD7, rWORD7SAVE(r1)
1352         ld      rSHL, rSHLSAVE(r1)
1353         srd     rWORD1, rWORD1, rN
1354         srd     rWORD2, rWORD2, rN
1355         ld      rSHR, rSHRSAVE(r1)
1356         ld      rWORD8_SHIFT, rWORD8SHIFTSAVE(r1)
1357         li      rRTN, 0
1358         cmpld   cr7, rWORD1, rWORD2
1359         ld      rWORD2_SHIFT, rWORD2SHIFTSAVE(r1)
1360         ld      rWORD4_SHIFT, rWORD4SHIFTSAVE(r1)
1361         beq     cr7, L(dureturn24)
1362         li      rRTN, 1
1363         ld      rWORD6_SHIFT, rWORD6SHIFTSAVE(r1)
1364         ld      rOFF8,  rOFF8SAVE(r1)
1365         ld      rOFF16, rOFF16SAVE(r1)
1366         ld      rOFF24, rOFF24SAVE(r1)
1367         ld      rOFF32, rOFF32SAVE(r1)
1368         bgtlr   cr7
1369         li      rRTN, -1
1370         blr
1371         .align  4
1372 L(duLcr7):
1373         ld      rWORD8, rWORD8SAVE(r1)
1374         ld      rWORD7, rWORD7SAVE(r1)
1375         li      rRTN, 1
1376         bgt     cr7, L(dureturn29)
1377         ld      rSHL, rSHLSAVE(r1)
1378         ld      rSHR, rSHRSAVE(r1)
1379         li      rRTN, -1
1380         b       L(dureturn27)
1381         .align  4
1382 L(duLcr1):
1383         ld      rWORD8, rWORD8SAVE(r1)
1384         ld      rWORD7, rWORD7SAVE(r1)
1385         li      rRTN, 1
1386         bgt     cr1, L(dureturn29)
1387         ld      rSHL, rSHLSAVE(r1)
1388         ld      rSHR, rSHRSAVE(r1)
1389         li      rRTN, -1
1390         b       L(dureturn27)
1391         .align  4
1392 L(duLcr6):
1393         ld      rWORD8, rWORD8SAVE(r1)
1394         ld      rWORD7, rWORD7SAVE(r1)
1395         li      rRTN, 1
1396         bgt     cr6, L(dureturn29)
1397         ld      rSHL, rSHLSAVE(r1)
1398         ld      rSHR, rSHRSAVE(r1)
1399         li      rRTN, -1
1400         b       L(dureturn27)
1401         .align  4
1402 L(duLcr5):
1403         ld      rWORD8, rWORD8SAVE(r1)
1404         ld      rWORD7, rWORD7SAVE(r1)
1405         li      rRTN, 1
1406         bgt     cr5, L(dureturn29)
1407         ld      rSHL, rSHLSAVE(r1)
1408         ld      rSHR, rSHRSAVE(r1)
1409         li      rRTN, -1
1410         b       L(dureturn27)
1411
1412         .align  3
1413 L(duZeroReturn):
1414         li      rRTN, 0
1415         .align  4
1416 L(dureturn):
1417         ld      rWORD8, rWORD8SAVE(r1)
1418         ld      rWORD7, rWORD7SAVE(r1)
1419 L(dureturn29):
1420         ld      rSHL, rSHLSAVE(r1)
1421         ld      rSHR, rSHRSAVE(r1)
1422 L(dureturn27):
1423         ld      rWORD8_SHIFT, rWORD8SHIFTSAVE(r1)
1424         ld      rWORD2_SHIFT, rWORD2SHIFTSAVE(r1)
1425         ld      rWORD4_SHIFT, rWORD4SHIFTSAVE(r1)
1426 L(dureturn24):
1427         ld      rWORD6_SHIFT, rWORD6SHIFTSAVE(r1)
1428         ld      rOFF8,  rOFF8SAVE(r1)
1429         ld      rOFF16, rOFF16SAVE(r1)
1430         ld      rOFF24, rOFF24SAVE(r1)
1431         ld      rOFF32, rOFF32SAVE(r1)
1432         blr
1433
1434 L(duzeroLength):
1435         ld      rOFF8,  rOFF8SAVE(r1)
1436         ld      rOFF16, rOFF16SAVE(r1)
1437         ld      rOFF24, rOFF24SAVE(r1)
1438         ld      rOFF32, rOFF32SAVE(r1)
1439         li      rRTN, 0
1440         blr
1441
1442 END (MEMCMP)
1443 libc_hidden_builtin_def (memcmp)
1444 weak_alias (memcmp, bcmp)