gcc/config/i386/avxintrin.h

   1 /* Copyright (C) 2008-2024 Free Software Foundation, Inc.
   2
   3    This file is part of GCC.
   4
   5    GCC is free software; you can redistribute it and/or modify
   6    it under the terms of the GNU General Public License as published by
   7    the Free Software Foundation; either version 3, or (at your option)
   8    any later version.
   9
  10    GCC is distributed in the hope that it will be useful,
  11    but WITHOUT ANY WARRANTY; without even the implied warranty of
  12    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  13    GNU General Public License for more details.
  14
  15    Under Section 7 of GPL version 3, you are granted additional
  16    permissions described in the GCC Runtime Library Exception, version
  17    3.1, as published by the Free Software Foundation.
  18
  19    You should have received a copy of the GNU General Public License and
  20    a copy of the GCC Runtime Library Exception along with this program;
  21    see the files COPYING3 and COPYING.RUNTIME respectively.  If not, see
  22    <http://www.gnu.org/licenses/>.  */
  23
  24 /* Implemented from the specification included in the Intel C++ Compiler
  25    User Guide and Reference, version 11.0.  */
  26
  27 #ifndef _IMMINTRIN_H_INCLUDED
  28 # error "Never use <avxintrin.h> directly; include <immintrin.h> instead."
  29 #endif
  30
  31 #ifndef _AVXINTRIN_H_INCLUDED
  32 #define _AVXINTRIN_H_INCLUDED
  33
  34 #ifndef __AVX__
  35 #pragma GCC push_options
  36 #pragma GCC target("avx")
  37 #define __DISABLE_AVX__
  38 #endif /* __AVX__ */
  39
  40 /* Internal data types for implementing the intrinsics.  */
  41 typedef double __v4df __attribute__ ((__vector_size__ (32)));
  42 typedef float __v8sf __attribute__ ((__vector_size__ (32)));
  43 typedef long long __v4di __attribute__ ((__vector_size__ (32)));
  44 typedef unsigned long long __v4du __attribute__ ((__vector_size__ (32)));
  45 typedef int __v8si __attribute__ ((__vector_size__ (32)));
  46 typedef unsigned int __v8su __attribute__ ((__vector_size__ (32)));
  47 typedef short __v16hi __attribute__ ((__vector_size__ (32)));
  48 typedef unsigned short __v16hu __attribute__ ((__vector_size__ (32)));
  49 typedef char __v32qi __attribute__ ((__vector_size__ (32)));
  50 typedef signed char __v32qs __attribute__ ((__vector_size__ (32)));
  51 typedef unsigned char __v32qu __attribute__ ((__vector_size__ (32)));
  52
  53 /* The Intel API is flexible enough that we must allow aliasing with other
  54    vector types, and their scalar components.  */
  55 typedef float __m256 __attribute__ ((__vector_size__ (32),
  56                                      __may_alias__));
  57 typedef long long __m256i __attribute__ ((__vector_size__ (32),
  58                                           __may_alias__));
  59 typedef double __m256d __attribute__ ((__vector_size__ (32),
  60                                        __may_alias__));
  61
  62 /* Unaligned version of the same types.  */
  63 typedef float __m256_u __attribute__ ((__vector_size__ (32),
  64                                        __may_alias__,
  65                                        __aligned__ (1)));
  66 typedef long long __m256i_u __attribute__ ((__vector_size__ (32),
  67                                             __may_alias__,
  68                                             __aligned__ (1)));
  69 typedef double __m256d_u __attribute__ ((__vector_size__ (32),
  70                                          __may_alias__,
  71                                          __aligned__ (1)));
  72
  73 /* Compare predicates for scalar and packed compare intrinsics.  */
  74
  75 /* Equal (ordered, non-signaling)  */
  76 #define _CMP_EQ_OQ      0x00
  77 /* Less-than (ordered, signaling)  */
  78 #define _CMP_LT_OS      0x01
  79 /* Less-than-or-equal (ordered, signaling)  */
  80 #define _CMP_LE_OS      0x02
  81 /* Unordered (non-signaling)  */
  82 #define _CMP_UNORD_Q    0x03
  83 /* Not-equal (unordered, non-signaling)  */
  84 #define _CMP_NEQ_UQ     0x04
  85 /* Not-less-than (unordered, signaling)  */
  86 #define _CMP_NLT_US     0x05
  87 /* Not-less-than-or-equal (unordered, signaling)  */
  88 #define _CMP_NLE_US     0x06
  89 /* Ordered (nonsignaling)   */
  90 #define _CMP_ORD_Q      0x07
  91 /* Equal (unordered, non-signaling)  */
  92 #define _CMP_EQ_UQ      0x08
  93 /* Not-greater-than-or-equal (unordered, signaling)  */
  94 #define _CMP_NGE_US     0x09
  95 /* Not-greater-than (unordered, signaling)  */
  96 #define _CMP_NGT_US     0x0a
  97 /* False (ordered, non-signaling)  */
  98 #define _CMP_FALSE_OQ   0x0b
  99 /* Not-equal (ordered, non-signaling)  */
 100 #define _CMP_NEQ_OQ     0x0c
 101 /* Greater-than-or-equal (ordered, signaling)  */
 102 #define _CMP_GE_OS      0x0d
 103 /* Greater-than (ordered, signaling)  */
 104 #define _CMP_GT_OS      0x0e
 105 /* True (unordered, non-signaling)  */
 106 #define _CMP_TRUE_UQ    0x0f
 107 /* Equal (ordered, signaling)  */
 108 #define _CMP_EQ_OS      0x10
 109 /* Less-than (ordered, non-signaling)  */
 110 #define _CMP_LT_OQ      0x11
 111 /* Less-than-or-equal (ordered, non-signaling)  */
 112 #define _CMP_LE_OQ      0x12
 113 /* Unordered (signaling)  */
 114 #define _CMP_UNORD_S    0x13
 115 /* Not-equal (unordered, signaling)  */
 116 #define _CMP_NEQ_US     0x14
 117 /* Not-less-than (unordered, non-signaling)  */
 118 #define _CMP_NLT_UQ     0x15
 119 /* Not-less-than-or-equal (unordered, non-signaling)  */
 120 #define _CMP_NLE_UQ     0x16
 121 /* Ordered (signaling)  */
 122 #define _CMP_ORD_S      0x17
 123 /* Equal (unordered, signaling)  */
 124 #define _CMP_EQ_US      0x18
 125 /* Not-greater-than-or-equal (unordered, non-signaling)  */
 126 #define _CMP_NGE_UQ     0x19
 127 /* Not-greater-than (unordered, non-signaling)  */
 128 #define _CMP_NGT_UQ     0x1a
 129 /* False (ordered, signaling)  */
 130 #define _CMP_FALSE_OS   0x1b
 131 /* Not-equal (ordered, signaling)  */
 132 #define _CMP_NEQ_OS     0x1c
 133 /* Greater-than-or-equal (ordered, non-signaling)  */
 134 #define _CMP_GE_OQ      0x1d
 135 /* Greater-than (ordered, non-signaling)  */
 136 #define _CMP_GT_OQ      0x1e
 137 /* True (unordered, signaling)  */
 138 #define _CMP_TRUE_US    0x1f
 139
 140 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 141 _mm256_add_pd (__m256d __A, __m256d __B)
 142 {
 143   return (__m256d) ((__v4df)__A + (__v4df)__B);
 144 }
 145
 146 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 147 _mm256_add_ps (__m256 __A, __m256 __B)
 148 {
 149   return (__m256) ((__v8sf)__A + (__v8sf)__B);
 150 }
 151
 152 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 153 _mm256_addsub_pd (__m256d __A, __m256d __B)
 154 {
 155   return (__m256d) __builtin_ia32_addsubpd256 ((__v4df)__A, (__v4df)__B);
 156 }
 157
 158 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 159 _mm256_addsub_ps (__m256 __A, __m256 __B)
 160 {
 161   return (__m256) __builtin_ia32_addsubps256 ((__v8sf)__A, (__v8sf)__B);
 162 }
 163
 164
 165 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 166 _mm256_and_pd (__m256d __A, __m256d __B)
 167 {
 168   return (__m256d) __builtin_ia32_andpd256 ((__v4df)__A, (__v4df)__B);
 169 }
 170
 171 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 172 _mm256_and_ps (__m256 __A, __m256 __B)
 173 {
 174   return (__m256) __builtin_ia32_andps256 ((__v8sf)__A, (__v8sf)__B);
 175 }
 176
 177 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 178 _mm256_andnot_pd (__m256d __A, __m256d __B)
 179 {
 180   return (__m256d) __builtin_ia32_andnpd256 ((__v4df)__A, (__v4df)__B);
 181 }
 182
 183 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 184 _mm256_andnot_ps (__m256 __A, __m256 __B)
 185 {
 186   return (__m256) __builtin_ia32_andnps256 ((__v8sf)__A, (__v8sf)__B);
 187 }
 188
 189 /* Double/single precision floating point blend instructions - select
 190    data from 2 sources using constant/variable mask.  */
 191
 192 #ifdef __OPTIMIZE__
 193 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 194 _mm256_blend_pd (__m256d __X, __m256d __Y, const int __M)
 195 {
 196   return (__m256d) __builtin_ia32_blendpd256 ((__v4df)__X,
 197                                               (__v4df)__Y,
 198                                               __M);
 199 }
 200
 201 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 202 _mm256_blend_ps (__m256 __X, __m256 __Y, const int __M)
 203 {
 204   return (__m256) __builtin_ia32_blendps256 ((__v8sf)__X,
 205                                              (__v8sf)__Y,
 206                                              __M);
 207 }
 208 #else
 209 #define _mm256_blend_pd(X, Y, M)                                        \
 210   ((__m256d) __builtin_ia32_blendpd256 ((__v4df)(__m256d)(X),           \
 211                                         (__v4df)(__m256d)(Y), (int)(M)))
 212
 213 #define _mm256_blend_ps(X, Y, M)                                        \
 214   ((__m256) __builtin_ia32_blendps256 ((__v8sf)(__m256)(X),             \
 215                                        (__v8sf)(__m256)(Y), (int)(M)))
 216 #endif
 217
 218 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 219 _mm256_blendv_pd (__m256d __X, __m256d __Y, __m256d __M)
 220 {
 221   return (__m256d) __builtin_ia32_blendvpd256 ((__v4df)__X,
 222                                                (__v4df)__Y,
 223                                                (__v4df)__M);
 224 }
 225
 226 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 227 _mm256_blendv_ps (__m256 __X, __m256 __Y, __m256 __M)
 228 {
 229   return (__m256) __builtin_ia32_blendvps256 ((__v8sf)__X,
 230                                               (__v8sf)__Y,
 231                                               (__v8sf)__M);
 232 }
 233
 234 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 235 _mm256_div_pd (__m256d __A, __m256d __B)
 236 {
 237   return (__m256d) ((__v4df)__A / (__v4df)__B);
 238 }
 239
 240 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 241 _mm256_div_ps (__m256 __A, __m256 __B)
 242 {
 243   return (__m256) ((__v8sf)__A / (__v8sf)__B);
 244 }
 245
 246 /* Dot product instructions with mask-defined summing and zeroing parts
 247    of result.  */
 248
 249 #ifdef __OPTIMIZE__
 250 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 251 _mm256_dp_ps (__m256 __X, __m256 __Y, const int __M)
 252 {
 253   return (__m256) __builtin_ia32_dpps256 ((__v8sf)__X,
 254                                           (__v8sf)__Y,
 255                                           __M);
 256 }
 257 #else
 258 #define _mm256_dp_ps(X, Y, M)                                           \
 259   ((__m256) __builtin_ia32_dpps256 ((__v8sf)(__m256)(X),                \
 260                                     (__v8sf)(__m256)(Y), (int)(M)))
 261 #endif
 262
 263 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 264 _mm256_hadd_pd (__m256d __X, __m256d __Y)
 265 {
 266   return (__m256d) __builtin_ia32_haddpd256 ((__v4df)__X, (__v4df)__Y);
 267 }
 268
 269 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 270 _mm256_hadd_ps (__m256 __X, __m256 __Y)
 271 {
 272   return (__m256) __builtin_ia32_haddps256 ((__v8sf)__X, (__v8sf)__Y);
 273 }
 274
 275 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 276 _mm256_hsub_pd (__m256d __X, __m256d __Y)
 277 {
 278   return (__m256d) __builtin_ia32_hsubpd256 ((__v4df)__X, (__v4df)__Y);
 279 }
 280
 281 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 282 _mm256_hsub_ps (__m256 __X, __m256 __Y)
 283 {
 284   return (__m256) __builtin_ia32_hsubps256 ((__v8sf)__X, (__v8sf)__Y);
 285 }
 286
 287 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 288 _mm256_max_pd (__m256d __A, __m256d __B)
 289 {
 290   return (__m256d) __builtin_ia32_maxpd256 ((__v4df)__A, (__v4df)__B);
 291 }
 292
 293 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 294 _mm256_max_ps (__m256 __A, __m256 __B)
 295 {
 296   return (__m256) __builtin_ia32_maxps256 ((__v8sf)__A, (__v8sf)__B);
 297 }
 298
 299 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 300 _mm256_min_pd (__m256d __A, __m256d __B)
 301 {
 302   return (__m256d) __builtin_ia32_minpd256 ((__v4df)__A, (__v4df)__B);
 303 }
 304
 305 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 306 _mm256_min_ps (__m256 __A, __m256 __B)
 307 {
 308   return (__m256) __builtin_ia32_minps256 ((__v8sf)__A, (__v8sf)__B);
 309 }
 310
 311 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 312 _mm256_mul_pd (__m256d __A, __m256d __B)
 313 {
 314   return (__m256d) ((__v4df)__A * (__v4df)__B);
 315 }
 316
 317 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 318 _mm256_mul_ps (__m256 __A, __m256 __B)
 319 {
 320   return (__m256) ((__v8sf)__A * (__v8sf)__B);
 321 }
 322
 323 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 324 _mm256_or_pd (__m256d __A, __m256d __B)
 325 {
 326   return (__m256d) __builtin_ia32_orpd256 ((__v4df)__A, (__v4df)__B);
 327 }
 328
 329 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 330 _mm256_or_ps (__m256 __A, __m256 __B)
 331 {
 332   return (__m256) __builtin_ia32_orps256 ((__v8sf)__A, (__v8sf)__B);
 333 }
 334
 335 #ifdef __OPTIMIZE__
 336 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 337 _mm256_shuffle_pd (__m256d __A, __m256d __B, const int __mask)
 338 {
 339   return (__m256d) __builtin_ia32_shufpd256 ((__v4df)__A, (__v4df)__B,
 340                                              __mask);
 341 }
 342
 343 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 344 _mm256_shuffle_ps (__m256 __A, __m256 __B, const int __mask)
 345 {
 346   return (__m256) __builtin_ia32_shufps256 ((__v8sf)__A, (__v8sf)__B,
 347                                             __mask);
 348 }
 349 #else
 350 #define _mm256_shuffle_pd(A, B, N)                                      \
 351   ((__m256d)__builtin_ia32_shufpd256 ((__v4df)(__m256d)(A),             \
 352                                       (__v4df)(__m256d)(B), (int)(N)))
 353
 354 #define _mm256_shuffle_ps(A, B, N)                                      \
 355   ((__m256) __builtin_ia32_shufps256 ((__v8sf)(__m256)(A),              \
 356                                       (__v8sf)(__m256)(B), (int)(N)))
 357 #endif
 358
 359 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 360 _mm256_sub_pd (__m256d __A, __m256d __B)
 361 {
 362   return (__m256d) ((__v4df)__A - (__v4df)__B);
 363 }
 364
 365 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 366 _mm256_sub_ps (__m256 __A, __m256 __B)
 367 {
 368   return (__m256) ((__v8sf)__A - (__v8sf)__B);
 369 }
 370
 371 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 372 _mm256_xor_pd (__m256d __A, __m256d __B)
 373 {
 374   return (__m256d) __builtin_ia32_xorpd256 ((__v4df)__A, (__v4df)__B);
 375 }
 376
 377 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 378 _mm256_xor_ps (__m256 __A, __m256 __B)
 379 {
 380   return (__m256) __builtin_ia32_xorps256 ((__v8sf)__A, (__v8sf)__B);
 381 }
 382
 383 #ifdef __OPTIMIZE__
 384 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 385 _mm_cmp_pd (__m128d __X, __m128d __Y, const int __P)
 386 {
 387   return (__m128d) __builtin_ia32_cmppd ((__v2df)__X, (__v2df)__Y, __P);
 388 }
 389
 390 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 391 _mm_cmp_ps (__m128 __X, __m128 __Y, const int __P)
 392 {
 393   return (__m128) __builtin_ia32_cmpps ((__v4sf)__X, (__v4sf)__Y, __P);
 394 }
 395
 396 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 397 _mm256_cmp_pd (__m256d __X, __m256d __Y, const int __P)
 398 {
 399   return (__m256d) __builtin_ia32_cmppd256 ((__v4df)__X, (__v4df)__Y,
 400                                             __P);
 401 }
 402
 403 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 404 _mm256_cmp_ps (__m256 __X, __m256 __Y, const int __P)
 405 {
 406   return (__m256) __builtin_ia32_cmpps256 ((__v8sf)__X, (__v8sf)__Y,
 407                                            __P);
 408 }
 409
 410 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 411 _mm_cmp_sd (__m128d __X, __m128d __Y, const int __P)
 412 {
 413   return (__m128d) __builtin_ia32_cmpsd ((__v2df)__X, (__v2df)__Y, __P);
 414 }
 415
 416 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 417 _mm_cmp_ss (__m128 __X, __m128 __Y, const int __P)
 418 {
 419   return (__m128) __builtin_ia32_cmpss ((__v4sf)__X, (__v4sf)__Y, __P);
 420 }
 421 #else
 422 #define _mm_cmp_pd(X, Y, P)                                             \
 423   ((__m128d) __builtin_ia32_cmppd ((__v2df)(__m128d)(X),                \
 424                                    (__v2df)(__m128d)(Y), (int)(P)))
 425
 426 #define _mm_cmp_ps(X, Y, P)                                             \
 427   ((__m128) __builtin_ia32_cmpps ((__v4sf)(__m128)(X),                  \
 428                                   (__v4sf)(__m128)(Y), (int)(P)))
 429
 430 #define _mm256_cmp_pd(X, Y, P)                                          \
 431   ((__m256d) __builtin_ia32_cmppd256 ((__v4df)(__m256d)(X),             \
 432                                       (__v4df)(__m256d)(Y), (int)(P)))
 433
 434 #define _mm256_cmp_ps(X, Y, P)                                          \
 435   ((__m256) __builtin_ia32_cmpps256 ((__v8sf)(__m256)(X),               \
 436                                      (__v8sf)(__m256)(Y), (int)(P)))
 437
 438 #define _mm_cmp_sd(X, Y, P)                                             \
 439   ((__m128d) __builtin_ia32_cmpsd ((__v2df)(__m128d)(X),                \
 440                                    (__v2df)(__m128d)(Y), (int)(P)))
 441
 442 #define _mm_cmp_ss(X, Y, P)                                             \
 443   ((__m128) __builtin_ia32_cmpss ((__v4sf)(__m128)(X),                  \
 444                                   (__v4sf)(__m128)(Y), (int)(P)))
 445 #endif
 446
 447 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 448 _mm256_cvtsi256_si32 (__m256i __A)
 449 {
 450   __v8si __B = (__v8si) __A;
 451   return __B[0];
 452 }
 453
 454 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 455 _mm256_cvtepi32_pd (__m128i __A)
 456 {
 457   return (__m256d)__builtin_ia32_cvtdq2pd256 ((__v4si) __A);
 458 }
 459
 460 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 461 _mm256_cvtepi32_ps (__m256i __A)
 462 {
 463   return (__m256)__builtin_ia32_cvtdq2ps256 ((__v8si) __A);
 464 }
 465
 466 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 467 _mm256_cvtpd_ps (__m256d __A)
 468 {
 469   return (__m128)__builtin_ia32_cvtpd2ps256 ((__v4df) __A);
 470 }
 471
 472 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 473 _mm256_cvtps_epi32 (__m256 __A)
 474 {
 475   return (__m256i)__builtin_ia32_cvtps2dq256 ((__v8sf) __A);
 476 }
 477
 478 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 479 _mm256_cvtps_pd (__m128 __A)
 480 {
 481   return (__m256d)__builtin_ia32_cvtps2pd256 ((__v4sf) __A);
 482 }
 483
 484 extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 485 _mm256_cvttpd_epi32 (__m256d __A)
 486 {
 487   return (__m128i)__builtin_ia32_cvttpd2dq256 ((__v4df) __A);
 488 }
 489
 490 extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 491 _mm256_cvtpd_epi32 (__m256d __A)
 492 {
 493   return (__m128i)__builtin_ia32_cvtpd2dq256 ((__v4df) __A);
 494 }
 495
 496 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 497 _mm256_cvttps_epi32 (__m256 __A)
 498 {
 499   return (__m256i)__builtin_ia32_cvttps2dq256 ((__v8sf) __A);
 500 }
 501
 502 extern __inline double
 503 __attribute__ ((__gnu_inline__, __always_inline__, __artificial__))
 504 _mm256_cvtsd_f64 (__m256d __A)
 505 {
 506   return __A[0];
 507 }
 508
 509 extern __inline float
 510 __attribute__ ((__gnu_inline__, __always_inline__, __artificial__))
 511 _mm256_cvtss_f32 (__m256 __A)
 512 {
 513   return __A[0];
 514 }
 515
 516 #ifdef __OPTIMIZE__
 517 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 518 _mm256_extractf128_pd (__m256d __X, const int __N)
 519 {
 520   return (__m128d) __builtin_ia32_vextractf128_pd256 ((__v4df)__X, __N);
 521 }
 522
 523 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 524 _mm256_extractf128_ps (__m256 __X, const int __N)
 525 {
 526   return (__m128) __builtin_ia32_vextractf128_ps256 ((__v8sf)__X, __N);
 527 }
 528
 529 extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 530 _mm256_extractf128_si256 (__m256i __X, const int __N)
 531 {
 532   return (__m128i) __builtin_ia32_vextractf128_si256 ((__v8si)__X, __N);
 533 }
 534
 535 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 536 _mm256_extract_epi32 (__m256i __X, int const __N)
 537 {
 538   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 2);
 539   return _mm_extract_epi32 (__Y, __N % 4);
 540 }
 541
 542 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 543 _mm256_extract_epi16 (__m256i __X, int const __N)
 544 {
 545   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 3);
 546   return _mm_extract_epi16 (__Y, __N % 8);
 547 }
 548
 549 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 550 _mm256_extract_epi8 (__m256i __X, int const __N)
 551 {
 552   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 4);
 553   return _mm_extract_epi8 (__Y, __N % 16);
 554 }
 555
 556 #ifdef __x86_64__
 557 extern __inline long long  __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 558 _mm256_extract_epi64 (__m256i __X, const int __N)
 559 {
 560   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 1);
 561   return _mm_extract_epi64 (__Y, __N % 2);
 562 }
 563 #endif
 564 #else
 565 #define _mm256_extractf128_pd(X, N)                                     \
 566   ((__m128d) __builtin_ia32_vextractf128_pd256 ((__v4df)(__m256d)(X),   \
 567                                                 (int)(N)))
 568
 569 #define _mm256_extractf128_ps(X, N)                                     \
 570   ((__m128) __builtin_ia32_vextractf128_ps256 ((__v8sf)(__m256)(X),     \
 571                                                (int)(N)))
 572
 573 #define _mm256_extractf128_si256(X, N)                                  \
 574   ((__m128i) __builtin_ia32_vextractf128_si256 ((__v8si)(__m256i)(X),   \
 575                                                 (int)(N)))
 576
 577 #define _mm256_extract_epi32(X, N)                                      \
 578   (__extension__                                                        \
 579    ({                                                                   \
 580       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 2);           \
 581       _mm_extract_epi32 (__Y, (N) % 4);                                 \
 582     }))
 583
 584 #define _mm256_extract_epi16(X, N)                                      \
 585   (__extension__                                                        \
 586    ({                                                                   \
 587       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 3);           \
 588       _mm_extract_epi16 (__Y, (N) % 8);                                 \
 589     }))
 590
 591 #define _mm256_extract_epi8(X, N)                                       \
 592   (__extension__                                                        \
 593    ({                                                                   \
 594       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 4);           \
 595       _mm_extract_epi8 (__Y, (N) % 16);                                 \
 596     }))
 597
 598 #ifdef __x86_64__
 599 #define _mm256_extract_epi64(X, N)                                      \
 600   (__extension__                                                        \
 601    ({                                                                   \
 602       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 1);           \
 603       _mm_extract_epi64 (__Y, (N) % 2);                                 \
 604     }))
 605 #endif
 606 #endif
 607
 608 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 609 _mm256_zeroall (void)
 610 {
 611   __builtin_ia32_vzeroall ();
 612 }
 613
 614 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 615 _mm256_zeroupper (void)
 616 {
 617   __builtin_ia32_vzeroupper ();
 618 }
 619
 620 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 621 _mm_permutevar_pd (__m128d __A, __m128i __C)
 622 {
 623   return (__m128d) __builtin_ia32_vpermilvarpd ((__v2df)__A,
 624                                                 (__v2di)__C);
 625 }
 626
 627 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 628 _mm256_permutevar_pd (__m256d __A, __m256i __C)
 629 {
 630   return (__m256d) __builtin_ia32_vpermilvarpd256 ((__v4df)__A,
 631                                                    (__v4di)__C);
 632 }
 633
 634 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 635 _mm_permutevar_ps (__m128 __A, __m128i __C)
 636 {
 637   return (__m128) __builtin_ia32_vpermilvarps ((__v4sf)__A,
 638                                                (__v4si)__C);
 639 }
 640
 641 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 642 _mm256_permutevar_ps (__m256 __A, __m256i __C)
 643 {
 644   return (__m256) __builtin_ia32_vpermilvarps256 ((__v8sf)__A,
 645                                                   (__v8si)__C);
 646 }
 647
 648 #ifdef __OPTIMIZE__
 649 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 650 _mm_permute_pd (__m128d __X, const int __C)
 651 {
 652   return (__m128d) __builtin_ia32_vpermilpd ((__v2df)__X, __C);
 653 }
 654
 655 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 656 _mm256_permute_pd (__m256d __X, const int __C)
 657 {
 658   return (__m256d) __builtin_ia32_vpermilpd256 ((__v4df)__X, __C);
 659 }
 660
 661 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 662 _mm_permute_ps (__m128 __X, const int __C)
 663 {
 664   return (__m128) __builtin_ia32_vpermilps ((__v4sf)__X, __C);
 665 }
 666
 667 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 668 _mm256_permute_ps (__m256 __X, const int __C)
 669 {
 670   return (__m256) __builtin_ia32_vpermilps256 ((__v8sf)__X, __C);
 671 }
 672 #else
 673 #define _mm_permute_pd(X, C)                                            \
 674   ((__m128d) __builtin_ia32_vpermilpd ((__v2df)(__m128d)(X), (int)(C)))
 675
 676 #define _mm256_permute_pd(X, C)                                         \
 677   ((__m256d) __builtin_ia32_vpermilpd256 ((__v4df)(__m256d)(X), (int)(C)))
 678
 679 #define _mm_permute_ps(X, C)                                            \
 680   ((__m128) __builtin_ia32_vpermilps ((__v4sf)(__m128)(X), (int)(C)))
 681
 682 #define _mm256_permute_ps(X, C)                                         \
 683   ((__m256) __builtin_ia32_vpermilps256 ((__v8sf)(__m256)(X), (int)(C)))
 684 #endif
 685
 686 #ifdef __OPTIMIZE__
 687 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 688 _mm256_permute2f128_pd (__m256d __X, __m256d __Y, const int __C)
 689 {
 690   return (__m256d) __builtin_ia32_vperm2f128_pd256 ((__v4df)__X,
 691                                                     (__v4df)__Y,
 692                                                     __C);
 693 }
 694
 695 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 696 _mm256_permute2f128_ps (__m256 __X, __m256 __Y, const int __C)
 697 {
 698   return (__m256) __builtin_ia32_vperm2f128_ps256 ((__v8sf)__X,
 699                                                    (__v8sf)__Y,
 700                                                    __C);
 701 }
 702
 703 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 704 _mm256_permute2f128_si256 (__m256i __X, __m256i __Y, const int __C)
 705 {
 706   return (__m256i) __builtin_ia32_vperm2f128_si256 ((__v8si)__X,
 707                                                     (__v8si)__Y,
 708                                                     __C);
 709 }
 710 #else
 711 #define _mm256_permute2f128_pd(X, Y, C)                                 \
 712   ((__m256d) __builtin_ia32_vperm2f128_pd256 ((__v4df)(__m256d)(X),     \
 713                                               (__v4df)(__m256d)(Y),     \
 714                                               (int)(C)))
 715
 716 #define _mm256_permute2f128_ps(X, Y, C)                                 \
 717   ((__m256) __builtin_ia32_vperm2f128_ps256 ((__v8sf)(__m256)(X),       \
 718                                              (__v8sf)(__m256)(Y),       \
 719                                              (int)(C)))
 720
 721 #define _mm256_permute2f128_si256(X, Y, C)                              \
 722   ((__m256i) __builtin_ia32_vperm2f128_si256 ((__v8si)(__m256i)(X),     \
 723                                               (__v8si)(__m256i)(Y),     \
 724                                               (int)(C)))
 725 #endif
 726
 727 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 728 _mm_broadcast_ss (float const *__X)
 729 {
 730   return (__m128) __builtin_ia32_vbroadcastss (__X);
 731 }
 732
 733 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 734 _mm256_broadcast_sd (double const *__X)
 735 {
 736   return (__m256d) __builtin_ia32_vbroadcastsd256 (__X);
 737 }
 738
 739 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 740 _mm256_broadcast_ss (float const *__X)
 741 {
 742   return (__m256) __builtin_ia32_vbroadcastss256 (__X);
 743 }
 744
 745 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 746 _mm256_broadcast_pd (__m128d const *__X)
 747 {
 748   return (__m256d) __builtin_ia32_vbroadcastf128_pd256 (__X);
 749 }
 750
 751 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 752 _mm256_broadcast_ps (__m128 const *__X)
 753 {
 754   return (__m256) __builtin_ia32_vbroadcastf128_ps256 (__X);
 755 }
 756
 757 #ifdef __OPTIMIZE__
 758 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 759 _mm256_insertf128_pd (__m256d __X, __m128d __Y, const int __O)
 760 {
 761   return (__m256d) __builtin_ia32_vinsertf128_pd256 ((__v4df)__X,
 762                                                      (__v2df)__Y,
 763                                                      __O);
 764 }
 765
 766 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 767 _mm256_insertf128_ps (__m256 __X, __m128 __Y, const int __O)
 768 {
 769   return (__m256) __builtin_ia32_vinsertf128_ps256 ((__v8sf)__X,
 770                                                     (__v4sf)__Y,
 771                                                     __O);
 772 }
 773
 774 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 775 _mm256_insertf128_si256 (__m256i __X, __m128i __Y, const int __O)
 776 {
 777   return (__m256i) __builtin_ia32_vinsertf128_si256 ((__v8si)__X,
 778                                                      (__v4si)__Y,
 779                                                      __O);
 780 }
 781
 782 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 783 _mm256_insert_epi32 (__m256i __X, int __D, int const __N)
 784 {
 785   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 2);
 786   __Y = _mm_insert_epi32 (__Y, __D, __N % 4);
 787   return _mm256_insertf128_si256 (__X, __Y, __N >> 2);
 788 }
 789
 790 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 791 _mm256_insert_epi16 (__m256i __X, int __D, int const __N)
 792 {
 793   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 3);
 794   __Y = _mm_insert_epi16 (__Y, __D, __N % 8);
 795   return _mm256_insertf128_si256 (__X, __Y, __N >> 3);
 796 }
 797
 798 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 799 _mm256_insert_epi8 (__m256i __X, int __D, int const __N)
 800 {
 801   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 4);
 802   __Y = _mm_insert_epi8 (__Y, __D, __N % 16);
 803   return _mm256_insertf128_si256 (__X, __Y, __N >> 4);
 804 }
 805
 806 #ifdef __x86_64__
 807 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 808 _mm256_insert_epi64 (__m256i __X, long long __D, int const __N)
 809 {
 810   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 1);
 811   __Y = _mm_insert_epi64 (__Y, __D, __N % 2);
 812   return _mm256_insertf128_si256 (__X, __Y, __N >> 1);
 813 }
 814 #endif
 815 #else
 816 #define _mm256_insertf128_pd(X, Y, O)                                   \
 817   ((__m256d) __builtin_ia32_vinsertf128_pd256 ((__v4df)(__m256d)(X),    \
 818                                                (__v2df)(__m128d)(Y),    \
 819                                                (int)(O)))
 820
 821 #define _mm256_insertf128_ps(X, Y, O)                                   \
 822   ((__m256) __builtin_ia32_vinsertf128_ps256 ((__v8sf)(__m256)(X),      \
 823                                               (__v4sf)(__m128)(Y),      \
 824                                               (int)(O)))
 825
 826 #define _mm256_insertf128_si256(X, Y, O)                                \
 827   ((__m256i) __builtin_ia32_vinsertf128_si256 ((__v8si)(__m256i)(X),    \
 828                                                (__v4si)(__m128i)(Y),    \
 829                                                (int)(O)))
 830
 831 #define _mm256_insert_epi32(X, D, N)                                    \
 832   (__extension__                                                        \
 833    ({                                                                   \
 834       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 2);           \
 835       __Y = _mm_insert_epi32 (__Y, (D), (N) % 4);                       \
 836       _mm256_insertf128_si256 ((X), __Y, (N) >> 2);                     \
 837     }))
 838
 839 #define _mm256_insert_epi16(X, D, N)                                    \
 840   (__extension__                                                        \
 841    ({                                                                   \
 842       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 3);           \
 843       __Y = _mm_insert_epi16 (__Y, (D), (N) % 8);                       \
 844       _mm256_insertf128_si256 ((X), __Y, (N) >> 3);                     \
 845     }))
 846
 847 #define _mm256_insert_epi8(X, D, N)                                     \
 848   (__extension__                                                        \
 849    ({                                                                   \
 850       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 4);           \
 851       __Y = _mm_insert_epi8 (__Y, (D), (N) % 16);                       \
 852       _mm256_insertf128_si256 ((X), __Y, (N) >> 4);                     \
 853     }))
 854
 855 #ifdef __x86_64__
 856 #define _mm256_insert_epi64(X, D, N)                                    \
 857   (__extension__                                                        \
 858    ({                                                                   \
 859       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 1);           \
 860       __Y = _mm_insert_epi64 (__Y, (D), (N) % 2);                       \
 861       _mm256_insertf128_si256 ((X), __Y, (N) >> 1);                     \
 862     }))
 863 #endif
 864 #endif
 865
 866 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 867 _mm256_load_pd (double const *__P)
 868 {
 869   return *(__m256d *)__P;
 870 }
 871
 872 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 873 _mm256_store_pd (double *__P, __m256d __A)
 874 {
 875   *(__m256d *)__P = __A;
 876 }
 877
 878 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 879 _mm256_load_ps (float const *__P)
 880 {
 881   return *(__m256 *)__P;
 882 }
 883
 884 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 885 _mm256_store_ps (float *__P, __m256 __A)
 886 {
 887   *(__m256 *)__P = __A;
 888 }
 889
 890 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 891 _mm256_loadu_pd (double const *__P)
 892 {
 893   return *(__m256d_u *)__P;
 894 }
 895
 896 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 897 _mm256_storeu_pd (double *__P, __m256d __A)
 898 {
 899   *(__m256d_u *)__P = __A;
 900 }
 901
 902 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 903 _mm256_loadu_ps (float const *__P)
 904 {
 905   return *(__m256_u *)__P;
 906 }
 907
 908 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 909 _mm256_storeu_ps (float *__P, __m256 __A)
 910 {
 911   *(__m256_u *)__P = __A;
 912 }
 913
 914 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 915 _mm256_load_si256 (__m256i const *__P)
 916 {
 917   return *__P;
 918 }
 919
 920 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 921 _mm256_store_si256 (__m256i *__P, __m256i __A)
 922 {
 923   *__P = __A;
 924 }
 925
 926 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 927 _mm256_loadu_si256 (__m256i_u const *__P)
 928 {
 929   return *__P;
 930 }
 931
 932 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 933 _mm256_storeu_si256 (__m256i_u *__P, __m256i __A)
 934 {
 935   *__P = __A;
 936 }
 937
 938 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 939 _mm_maskload_pd (double const *__P, __m128i __M)
 940 {
 941   return (__m128d) __builtin_ia32_maskloadpd ((const __v2df *)__P,
 942                                               (__v2di)__M);
 943 }
 944
 945 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 946 _mm_maskstore_pd (double *__P, __m128i __M, __m128d __A)
 947 {
 948   __builtin_ia32_maskstorepd ((__v2df *)__P, (__v2di)__M, (__v2df)__A);
 949 }
 950
 951 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 952 _mm256_maskload_pd (double const *__P, __m256i __M)
 953 {
 954   return (__m256d) __builtin_ia32_maskloadpd256 ((const __v4df *)__P,
 955                                                  (__v4di)__M);
 956 }
 957
 958 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 959 _mm256_maskstore_pd (double *__P, __m256i __M, __m256d __A)
 960 {
 961   __builtin_ia32_maskstorepd256 ((__v4df *)__P, (__v4di)__M, (__v4df)__A);
 962 }
 963
 964 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 965 _mm_maskload_ps (float const *__P, __m128i __M)
 966 {
 967   return (__m128) __builtin_ia32_maskloadps ((const __v4sf *)__P,
 968                                              (__v4si)__M);
 969 }
 970
 971 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 972 _mm_maskstore_ps (float *__P, __m128i __M, __m128 __A)
 973 {
 974   __builtin_ia32_maskstoreps ((__v4sf *)__P, (__v4si)__M, (__v4sf)__A);
 975 }
 976
 977 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 978 _mm256_maskload_ps (float const *__P, __m256i __M)
 979 {
 980   return (__m256) __builtin_ia32_maskloadps256 ((const __v8sf *)__P,
 981                                                 (__v8si)__M);
 982 }
 983
 984 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 985 _mm256_maskstore_ps (float *__P, __m256i __M, __m256 __A)
 986 {
 987   __builtin_ia32_maskstoreps256 ((__v8sf *)__P, (__v8si)__M, (__v8sf)__A);
 988 }
 989
 990 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 991 _mm256_movehdup_ps (__m256 __X)
 992 {
 993   return (__m256) __builtin_ia32_movshdup256 ((__v8sf)__X);
 994 }
 995
 996 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 997 _mm256_moveldup_ps (__m256 __X)
 998 {
 999   return (__m256) __builtin_ia32_movsldup256 ((__v8sf)__X);
1000 }
1001
1002 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1003 _mm256_movedup_pd (__m256d __X)
1004 {
1005   return (__m256d) __builtin_ia32_movddup256 ((__v4df)__X);
1006 }
1007
1008 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1009 _mm256_lddqu_si256 (__m256i const *__P)
1010 {
1011   return (__m256i) __builtin_ia32_lddqu256 ((char const *)__P);
1012 }
1013
1014 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1015 _mm256_stream_si256 (__m256i *__A, __m256i __B)
1016 {
1017   __builtin_ia32_movntdq256 ((__v4di *)__A, (__v4di)__B);
1018 }
1019
1020 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1021 _mm256_stream_pd (double *__A, __m256d __B)
1022 {
1023   __builtin_ia32_movntpd256 (__A, (__v4df)__B);
1024 }
1025
1026 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1027 _mm256_stream_ps (float *__P, __m256 __A)
1028 {
1029   __builtin_ia32_movntps256 (__P, (__v8sf)__A);
1030 }
1031
1032 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1033 _mm256_rcp_ps (__m256 __A)
1034 {
1035   return (__m256) __builtin_ia32_rcpps256 ((__v8sf)__A);
1036 }
1037
1038 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1039 _mm256_rsqrt_ps (__m256 __A)
1040 {
1041   return (__m256) __builtin_ia32_rsqrtps256 ((__v8sf)__A);
1042 }
1043
1044 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1045 _mm256_sqrt_pd (__m256d __A)
1046 {
1047   return (__m256d) __builtin_ia32_sqrtpd256 ((__v4df)__A);
1048 }
1049
1050 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1051 _mm256_sqrt_ps (__m256 __A)
1052 {
1053   return (__m256) __builtin_ia32_sqrtps256 ((__v8sf)__A);
1054 }
1055
1056 #ifdef __OPTIMIZE__
1057 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1058 _mm256_round_pd (__m256d __V, const int __M)
1059 {
1060   return (__m256d) __builtin_ia32_roundpd256 ((__v4df)__V, __M);
1061 }
1062
1063 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1064 _mm256_round_ps (__m256 __V, const int __M)
1065 {
1066   return (__m256) __builtin_ia32_roundps256 ((__v8sf)__V, __M);
1067 }
1068 #else
1069 #define _mm256_round_pd(V, M) \
1070   ((__m256d) __builtin_ia32_roundpd256 ((__v4df)(__m256d)(V), (int)(M)))
1071
1072 #define _mm256_round_ps(V, M) \
1073   ((__m256) __builtin_ia32_roundps256 ((__v8sf)(__m256)(V), (int)(M)))
1074 #endif
1075
1076 #define _mm256_ceil_pd(V)       _mm256_round_pd ((V), _MM_FROUND_CEIL)
1077 #define _mm256_floor_pd(V)      _mm256_round_pd ((V), _MM_FROUND_FLOOR)
1078 #define _mm256_ceil_ps(V)       _mm256_round_ps ((V), _MM_FROUND_CEIL)
1079 #define _mm256_floor_ps(V)      _mm256_round_ps ((V), _MM_FROUND_FLOOR)
1080
1081 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1082 _mm256_unpackhi_pd (__m256d __A, __m256d __B)
1083 {
1084   return (__m256d) __builtin_ia32_unpckhpd256 ((__v4df)__A, (__v4df)__B);
1085 }
1086
1087 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1088 _mm256_unpacklo_pd (__m256d __A, __m256d __B)
1089 {
1090   return (__m256d) __builtin_ia32_unpcklpd256 ((__v4df)__A, (__v4df)__B);
1091 }
1092
1093 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1094 _mm256_unpackhi_ps (__m256 __A, __m256 __B)
1095 {
1096   return (__m256) __builtin_ia32_unpckhps256 ((__v8sf)__A, (__v8sf)__B);
1097 }
1098
1099 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1100 _mm256_unpacklo_ps (__m256 __A, __m256 __B)
1101 {
1102   return (__m256) __builtin_ia32_unpcklps256 ((__v8sf)__A, (__v8sf)__B);
1103 }
1104
1105 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1106 _mm_testz_pd (__m128d __M, __m128d __V)
1107 {
1108   return __builtin_ia32_vtestzpd ((__v2df)__M, (__v2df)__V);
1109 }
1110
1111 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1112 _mm_testc_pd (__m128d __M, __m128d __V)
1113 {
1114   return __builtin_ia32_vtestcpd ((__v2df)__M, (__v2df)__V);
1115 }
1116
1117 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1118 _mm_testnzc_pd (__m128d __M, __m128d __V)
1119 {
1120   return __builtin_ia32_vtestnzcpd ((__v2df)__M, (__v2df)__V);
1121 }
1122
1123 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1124 _mm_testz_ps (__m128 __M, __m128 __V)
1125 {
1126   return __builtin_ia32_vtestzps ((__v4sf)__M, (__v4sf)__V);
1127 }
1128
1129 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1130 _mm_testc_ps (__m128 __M, __m128 __V)
1131 {
1132   return __builtin_ia32_vtestcps ((__v4sf)__M, (__v4sf)__V);
1133 }
1134
1135 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1136 _mm_testnzc_ps (__m128 __M, __m128 __V)
1137 {
1138   return __builtin_ia32_vtestnzcps ((__v4sf)__M, (__v4sf)__V);
1139 }
1140
1141 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1142 _mm256_testz_pd (__m256d __M, __m256d __V)
1143 {
1144   return __builtin_ia32_vtestzpd256 ((__v4df)__M, (__v4df)__V);
1145 }
1146
1147 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1148 _mm256_testc_pd (__m256d __M, __m256d __V)
1149 {
1150   return __builtin_ia32_vtestcpd256 ((__v4df)__M, (__v4df)__V);
1151 }
1152
1153 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1154 _mm256_testnzc_pd (__m256d __M, __m256d __V)
1155 {
1156   return __builtin_ia32_vtestnzcpd256 ((__v4df)__M, (__v4df)__V);
1157 }
1158
1159 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1160 _mm256_testz_ps (__m256 __M, __m256 __V)
1161 {
1162   return __builtin_ia32_vtestzps256 ((__v8sf)__M, (__v8sf)__V);
1163 }
1164
1165 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1166 _mm256_testc_ps (__m256 __M, __m256 __V)
1167 {
1168   return __builtin_ia32_vtestcps256 ((__v8sf)__M, (__v8sf)__V);
1169 }
1170
1171 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1172 _mm256_testnzc_ps (__m256 __M, __m256 __V)
1173 {
1174   return __builtin_ia32_vtestnzcps256 ((__v8sf)__M, (__v8sf)__V);
1175 }
1176
1177 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1178 _mm256_testz_si256 (__m256i __M, __m256i __V)
1179 {
1180   return __builtin_ia32_ptestz256 ((__v4di)__M, (__v4di)__V);
1181 }
1182
1183 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1184 _mm256_testc_si256 (__m256i __M, __m256i __V)
1185 {
1186   return __builtin_ia32_ptestc256 ((__v4di)__M, (__v4di)__V);
1187 }
1188
1189 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1190 _mm256_testnzc_si256 (__m256i __M, __m256i __V)
1191 {
1192   return __builtin_ia32_ptestnzc256 ((__v4di)__M, (__v4di)__V);
1193 }
1194
1195 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1196 _mm256_movemask_pd (__m256d __A)
1197 {
1198   return __builtin_ia32_movmskpd256 ((__v4df)__A);
1199 }
1200
1201 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1202 _mm256_movemask_ps (__m256 __A)
1203 {
1204   return __builtin_ia32_movmskps256 ((__v8sf)__A);
1205 }
1206
1207 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1208 _mm256_undefined_pd (void)
1209 {
1210 #pragma GCC diagnostic push
1211 #pragma GCC diagnostic ignored "-Winit-self"
1212   __m256d __Y = __Y;
1213 #pragma GCC diagnostic pop
1214   return __Y;
1215 }
1216
1217 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1218 _mm256_undefined_ps (void)
1219 {
1220 #pragma GCC diagnostic push
1221 #pragma GCC diagnostic ignored "-Winit-self"
1222   __m256 __Y = __Y;
1223 #pragma GCC diagnostic pop
1224   return __Y;
1225 }
1226
1227 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1228 _mm256_undefined_si256 (void)
1229 {
1230 #pragma GCC diagnostic push
1231 #pragma GCC diagnostic ignored "-Winit-self"
1232   __m256i __Y = __Y;
1233 #pragma GCC diagnostic pop
1234   return __Y;
1235 }
1236
1237 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1238 _mm256_setzero_pd (void)
1239 {
1240   return __extension__ (__m256d){ 0.0, 0.0, 0.0, 0.0 };
1241 }
1242
1243 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1244 _mm256_setzero_ps (void)
1245 {
1246   return __extension__ (__m256){ 0.0, 0.0, 0.0, 0.0,
1247                                  0.0, 0.0, 0.0, 0.0 };
1248 }
1249
1250 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1251 _mm256_setzero_si256 (void)
1252 {
1253   return __extension__ (__m256i)(__v4di){ 0, 0, 0, 0 };
1254 }
1255
1256 /* Create the vector [A B C D].  */
1257 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1258 _mm256_set_pd (double __A, double __B, double __C, double __D)
1259 {
1260   return __extension__ (__m256d){ __D, __C, __B, __A };
1261 }
1262
1263 /* Create the vector [A B C D E F G H].  */
1264 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1265 _mm256_set_ps (float __A, float __B, float __C, float __D,
1266                float __E, float __F, float __G, float __H)
1267 {
1268   return __extension__ (__m256){ __H, __G, __F, __E,
1269                                  __D, __C, __B, __A };
1270 }
1271
1272 /* Create the vector [A B C D E F G H].  */
1273 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1274 _mm256_set_epi32 (int __A, int __B, int __C, int __D,
1275                   int __E, int __F, int __G, int __H)
1276 {
1277   return __extension__ (__m256i)(__v8si){ __H, __G, __F, __E,
1278                                           __D, __C, __B, __A };
1279 }
1280
1281 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1282 _mm256_set_epi16 (short __q15, short __q14, short __q13, short __q12,
1283                   short __q11, short __q10, short __q09, short __q08,
1284                   short __q07, short __q06, short __q05, short __q04,
1285                   short __q03, short __q02, short __q01, short __q00)
1286 {
1287   return __extension__ (__m256i)(__v16hi){
1288     __q00, __q01, __q02, __q03, __q04, __q05, __q06, __q07,
1289     __q08, __q09, __q10, __q11, __q12, __q13, __q14, __q15
1290   };
1291 }
1292
1293 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1294 _mm256_set_epi8  (char __q31, char __q30, char __q29, char __q28,
1295                   char __q27, char __q26, char __q25, char __q24,
1296                   char __q23, char __q22, char __q21, char __q20,
1297                   char __q19, char __q18, char __q17, char __q16,
1298                   char __q15, char __q14, char __q13, char __q12,
1299                   char __q11, char __q10, char __q09, char __q08,
1300                   char __q07, char __q06, char __q05, char __q04,
1301                   char __q03, char __q02, char __q01, char __q00)
1302 {
1303   return __extension__ (__m256i)(__v32qi){
1304     __q00, __q01, __q02, __q03, __q04, __q05, __q06, __q07,
1305     __q08, __q09, __q10, __q11, __q12, __q13, __q14, __q15,
1306     __q16, __q17, __q18, __q19, __q20, __q21, __q22, __q23,
1307     __q24, __q25, __q26, __q27, __q28, __q29, __q30, __q31
1308   };
1309 }
1310
1311 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1312 _mm256_set_epi64x (long long __A, long long __B, long long __C,
1313                    long long __D)
1314 {
1315   return __extension__ (__m256i)(__v4di){ __D, __C, __B, __A };
1316 }
1317
1318 /* Create a vector with all elements equal to A.  */
1319 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1320 _mm256_set1_pd (double __A)
1321 {
1322   return __extension__ (__m256d){ __A, __A, __A, __A };
1323 }
1324
1325 /* Create a vector with all elements equal to A.  */
1326 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1327 _mm256_set1_ps (float __A)
1328 {
1329   return __extension__ (__m256){ __A, __A, __A, __A,
1330                                  __A, __A, __A, __A };
1331 }
1332
1333 /* Create a vector with all elements equal to A.  */
1334 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1335 _mm256_set1_epi32 (int __A)
1336 {
1337   return __extension__ (__m256i)(__v8si){ __A, __A, __A, __A,
1338                                           __A, __A, __A, __A };
1339 }
1340
1341 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1342 _mm256_set1_epi16 (short __A)
1343 {
1344   return _mm256_set_epi16 (__A, __A, __A, __A, __A, __A, __A, __A,
1345                            __A, __A, __A, __A, __A, __A, __A, __A);
1346 }
1347
1348 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1349 _mm256_set1_epi8 (char __A)
1350 {
1351   return _mm256_set_epi8 (__A, __A, __A, __A, __A, __A, __A, __A,
1352                           __A, __A, __A, __A, __A, __A, __A, __A,
1353                           __A, __A, __A, __A, __A, __A, __A, __A,
1354                           __A, __A, __A, __A, __A, __A, __A, __A);
1355 }
1356
1357 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1358 _mm256_set1_epi64x (long long __A)
1359 {
1360   return __extension__ (__m256i)(__v4di){ __A, __A, __A, __A };
1361 }
1362
1363 /* Create vectors of elements in the reversed order from the
1364    _mm256_set_XXX functions.  */
1365
1366 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1367 _mm256_setr_pd (double __A, double __B, double __C, double __D)
1368 {
1369   return _mm256_set_pd (__D, __C, __B, __A);
1370 }
1371
1372 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1373 _mm256_setr_ps (float __A, float __B, float __C, float __D,
1374                 float __E, float __F, float __G, float __H)
1375 {
1376   return _mm256_set_ps (__H, __G, __F, __E, __D, __C, __B, __A);
1377 }
1378
1379 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1380 _mm256_setr_epi32 (int __A, int __B, int __C, int __D,
1381                    int __E, int __F, int __G, int __H)
1382 {
1383   return _mm256_set_epi32 (__H, __G, __F, __E, __D, __C, __B, __A);
1384 }
1385
1386 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1387 _mm256_setr_epi16 (short __q15, short __q14, short __q13, short __q12,
1388                    short __q11, short __q10, short __q09, short __q08,
1389                    short __q07, short __q06, short __q05, short __q04,
1390                    short __q03, short __q02, short __q01, short __q00)
1391 {
1392   return _mm256_set_epi16 (__q00, __q01, __q02, __q03,
1393                            __q04, __q05, __q06, __q07,
1394                            __q08, __q09, __q10, __q11,
1395                            __q12, __q13, __q14, __q15);
1396 }
1397
1398 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1399 _mm256_setr_epi8  (char __q31, char __q30, char __q29, char __q28,
1400                    char __q27, char __q26, char __q25, char __q24,
1401                    char __q23, char __q22, char __q21, char __q20,
1402                    char __q19, char __q18, char __q17, char __q16,
1403                    char __q15, char __q14, char __q13, char __q12,
1404                    char __q11, char __q10, char __q09, char __q08,
1405                    char __q07, char __q06, char __q05, char __q04,
1406                    char __q03, char __q02, char __q01, char __q00)
1407 {
1408   return _mm256_set_epi8 (__q00, __q01, __q02, __q03,
1409                           __q04, __q05, __q06, __q07,
1410                           __q08, __q09, __q10, __q11,
1411                           __q12, __q13, __q14, __q15,
1412                           __q16, __q17, __q18, __q19,
1413                           __q20, __q21, __q22, __q23,
1414                           __q24, __q25, __q26, __q27,
1415                           __q28, __q29, __q30, __q31);
1416 }
1417
1418 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1419 _mm256_setr_epi64x (long long __A, long long __B, long long __C,
1420                     long long __D)
1421 {
1422   return _mm256_set_epi64x (__D, __C, __B, __A);
1423 }
1424
1425 /* Casts between various SP, DP, INT vector types.  Note that these do no
1426    conversion of values, they just change the type.  */
1427 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1428 _mm256_castpd_ps (__m256d __A)
1429 {
1430   return (__m256) __A;
1431 }
1432
1433 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1434 _mm256_castpd_si256 (__m256d __A)
1435 {
1436   return (__m256i) __A;
1437 }
1438
1439 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1440 _mm256_castps_pd (__m256 __A)
1441 {
1442   return (__m256d) __A;
1443 }
1444
1445 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1446 _mm256_castps_si256(__m256 __A)
1447 {
1448   return (__m256i) __A;
1449 }
1450
1451 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1452 _mm256_castsi256_ps (__m256i __A)
1453 {
1454   return (__m256) __A;
1455 }
1456
1457 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1458 _mm256_castsi256_pd (__m256i __A)
1459 {
1460   return (__m256d) __A;
1461 }
1462
1463 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1464 _mm256_castpd256_pd128 (__m256d __A)
1465 {
1466   return (__m128d) __builtin_ia32_pd_pd256 ((__v4df)__A);
1467 }
1468
1469 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1470 _mm256_castps256_ps128 (__m256 __A)
1471 {
1472   return (__m128) __builtin_ia32_ps_ps256 ((__v8sf)__A);
1473 }
1474
1475 extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1476 _mm256_castsi256_si128 (__m256i __A)
1477 {
1478   return (__m128i) __builtin_ia32_si_si256 ((__v8si)__A);
1479 }
1480
1481 /* When cast is done from a 128 to 256-bit type, the low 128 bits of
1482    the 256-bit result contain source parameter value and the upper 128
1483    bits of the result are undefined.  Those intrinsics shouldn't
1484    generate any extra moves.  */
1485
1486 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1487 _mm256_castpd128_pd256 (__m128d __A)
1488 {
1489   return (__m256d) __builtin_ia32_pd256_pd ((__v2df)__A);
1490 }
1491
1492 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1493 _mm256_castps128_ps256 (__m128 __A)
1494 {
1495   return (__m256) __builtin_ia32_ps256_ps ((__v4sf)__A);
1496 }
1497
1498 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1499 _mm256_castsi128_si256 (__m128i __A)
1500 {
1501   return (__m256i) __builtin_ia32_si256_si ((__v4si)__A);
1502 }
1503
1504 /* Similarly, but with zero extension instead of undefined values.  */
1505
1506 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1507 _mm256_zextpd128_pd256 (__m128d __A)
1508 {
1509   return _mm256_insertf128_pd (_mm256_setzero_pd (), __A, 0);
1510 }
1511
1512 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1513 _mm256_zextps128_ps256 (__m128 __A)
1514 {
1515   return _mm256_insertf128_ps (_mm256_setzero_ps (), __A, 0);
1516 }
1517
1518 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1519 _mm256_zextsi128_si256 (__m128i __A)
1520 {
1521   return _mm256_insertf128_si256 (_mm256_setzero_si256 (), __A, 0);
1522 }
1523
1524 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1525 _mm256_set_m128 ( __m128 __H, __m128 __L)
1526 {
1527   return _mm256_insertf128_ps (_mm256_castps128_ps256 (__L), __H, 1);
1528 }
1529
1530 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1531 _mm256_set_m128d (__m128d __H, __m128d __L)
1532 {
1533   return _mm256_insertf128_pd (_mm256_castpd128_pd256 (__L), __H, 1);
1534 }
1535
1536 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1537 _mm256_set_m128i (__m128i __H, __m128i __L)
1538 {
1539   return _mm256_insertf128_si256 (_mm256_castsi128_si256 (__L), __H, 1);
1540 }
1541
1542 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1543 _mm256_setr_m128 (__m128 __L, __m128 __H)
1544 {
1545   return _mm256_set_m128 (__H, __L);
1546 }
1547
1548 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1549 _mm256_setr_m128d (__m128d __L, __m128d __H)
1550 {
1551   return _mm256_set_m128d (__H, __L);
1552 }
1553
1554 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1555 _mm256_setr_m128i (__m128i __L, __m128i __H)
1556 {
1557   return _mm256_set_m128i (__H, __L);
1558 }
1559
1560 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1561 _mm256_loadu2_m128 (float const *__PH, float const *__PL)
1562 {
1563   return _mm256_insertf128_ps (_mm256_castps128_ps256 (_mm_loadu_ps (__PL)),
1564                                _mm_loadu_ps (__PH), 1);
1565 }
1566
1567 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1568 _mm256_storeu2_m128 (float *__PH, float *__PL, __m256 __A)
1569 {
1570   _mm_storeu_ps (__PL, _mm256_castps256_ps128 (__A));
1571   _mm_storeu_ps (__PH, _mm256_extractf128_ps (__A, 1));
1572 }
1573
1574 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1575 _mm256_loadu2_m128d (double const *__PH, double const *__PL)
1576 {
1577   return _mm256_insertf128_pd (_mm256_castpd128_pd256 (_mm_loadu_pd (__PL)),
1578                                _mm_loadu_pd (__PH), 1);
1579 }
1580
1581 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1582 _mm256_storeu2_m128d (double *__PH, double *__PL, __m256d __A)
1583 {
1584   _mm_storeu_pd (__PL, _mm256_castpd256_pd128 (__A));
1585   _mm_storeu_pd (__PH, _mm256_extractf128_pd (__A, 1));
1586 }
1587
1588 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1589 _mm256_loadu2_m128i (__m128i_u const *__PH, __m128i_u const *__PL)
1590 {
1591   return _mm256_insertf128_si256 (_mm256_castsi128_si256 (_mm_loadu_si128 (__PL)),
1592                                   _mm_loadu_si128 (__PH), 1);
1593 }
1594
1595 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1596 _mm256_storeu2_m128i (__m128i_u *__PH, __m128i_u *__PL, __m256i __A)
1597 {
1598   _mm_storeu_si128 (__PL, _mm256_castsi256_si128 (__A));
1599   _mm_storeu_si128 (__PH, _mm256_extractf128_si256 (__A, 1));
1600 }
1601
1602 #ifdef __DISABLE_AVX__
1603 #undef __DISABLE_AVX__
1604 #pragma GCC pop_options
1605 #endif /* __DISABLE_AVX__ */
1606
1607 #endif /* _AVXINTRIN_H_INCLUDED */