windows-nt/Source/XPSP1/NT/base/crts/libw32/include/xmmintrin.h

/**
*** Copyright (C) 1985-1999 Intel Corporation.  All rights reserved.
***
*** The information and source code contained herein is the exclusive
*** property of Intel Corporation and may not be disclosed, examined
*** or reproduced in whole or in part without explicit written authorization
*** from the company.
***
**/

/*
 * xmmintrin.h
 *
 * Principal header file for Streaming SIMD Extensions intrinsics
 *
 * The intrinsics package can be used in 2 ways, based whether or not
 * _MM_FUNCTIONALITY is defined; if it is, the C/x87 implementation
 * will be used (the "faux intrinsics").
 *
 *
 * Note that the m128 datatype provided using _MM2_FUNCTIONALITY mode is
 *   implemented as struct, will not be 128b aligned, will be passed
 *   via the stack, etc.  MM_FUNCTIONALITY mode is not intended for
 *   performance, just semantics.
 *
 */

#ifndef _INCLUDED_MM2
#define _INCLUDED_MM2


/*
 * the m64 type is required for the integer Streaming SIMD Extensions intrinsics
 */
#ifndef _MMINTRIN_H_INCLUDED
#include <mmintrin.h>
#endif

#ifdef _MM2_FUNCTIONALITY
/* support old notation */
#ifndef _MM_FUNCTIONALITY
#define _MM_FUNCTIONALITY
#endif
#endif

#ifdef __ICL
#ifdef _MM_FUNCTIONALITY
#include "xmm_func.h"
#else
/* using real intrinsics */
typedef long long __m128;
#endif
#else

#if _MSC_VER >= 1300
typedef struct __declspec(intrin_type) __declspec(align(16)) __m128 {
    float       m128_f32[4];
} __m128;
#endif

#ifndef _INC_MALLOC
/* pick up _mm_malloc() and _mm_free() */
#include <malloc.h>
#endif
#endif

/*******************************************************/
/* MACRO for shuffle parameter for _mm_shuffle_ps().   */
/* Argument fp3 is a digit[0123] that represents the fp*/
/* from argument "b" of mm_shuffle_ps that will be     */
/* placed in fp3 of result. fp2 is the same for fp2 in */
/* result. fp1 is a digit[0123] that represents the fp */
/* from argument "a" of mm_shuffle_ps that will be     */
/* places in fp1 of result. fp0 is the same for fp0 of */
/* result                                              */
/*******************************************************/
#define _MM_SHUFFLE(fp3,fp2,fp1,fp0) (((fp3) << 6) | ((fp2) << 4) | \
                                     ((fp1) << 2) | ((fp0)))


/*******************************************************/
/* MACRO for performing the transpose of a 4x4 matrix  */
/* of single precision floating point values.          */
/* Arguments row0, row1, row2, and row3 are __m128     */
/* values whose elements form the corresponding rows   */
/* of a 4x4 matrix.  The matrix transpose is returned  */
/* in arguments row0, row1, row2, and row3 where row0  */
/* now holds column 0 of the original matrix, row1 now */
/* holds column 1 of the original matrix, etc.         */
/*******************************************************/
#define _MM_TRANSPOSE4_PS(row0, row1, row2, row3) {                 \
            __m128 tmp3, tmp2, tmp1, tmp0;                          \
                                                                    \
            tmp0   = _mm_shuffle_ps((row0), (row1), 0x44);          \
            tmp2   = _mm_shuffle_ps((row0), (row1), 0xEE);          \
            tmp1   = _mm_shuffle_ps((row2), (row3), 0x44);          \
            tmp3   = _mm_shuffle_ps((row2), (row3), 0xEE);          \
                                                                    \
            (row0) = _mm_shuffle_ps(tmp0, tmp1, 0x88);              \
            (row1) = _mm_shuffle_ps(tmp0, tmp1, 0xDD);              \
            (row2) = _mm_shuffle_ps(tmp2, tmp3, 0x88);              \
            (row3) = _mm_shuffle_ps(tmp2, tmp3, 0xDD);              \
        }


/* constants for use with _mm_prefetch */
#define _MM_HINT_T0     1
#define _MM_HINT_T1     2
#define _MM_HINT_T2     3
#define _MM_HINT_NTA    0

/* (this declspec not supported with 0.A or 0.B) */
#define _MM_ALIGN16 __declspec(align(16))

/* MACRO functions for setting and reading the MXCSR */
#define _MM_EXCEPT_MASK       0x003f
#define _MM_EXCEPT_INVALID    0x0001
#define _MM_EXCEPT_DENORM     0x0002
#define _MM_EXCEPT_DIV_ZERO   0x0004
#define _MM_EXCEPT_OVERFLOW   0x0008
#define _MM_EXCEPT_UNDERFLOW  0x0010
#define _MM_EXCEPT_INEXACT    0x0020

#define _MM_MASK_MASK         0x1f80
#define _MM_MASK_INVALID      0x0080
#define _MM_MASK_DENORM       0x0100
#define _MM_MASK_DIV_ZERO     0x0200
#define _MM_MASK_OVERFLOW     0x0400
#define _MM_MASK_UNDERFLOW    0x0800
#define _MM_MASK_INEXACT      0x1000

#define _MM_ROUND_MASK        0x6000
#define _MM_ROUND_NEAREST     0x0000
#define _MM_ROUND_DOWN        0x2000
#define _MM_ROUND_UP          0x4000
#define _MM_ROUND_TOWARD_ZERO 0x6000

#define _MM_FLUSH_ZERO_MASK   0x8000
#define _MM_FLUSH_ZERO_ON     0x8000
#define _MM_FLUSH_ZERO_OFF    0x0000

#define _MM_SET_EXCEPTION_STATE(mask)                               \
            _mm_setcsr((_mm_getcsr() & ~_MM_EXCEPT_MASK) | (mask))
#define _MM_GET_EXCEPTION_STATE()                                   \
            (_mm_getcsr() & _MM_EXCEPT_MASK)

#define _MM_SET_EXCEPTION_MASK(mask)                                \
            _mm_setcsr((_mm_getcsr() & ~_MM_MASK_MASK) | (mask))
#define _MM_GET_EXCEPTION_MASK()                                    \
            (_mm_getcsr() & _MM_MASK_MASK)

#define _MM_SET_ROUNDING_MODE(mode)                                 \
            _mm_setcsr((_mm_getcsr() & ~_MM_ROUND_MASK) | (mode))
#define _MM_GET_ROUNDING_MODE()                                     \
            (_mm_getcsr() & _MM_ROUND_MASK)

#define _MM_SET_FLUSH_ZERO_MODE(mode)                               \
            _mm_setcsr((_mm_getcsr() & ~_MM_FLUSH_ZERO_MASK) | (mode))
#define _MM_GET_FLUSH_ZERO_MODE(mode)                               \
            (_mm_getcsr() & _MM_FLUSH_ZERO_MASK)

/*****************************************************/
/*     INTRINSICS FUNCTION PROTOTYPES START HERE     */
/*****************************************************/

#if defined __cplusplus
extern "C" { /* Begin "C" */
  /* Intrinsics use C name-mangling. */
#endif /* __cplusplus */

/*
 * FP, arithmetic
 */

extern __m128 _mm_add_ss(__m128 a, __m128 b);
extern __m128 _mm_add_ps(__m128 a, __m128 b);
extern __m128 _mm_sub_ss(__m128 a, __m128 b);
extern __m128 _mm_sub_ps(__m128 a, __m128 b);
extern __m128 _mm_mul_ss(__m128 a, __m128 b);
extern __m128 _mm_mul_ps(__m128 a, __m128 b);
extern __m128 _mm_div_ss(__m128 a, __m128 b);
extern __m128 _mm_div_ps(__m128 a, __m128 b);
extern __m128 _mm_sqrt_ss(__m128 a);
extern __m128 _mm_sqrt_ps(__m128 a);
extern __m128 _mm_rcp_ss(__m128 a);
extern __m128 _mm_rcp_ps(__m128 a);
extern __m128 _mm_rsqrt_ss(__m128 a);
extern __m128 _mm_rsqrt_ps(__m128 a);
extern __m128 _mm_min_ss(__m128 a, __m128 b);
extern __m128 _mm_min_ps(__m128 a, __m128 b);
extern __m128 _mm_max_ss(__m128 a, __m128 b);
extern __m128 _mm_max_ps(__m128 a, __m128 b);

/*
 * FP, logical
 */

extern __m128 _mm_and_ps(__m128 a, __m128 b);
extern __m128 _mm_andnot_ps(__m128 a, __m128 b);
extern __m128 _mm_or_ps(__m128 a, __m128 b);
extern __m128 _mm_xor_ps(__m128 a, __m128 b);

/*
 * FP, comparison
 */

extern __m128 _mm_cmpeq_ss(__m128 a, __m128 b);
extern __m128 _mm_cmpeq_ps(__m128 a, __m128 b);
extern __m128 _mm_cmplt_ss(__m128 a, __m128 b);
extern __m128 _mm_cmplt_ps(__m128 a, __m128 b);
extern __m128 _mm_cmple_ss(__m128 a, __m128 b);
extern __m128 _mm_cmple_ps(__m128 a, __m128 b);
extern __m128 _mm_cmpgt_ss(__m128 a, __m128 b);
extern __m128 _mm_cmpgt_ps(__m128 a, __m128 b);
extern __m128 _mm_cmpge_ss(__m128 a, __m128 b);
extern __m128 _mm_cmpge_ps(__m128 a, __m128 b);
extern __m128 _mm_cmpneq_ss(__m128 a, __m128 b);
extern __m128 _mm_cmpneq_ps(__m128 a, __m128 b);
extern __m128 _mm_cmpnlt_ss(__m128 a, __m128 b);
extern __m128 _mm_cmpnlt_ps(__m128 a, __m128 b);
extern __m128 _mm_cmpnle_ss(__m128 a, __m128 b);
extern __m128 _mm_cmpnle_ps(__m128 a, __m128 b);
extern __m128 _mm_cmpngt_ss(__m128 a, __m128 b);
extern __m128 _mm_cmpngt_ps(__m128 a, __m128 b);
extern __m128 _mm_cmpnge_ss(__m128 a, __m128 b);
extern __m128 _mm_cmpnge_ps(__m128 a, __m128 b);
extern __m128 _mm_cmpord_ss(__m128 a, __m128 b);
extern __m128 _mm_cmpord_ps(__m128 a, __m128 b);
extern __m128 _mm_cmpunord_ss(__m128 a, __m128 b);
extern __m128 _mm_cmpunord_ps(__m128 a, __m128 b);
extern int _mm_comieq_ss(__m128 a, __m128 b);
extern int _mm_comilt_ss(__m128 a, __m128 b);
extern int _mm_comile_ss(__m128 a, __m128 b);
extern int _mm_comigt_ss(__m128 a, __m128 b);
extern int _mm_comige_ss(__m128 a, __m128 b);
extern int _mm_comineq_ss(__m128 a, __m128 b);
extern int _mm_ucomieq_ss(__m128 a, __m128 b);
extern int _mm_ucomilt_ss(__m128 a, __m128 b);
extern int _mm_ucomile_ss(__m128 a, __m128 b);
extern int _mm_ucomigt_ss(__m128 a, __m128 b);
extern int _mm_ucomige_ss(__m128 a, __m128 b);
extern int _mm_ucomineq_ss(__m128 a, __m128 b);

/*
 * FP, conversions
 */

extern int _mm_cvt_ss2si(__m128 a);
extern __m64 _mm_cvt_ps2pi(__m128 a);
extern int _mm_cvtt_ss2si(__m128 a);
extern __m64 _mm_cvtt_ps2pi(__m128 a);
extern __m128 _mm_cvt_si2ss(__m128, int);
extern __m128 _mm_cvt_pi2ps(__m128, __m64);

/*
 * FP, misc
 */

extern __m128 _mm_shuffle_ps(__m128 a, __m128 b, unsigned int imm8);
extern __m128 _mm_unpackhi_ps(__m128 a, __m128 b);
extern __m128 _mm_unpacklo_ps(__m128 a, __m128 b);
extern __m128 _mm_loadh_pi(__m128, __m64 const*);
extern __m128 _mm_movehl_ps(__m128, __m128);
extern __m128 _mm_movelh_ps(__m128, __m128);
extern void _mm_storeh_pi(__m64 *, __m128);
extern __m128 _mm_loadl_pi(__m128, __m64 const*);
extern void _mm_storel_pi(__m64 *, __m128);
extern int _mm_movemask_ps(__m128 a);


/*
 * Integer extensions
 */
extern int _m_pextrw(__m64, int);
extern __m64 _m_pinsrw(__m64, int, int);
extern __m64 _m_pmaxsw(__m64, __m64);
extern __m64 _m_pmaxub(__m64, __m64);
extern __m64 _m_pminsw(__m64, __m64);
extern __m64 _m_pminub(__m64, __m64);
extern int _m_pmovmskb(__m64);
extern __m64 _m_pmulhuw(__m64, __m64);
extern __m64 _m_pshufw(__m64, int);
extern void _m_maskmovq(__m64, __m64, char *);
extern __m64 _m_pavgb(__m64, __m64);
extern __m64 _m_pavgw(__m64, __m64);
extern __m64 _m_psadbw(__m64, __m64);

/*
 * memory & initialization
 */

extern __m128 _mm_set_ss(float a);
extern __m128 _mm_set_ps1(float a);
extern __m128 _mm_set_ps(float a, float b, float c, float d);
extern __m128 _mm_setr_ps(float a, float b, float c, float d);
extern __m128 _mm_setzero_ps(void);
extern __m128 _mm_load_ss(float const*a);
extern __m128 _mm_load_ps1(float const*a);
extern __m128 _mm_load_ps(float const*a);
extern __m128 _mm_loadr_ps(float const*a);
extern __m128 _mm_loadu_ps(float const*a);
extern void _mm_store_ss(float *v, __m128 a);
extern void _mm_store_ps1(float *v, __m128 a);
extern void _mm_store_ps(float *v, __m128 a);
extern void _mm_storer_ps(float *v, __m128 a);
extern void _mm_storeu_ps(float *v, __m128 a);
extern void _mm_prefetch(char const*a, int sel);
extern void _mm_stream_pi(__m64 *, __m64);
extern void _mm_stream_ps(float *, __m128);
extern __m128 _mm_move_ss(__m128 a, __m128 b);

extern void _mm_sfence(void);
extern unsigned int _mm_getcsr(void);
extern void _mm_setcsr(unsigned int);

#ifdef __ICL
extern void* __cdecl _mm_malloc(int siz, int al);
extern void __cdecl _mm_free(void *p);
#endif

/* Alternate intrinsic names definition */
#define _mm_cvtss_si32    _mm_cvt_ss2si
#define _mm_cvtps_pi32    _mm_cvt_ps2pi
#define _mm_cvttss_si32   _mm_cvtt_ss2si
#define _mm_cvttps_pi32   _mm_cvtt_ps2pi
#define _mm_cvtsi32_ss    _mm_cvt_si2ss
#define _mm_cvtpi32_ps    _mm_cvt_pi2ps
#define _mm_extract_pi16  _m_pextrw
#define _mm_insert_pi16   _m_pinsrw
#define _mm_max_pi16      _m_pmaxsw
#define _mm_max_pu8       _m_pmaxub
#define _mm_min_pi16      _m_pminsw
#define _mm_min_pu8       _m_pminub
#define _mm_movemask_pi8  _m_pmovmskb
#define _mm_mulhi_pu16    _m_pmulhuw
#define _mm_shuffle_pi16  _m_pshufw
#define _mm_maskmove_si64 _m_maskmovq
#define _mm_avg_pu8       _m_pavgb
#define _mm_avg_pu16      _m_pavgw
#define _mm_sad_pu8       _m_psadbw
#define _mm_set1_ps       _mm_set_ps1
#define _mm_load1_ps      _mm_load_ps1
#define _mm_store1_ps     _mm_store_ps1

/******************************************************/
/* UTILITY INTRINSICS FUNCTION DEFINITIONS START HERE */
/******************************************************/

/*********************************************************/
/*  NAME : _mm_cvtpi16_ps                                */
/*  DESCRIPTION : Convert 4 16-bit signed integer values */
/*                to 4 single-precision float values     */
/*  IN : __m64 a                                         */
/*  OUT : none                                           */
/*  RETURN : __m128 : (float)a                           */
/*********************************************************/
__inline __m128 _mm_cvtpi16_ps(__m64 a)
{
  __m128 tmp;
  __m64  ext_val = _mm_cmpgt_pi16(_mm_setzero_si64(), a);

  tmp = _mm_cvtpi32_ps(_mm_setzero_ps(), _mm_unpackhi_pi16(a, ext_val));
  return(_mm_cvtpi32_ps(_mm_movelh_ps(tmp, tmp), 
                        _mm_unpacklo_pi16(a, ext_val)));
}


/***********************************************************/
/*  NAME : _mm_cvtpu16_ps                                  */
/*  DESCRIPTION : Convert 4 16-bit unsigned integer values */
/*                to 4 single-precision float values       */
/*  IN : __m64 a                                           */
/*  OUT : none                                             */
/*  RETURN : __m128 : (float)a                             */
/***********************************************************/
__inline __m128 _mm_cvtpu16_ps(__m64 a)
{
  __m128 tmp;
  __m64  ext_val = _mm_setzero_si64();

  tmp = _mm_cvtpi32_ps(_mm_setzero_ps(), _mm_unpackhi_pi16(a, ext_val));
  return(_mm_cvtpi32_ps(_mm_movelh_ps(tmp, tmp), 
                        _mm_unpacklo_pi16(a, ext_val)));
}


/******************************************************/
/*  NAME : _mm_cvtps_pi16                             */
/*  DESCRIPTION : Convert 4 single-precision float    */
/*                values to 4 16-bit integer values   */
/*  IN : __m128 a                                     */
/*  OUT : none                                        */
/*  RETURN : __m64 : (short)a                         */
/******************************************************/
__inline __m64 _mm_cvtps_pi16(__m128 a)
{
  return _mm_packs_pi32(_mm_cvtps_pi32(a), 
                        _mm_cvtps_pi32(_mm_movehl_ps(a, a)));
}


/******************************************************/
/*  NAME : _mm_cvtpi8_ps                              */
/*  DESCRIPTION : Convert 4 8-bit integer values to 4 */
/*                single-precision float values       */
/*  IN : __m64 a                                      */
/*  OUT : none                                        */
/*  RETURN : __m128 : (float)a                        */
/******************************************************/
__inline __m128 _mm_cvtpi8_ps(__m64 a)
{
  __m64  ext_val = _mm_cmpgt_pi8(_mm_setzero_si64(), a);

  return _mm_cvtpi16_ps(_mm_unpacklo_pi8(a, ext_val));
}


/******************************************************/
/*  NAME : _mm_cvtpu8_ps                              */
/*  DESCRIPTION : Convert 4 8-bit unsigned integer    */
/*                values to 4 single-precision float  */
/*                values                              */
/*  IN : __m64 a                                      */
/*  OUT : none                                        */
/*  RETURN : __m128 : (float)a                        */
/******************************************************/
__inline __m128 _mm_cvtpu8_ps(__m64 a)
{
  return _mm_cvtpu16_ps(_mm_unpacklo_pi8(a, _mm_setzero_si64()));
}


/******************************************************/
/*  NAME : _mm_cvtps_pi8                              */
/*  DESCRIPTION : Convert 4 single-precision float    */
/*                values to 4 8-bit integer values    */
/*  IN : __m128 a                                     */
/*  OUT : none                                        */
/*  RETURN : __m64 : (char)a                          */
/******************************************************/
__inline __m64 _mm_cvtps_pi8(__m128 a)
{
  return _mm_packs_pi16(_mm_cvtps_pi16(a), _mm_setzero_si64());
}


/******************************************************/
/*  NAME : _mm_cvtpi32x2_ps                           */
/*  DESCRIPTION : Convert 4 32-bit integer values     */
/*                to 4 single-precision float values  */
/*  IN : __m64 a : operand 1                          */
/*       __m64 b : operand 2                          */
/*  OUT : none                                        */
/*  RETURN : __m128 : (float)a,(float)b               */
/******************************************************/
__inline __m128 _mm_cvtpi32x2_ps(__m64 a, __m64 b)
{
  return _mm_movelh_ps(_mm_cvt_pi2ps(_mm_setzero_ps(), a), 
                       _mm_cvt_pi2ps(_mm_setzero_ps(), b)); 
}


#if defined __cplusplus
}; /* End "C" */
#endif /* __cplusplus */

#endif /* _INCLUDED_MM2 */
Add source files 2020-09-26 03:20:57 -05:00			`/**`
			`*** Copyright (C) 1985-1999 Intel Corporation. All rights reserved.`
			`***`
			`*** The information and source code contained herein is the exclusive`
			`*** property of Intel Corporation and may not be disclosed, examined`
			`*** or reproduced in whole or in part without explicit written authorization`
			`*** from the company.`
			`***`
			`**/`

			`/*`
			`* xmmintrin.h`
			`*`
			`* Principal header file for Streaming SIMD Extensions intrinsics`
			`*`
			`* The intrinsics package can be used in 2 ways, based whether or not`
			`* _MM_FUNCTIONALITY is defined; if it is, the C/x87 implementation`
			`* will be used (the "faux intrinsics").`
			`*`
			`*`
			`* Note that the m128 datatype provided using _MM2_FUNCTIONALITY mode is`
			`* implemented as struct, will not be 128b aligned, will be passed`
			`* via the stack, etc. MM_FUNCTIONALITY mode is not intended for`
			`* performance, just semantics.`
			`*`
			`*/`

			`#ifndef _INCLUDED_MM2`
			`#define _INCLUDED_MM2`


			`/*`
			`* the m64 type is required for the integer Streaming SIMD Extensions intrinsics`
			`*/`
			`#ifndef _MMINTRIN_H_INCLUDED`
			`#include <mmintrin.h>`
			`#endif`

			`#ifdef _MM2_FUNCTIONALITY`
			`/* support old notation */`
			`#ifndef _MM_FUNCTIONALITY`
			`#define _MM_FUNCTIONALITY`
			`#endif`
			`#endif`

			`#ifdef __ICL`
			`#ifdef _MM_FUNCTIONALITY`
			`#include "xmm_func.h"`
			`#else`
			`/* using real intrinsics */`
			`typedef long long __m128;`
			`#endif`
			`#else`

			`#if _MSC_VER >= 1300`
			`typedef struct __declspec(intrin_type) __declspec(align(16)) __m128 {`
			`float m128_f32[4];`
			`} __m128;`
			`#endif`

			`#ifndef _INC_MALLOC`
			`/* pick up _mm_malloc() and _mm_free() */`
			`#include <malloc.h>`
			`#endif`
			`#endif`

			`/*******************************************************/`
			`/* MACRO for shuffle parameter for _mm_shuffle_ps(). */`
			`/* Argument fp3 is a digit[0123] that represents the fp*/`
			`/* from argument "b" of mm_shuffle_ps that will be */`
			`/* placed in fp3 of result. fp2 is the same for fp2 in */`
			`/* result. fp1 is a digit[0123] that represents the fp */`
			`/* from argument "a" of mm_shuffle_ps that will be */`
			`/* places in fp1 of result. fp0 is the same for fp0 of */`
			`/* result */`
			`/*******************************************************/`
			`#define _MM_SHUFFLE(fp3,fp2,fp1,fp0) (((fp3) << 6) \| ((fp2) << 4) \| \`
			`((fp1) << 2) \| ((fp0)))`


			`/*******************************************************/`
			`/* MACRO for performing the transpose of a 4x4 matrix */`
			`/* of single precision floating point values. */`
			`/* Arguments row0, row1, row2, and row3 are __m128 */`
			`/* values whose elements form the corresponding rows */`
			`/* of a 4x4 matrix. The matrix transpose is returned */`
			`/* in arguments row0, row1, row2, and row3 where row0 */`
			`/* now holds column 0 of the original matrix, row1 now */`
			`/* holds column 1 of the original matrix, etc. */`
			`/*******************************************************/`
			`#define _MM_TRANSPOSE4_PS(row0, row1, row2, row3) { \`
			`__m128 tmp3, tmp2, tmp1, tmp0; \`
			`\`
			`tmp0 = _mm_shuffle_ps((row0), (row1), 0x44); \`
			`tmp2 = _mm_shuffle_ps((row0), (row1), 0xEE); \`
			`tmp1 = _mm_shuffle_ps((row2), (row3), 0x44); \`
			`tmp3 = _mm_shuffle_ps((row2), (row3), 0xEE); \`
			`\`
			`(row0) = _mm_shuffle_ps(tmp0, tmp1, 0x88); \`
			`(row1) = _mm_shuffle_ps(tmp0, tmp1, 0xDD); \`
			`(row2) = _mm_shuffle_ps(tmp2, tmp3, 0x88); \`
			`(row3) = _mm_shuffle_ps(tmp2, tmp3, 0xDD); \`
			`}`


			`/* constants for use with _mm_prefetch */`
			`#define _MM_HINT_T0 1`
			`#define _MM_HINT_T1 2`
			`#define _MM_HINT_T2 3`
			`#define _MM_HINT_NTA 0`

			`/* (this declspec not supported with 0.A or 0.B) */`
			`#define _MM_ALIGN16 __declspec(align(16))`

			`/* MACRO functions for setting and reading the MXCSR */`
			`#define _MM_EXCEPT_MASK 0x003f`
			`#define _MM_EXCEPT_INVALID 0x0001`
			`#define _MM_EXCEPT_DENORM 0x0002`
			`#define _MM_EXCEPT_DIV_ZERO 0x0004`
			`#define _MM_EXCEPT_OVERFLOW 0x0008`
			`#define _MM_EXCEPT_UNDERFLOW 0x0010`
			`#define _MM_EXCEPT_INEXACT 0x0020`

			`#define _MM_MASK_MASK 0x1f80`
			`#define _MM_MASK_INVALID 0x0080`
			`#define _MM_MASK_DENORM 0x0100`
			`#define _MM_MASK_DIV_ZERO 0x0200`
			`#define _MM_MASK_OVERFLOW 0x0400`
			`#define _MM_MASK_UNDERFLOW 0x0800`
			`#define _MM_MASK_INEXACT 0x1000`

			`#define _MM_ROUND_MASK 0x6000`
			`#define _MM_ROUND_NEAREST 0x0000`
			`#define _MM_ROUND_DOWN 0x2000`
			`#define _MM_ROUND_UP 0x4000`
			`#define _MM_ROUND_TOWARD_ZERO 0x6000`

			`#define _MM_FLUSH_ZERO_MASK 0x8000`
			`#define _MM_FLUSH_ZERO_ON 0x8000`
			`#define _MM_FLUSH_ZERO_OFF 0x0000`

			`#define _MM_SET_EXCEPTION_STATE(mask) \`
			`_mm_setcsr((_mm_getcsr() & ~_MM_EXCEPT_MASK) \| (mask))`
			`#define _MM_GET_EXCEPTION_STATE() \`
			`(_mm_getcsr() & _MM_EXCEPT_MASK)`

			`#define _MM_SET_EXCEPTION_MASK(mask) \`
			`_mm_setcsr((_mm_getcsr() & ~_MM_MASK_MASK) \| (mask))`
			`#define _MM_GET_EXCEPTION_MASK() \`
			`(_mm_getcsr() & _MM_MASK_MASK)`

			`#define _MM_SET_ROUNDING_MODE(mode) \`
			`_mm_setcsr((_mm_getcsr() & ~_MM_ROUND_MASK) \| (mode))`
			`#define _MM_GET_ROUNDING_MODE() \`
			`(_mm_getcsr() & _MM_ROUND_MASK)`

			`#define _MM_SET_FLUSH_ZERO_MODE(mode) \`
			`_mm_setcsr((_mm_getcsr() & ~_MM_FLUSH_ZERO_MASK) \| (mode))`
			`#define _MM_GET_FLUSH_ZERO_MODE(mode) \`
			`(_mm_getcsr() & _MM_FLUSH_ZERO_MASK)`

			`/*****************************************************/`
			`/* INTRINSICS FUNCTION PROTOTYPES START HERE */`
			`/*****************************************************/`

			`#if defined __cplusplus`
			`extern "C" { /* Begin "C" */`
			`/* Intrinsics use C name-mangling. */`
			`#endif /* __cplusplus */`

			`/*`
			`* FP, arithmetic`
			`*/`

			`extern __m128 _mm_add_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_add_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_sub_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_sub_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_mul_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_mul_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_div_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_div_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_sqrt_ss(__m128 a);`
			`extern __m128 _mm_sqrt_ps(__m128 a);`
			`extern __m128 _mm_rcp_ss(__m128 a);`
			`extern __m128 _mm_rcp_ps(__m128 a);`
			`extern __m128 _mm_rsqrt_ss(__m128 a);`
			`extern __m128 _mm_rsqrt_ps(__m128 a);`
			`extern __m128 _mm_min_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_min_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_max_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_max_ps(__m128 a, __m128 b);`

			`/*`
			`* FP, logical`
			`*/`

			`extern __m128 _mm_and_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_andnot_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_or_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_xor_ps(__m128 a, __m128 b);`

			`/*`
			`* FP, comparison`
			`*/`

			`extern __m128 _mm_cmpeq_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpeq_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_cmplt_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_cmplt_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_cmple_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_cmple_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpgt_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpgt_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpge_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpge_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpneq_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpneq_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpnlt_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpnlt_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpnle_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpnle_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpngt_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpngt_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpnge_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpnge_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpord_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpord_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpunord_ss(__m128 a, __m128 b);`
			`extern __m128 _mm_cmpunord_ps(__m128 a, __m128 b);`
			`extern int _mm_comieq_ss(__m128 a, __m128 b);`
			`extern int _mm_comilt_ss(__m128 a, __m128 b);`
			`extern int _mm_comile_ss(__m128 a, __m128 b);`
			`extern int _mm_comigt_ss(__m128 a, __m128 b);`
			`extern int _mm_comige_ss(__m128 a, __m128 b);`
			`extern int _mm_comineq_ss(__m128 a, __m128 b);`
			`extern int _mm_ucomieq_ss(__m128 a, __m128 b);`
			`extern int _mm_ucomilt_ss(__m128 a, __m128 b);`
			`extern int _mm_ucomile_ss(__m128 a, __m128 b);`
			`extern int _mm_ucomigt_ss(__m128 a, __m128 b);`
			`extern int _mm_ucomige_ss(__m128 a, __m128 b);`
			`extern int _mm_ucomineq_ss(__m128 a, __m128 b);`

			`/*`
			`* FP, conversions`
			`*/`

			`extern int _mm_cvt_ss2si(__m128 a);`
			`extern __m64 _mm_cvt_ps2pi(__m128 a);`
			`extern int _mm_cvtt_ss2si(__m128 a);`
			`extern __m64 _mm_cvtt_ps2pi(__m128 a);`
			`extern __m128 _mm_cvt_si2ss(__m128, int);`
			`extern __m128 _mm_cvt_pi2ps(__m128, __m64);`

			`/*`
			`* FP, misc`
			`*/`

			`extern __m128 _mm_shuffle_ps(__m128 a, __m128 b, unsigned int imm8);`
			`extern __m128 _mm_unpackhi_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_unpacklo_ps(__m128 a, __m128 b);`
			`extern __m128 _mm_loadh_pi(__m128, __m64 const*);`
			`extern __m128 _mm_movehl_ps(__m128, __m128);`
			`extern __m128 _mm_movelh_ps(__m128, __m128);`
			`extern void _mm_storeh_pi(__m64 *, __m128);`
			`extern __m128 _mm_loadl_pi(__m128, __m64 const*);`
			`extern void _mm_storel_pi(__m64 *, __m128);`
			`extern int _mm_movemask_ps(__m128 a);`


			`/*`
			`* Integer extensions`
			`*/`
			`extern int _m_pextrw(__m64, int);`
			`extern __m64 _m_pinsrw(__m64, int, int);`
			`extern __m64 _m_pmaxsw(__m64, __m64);`
			`extern __m64 _m_pmaxub(__m64, __m64);`
			`extern __m64 _m_pminsw(__m64, __m64);`
			`extern __m64 _m_pminub(__m64, __m64);`
			`extern int _m_pmovmskb(__m64);`
			`extern __m64 _m_pmulhuw(__m64, __m64);`
			`extern __m64 _m_pshufw(__m64, int);`
			`extern void _m_maskmovq(__m64, __m64, char *);`
			`extern __m64 _m_pavgb(__m64, __m64);`
			`extern __m64 _m_pavgw(__m64, __m64);`
			`extern __m64 _m_psadbw(__m64, __m64);`

			`/*`
			`* memory & initialization`
			`*/`

			`extern __m128 _mm_set_ss(float a);`
			`extern __m128 _mm_set_ps1(float a);`
			`extern __m128 _mm_set_ps(float a, float b, float c, float d);`
			`extern __m128 _mm_setr_ps(float a, float b, float c, float d);`
			`extern __m128 _mm_setzero_ps(void);`
			`extern __m128 _mm_load_ss(float const*a);`
			`extern __m128 _mm_load_ps1(float const*a);`
			`extern __m128 _mm_load_ps(float const*a);`
			`extern __m128 _mm_loadr_ps(float const*a);`
			`extern __m128 _mm_loadu_ps(float const*a);`
			`extern void _mm_store_ss(float *v, __m128 a);`
			`extern void _mm_store_ps1(float *v, __m128 a);`
			`extern void _mm_store_ps(float *v, __m128 a);`
			`extern void _mm_storer_ps(float *v, __m128 a);`
			`extern void _mm_storeu_ps(float *v, __m128 a);`
			`extern void _mm_prefetch(char const*a, int sel);`
			`extern void _mm_stream_pi(__m64 *, __m64);`
			`extern void _mm_stream_ps(float *, __m128);`
			`extern __m128 _mm_move_ss(__m128 a, __m128 b);`

			`extern void _mm_sfence(void);`
			`extern unsigned int _mm_getcsr(void);`
			`extern void _mm_setcsr(unsigned int);`

			`#ifdef __ICL`
			`extern void* __cdecl _mm_malloc(int siz, int al);`
			`extern void __cdecl _mm_free(void *p);`
			`#endif`

			`/* Alternate intrinsic names definition */`
			`#define _mm_cvtss_si32 _mm_cvt_ss2si`
			`#define _mm_cvtps_pi32 _mm_cvt_ps2pi`
			`#define _mm_cvttss_si32 _mm_cvtt_ss2si`
			`#define _mm_cvttps_pi32 _mm_cvtt_ps2pi`
			`#define _mm_cvtsi32_ss _mm_cvt_si2ss`
			`#define _mm_cvtpi32_ps _mm_cvt_pi2ps`
			`#define _mm_extract_pi16 _m_pextrw`
			`#define _mm_insert_pi16 _m_pinsrw`
			`#define _mm_max_pi16 _m_pmaxsw`
			`#define _mm_max_pu8 _m_pmaxub`
			`#define _mm_min_pi16 _m_pminsw`
			`#define _mm_min_pu8 _m_pminub`
			`#define _mm_movemask_pi8 _m_pmovmskb`
			`#define _mm_mulhi_pu16 _m_pmulhuw`
			`#define _mm_shuffle_pi16 _m_pshufw`
			`#define _mm_maskmove_si64 _m_maskmovq`
			`#define _mm_avg_pu8 _m_pavgb`
			`#define _mm_avg_pu16 _m_pavgw`
			`#define _mm_sad_pu8 _m_psadbw`
			`#define _mm_set1_ps _mm_set_ps1`
			`#define _mm_load1_ps _mm_load_ps1`
			`#define _mm_store1_ps _mm_store_ps1`

			`/******************************************************/`
			`/* UTILITY INTRINSICS FUNCTION DEFINITIONS START HERE */`
			`/******************************************************/`

			`/*********************************************************/`
			`/* NAME : _mm_cvtpi16_ps */`
			`/* DESCRIPTION : Convert 4 16-bit signed integer values */`
			`/* to 4 single-precision float values */`
			`/* IN : __m64 a */`
			`/* OUT : none */`
			`/* RETURN : __m128 : (float)a */`
			`/*********************************************************/`
			`__inline __m128 _mm_cvtpi16_ps(__m64 a)`
			`{`
			`__m128 tmp;`
			`__m64 ext_val = _mm_cmpgt_pi16(_mm_setzero_si64(), a);`

			`tmp = _mm_cvtpi32_ps(_mm_setzero_ps(), _mm_unpackhi_pi16(a, ext_val));`
			`return(_mm_cvtpi32_ps(_mm_movelh_ps(tmp, tmp),`
			`_mm_unpacklo_pi16(a, ext_val)));`
			`}`


			`/***********************************************************/`
			`/* NAME : _mm_cvtpu16_ps */`
			`/* DESCRIPTION : Convert 4 16-bit unsigned integer values */`
			`/* to 4 single-precision float values */`
			`/* IN : __m64 a */`
			`/* OUT : none */`
			`/* RETURN : __m128 : (float)a */`
			`/***********************************************************/`
			`__inline __m128 _mm_cvtpu16_ps(__m64 a)`
			`{`
			`__m128 tmp;`
			`__m64 ext_val = _mm_setzero_si64();`

			`tmp = _mm_cvtpi32_ps(_mm_setzero_ps(), _mm_unpackhi_pi16(a, ext_val));`
			`return(_mm_cvtpi32_ps(_mm_movelh_ps(tmp, tmp),`
			`_mm_unpacklo_pi16(a, ext_val)));`
			`}`


			`/******************************************************/`
			`/* NAME : _mm_cvtps_pi16 */`
			`/* DESCRIPTION : Convert 4 single-precision float */`
			`/* values to 4 16-bit integer values */`
			`/* IN : __m128 a */`
			`/* OUT : none */`
			`/* RETURN : __m64 : (short)a */`
			`/******************************************************/`
			`__inline __m64 _mm_cvtps_pi16(__m128 a)`
			`{`
			`return _mm_packs_pi32(_mm_cvtps_pi32(a),`
			`_mm_cvtps_pi32(_mm_movehl_ps(a, a)));`
			`}`


			`/******************************************************/`
			`/* NAME : _mm_cvtpi8_ps */`
			`/* DESCRIPTION : Convert 4 8-bit integer values to 4 */`
			`/* single-precision float values */`
			`/* IN : __m64 a */`
			`/* OUT : none */`
			`/* RETURN : __m128 : (float)a */`
			`/******************************************************/`
			`__inline __m128 _mm_cvtpi8_ps(__m64 a)`
			`{`
			`__m64 ext_val = _mm_cmpgt_pi8(_mm_setzero_si64(), a);`

			`return _mm_cvtpi16_ps(_mm_unpacklo_pi8(a, ext_val));`
			`}`


			`/******************************************************/`
			`/* NAME : _mm_cvtpu8_ps */`
			`/* DESCRIPTION : Convert 4 8-bit unsigned integer */`
			`/* values to 4 single-precision float */`
			`/* values */`
			`/* IN : __m64 a */`
			`/* OUT : none */`
			`/* RETURN : __m128 : (float)a */`
			`/******************************************************/`
			`__inline __m128 _mm_cvtpu8_ps(__m64 a)`
			`{`
			`return _mm_cvtpu16_ps(_mm_unpacklo_pi8(a, _mm_setzero_si64()));`
			`}`


			`/******************************************************/`
			`/* NAME : _mm_cvtps_pi8 */`
			`/* DESCRIPTION : Convert 4 single-precision float */`
			`/* values to 4 8-bit integer values */`
			`/* IN : __m128 a */`
			`/* OUT : none */`
			`/* RETURN : __m64 : (char)a */`
			`/******************************************************/`
			`__inline __m64 _mm_cvtps_pi8(__m128 a)`
			`{`
			`return _mm_packs_pi16(_mm_cvtps_pi16(a), _mm_setzero_si64());`
			`}`


			`/******************************************************/`
			`/* NAME : _mm_cvtpi32x2_ps */`
			`/* DESCRIPTION : Convert 4 32-bit integer values */`
			`/* to 4 single-precision float values */`
			`/* IN : __m64 a : operand 1 */`
			`/* __m64 b : operand 2 */`
			`/* OUT : none */`
			`/* RETURN : __m128 : (float)a,(float)b */`
			`/******************************************************/`
			`__inline __m128 _mm_cvtpi32x2_ps(__m64 a, __m64 b)`
			`{`
			`return _mm_movelh_ps(_mm_cvt_pi2ps(_mm_setzero_ps(), a),`
			`_mm_cvt_pi2ps(_mm_setzero_ps(), b));`
			`}`


			`#if defined __cplusplus`
			`}; /* End "C" */`
			`#endif /* __cplusplus */`

			`#endif /* _INCLUDED_MM2 */`