update C headers to LLVM 14.0.6

2025-12-06 05:44:20 +00:00 · 2022-07-03 15:58:39 -07:00 · 2022-07-03 15:58:39 -07:00 · d588f88b1a
commit d588f88b1a
parent cbdd21cd9a
6 changed files with 4098 additions and 4090 deletions
--- a/lib/include/__clang_cuda_intrinsics.h
+++ b/lib/include/__clang_cuda_intrinsics.h
@ -509,7 +509,7 @@ __device__ inline void *__nv_cvta_constant_to_generic_impl(size_t __ptr) {
 __device__ inline void *__nv_cvta_local_to_generic_impl(size_t __ptr) {
  return (void *)(void __attribute__((address_space(5))) *)__ptr;
 }
-__device__ inline uint32_t __nvvm_get_smem_pointer(void *__ptr) {
+__device__ inline cuuint32_t __nvvm_get_smem_pointer(void *__ptr) {
  return __nv_cvta_generic_to_shared_impl(__ptr);
 }
 } // extern "C"
--- a/lib/include/arm_fp16.h
+++ b/lib/include/arm_fp16.h
@ -31,561 +31,561 @@ typedef __fp16 float16_t;

 #if defined(__ARM_FEATURE_FP16_SCALAR_ARITHMETIC) && defined(__aarch64__)
 #define vabdh_f16(__p0, __p1) __extension__ ({ \
+  float16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  float16_t __ret; \
  __ret = (float16_t) __builtin_neon_vabdh_f16(__s0, __s1); \
  __ret; \
 })
 #define vabsh_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  float16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vabsh_f16(__s0); \
  __ret; \
 })
 #define vaddh_f16(__p0, __p1) __extension__ ({ \
+  float16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  float16_t __ret; \
  __ret = (float16_t) __builtin_neon_vaddh_f16(__s0, __s1); \
  __ret; \
 })
 #define vcageh_f16(__p0, __p1) __extension__ ({ \
+  uint16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  uint16_t __ret; \
  __ret = (uint16_t) __builtin_neon_vcageh_f16(__s0, __s1); \
  __ret; \
 })
 #define vcagth_f16(__p0, __p1) __extension__ ({ \
+  uint16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  uint16_t __ret; \
  __ret = (uint16_t) __builtin_neon_vcagth_f16(__s0, __s1); \
  __ret; \
 })
 #define vcaleh_f16(__p0, __p1) __extension__ ({ \
+  uint16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  uint16_t __ret; \
  __ret = (uint16_t) __builtin_neon_vcaleh_f16(__s0, __s1); \
  __ret; \
 })
 #define vcalth_f16(__p0, __p1) __extension__ ({ \
+  uint16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  uint16_t __ret; \
  __ret = (uint16_t) __builtin_neon_vcalth_f16(__s0, __s1); \
  __ret; \
 })
 #define vceqh_f16(__p0, __p1) __extension__ ({ \
+  uint16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  uint16_t __ret; \
  __ret = (uint16_t) __builtin_neon_vceqh_f16(__s0, __s1); \
  __ret; \
 })
 #define vceqzh_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint16_t) __builtin_neon_vceqzh_f16(__s0); \
  __ret; \
 })
 #define vcgeh_f16(__p0, __p1) __extension__ ({ \
+  uint16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  uint16_t __ret; \
  __ret = (uint16_t) __builtin_neon_vcgeh_f16(__s0, __s1); \
  __ret; \
 })
 #define vcgezh_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint16_t) __builtin_neon_vcgezh_f16(__s0); \
  __ret; \
 })
 #define vcgth_f16(__p0, __p1) __extension__ ({ \
+  uint16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  uint16_t __ret; \
  __ret = (uint16_t) __builtin_neon_vcgth_f16(__s0, __s1); \
  __ret; \
 })
 #define vcgtzh_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint16_t) __builtin_neon_vcgtzh_f16(__s0); \
  __ret; \
 })
 #define vcleh_f16(__p0, __p1) __extension__ ({ \
+  uint16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  uint16_t __ret; \
  __ret = (uint16_t) __builtin_neon_vcleh_f16(__s0, __s1); \
  __ret; \
 })
 #define vclezh_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint16_t) __builtin_neon_vclezh_f16(__s0); \
  __ret; \
 })
 #define vclth_f16(__p0, __p1) __extension__ ({ \
+  uint16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  uint16_t __ret; \
  __ret = (uint16_t) __builtin_neon_vclth_f16(__s0, __s1); \
  __ret; \
 })
 #define vcltzh_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint16_t) __builtin_neon_vcltzh_f16(__s0); \
  __ret; \
 })
 #define vcvth_n_s16_f16(__p0, __p1) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int16_t) __builtin_neon_vcvth_n_s16_f16(__s0, __p1); \
  __ret; \
 })
 #define vcvth_n_s32_f16(__p0, __p1) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int32_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int32_t) __builtin_neon_vcvth_n_s32_f16(__s0, __p1); \
  __ret; \
 })
 #define vcvth_n_s64_f16(__p0, __p1) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int64_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int64_t) __builtin_neon_vcvth_n_s64_f16(__s0, __p1); \
  __ret; \
 })
 #define vcvth_n_u16_f16(__p0, __p1) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint16_t) __builtin_neon_vcvth_n_u16_f16(__s0, __p1); \
  __ret; \
 })
 #define vcvth_n_u32_f16(__p0, __p1) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint32_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint32_t) __builtin_neon_vcvth_n_u32_f16(__s0, __p1); \
  __ret; \
 })
 #define vcvth_n_u64_f16(__p0, __p1) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint64_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint64_t) __builtin_neon_vcvth_n_u64_f16(__s0, __p1); \
  __ret; \
 })
 #define vcvth_s16_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int16_t) __builtin_neon_vcvth_s16_f16(__s0); \
  __ret; \
 })
 #define vcvth_s32_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int32_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int32_t) __builtin_neon_vcvth_s32_f16(__s0); \
  __ret; \
 })
 #define vcvth_s64_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int64_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int64_t) __builtin_neon_vcvth_s64_f16(__s0); \
  __ret; \
 })
 #define vcvth_u16_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint16_t) __builtin_neon_vcvth_u16_f16(__s0); \
  __ret; \
 })
 #define vcvth_u32_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint32_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint32_t) __builtin_neon_vcvth_u32_f16(__s0); \
  __ret; \
 })
 #define vcvth_u64_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint64_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint64_t) __builtin_neon_vcvth_u64_f16(__s0); \
  __ret; \
 })
 #define vcvtah_s16_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int16_t) __builtin_neon_vcvtah_s16_f16(__s0); \
  __ret; \
 })
 #define vcvtah_s32_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int32_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int32_t) __builtin_neon_vcvtah_s32_f16(__s0); \
  __ret; \
 })
 #define vcvtah_s64_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int64_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int64_t) __builtin_neon_vcvtah_s64_f16(__s0); \
  __ret; \
 })
 #define vcvtah_u16_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint16_t) __builtin_neon_vcvtah_u16_f16(__s0); \
  __ret; \
 })
 #define vcvtah_u32_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint32_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint32_t) __builtin_neon_vcvtah_u32_f16(__s0); \
  __ret; \
 })
 #define vcvtah_u64_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint64_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint64_t) __builtin_neon_vcvtah_u64_f16(__s0); \
  __ret; \
 })
 #define vcvth_f16_u16(__p0) __extension__ ({ \
-  uint16_t __s0 = __p0; \
  float16_t __ret; \
+  uint16_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vcvth_f16_u16(__s0); \
  __ret; \
 })
 #define vcvth_f16_s16(__p0) __extension__ ({ \
-  int16_t __s0 = __p0; \
  float16_t __ret; \
+  int16_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vcvth_f16_s16(__s0); \
  __ret; \
 })
 #define vcvth_f16_u32(__p0) __extension__ ({ \
-  uint32_t __s0 = __p0; \
  float16_t __ret; \
+  uint32_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vcvth_f16_u32(__s0); \
  __ret; \
 })
 #define vcvth_f16_s32(__p0) __extension__ ({ \
-  int32_t __s0 = __p0; \
  float16_t __ret; \
+  int32_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vcvth_f16_s32(__s0); \
  __ret; \
 })
 #define vcvth_f16_u64(__p0) __extension__ ({ \
-  uint64_t __s0 = __p0; \
  float16_t __ret; \
+  uint64_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vcvth_f16_u64(__s0); \
  __ret; \
 })
 #define vcvth_f16_s64(__p0) __extension__ ({ \
-  int64_t __s0 = __p0; \
  float16_t __ret; \
+  int64_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vcvth_f16_s64(__s0); \
  __ret; \
 })
 #define vcvth_n_f16_u32(__p0, __p1) __extension__ ({ \
-  uint32_t __s0 = __p0; \
  float16_t __ret; \
+  uint32_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vcvth_n_f16_u32(__s0, __p1); \
  __ret; \
 })
 #define vcvth_n_f16_s32(__p0, __p1) __extension__ ({ \
-  int32_t __s0 = __p0; \
  float16_t __ret; \
+  int32_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vcvth_n_f16_s32(__s0, __p1); \
  __ret; \
 })
 #define vcvth_n_f16_u64(__p0, __p1) __extension__ ({ \
-  uint64_t __s0 = __p0; \
  float16_t __ret; \
+  uint64_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vcvth_n_f16_u64(__s0, __p1); \
  __ret; \
 })
 #define vcvth_n_f16_s64(__p0, __p1) __extension__ ({ \
-  int64_t __s0 = __p0; \
  float16_t __ret; \
+  int64_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vcvth_n_f16_s64(__s0, __p1); \
  __ret; \
 })
 #define vcvth_n_f16_u16(__p0, __p1) __extension__ ({ \
-  uint16_t __s0 = __p0; \
  float16_t __ret; \
+  uint16_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vcvth_n_f16_u16(__s0, __p1); \
  __ret; \
 })
 #define vcvth_n_f16_s16(__p0, __p1) __extension__ ({ \
-  int16_t __s0 = __p0; \
  float16_t __ret; \
+  int16_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vcvth_n_f16_s16(__s0, __p1); \
  __ret; \
 })
 #define vcvtmh_s16_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int16_t) __builtin_neon_vcvtmh_s16_f16(__s0); \
  __ret; \
 })
 #define vcvtmh_s32_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int32_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int32_t) __builtin_neon_vcvtmh_s32_f16(__s0); \
  __ret; \
 })
 #define vcvtmh_s64_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int64_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int64_t) __builtin_neon_vcvtmh_s64_f16(__s0); \
  __ret; \
 })
 #define vcvtmh_u16_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint16_t) __builtin_neon_vcvtmh_u16_f16(__s0); \
  __ret; \
 })
 #define vcvtmh_u32_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint32_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint32_t) __builtin_neon_vcvtmh_u32_f16(__s0); \
  __ret; \
 })
 #define vcvtmh_u64_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint64_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint64_t) __builtin_neon_vcvtmh_u64_f16(__s0); \
  __ret; \
 })
 #define vcvtnh_s16_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int16_t) __builtin_neon_vcvtnh_s16_f16(__s0); \
  __ret; \
 })
 #define vcvtnh_s32_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int32_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int32_t) __builtin_neon_vcvtnh_s32_f16(__s0); \
  __ret; \
 })
 #define vcvtnh_s64_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int64_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int64_t) __builtin_neon_vcvtnh_s64_f16(__s0); \
  __ret; \
 })
 #define vcvtnh_u16_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint16_t) __builtin_neon_vcvtnh_u16_f16(__s0); \
  __ret; \
 })
 #define vcvtnh_u32_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint32_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint32_t) __builtin_neon_vcvtnh_u32_f16(__s0); \
  __ret; \
 })
 #define vcvtnh_u64_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint64_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint64_t) __builtin_neon_vcvtnh_u64_f16(__s0); \
  __ret; \
 })
 #define vcvtph_s16_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int16_t) __builtin_neon_vcvtph_s16_f16(__s0); \
  __ret; \
 })
 #define vcvtph_s32_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int32_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int32_t) __builtin_neon_vcvtph_s32_f16(__s0); \
  __ret; \
 })
 #define vcvtph_s64_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  int64_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (int64_t) __builtin_neon_vcvtph_s64_f16(__s0); \
  __ret; \
 })
 #define vcvtph_u16_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint16_t) __builtin_neon_vcvtph_u16_f16(__s0); \
  __ret; \
 })
 #define vcvtph_u32_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint32_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint32_t) __builtin_neon_vcvtph_u32_f16(__s0); \
  __ret; \
 })
 #define vcvtph_u64_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  uint64_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (uint64_t) __builtin_neon_vcvtph_u64_f16(__s0); \
  __ret; \
 })
 #define vdivh_f16(__p0, __p1) __extension__ ({ \
+  float16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  float16_t __ret; \
  __ret = (float16_t) __builtin_neon_vdivh_f16(__s0, __s1); \
  __ret; \
 })
 #define vfmah_f16(__p0, __p1, __p2) __extension__ ({ \
+  float16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
  float16_t __s2 = __p2; \
-  float16_t __ret; \
  __ret = (float16_t) __builtin_neon_vfmah_f16(__s0, __s1, __s2); \
  __ret; \
 })
 #define vfmsh_f16(__p0, __p1, __p2) __extension__ ({ \
+  float16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
  float16_t __s2 = __p2; \
-  float16_t __ret; \
  __ret = (float16_t) __builtin_neon_vfmsh_f16(__s0, __s1, __s2); \
  __ret; \
 })
 #define vmaxh_f16(__p0, __p1) __extension__ ({ \
+  float16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  float16_t __ret; \
  __ret = (float16_t) __builtin_neon_vmaxh_f16(__s0, __s1); \
  __ret; \
 })
 #define vmaxnmh_f16(__p0, __p1) __extension__ ({ \
+  float16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  float16_t __ret; \
  __ret = (float16_t) __builtin_neon_vmaxnmh_f16(__s0, __s1); \
  __ret; \
 })
 #define vminh_f16(__p0, __p1) __extension__ ({ \
+  float16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  float16_t __ret; \
  __ret = (float16_t) __builtin_neon_vminh_f16(__s0, __s1); \
  __ret; \
 })
 #define vminnmh_f16(__p0, __p1) __extension__ ({ \
+  float16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  float16_t __ret; \
  __ret = (float16_t) __builtin_neon_vminnmh_f16(__s0, __s1); \
  __ret; \
 })
 #define vmulh_f16(__p0, __p1) __extension__ ({ \
+  float16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  float16_t __ret; \
  __ret = (float16_t) __builtin_neon_vmulh_f16(__s0, __s1); \
  __ret; \
 })
 #define vmulxh_f16(__p0, __p1) __extension__ ({ \
+  float16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  float16_t __ret; \
  __ret = (float16_t) __builtin_neon_vmulxh_f16(__s0, __s1); \
  __ret; \
 })
 #define vnegh_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  float16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vnegh_f16(__s0); \
  __ret; \
 })
 #define vrecpeh_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  float16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vrecpeh_f16(__s0); \
  __ret; \
 })
 #define vrecpsh_f16(__p0, __p1) __extension__ ({ \
+  float16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  float16_t __ret; \
  __ret = (float16_t) __builtin_neon_vrecpsh_f16(__s0, __s1); \
  __ret; \
 })
 #define vrecpxh_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  float16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vrecpxh_f16(__s0); \
  __ret; \
 })
 #define vrndh_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  float16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vrndh_f16(__s0); \
  __ret; \
 })
 #define vrndah_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  float16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vrndah_f16(__s0); \
  __ret; \
 })
 #define vrndih_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  float16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vrndih_f16(__s0); \
  __ret; \
 })
 #define vrndmh_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  float16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vrndmh_f16(__s0); \
  __ret; \
 })
 #define vrndnh_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  float16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vrndnh_f16(__s0); \
  __ret; \
 })
 #define vrndph_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  float16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vrndph_f16(__s0); \
  __ret; \
 })
 #define vrndxh_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  float16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vrndxh_f16(__s0); \
  __ret; \
 })
 #define vrsqrteh_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  float16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vrsqrteh_f16(__s0); \
  __ret; \
 })
 #define vrsqrtsh_f16(__p0, __p1) __extension__ ({ \
+  float16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  float16_t __ret; \
  __ret = (float16_t) __builtin_neon_vrsqrtsh_f16(__s0, __s1); \
  __ret; \
 })
 #define vsqrth_f16(__p0) __extension__ ({ \
-  float16_t __s0 = __p0; \
  float16_t __ret; \
+  float16_t __s0 = __p0; \
  __ret = (float16_t) __builtin_neon_vsqrth_f16(__s0); \
  __ret; \
 })
 #define vsubh_f16(__p0, __p1) __extension__ ({ \
+  float16_t __ret; \
  float16_t __s0 = __p0; \
  float16_t __s1 = __p1; \
-  float16_t __ret; \
  __ret = (float16_t) __builtin_neon_vsubh_f16(__s0, __s1); \
  __ret; \
 })
--- a/lib/include/arm_neon.h
+++ b/lib/include/arm_neon.h
--- a/lib/include/opencl-c-base.h
+++ b/lib/include/opencl-c-base.h
@ -67,6 +67,8 @@
 #if (__OPENCL_CPP_VERSION__ == 202100 || __OPENCL_C_VERSION__ == 300)
 // For the SPIR and SPIR-V target all features are supported.
 #if defined(__SPIR__) || defined(__SPIRV__)
+#define __opencl_c_atomic_order_seq_cst 1
+#define __opencl_c_atomic_scope_device 1
 #define __opencl_c_atomic_scope_all_devices 1
 #define __opencl_c_read_write_images 1
 #endif // defined(__SPIR__)
--- a/lib/include/opencl-c.h
+++ b/lib/include/opencl-c.h
@ -13832,6 +13832,7 @@ float __ovld atomic_fetch_max_explicit(volatile atomic_float *object,
 #endif // defined(__opencl_c_ext_fp32_global_atomic_min_max) &&                \
    defined(__opencl_c_ext_fp32_local_atomic_min_max)

+#if defined(cl_khr_int64_base_atomics) && defined(cl_khr_int64_extended_atomics)
 #if defined(__opencl_c_ext_fp64_global_atomic_min_max)
 double __ovld atomic_fetch_min(volatile __global atomic_double *object,
                               double operand);
@ -13882,6 +13883,8 @@ double __ovld atomic_fetch_max_explicit(volatile atomic_double *object,
                                        memory_scope scope);
 #endif // defined(__opencl_c_ext_fp64_global_atomic_min_max) &&                \
    defined(__opencl_c_ext_fp64_local_atomic_min_max)
+#endif // defined(cl_khr_int64_base_atomics) &&                                \
+    defined(cl_khr_int64_extended_atomics)

 #if defined(__opencl_c_ext_fp16_global_atomic_add)
 half __ovld atomic_fetch_add(volatile __global atomic_half *object,
@ -13985,6 +13988,7 @@ float __ovld atomic_fetch_sub_explicit(volatile atomic_float *object,
 #endif // defined(__opencl_c_ext_fp32_global_atomic_add) &&                    \
    defined(__opencl_c_ext_fp32_local_atomic_add)

+#if defined(cl_khr_int64_base_atomics) && defined(cl_khr_int64_extended_atomics)
 #if defined(__opencl_c_ext_fp64_global_atomic_add)
 double __ovld atomic_fetch_add(volatile __global atomic_double *object,
                               double operand);
@ -14035,6 +14039,8 @@ double __ovld atomic_fetch_sub_explicit(volatile atomic_double *object,
                                        memory_scope scope);
 #endif // defined(__opencl_c_ext_fp64_global_atomic_add) &&                    \
    defined(__opencl_c_ext_fp64_local_atomic_add)
+#endif // defined(cl_khr_int64_base_atomics) &&                                \
+    defined(cl_khr_int64_extended_atomics)

 #endif // cl_ext_float_atomics

--- a/lib/include/ppc_wrappers/mm_malloc.h
+++ b/lib/include/ppc_wrappers/mm_malloc.h
@ -19,7 +19,7 @@
 #ifndef __cplusplus
 extern int posix_memalign (void **, size_t, size_t);
 #else
-extern "C" int posix_memalign (void **, size_t, size_t) throw ();
+extern "C" int posix_memalign (void **, size_t, size_t);
 #endif

 static __inline void *