intel
diff --git a/‎SYCL/Assert/assert_in_simultaneous_kernels.cpp
Lines changed: 2 additions & 2 deletions b/‎SYCL/Assert/assert_in_simultaneous_kernels.cpp
Lines changed: 2 additions & 2 deletions
diff --git a/‎SYCL/Assert/assert_in_simultaneous_kernels.hpp
Lines changed: 10 additions & 0 deletions b/‎SYCL/Assert/assert_in_simultaneous_kernels.hpp
Lines changed: 10 additions & 0 deletions
diff --git a/‎SYCL/Assert/assert_in_simultaneous_kernels_win.cpp
Lines changed: 2 additions & 2 deletions b/‎SYCL/Assert/assert_in_simultaneous_kernels_win.cpp
Lines changed: 2 additions & 2 deletions
diff --git a/‎SYCL/Assert/assert_in_simultaneously_multiple_tus.cpp
Lines changed: 12 additions & 5 deletions b/‎SYCL/Assert/assert_in_simultaneously_multiple_tus.cpp
Lines changed: 12 additions & 5 deletions
diff --git a/‎SYCL/AtomicRef/atomic_memory_order_acq_rel.cpp
Lines changed: 218 additions & 12 deletions b/‎SYCL/AtomicRef/atomic_memory_order_acq_rel.cpp
Lines changed: 218 additions & 12 deletions
@@ -16,11 +16,11 @@
 // RUN: %ACC_RUN_PLACEHOLDER %t.out &> %t.txt
 // RUN: %ACC_RUN_PLACEHOLDER FileCheck %s --check-prefix=CHECK-ACC --input-file %t.txt
 //
-// CHECK:      {{.*}}assert_in_simultaneous_kernels.hpp:12: void assertFunc(): global id: [9,7,0], local id: [0,0,0]
+// CHECK:      {{.*}}assert_in_simultaneous_kernels.hpp:13: void assertFunc(): global id: [9,7,0], local id: [0,0,0]
 // CHECK-SAME: Assertion `false && "from assert statement"` failed.
 // CHECK-NOT:  The test ended.
 //
-// CHECK-ACC-NOT: {{.*}}assert_in_simultaneous_kernels.hpp:12: void assertFunc(): global id: [9,7,0], local id: [0,0,0]
+// CHECK-ACC-NOT: {{.*}}assert_in_simultaneous_kernels.hpp:13: void assertFunc(): global id: [9,7,0], local id: [0,0,0]
 // CHECK-ACC: The test ended.
 
 #include "assert_in_simultaneous_kernels.hpp"
@@ -1,5 +1,6 @@
 #include <CL/sycl.hpp>
 #include <cassert>
+#include <cstdio>
 #include <iostream>
 #include <thread>
 
@@ -44,6 +45,15 @@ void runTestForTid(queue *Q, size_t Tid) {
 }
 
 int main(int Argc, const char *Argv[]) {
+  // On windows stderr output becomes messed up if several thread
+  // output simultaneously. Hence, setting explicit line buffering here.
+#ifndef __SYCL_DEVICE_ONLY__
+  if (setvbuf(stderr, nullptr, _IOLBF, BUFSIZ)) {
+    std::cerr << "Can't set line-buffering mode fo stderr\n";
+    return 1;
+  }
+#endif
+
   std::vector<std::thread> threadPool;
   threadPool.reserve(NUM_THREADS);
 
 
@@ -17,11 +17,11 @@
 //
 // FIXME Windows version prints '(null)' instead of '<unknown func>' once in a
 // while for some insane reason.
-// CHECK:      {{.*}}assert_in_simultaneous_kernels.hpp:12: {{<unknown func>|(null)}}: global id: [9,7,0], local id: [0,0,0]
+// CHECK:      {{.*}}assert_in_simultaneous_kernels.hpp:13: {{<unknown func>|(null)}}: global id: [9,7,0], local id: [0,0,0]
 // CHECK-SAME: Assertion `false && "from assert statement"` failed.
 // CHECK-NOT:  The test ended.
 //
-// CHECK-ACC-NOT: {{.*}}assert_in_simultaneous_kernels.hpp:12: {{<unknown func>|(null)}}: global id: [9,7,0], local id: [0,0,0]
+// CHECK-ACC-NOT: {{.*}}assert_in_simultaneous_kernels.hpp:13: {{<unknown func>|(null)}}: global id: [9,7,0], local id: [0,0,0]
 // CHECK-ACC:  The test ended.
 
 #include "assert_in_simultaneous_kernels.hpp"
@@ -1,9 +1,6 @@
 // FIXME unsupported on CUDA and HIP until fallback libdevice becomes available
-// UNSUPPORTED: cuda || hip
-// clang-format off
-// Failed on Linux on unrelated change (FileCheck error: '.../assert_in_simultaneously_multiple_tus.cpp.tmp.txt' is empty)
-// clang-format on
-// REQUIRES: TEMPORARILY_DISABLED
+// FIXME flaky output on Level Zero
+// UNSUPPORTED: cuda || hip || level_zero
 // RUN: %clangxx -DSYCL_FALLBACK_ASSERT=1 -fsycl -fsycl-targets=%sycl_triple -I %S/Inputs %s %S/Inputs/kernels_in_file2.cpp -o %t.out %threads_lib
 // RUN: %CPU_RUN_PLACEHOLDER %t.out &> %t.txt || true
 // RUN: %CPU_RUN_PLACEHOLDER FileCheck %s --input-file %t.txt
@@ -27,6 +24,7 @@
 
 #include "Inputs/kernels_in_file2.hpp"
 #include <CL/sycl.hpp>
+#include <cstdio>
 #include <iostream>
 #include <thread>
 
@@ -85,6 +83,15 @@ void runTestForTid(queue *Q, size_t Tid) {
 }
 
 int main(int Argc, const char *Argv[]) {
+#ifndef __SYCL_DEVICE_ONLY__
+  // On windows stderr output becomes messed up if several thread
+  // output simultaneously. Hence, setting explicit line buffering here.
+  if (setvbuf(stderr, nullptr, _IOLBF, BUFSIZ)) {
+    std::cerr << "Can't set line-buffering mode fo stderr\n";
+    return 1;
+  }
+#endif
+
   std::vector<std::thread> threadPool;
   threadPool.reserve(NUM_THREADS);
 
 
@@ -1,33 +1,239 @@
-// RUN: %clangxx -fsycl -fsycl-targets=%sycl_triple %s -o %t.out
+// RUN: %clangxx -fsycl -fsycl-targets=%sycl_triple %s -O3 -o %t.out -Xsycl-target-backend=nvptx64-nvidia-cuda --cuda-gpu-arch=sm_70
 // RUN: %HOST_RUN_PLACEHOLDER %t.out
 // RUN: %CPU_RUN_PLACEHOLDER %t.out
 // RUN: %GPU_RUN_PLACEHOLDER %t.out
 // RUN: %ACC_RUN_PLACEHOLDER %t.out
 // L0, OpenCL, and HIP backends don't currently support
 // info::device::atomic_memory_order_capabilities
-// UNSUPPORTED: level_zero || opencl || hip
+// UNSUPPORTED: level_zero, opencl, hip
 
-// NOTE: Tests load and store for acquire-release memory ordering.
+// host does not support barrier
+// XFAIL: host
+
+// NOTE: Tests fetch_add for acquire and release memory ordering.
 
 #include "atomic_memory_order.h"
 #include <iostream>
+#include <numeric>
 using namespace sycl;
 
-int main() {
+template <memory_order order> void test_acquire_global() {
+  const size_t N_items = 1024;
+  const size_t N_iters = 1000;
+
+  int error = 0;
+  int val[] = {0, 0};
+
+  queue q;
+  {
+    buffer<int> error_buf(&error, 1);
+    buffer<int> val_buf(val, 1);
+
+    q.submit([&](handler &cgh) {
+       auto error =
+           error_buf.template get_access<access::mode::read_write>(cgh);
+       auto val = val_buf.template get_access<access::mode::read_write>(cgh);
+       cgh.parallel_for(range<1>(N_items), [=](item<1> it) {
+         volatile int *val_p = val.get_pointer();
+         auto atm0 =
+             atomic_ref<int, memory_order::relaxed, memory_scope::device,
+                        access::address_space::global_space>(val[0]);
+         auto atm1 =
+             atomic_ref<int, memory_order::relaxed, memory_scope::device,
+                        access::address_space::global_space>(val[1]);
+         for (int i = 0; i < N_iters; i++) {
+           if (it.get_id(0) == 0) {
+             atm0.fetch_add(1, order);
+             val_p[1]++;
+           } else {
+             int tmp1 = atm1.load(memory_order::acquire);
+             int tmp0 = atm0.load(memory_order::relaxed);
+             if (tmp0 < tmp1) {
+               error[0] = 1;
+             }
+           }
+         }
+       });
+     }).wait_and_throw();
+  }
+  assert(error == 0);
+}
+
+template <memory_order order> void test_acquire_local() {
+  const size_t local_size = 1024;
+  const size_t N_wgs = 16;
+  const size_t global_size = local_size * N_wgs;
+  const size_t N_iters = 1000;
+
+  int error = 0;
+  int val[] = {0, 0};
+
+  queue q;
+  {
+    buffer<int> error_buf(&error, 1);
+    buffer<int> val_buf(val, 1);
+
+    q.submit([&](handler &cgh) {
+       auto error =
+           error_buf.template get_access<access::mode::read_write>(cgh);
+       accessor<int, 1, access::mode::read_write, access::target::local> val(
+           2, cgh);
+       cgh.parallel_for(
+           nd_range<1>(global_size, local_size), [=](nd_item<1> it) {
+             size_t lid = it.get_local_id(0);
+             val[0] = 0;
+             val[1] = 0;
+             it.barrier(access::fence_space::local_space);
+             volatile int *val_p = val.get_pointer();
+             auto atm0 =
+                 atomic_ref<int, memory_order::relaxed, memory_scope::device,
+                            access::address_space::local_space>(val[0]);
+             auto atm1 =
+                 atomic_ref<int, memory_order::relaxed, memory_scope::device,
+                            access::address_space::local_space>(val[1]);
+             for (int i = 0; i < N_iters; i++) {
+               if (it.get_local_id(0) == 0) {
+                 atm0.fetch_add(1, order);
+                 val_p[1]++;
+               } else {
+                 int tmp1 = atm1.load(memory_order::acquire);
+                 int tmp0 = atm0.load(memory_order::relaxed);
+                 if (tmp0 < tmp1) {
+                   error[0] = 1;
+                 }
+               }
+             }
+           });
+     }).wait_and_throw();
+  }
+  assert(error == 0);
+}
+
+template <memory_order order> void test_release_global() {
+  const size_t N_items = 1024;
+  const size_t N_iters = 1000;
+
+  int error = 0;
+  int val[] = {0, 0};
+
   queue q;
+  {
+    buffer<int> error_buf(&error, 1);
+    buffer<int> val_buf(val, 1);
+
+    q.submit([&](handler &cgh) {
+       auto error =
+           error_buf.template get_access<access::mode::read_write>(cgh);
+       auto val = val_buf.template get_access<access::mode::read_write>(cgh);
+       cgh.parallel_for(range<1>(N_items), [=](item<1> it) {
+         volatile int *val_p = val.get_pointer();
+         auto atm0 =
+             atomic_ref<int, memory_order::relaxed, memory_scope::device,
+                        access::address_space::global_space>(val[0]);
+         auto atm1 =
+             atomic_ref<int, memory_order::relaxed, memory_scope::device,
+                        access::address_space::global_space>(val[1]);
+         for (int i = 0; i < N_iters; i++) {
+           if (it.get_id(0) == 0) {
+             val_p[0]++;
+             atm1.fetch_add(1, order);
+           } else {
+             int tmp1 = atm1.load(memory_order::acquire);
+             int tmp0 = atm0.load(memory_order::relaxed);
+             if (tmp0 < tmp1) {
+               error[0] = 1;
+             }
+           }
+         }
+       });
+     }).wait_and_throw();
+  }
+  assert(error == 0);
+}
+
+template <memory_order order> void test_release_local() {
+  const size_t local_size = 1024;
+  const size_t N_wgs = 16;
+  const size_t global_size = local_size * N_wgs;
+  const size_t N_iters = 1000;
 
+  int error = 0;
+  int val[] = {0, 0};
+
+  queue q;
+  {
+    buffer<int> error_buf(&error, 1);
+    buffer<int> val_buf(val, 1);
+
+    q.submit([&](handler &cgh) {
+       auto error =
+           error_buf.template get_access<access::mode::read_write>(cgh);
+       accessor<int, 1, access::mode::read_write, access::target::local> val(
+           2, cgh);
+       cgh.parallel_for(
+           nd_range<1>(global_size, local_size), [=](nd_item<1> it) {
+             size_t lid = it.get_local_id(0);
+             val[0] = 0;
+             val[1] = 0;
+             it.barrier(access::fence_space::local_space);
+             volatile int *val_p = val.get_pointer();
+             auto atm0 =
+                 atomic_ref<int, memory_order::relaxed, memory_scope::device,
+                            access::address_space::local_space>(val[0]);
+             auto atm1 =
+                 atomic_ref<int, memory_order::relaxed, memory_scope::device,
+                            access::address_space::local_space>(val[1]);
+             for (int i = 0; i < N_iters; i++) {
+               if (it.get_local_id(0) == 0) {
+                 val_p[0]++;
+                 atm1.fetch_add(1, order);
+               } else {
+                 int tmp1 = atm1.load(memory_order::acquire);
+                 int tmp0 = atm0.load(memory_order::relaxed);
+                 if (tmp0 < tmp1) {
+                   error[0] = 1;
+                 }
+               }
+             }
+           });
+     }).wait_and_throw();
+  }
+  assert(error == 0);
+}
+
+int main() {
+  queue q;
   std::vector<memory_order> supported_memory_orders =
       q.get_device().get_info<info::device::atomic_memory_order_capabilities>();
 
-  if (!is_supported(supported_memory_orders, memory_order::acq_rel)) {
-    std::cout << "Skipping test\n";
-    return 0;
+  if (is_supported(supported_memory_orders, memory_order::acquire)) {
+    std::cout << "Testing acquire" << std::endl;
+    test_acquire_global<memory_order::acquire>();
+    test_acquire_local<memory_order::acquire>();
+  }
+  if (is_supported(supported_memory_orders, memory_order::release)) {
+    std::cout << "Testing release" << std::endl;
+    test_release_global<memory_order::release>();
+    test_release_local<memory_order::release>();
+  }
+  if (is_supported(supported_memory_orders, memory_order::acq_rel)) {
+    std::cout << "Testing acq_rel" << std::endl;
+    // Acquire-release memory order must also support both acquire and release
+    // orderings.
+    assert(is_supported(supported_memory_orders, memory_order::acquire) &&
+           is_supported(supported_memory_orders, memory_order::release));
+    test_acquire_global<memory_order::acq_rel>();
+    test_acquire_local<memory_order::acq_rel>();
+    test_release_global<memory_order::acq_rel>();
+    test_release_local<memory_order::acq_rel>();
+  }
+  if (is_supported(supported_memory_orders, memory_order::seq_cst)) {
+    std::cout << "Testing seq_cst" << std::endl;
+    test_acquire_global<memory_order::seq_cst>();
+    test_acquire_local<memory_order::seq_cst>();
+    test_release_global<memory_order::seq_cst>();
+    test_release_local<memory_order::seq_cst>();
   }
-
-  // Acquire-release memory order must also support both acquire and release
-  // orderings.
-  assert(is_supported(supported_memory_orders, memory_order::acquire) &&
-         is_supported(supported_memory_orders, memory_order::release));
 
   std::cout << "Test passed." << std::endl;
 }