Bump version, update benchmarks. Random access benchmark is broken.

chriselrod · chriselrod · commit 054c8b9dcace · 2020-01-24T00:52:21.000-05:00
diff --git a/Project.toml b/Project.toml
@@ -1,7 +1,7 @@
 name = "LoopVectorization"
 uuid = "bdcacae8-1622-11e9-2a5c-532679323890"
 authors = ["Chris Elrod <elrodc@gmail.com>"]
-version = "0.4.1"
+version = "0.4.2"
 
 [deps]
 LinearAlgebra = "37e2e46d-f89d-539d-b4ee-838fcccc9c8e"
diff --git a/benchmark/benchmarkflops.jl b/benchmark/benchmarkflops.jl
@@ -1,7 +1,7 @@
 include(joinpath(LOOPVECBENCHDIR, "looptests.jl"))
 include(joinpath(LOOPVECBENCHDIR, "loadsharedlibs.jl"))
 
-using PrettyTables, BenchmarkTools
+using BenchmarkTools
 struct SizedResults{V <: AbstractVector} <: AbstractMatrix{String}
     results::Matrix{Float64}
     sizes::V
@@ -26,15 +26,6 @@ function Base.getindex(br::SizedResults, row, col)
 end
 Base.setindex!(br::BenchmarkResult, v, i...) = br.sizedresults.results[i...] = v
 
-const HIGHLIGHT_BEST = Highlighter(
-    (br,i,j) -> (j > 1 && maximum(@view(br.results[:, i])) == br.results[j-1,i]),
-    foreground = :green
-);
-function Base.show(io::IO, br::BenchmarkResult)
-    pretty_table(
-        io, br.sizedresults, br.tests, crop = :none, highlighters = (HIGHLIGHT_BEST,)
-    )
-end
 
 tothreetuple(i::Int) = (i,i,i)
 tothreetuple(i::NTuple{3,Int}) = i
@@ -106,6 +97,40 @@ function benchmark_AtmulB(sizes)
     end
     br
 end
+function benchmark_AmulBt(sizes)
+    tests = [BLAS.vendor() === :mkl ? "IntelMKL" : "OpenBLAS", "Julia", "Clang-Polly", "GFortran", "GFort-intrinsic", "icc", "ifort", "ifort-intrinsic", "LoopVectorization"]
+    br = BenchmarkResult(tests, sizes)
+    for (i,s) ∈ enumerate(sizes)
+        M, K, N = tothreetuple(s)
+        C = Matrix{Float64}(undef, M, N)
+        A = rand(M, K)
+        Bt = rand(N, K)
+        n_gflop = M*K*N*2e-9
+        br[1,i] = n_gflop / @belapsed mul!($C, $A, $Bt')
+        Cblas = copy(C)
+        br[2,i] = n_gflop / @belapsed jgemm!($C, $A, $Bt')
+        @assert C ≈ Cblas "Julia gemm wrong?"
+        br[3,i] = n_gflop / @belapsed cgemm!($C, $A, $Bt')
+        @assert C ≈ Cblas "Polly gemm wrong?"
+        br[4,i] = n_gflop / @belapsed fgemm!($C, $A, $Bt')
+        @assert C ≈ Cblas "Fort gemm wrong?"
+        br[5,i] = n_gflop / @belapsed fgemm_builtin!($C, $A, $Bt')
+        @assert C ≈ Cblas "Fort intrinsic gemm wrong?"
+        br[6,i] = n_gflop / @belapsed icgemm!($C, $A, $Bt')
+        @assert C ≈ Cblas "icc gemm wrong?"
+        br[7,i] = n_gflop / @belapsed ifgemm!($C, $A, $Bt')
+        @assert C ≈ Cblas "iort gemm wrong?"
+        br[8,i] = n_gflop / @belapsed ifgemm_builtin!($C, $A, $Bt')
+        @assert C ≈ Cblas "ifort intrinsic gemm wrong?"
+        br[9,i] = n_gflop / @belapsed gemmavx!($C, $A, $Bt')
+        @assert C ≈ Cblas "LoopVec gemm wrong?"
+        # if i % 10 == 0
+            # percent_complete = round(100i/ length(sizes), sigdigits = 4)
+            # @show percent_complete
+        # end
+    end
+    br
+end
 
 function benchmark_dot(sizes)
     tests = [BLAS.vendor() === :mkl ? "IntelMKL" : "OpenBLAS", "Julia", "Clang-Polly", "GFortran", "icc", "ifort", "LoopVectorization"]
@@ -164,7 +189,7 @@ end
 totwotuple(i::Int) = (i,i)
 totwotuple(i::Tuple{Int,Int}) = i
 function benchmark_gemv(sizes)
-    tests = [BLAS.vendor() === :mkl ? "IntelMKL" : "OpenBLAS", "Julia", "Clang-Polly", "GFortran", "icc", "ifort", "LoopVectorization"]
+    tests = [BLAS.vendor() === :mkl ? "IntelMKL" : "OpenBLAS", "Julia", "Clang-Polly", "GFortran", "GFort-intrinsic", "icc", "ifort", "ifort-intrinsic", "LoopVectorization"]
     br = BenchmarkResult(tests, sizes)
     for (i,s) ∈ enumerate(sizes)
         M, N = totwotuple(s)
@@ -178,11 +203,47 @@ function benchmark_gemv(sizes)
         @assert x ≈ xblas "Polly wrong?"
         br[4,i] = n_gflop / @belapsed fgemv!($x, $A, $y)
         @assert x ≈ xblas "Fort wrong?"
-        br[5,i] = n_gflop / @belapsed icgemv!($x, $A, $y)
+        br[5,i] = n_gflop / @belapsed fgemv_builtin!($x, $A, $y)
+        @assert x ≈ xblas "Fort wrong?"
+        br[6,i] = n_gflop / @belapsed icgemv!($x, $A, $y)
         @assert x ≈ xblas "icc wrong?"
-        br[6,i] = n_gflop / @belapsed ifgemv!($x, $A, $y)
+        br[7,i] = n_gflop / @belapsed ifgemv!($x, $A, $y)
+        @assert x ≈ xblas "ifort wrong?"
+        br[8,i] = n_gflop / @belapsed ifgemv_builtin!($x, $A, $y)
+        @assert x ≈ xblas "ifort wrong?"
+        br[9,i] = n_gflop / @belapsed jgemvavx!($x, $A, $y)
+        @assert x ≈ xblas "LoopVec wrong?"
+        # if i % 10 == 0
+            # percent_complete = round(100i/ length(sizes), sigdigits = 4)
+            # @show percent_complete
+        # end
+    end
+    br
+end
+function benchmark_Atmulvb(sizes)
+    tests = [BLAS.vendor() === :mkl ? "IntelMKL" : "OpenBLAS", "Julia", "Clang-Polly", "GFortran", "GFort-intrinsic", "icc", "ifort", "ifort-intrinsic", "LoopVectorization"]
+    br = BenchmarkResult(tests, sizes)
+    for (i,s) ∈ enumerate(sizes)
+        M, N = totwotuple(s)
+        x = Vector{Float64}(undef, M); A = rand(N, M); y = rand(N);
+        n_gflop = M*N * 2e-9
+        br[1,i] = n_gflop / @belapsed mul!($x, $A', $y)
+        xblas = copy(x)
+        br[2,i] = n_gflop / @belapsed jgemv!($x, $A', $y)
+        @assert x ≈ xblas "Julia wrong?"
+        br[3,i] = n_gflop / @belapsed cgemv!($x, $A', $y)
+        @assert x ≈ xblas "Polly wrong?"
+        br[4,i] = n_gflop / @belapsed fgemv!($x, $A', $y)
+        @assert x ≈ xblas "Fort wrong?"
+        br[5,i] = n_gflop / @belapsed fgemv_builtin!($x, $A', $y)
+        @assert x ≈ xblas "Fort wrong?"
+        br[6,i] = n_gflop / @belapsed icgemv!($x, $A', $y)
+        @assert x ≈ xblas "icc wrong?"
+        br[7,i] = n_gflop / @belapsed ifgemv!($x, $A', $y)
+        @assert x ≈ xblas "ifort wrong?"
+        br[8,i] = n_gflop / @belapsed ifgemv_builtin!($x, $A', $y)
         @assert x ≈ xblas "ifort wrong?"
-        br[7,i] = n_gflop / @belapsed jgemvavx!($x, $A, $y)
+        br[9,i] = n_gflop / @belapsed jgemvavx!($x, $A', $y)
         @assert x ≈ xblas "LoopVec wrong?"
         # if i % 10 == 0
             # percent_complete = round(100i/ length(sizes), sigdigits = 4)
@@ -323,13 +384,13 @@ function benchmark_AplusAt(sizes)
         @assert B ≈ baseB "Clang wrong?"
         br[3,i] = n_gflop / @belapsed fAplusAt!($B, $A)
         @assert B ≈ baseB "Fort wrong?"
-        br[4,i] = n_gflop / @belapsed fAplusAtbuiltin!($B, $A)
+        br[4,i] = n_gflop / @belapsed fAplusAt_builtin!($B, $A)
         @assert B ≈ baseB "Fort-builtin wrong?"
         br[5,i] = n_gflop / @belapsed icAplusAt!($B, $A)
         @assert B ≈ baseB "icc wrong?"
         br[6,i] = n_gflop / @belapsed ifAplusAt!($B, $A)
         @assert B ≈ baseB "ifort wrong?"
-        br[7,i] = n_gflop / @belapsed ifAplusAtbuiltin!($B, $A)
+        br[7,i] = n_gflop / @belapsed ifAplusAt_builtin!($B, $A)
         @assert B ≈ baseB "ifort-builtin wrong?"
         br[8,i] = n_gflop / @belapsed @avx @. $B = $A + $A'
         @assert B ≈ baseB "LoopVec wrong?"
diff --git a/benchmark/driver.jl b/benchmark/driver.jl
@@ -10,7 +10,7 @@ include(joinpath(LOOPVECBENCHDIR, "plotbenchmarks.jl"))
 
 using Distributed
 
-addprocs(11);
+addprocs(13);
 
 @everywhere begin
     pkgdir(pkg::String) = abspath(joinpath(dirname(Base.find_package(pkg)), ".."))
@@ -30,6 +30,8 @@ exp_future = @spawnat 9 benchmark_exp(2:256);
 aplusBc_future = @spawnat 10 benchmark_aplusBc(2:256);
 AplusAt_future = @spawnat 11 benchmark_AplusAt(2:256);
 randomaccess_future = @spawnat 12 benchmark_random_access(2:256);
+AmulBt_future = @spawnat 13 benchmark_AmulBt(2:256);
+Atmulvb_future = @spawnat 14 benchmark_Atmulvb(2:256);
 
 dot_bench = fetch(dot_future)
 selfdot_bench = fetch(selfdot_future)
@@ -42,9 +44,10 @@ exp_bench = fetch(exp_future)
 aplusBc_bench = fetch(aplusBc_future)
 gemm_bench = fetch(gemm_future)
 AtmulB_bench = fetch(AtmulB_future)
+AmulBt_bench = fetch(AmulBt_future)
+Atmulvb_bench = fetch(Atmulvb_future)
 
-
-v = 1
+v = 2
 const PICTURES = "/home/chriselrod/Pictures"
 save(joinpath(PICTURES, "bench_gemm_v$v.png"), plot(gemm_bench));
 save(joinpath(PICTURES, "bench_AtmulB_v$v.png"), plot(AtmulB_bench));
@@ -57,7 +60,8 @@ save(joinpath(PICTURES, "bench_exp_v$v.png"), plot(exp_bench));
 save(joinpath(PICTURES, "bench_aplusBc_v$v.png"), plot(aplusBc_bench));
 save(joinpath(PICTURES, "bench_AplusAt_v$v.png"), plot(AplusAt_bench));
 save(joinpath(PICTURES, "bench_random_access_v$v.png"), plot(randomaccess_bench));
-
+save(joinpath(PICTURES, "bench_AmulBt_v$b.png"), plot(AmulBt_bench));
+save(joinpath(PICTURES, "bench_Atmulvb_v$v.png"), plot(Atmulvb_bench));
 
 plot(gemm_bench)
 plot(AtmulB_bench)
diff --git a/benchmark/loadsharedlibs.jl b/benchmark/loadsharedlibs.jl
@@ -81,7 +81,30 @@ for (prefix,Cshared,Fshared) ∈ ((Symbol(""),LIBCTEST,LIBFTEST), (:i,LIBICTEST,
             C, parent(A), B, Ref(M), Ref(K), Ref(N)
         )
     end
-
+    @eval @inline function $(Symbol(prefix,:cgemm!))(C, A, B::Adjoint)
+        M, N = size(C); K = size(B, 1)
+        ccall(
+            (:AmulBt, $Cshared), Cvoid,
+            (Ptr{Float64}, Ptr{Float64}, Ptr{Float64}, Clong, Clong, Clong),
+            C, A, parent(B), M, K, N
+        )
+    end
+    @eval @inline function $(Symbol(prefix,:fgemm!))(C, A, B::Adjoint)
+        M, N = size(C); K = size(B, 1)
+        ccall(
+            (:AmulBt, $Fshared), Cvoid,
+            (Ptr{Float64}, Ptr{Float64}, Ptr{Float64}, Ref{Clong}, Ref{Clong}, Ref{Clong}),
+            C, A, parent(B), Ref(M), Ref(K), Ref(N)
+        )
+    end
+    @eval @inline function $(Symbol(prefix,:fgemm_builtin!))(C, A, B::Adjoint)
+        M, N = size(C); K = size(B, 1)
+        ccall(
+            (:AmulBtbuiltin, $Fshared), Cvoid,
+            (Ptr{Float64}, Ptr{Float64}, Ptr{Float64}, Ref{Clong}, Ref{Clong}, Ref{Clong}),
+            C, A, parent(B), Ref(M), Ref(K), Ref(N)
+        )
+    end
     @eval function $(Symbol(prefix,:cdot))(a, b)
         N = length(a)
         ccall(
@@ -161,6 +184,30 @@ for (prefix,Cshared,Fshared) ∈ ((Symbol(""),LIBCTEST,LIBFTEST), (:i,LIBICTEST,
             y, A, x, Ref(M), Ref(K)
         )
     end
+    @eval @inline function $(Symbol(prefix,:cgemv!))(y, A::Adjoint, x)
+        M, K = size(A)
+        ccall(
+            (:Atmulvb, $Cshared), Cvoid,
+            (Ptr{Float64}, Ptr{Float64}, Ptr{Float64}, Clong, Clong),
+            y, parent(A), x, M, K
+        )
+    end
+    @eval @inline function $(Symbol(prefix,:fgemv!))(y, A::Adjoint, x)
+        M, K = size(A)
+        ccall(
+            (:Atmulvb, $Fshared), Cvoid,
+            (Ptr{Float64}, Ptr{Float64}, Ptr{Float64}, Ref{Clong}, Ref{Clong}),
+            y, parent(A), x, Ref(M), Ref(K)
+        )
+    end
+    @eval function $(Symbol(prefix,:fgemv_builtin!))(y, A::Adjoint, x)
+        M, K = size(A)
+        ccall(
+            (:Atmulvbbuiltin, $Fshared), Cvoid,
+            (Ptr{Float64}, Ptr{Float64}, Ptr{Float64}, Ref{Clong}, Ref{Clong}),
+            y, parent(A), x, Ref(M), Ref(K)
+        )
+    end
 
     @eval function $(Symbol(prefix,:caplusBc!))(D, a, B, c)
         M, K = size(B)
@@ -231,7 +278,7 @@ for (prefix,Cshared,Fshared) ∈ ((Symbol(""),LIBCTEST,LIBFTEST), (:i,LIBICTEST,
             B, A, Ref(N)
         )
     end
-    @eval function $(Symbol(prefix,:fAplusAtbuiltin!))(B, A)
+    @eval function $(Symbol(prefix,:fAplusAt_builtin!))(B, A)
         N = size(B,1)
         ccall(
             (:AplusAtbuiltin, $Fshared), Cvoid,
diff --git a/benchmark/looptests.c b/benchmark/looptests.c
@@ -91,6 +91,19 @@ void AtmulB(double* restrict C, double* restrict At, double* restrict B, long M,
   }
   return;
 }
+void AmulBt(double* restrict C, double* restrict A, double* restrict Bt, long M, long K, long N){
+  for (long i = 0; i < M*N; i++){
+    C[i] = 0.0;
+  }
+  for (long k = 0; k < K; k++){
+    for (long n = 0; n < N; n++){
+      for (long m = 0; m < M; m++){
+	C[m + n*M] += A[m + M*k] * Bt[n + N*k];
+      }
+    }
+  }
+  return;
+}
 double dot(double* restrict a, double* restrict b, long N){
   double s = 0.0;
   for (long n = 0; n < N; n++){
@@ -125,6 +138,17 @@ void gemv(double* restrict y, double* restrict  A, double* restrict x, long M, l
   }
   return;
 }
+void Atmulvb(double* restrict y, double* restrict  A, double* restrict x, long M, long K){
+  for (long m = 0; m < M; m++){
+    y[m] = 0.0;
+  }
+  for (long m = 0; m < M; m++){
+    for (long k = 0; k < K; k++){
+      y[m] += A[k + m*K] * x[k]; 
+    }
+  }
+  return;
+}
 double svexp(double* restrict a, long N){
   double s = 0.0;
   for (long n = 0; n < N; n++){
diff --git a/benchmark/looptests.f90 b/benchmark/looptests.f90
@@ -123,9 +123,30 @@ subroutine AtmulBbuiltin(C, A, B, M, K, N) BIND(C, name="AtmulBbuiltin")
       real(C_double), dimension(M, N), intent(out) :: C
       real(C_double), dimension(K, M), intent(in) :: A
       real(C_double), dimension(K, N), intent(in) :: B
-      integer(C_long) :: mm, kk, nn
       C = matmul(transpose(A), B)
     end subroutine AtmulBbuiltin
+    subroutine AmulBt(C, A, B, M, K, N) BIND(C, name="AmulBt")
+      integer(C_long), intent(in) :: M, K, N
+      real(C_double), dimension(M, N), intent(out) :: C
+      real(C_double), dimension(M, K), intent(in) :: A
+      real(C_double), dimension(N, K), intent(in) :: B
+      integer(C_long) :: mm, kk, nn
+      C = 0.0
+      do concurrent(kk = 1:K)
+         do concurrent(nn = 1:N)
+            do concurrent(mm = 1:M)
+               C(mm,nn) = C(mm,nn) + A(mm,kk) * B(nn,kk)
+            end do
+         end do
+      end do
+    end subroutine AmulBt
+    subroutine AmulBtbuiltin(C, A, B, M, K, N) BIND(C, name="AmulBtbuiltin")
+      integer(C_long), intent(in) :: M, K, N
+      real(C_double), dimension(M, N), intent(out) :: C
+      real(C_double), dimension(M, K), intent(in) :: A
+      real(C_double), dimension(N, K), intent(in) :: B
+      C = matmul(A, transpose(B))
+    end subroutine AmulBtbuiltin
     subroutine dot(s, a, b, N) BIND(C, name="dot")
       integer(C_long), intent(in) :: N
       real(C_double), dimension(N), intent(in) :: a, b
@@ -189,13 +210,30 @@ subroutine gemv(y, A, x, M, K) BIND(C, name="gemv")
          end do
       end do
     end subroutine gemv
-    subroutine gemvbuiltin(y, A, x, M, K) BIND(C, name="gemv_builtin")
+    subroutine gemvbuiltin(y, A, x, M, K) BIND(C, name="gemvbuiltin")
       integer(C_long), intent(in) :: M, K
       real(C_double), intent(in) :: A(M,K), x(K)
       real(C_double), dimension(M), intent(out) :: y
-      integer(C_long) :: mm, kk
       y = matmul(A, x)
     end subroutine gemvbuiltin
+    subroutine Atmulvb(y, A, x, M, K) BIND(C, name="Atmulvb")
+      integer(C_long), intent(in) :: M, K
+      real(C_double), intent(in) :: A(K,M), x(K)
+      real(C_double), dimension(M), intent(out) :: y
+      integer(C_long) :: mm, kk
+      y = 0.0
+      do concurrent(mm = 1:M)
+         do concurrent(kk = 1:K)
+            y(mm) = y(mm) + A(kk,mm) * x(kk)
+         end do
+      end do
+    end subroutine Atmulvb
+    subroutine Atmulvbbuiltin(y, A, x, M, K) BIND(C, name="Atmulvbbuiltin")
+      integer(C_long), intent(in) :: M, K
+      real(C_double), intent(in) :: A(K,M), x(K)
+      real(C_double), dimension(M), intent(out) :: y
+      y = matmul(transpose(A), x)
+    end subroutine Atmulvbbuiltin
     subroutine unscaledvar(s, A, x, M, N) BIND(C, name="unscaledvar")
       integer(C_long), intent(in) :: M, N
       real(C_double), intent(in) :: A(M,N), x(M)
diff --git a/benchmark/looptests.jl b/benchmark/looptests.jl
diff --git a/benchmark/plotbenchmarks.jl b/benchmark/plotbenchmarks.jl