README.md

$ make
Usage: make [icc] target [target [target] ... ]
$ make icc omp mpi
$ make mandelbrot-real-fma-ptx-dump.x NBLOCKS=1296 NTHREADS=32 # Compile for A100
$ mpicc filename-mpi-.c -o filename.x
$ icc -qopenmp filename-omp-.c -o filename.x
$ gcc -fopenmp filename-omp-.c -o filename.x -lm
$ nvcc filename.cu -o filename.x
$ hipcc filename.cpp -o filename.x
$ mpirun -n number_of_cores ./filename.x [number_of_repetitions]
$ OMP_PROC_BIND=true ./filename-omp.x [number_of_repetitions]
$ ./filename.x [number_of_repetitions]
$ export OMP_NUM_THREADS=4      # f.x. run on 4 cores only.
$ export CUDA_VISIBLE_DEVICES=0 # f.x. run on device no. 0 only