intel-xeon-phi.anselm.md

$ qsub -I -q qmic -A NONE-0-0
$ ml intel
$ /usr/bin/micinfo
MicInfo Utility Log
Created Wed Sep 13 13:44:14 2017


        System Info
                HOST OS                 : Linux
                OS Version              : 2.6.32-696.3.2.el6.Bull.120.x86_64
                Driver Version          : 3.4.9-1
                MPSS Version            : 3.4.9
                Host Physical Memory    : 98836 MB

Device No: 0, Device Name: mic0

        Version
                Flash Version            : 2.1.02.0391
                SMC Firmware Version     : 1.17.6900
                SMC Boot Loader Version  : 1.8.4326
                uOS Version              : 2.6.38.8+mpss3.4.9
                Device Serial Number     : ADKC30102489

        Board
                Vendor ID                : 0x8086
                Device ID                : 0x2250
                Subsystem ID             : 0x2500
                Coprocessor Stepping ID  : 3
                PCIe Width               : x16
                PCIe Speed               : 5 GT/s
                PCIe Max payload size    : 256 bytes
                PCIe Max read req size   : 512 bytes
                Coprocessor Model        : 0x01
                Coprocessor Model Ext    : 0x00
                Coprocessor Type         : 0x00
                Coprocessor Family       : 0x0b
                Coprocessor Family Ext   : 0x00
                Coprocessor Stepping     : B1
                Board SKU                : B1PRQ-5110P/5120D
                ECC Mode                 : Enabled
                SMC HW Revision          : Product 225W Passive CS

        Cores
                Total No of Active Cores : 60
                Voltage                  : 1009000 uV
                Frequency                : 1052631 kHz

        Thermal
                Fan Speed Control        : N/A
                Fan RPM                  : N/A
                Fan PWM                  : N/A
                Die Temp                 : 53 C

        GDDR
                GDDR Vendor              : Elpida
                GDDR Version             : 0x1
                GDDR Density             : 2048 Mb
                GDDR Size                : 7936 MB
                GDDR Technology          : GDDR5
                GDDR Speed               : 5.000000 GT/s
                GDDR Frequency           : 2500000 kHz
                GDDR Voltage             : 1501000 uV
$ qsub -I -q qmic -A NONE-0-0
$ ml intel
export OFFLOAD_REPORT=3
$ vim source-offload.cpp

#include <iostream>

int main(int argc, char* argv[])
{
    const int niter = 100000;
    double result = 0;

 #pragma offload target(mic)
    for (int i = 0; i < niter; ++i) {
        const double t = (i + 0.5) / niter;
        result += 4.0 / (t * t + 1.0);
    }
    result /= niter;
    std::cout << "Pi ~ " << result << 'n';
}
$ icc source-offload.cpp -o bin-offload
$ ./bin-offload
$ vim ./vect-add

#include <stdio.h>

typedef int T;

#define SIZE 1000

#pragma offload_attribute(push, target(mic))
T in1[SIZE];
T in2[SIZE];
T res[SIZE];
#pragma offload_attribute(pop)

// MIC function to add two vectors
__attribute__((target(mic))) add_mic(T *a, T *b, T *c, int size) {
  int i = 0;
  #pragma omp parallel for
    for (i = 0; i < size; i++)
      c[i] = a[i] + b[i];
}

// CPU function to add two vectors
void add_cpu (T *a, T *b, T *c, int size) {
  int i;
  for (i = 0; i < size; i++)
    c[i] = a[i] + b[i];
}

// CPU function to generate a vector of random numbers
void random_T (T *a, int size) {
  int i;
  for (i = 0; i < size; i++)
    a[i] = rand() % 10000; // random number between 0 and 9999
}

// CPU function to compare two vectors
int compare(T *a, T *b, T size ){
  int pass = 0;
  int i;
  for (i = 0; i < size; i++){
    if (a[i] != b[i]) {
      printf("Value mismatch at location %d, values %d and %dn",i, a[i], b[i]);
      pass = 1;
    }
  }
  if (pass == 0) printf ("Test passedn"); else printf ("Test Failedn");
  return pass;
}

int main()
{
  int i;
  random_T(in1, SIZE);
  random_T(in2, SIZE);

  #pragma offload target(mic) in(in1,in2)  inout(res)
  {

    // Parallel loop from main function
    #pragma omp parallel for
    for (i=0; i<SIZE; i++)
      res[i] = in1[i] + in2[i];

    // or parallel loop is called inside the function
    add_mic(in1, in2, res, SIZE);

  }

  //Check the results with CPU implementation
  T res_cpu[SIZE];
  add_cpu(in1, in2, res_cpu, SIZE);
  compare(res, res_cpu, SIZE);

}
$ icc vect-add.c -openmp_report2 -vec-report2 -o vect-add
$ ./vect-add
openmp_report[0|1|2] - controls the compiler based vectorization diagnostic level
vec-report[0|1|2] - controls the OpenMP parallelizer diagnostic level

Performance ooptimization
xhost - FOR HOST ONLY - to generate AVX (Advanced Vector Extensions) instructions.
    mkl_mic_enable();
$ export MKL_MIC_ENABLE=1
$ qsub -I -q qmic -A OPEN-0-0 -l select=1:ncpus=16
$ module load intel
$ vim sgemm-ao-short.c

#include <stdio.h>
#include <stdlib.h>
#include <malloc.h>
#include <stdint.h>

#include "mkl.h"

int main(int argc, char **argv)
{
    float *A, *B, *C; /* Matrices */

    MKL_INT N = 2560; /* Matrix dimensions */
    MKL_INT LD = N; /* Leading dimension */
    int matrix_bytes; /* Matrix size in bytes */
    int matrix_elements; /* Matrix size in elements */

    float alpha = 1.0, beta = 1.0; /* Scaling factors */
    char transa = 'N', transb = 'N'; /* Transposition options */

    int i, j; /* Counters */

    matrix_elements = N * N;
    matrix_bytes = sizeof(float) * matrix_elements;

    /* Allocate the matrices */
    A = malloc(matrix_bytes); B = malloc(matrix_bytes); C = malloc(matrix_bytes);

    /* Initialize the matrices */
    for (i = 0; i < matrix_elements; i++) {
            A[i] = 1.0; B[i] = 2.0; C[i] = 0.0;
    }

    printf("Computing SGEMM on the hostn");
    sgemm(&transa, &transb, &N, &N, &N, &alpha, A, &N, B, &N, &beta, C, &N);

    printf("Enabling Automatic Offloadn");
    /* Alternatively, set environment variable MKL_MIC_ENABLE=1 */
    mkl_mic_enable();

    int ndevices = mkl_mic_get_device_count(); /* Number of MIC devices */
    printf("Automatic Offload enabled: %d MIC devices presentn",   ndevices);

    printf("Computing SGEMM with automatic workdivisionn");
    sgemm(&transa, &transb, &N, &N, &N, &alpha, A, &N, B, &N, &beta, C, &N);

    /* Free the matrix memory */
    free(A); free(B); free(C);

    printf("Donen");

    return 0;
}
$ icc -mkl sgemm-ao-short.c -o sgemm
$ export OFFLOAD_REPORT=2
    Computing SGEMM on the host
    Enabling Automatic Offload
    Automatic Offload enabled: 1 MIC devices present
    Computing SGEMM with automatic workdivision
    [MKL] [MIC --] [AO Function]    SGEMM
    [MKL] [MIC --] [AO SGEMM Workdivision]  0.00 1.00
    [MKL] [MIC 00] [AO SGEMM CPU Time]      0.463351 seconds
    [MKL] [MIC 00] [AO SGEMM MIC Time]      0.179608 seconds
    [MKL] [MIC 00] [AO SGEMM CPU->MIC Data] 52428800 bytes
    [MKL] [MIC 00] [AO SGEMM MIC->CPU Data] 26214400 bytes
    Done
$ qsub -I -q qmic -A NONE-0-0
$ ml intel
$ icc -xhost -no-offload -fopenmp vect-add.c -o vect-add-host
$ ./vect-add-host
$ icc -mmic -fopenmp vect-add.c -o vect-add-mic
$ ssh mic0
mic0 $ ~/path_to_binary/vect-add-seq-mic
mic0 $ export LD_LIBRARY_PATH=/apps/intel/composer_xe_2013.5.192/compiler/lib/mic:$LD_LIBRARY_PATH
- libiomp5.so
- libimf.so
- libsvml.so
- libirng.so
- libintlc.so.5
$ ~/path_to_binary/vect-add-mic
module load opencl-sdk opencl-rt
/apps/intel/opencl-examples/
/apps/intel/opencl-examples/CapsBasic/capsbasic
$ cp /apps/intel/opencl-examples/CapsBasic/* .
$ qsub -I -q qmic -A NONE-0-0
$ make
$ g++ capsbasic.cpp -lOpenCL -o capsbasic -I/apps/intel/opencl/include/
$ ./capsbasic

    Number of available platforms: 1
    Platform names:
        [0] Intel(R) OpenCL [Selected]
    Number of devices available for each type:
        CL_DEVICE_TYPE_CPU: 1
        CL_DEVICE_TYPE_GPU: 0
        CL_DEVICE_TYPE_ACCELERATOR: 1

    ** Detailed information for each device ***

    CL_DEVICE_TYPE_CPU[0]
        CL_DEVICE_NAME:        Intel(R) Xeon(R) CPU E5-2470 0 @ 2.30GHz
        CL_DEVICE_AVAILABLE: 1

    ...

    CL_DEVICE_TYPE_ACCELERATOR[0]
        CL_DEVICE_NAME: Intel(R) Many Integrated Core Acceleration Card
        CL_DEVICE_AVAILABLE: 1

    ...
$ cp -r /apps/intel/opencl-examples/* .
$ qsub -I -q qmic -A NONE-0-0
$ cd GEMM
$ make
$ g++ cmdoptions.cpp gemm.cpp ../common/basic.cpp ../common/cmdparser.cpp ../common/oclobject.cpp -I../common -lOpenCL -o gemm -I/apps/intel/opencl/include/
    ./gemm -d 1
    Platforms (1):
     [0] Intel(R) OpenCL [Selected]
    Devices (2):
     [0] Intel(R) Xeon(R) CPU E5-2470 0 @ 2.30GHz
     [1] Intel(R) Many Integrated Core Acceleration Card [Selected]
    Build program options: "-DT=float -DTILE_SIZE_M=1 -DTILE_GROUP_M=16 -DTILE_SIZE_N=128 -DTILE_GROUP_N=1 -DTILE_SIZE_K=8"
    Running gemm_nn kernel with matrix size: 3968x3968
    Memory row stride to ensure necessary alignment: 15872 bytes
    Size of memory region for one matrix: 62980096 bytes
    Using alpha = 0.57599 and beta = 0.872412
    ...
    Host time: 0.292953 sec.
    Host perf: 426.635 GFLOPS
    Host time: 0.293334 sec.
    Host perf: 426.081 GFLOPS
    ...
$ qsub -I -q qmic -A NONE-0-0
$ module load intel
$ mpiicc -xhost -o mpi-test mpi-test.c
```

To compile the same code for Intel Xeon Phi architecture use:

```console
$ mpiicc -mmic -o mpi-test-mic mpi-test.c
#include <stdio.h>
#include <mpi.h>

int main (argc, argv)
     int argc;
     char *argv[];
{
  int rank, size;

  int len;
  char node[MPI_MAX_PROCESSOR_NAME];

  MPI_Init (&argc, &argv);      /* starts MPI */
  MPI_Comm_rank (MPI_COMM_WORLD, &rank);        /* get current process id */
  MPI_Comm_size (MPI_COMM_WORLD, &size);        /* get number of processes */

  MPI_Get_processor_name(node,&len);

  printf( "Hello world from process %d of %d on host %s n", rank, size, node );
  MPI_Finalize();
  return 0;
}
**Coprocessor-only model** - all MPI ranks reside only on the coprocessors.

**Symmetric model** - the MPI ranks reside on both the host and the coprocessor. Most general MPI case.
$ mpirun -np 4 ./mpi-test
    Hello world from process 1 of 4 on host cn207
    Hello world from process 3 of 4 on host cn207
    Hello world from process 2 of 4 on host cn207
    Hello world from process 0 of 4 on host cn207
$ vim ~/.profile

    PS1='[u@h W]$ '
    export PATH=/usr/bin:/usr/sbin:/bin:/sbin

    #OpenMP
    export LD_LIBRARY_PATH=/apps/intel/composer_xe_2013.5.192/compiler/lib/mic:$LD_LIBRARY_PATH

    #Intel MPI
    export LD_LIBRARY_PATH=/apps/intel/impi/4.1.1.036/mic/lib/:$LD_LIBRARY_PATH
    export PATH=/apps/intel/impi/4.1.1.036/mic/bin/:$PATH
$ ssh mic0
$ ssh cn207-mic0
$ mpirun -np 4 ./mpi-test-mic
    Hello world from process 1 of 4 on host cn207-mic0
    Hello world from process 2 of 4 on host cn207-mic0
    Hello world from process 3 of 4 on host cn207-mic0
    Hello world from process 0 of 4 on host cn207-mic0
$ export I_MPI_MIC=1
$ mpiexec.hydra -genv LD_LIBRARY_PATH /apps/intel/impi/4.1.1.036/mic/lib/ -host mic0 -n 4 ~/mpi-test-mic
$ mpirun -genv LD_LIBRARY_PATH /apps/intel/impi/4.1.1.036/mic/lib/ -host mic0 -n 4 ~/mpi-test-mic
    Hello world from process 1 of 4 on host cn207-mic0
    Hello world from process 2 of 4 on host cn207-mic0
    Hello world from process 3 of 4 on host cn207-mic0
    Hello world from process 0 of 4 on host cn207-mic0
$ ssh mic0 ls /bin/pmi_proxy
      /bin/pmi_proxy
$ qsub -I -q qmic -A NONE-0-0 -l select=2:ncpus=16
$ ml intel/13.5.192 impi/4.1.1.036
$ cat $PBS_NODEFILE
    cn204.bullx
    cn205.bullx
$ export I_MPI_MIC=1
$ mpiexec.hydra -genv LD_LIBRARY_PATH /apps/intel/impi/4.1.1.036/mic/lib/
     -genv I_MPI_FABRICS_LIST tcp
     -genv I_MPI_FABRICS shm:tcp
     -genv I_MPI_TCP_NETMASK=10.1.0.0/16
     -host cn204-mic0 -n 4 ~/mpi-test-mic
    : -host cn205-mic0 -n 6 ~/mpi-test-mic
$ mpirun -genv LD_LIBRARY_PATH /apps/intel/impi/4.1.1.036/mic/lib/
     -genv I_MPI_FABRICS_LIST tcp
     -genv I_MPI_FABRICS shm:tcp
     -genv I_MPI_TCP_NETMASK=10.1.0.0/16
     -host cn204-mic0 -n 4 ~/mpi-test-mic
    : -host cn205-mic0 -n 6 ~/mpi-test-mic
    Hello world from process 0 of 10 on host cn204-mic0
    Hello world from process 1 of 10 on host cn204-mic0
    Hello world from process 2 of 10 on host cn204-mic0
    Hello world from process 3 of 10 on host cn204-mic0
    Hello world from process 4 of 10 on host cn205-mic0
    Hello world from process 5 of 10 on host cn205-mic0
    Hello world from process 6 of 10 on host cn205-mic0
    Hello world from process 7 of 10 on host cn205-mic0
    Hello world from process 8 of 10 on host cn205-mic0
    Hello world from process 9 of 10 on host cn205-mic0
$ mpiexec.hydra -genv LD_LIBRARY_PATH /apps/intel/impi/4.1.1.036/mic/lib/
     -genv I_MPI_FABRICS_LIST tcp
     -genv I_MPI_FABRICS shm:tcp
     -genv I_MPI_TCP_NETMASK=10.1.0.0/16
     -host cn204 -n 4 ~/mpi-test
    : -host cn205 -n 6 ~/mpi-test
$ mpiexec.hydra
     -genv I_MPI_FABRICS_LIST tcp
     -genv I_MPI_FABRICS shm:tcp
     -genv I_MPI_TCP_NETMASK=10.1.0.0/16
     -genv LD_LIBRARY_PATH /apps/intel/impi/4.1.1.036/mic/lib/
     -host cn205 -n 2 ~/mpi-test
    : -host cn205-mic0 -n 2 ~/mpi-test-mic
    Hello world from process 0 of 4 on host cn205
    Hello world from process 1 of 4 on host cn205
    Hello world from process 2 of 4 on host cn205-mic0
    Hello world from process 3 of 4 on host cn205-mic0
$ cat hosts_file_mix
    cn205:2
    cn205-mic0:2
    cn206:2
    cn206-mic0:2
$ export I_MPI_MIC_POSTFIX=-mic
$ mpirun
     -genv I_MPI_FABRICS shm:tcp
     -genv LD_LIBRARY_PATH /apps/intel/impi/4.1.1.036/mic/lib/
     -genv I_MPI_FABRICS_LIST tcp
     -genv I_MPI_FABRICS shm:tcp
     -genv I_MPI_TCP_NETMASK=10.1.0.0/16
     -machinefile hosts_file_mix
     ~/mpi-test
    Hello world from process 0 of 8 on host cn204
    Hello world from process 1 of 8 on host cn204
    Hello world from process 2 of 8 on host cn204-mic0
    Hello world from process 3 of 8 on host cn204-mic0
    Hello world from process 4 of 8 on host cn205
    Hello world from process 5 of 8 on host cn205
    Hello world from process 6 of 8 on host cn205-mic0
    Hello world from process 7 of 8 on host cn205-mic0
 - /lscratch/${PBS_JOBID}/nodefile-cn Hosts only node-file
 - /lscratch/${PBS_JOBID}/nodefile-mic MICs only node-file
 - /lscratch/${PBS_JOBID}/nodefile-mix Hosts and MICs node-file
 - /lscratch/${PBS_JOBID}/nodefile-cn-sn Hosts only node-file, using short names
 - /lscratch/${PBS_JOBID}/nodefile-mic-sn MICs only node-file, using short names
 - /lscratch/${PBS_JOBID}/nodefile-mix-sn Hosts and MICs node-file, using short names