intel-xeon-phi.md

    $ qsub -I -q qmic -A NONE-0-0
    $ module load intel/13.5.192
    $ /usr/bin/micinfo
    MicInfo Utility Log

    Created Mon Jul 22 00:23:50 2013

            System Info
                    HOST OS                 : Linux
                    OS Version              : 2.6.32-279.5.2.bl6.Bull.33.x86_64
                    Driver Version          : 6720-15
                    MPSS Version            : 2.1.6720-15
                    Host Physical Memory    : 98843 MB

    Device No: 0, Device Name: mic0

            Version
                    Flash Version            : 2.1.03.0386
                    SMC Firmware Version     : 1.15.4830
                    SMC Boot Loader Version  : 1.8.4326
                    uOS Version              : 2.6.38.8-g2593b11
                    Device Serial Number     : ADKC30102482

            Board
                    Vendor ID                : 0x8086
                    Device ID                : 0x2250
                    Subsystem ID             : 0x2500
                    Coprocessor Stepping ID  : 3
                    PCIe Width               : x16
                    PCIe Speed               : 5 GT/s
                    PCIe Max payload size    : 256 bytes
                    PCIe Max read req size   : 512 bytes
                    Coprocessor Model        : 0x01
                    Coprocessor Model Ext    : 0x00
                    Coprocessor Type         : 0x00
                    Coprocessor Family       : 0x0b
                    Coprocessor Family Ext   : 0x00
                    Coprocessor Stepping     : B1
                    Board SKU                : B1PRQ-5110P/5120D
                    ECC Mode                 : Enabled
                    SMC HW Revision          : Product 225W Passive CS

            Cores
                    Total No of Active Cores : 60
                    Voltage                  : 1032000 uV
                    Frequency                : 1052631 kHz

            Thermal
                    Fan Speed Control        : N/A
                    Fan RPM                  : N/A
                    Fan PWM                  : N/A
                    Die Temp                 : 49 C

            GDDR
                    GDDR Vendor              : Elpida
                    GDDR Version             : 0x1
                    GDDR Density             : 2048 Mb
                    GDDR Size                : 7936 MB
                    GDDR Technology          : GDDR5
                    GDDR Speed               : 5.000000 GT/s
                    GDDR Frequency           : 2500000 kHz
                    GDDR Voltage             : 1501000 uV
    $ qsub -I -q qmic -A NONE-0-0
    $ module load intel/13.5.192
    export OFFLOAD_REPORT=3
    $ vim source-offload.cpp

    #include <iostream>

    int main(int argc, char* argv[])
    {
        const int niter = 100000;
        double result = 0;

     #pragma offload target(mic)
        for (int i = 0; i < niter; ++i) {
            const double t = (i + 0.5) / niter;
            result += 4.0 / (t * t + 1.0);
        }
        result /= niter;
        std::cout << "Pi ~ " << result << 'n';
    }
    $ icc source-offload.cpp -o bin-offload
    ./bin-offload
    $ vim ./vect-add

    #include <stdio.h>

    typedef int T;

    #define SIZE 1000

    #pragma offload_attribute(push, target(mic))
    T in1[SIZE];
    T in2[SIZE];
    T res[SIZE];
    #pragma offload_attribute(pop)

    // MIC function to add two vectors
    __attribute__((target(mic))) add_mic(T *a, T *b, T *c, int size) {
      int i = 0;
      #pragma omp parallel for
        for (i = 0; i < size; i++)
          c[i] = a[i] + b[i];
    }

    // CPU function to add two vectors
    void add_cpu (T *a, T *b, T *c, int size) {
      int i;
      for (i = 0; i < size; i++)
        c[i] = a[i] + b[i];
    }

    // CPU function to generate a vector of random numbers
    void random_T (T *a, int size) {
      int i;
      for (i = 0; i < size; i++)
        a[i] = rand() % 10000; // random number between 0 and 9999
    }

    // CPU function to compare two vectors
    int compare(T *a, T *b, T size ){
      int pass = 0;
      int i;
      for (i = 0; i < size; i++){
        if (a[i] != b[i]) {
          printf("Value mismatch at location %d, values %d and %dn",i, a[i], b[i]);
          pass = 1;
        }
      }
      if (pass == 0) printf ("Test passedn"); else printf ("Test Failedn");
      return pass;
    }

    int main()
    {
      int i;
      random_T(in1, SIZE);
      random_T(in2, SIZE);

      #pragma offload target(mic) in(in1,in2)  inout(res)
      {

        // Parallel loop from main function
        #pragma omp parallel for
        for (i=0; i<SIZE; i++)
          res[i] = in1[i] + in2[i];

        // or parallel loop is called inside the function
        add_mic(in1, in2, res, SIZE);

      }

      //Check the results with CPU implementation
      T res_cpu[SIZE];
      add_cpu(in1, in2, res_cpu, SIZE);
      compare(res, res_cpu, SIZE);

    }
    $ icc vect-add.c -openmp_report2 -vec-report2 -o vect-add

    $ ./vect-add
openmp_report[0|1|2] - controls the compiler based vectorization diagnostic level
vec-report[0|1|2] - controls the OpenMP parallelizer diagnostic level

Performance ooptimization
xhost - FOR HOST ONLY - to generate AVX (Advanced Vector Extensions) instructions.
    mkl_mic_enable();
    $ export MKL_MIC_ENABLE=1
    $ qsub -I -q qmic -A OPEN-0-0 -l select=1:ncpus=16
    $ module load intel
    $ vim sgemm-ao-short.c

    #include <stdio.h>
    #include <stdlib.h>
    #include <malloc.h>
    #include <stdint.h>

    #include "mkl.h"

    int main(int argc, char **argv)
    {
            float *A, *B, *C; /* Matrices */

            MKL_INT N = 2560; /* Matrix dimensions */
            MKL_INT LD = N; /* Leading dimension */
            int matrix_bytes; /* Matrix size in bytes */
            int matrix_elements; /* Matrix size in elements */

            float alpha = 1.0, beta = 1.0; /* Scaling factors */
            char transa = 'N', transb = 'N'; /* Transposition options */

            int i, j; /* Counters */

            matrix_elements = N * N;
            matrix_bytes = sizeof(float) * matrix_elements;

            /* Allocate the matrices */
            A = malloc(matrix_bytes); B = malloc(matrix_bytes); C = malloc(matrix_bytes);

            /* Initialize the matrices */
            for (i = 0; i < matrix_elements; i++) {
                    A[i] = 1.0; B[i] = 2.0; C[i] = 0.0;
            }

            printf("Computing SGEMM on the hostn");
            sgemm(&transa, &transb, &N, &N, &N, &alpha, A, &N, B, &N, &beta, C, &N);

            printf("Enabling Automatic Offloadn");
            /* Alternatively, set environment variable MKL_MIC_ENABLE=1 */
            mkl_mic_enable();

            int ndevices = mkl_mic_get_device_count(); /* Number of MIC devices */
            printf("Automatic Offload enabled: %d MIC devices presentn",   ndevices);

            printf("Computing SGEMM with automatic workdivisionn");
            sgemm(&transa, &transb, &N, &N, &N, &alpha, A, &N, B, &N, &beta, C, &N);

            /* Free the matrix memory */
            free(A); free(B); free(C);

            printf("Donen");

        return 0;
    }
    $ icc -mkl sgemm-ao-short.c -o sgemm
    $ export OFFLOAD_REPORT=2
    Computing SGEMM on the host
    Enabling Automatic Offload
    Automatic Offload enabled: 1 MIC devices present
    Computing SGEMM with automatic workdivision
    [MKL] [MIC --] [AO Function]    SGEMM
    [MKL] [MIC --] [AO SGEMM Workdivision]  0.00 1.00
    [MKL] [MIC 00] [AO SGEMM CPU Time]      0.463351 seconds
    [MKL] [MIC 00] [AO SGEMM MIC Time]      0.179608 seconds
    [MKL] [MIC 00] [AO SGEMM CPU->MIC Data] 52428800 bytes
    [MKL] [MIC 00] [AO SGEMM MIC->CPU Data] 26214400 bytes
    Done
    $ qsub -I -q qmic -A NONE-0-0

    $ module load intel/13.5.192
    $ icc -xhost -no-offload -fopenmp vect-add.c -o vect-add-host
    $ ./vect-add-host
    $ icc -mmic -fopenmp vect-add.c -o vect-add-mic
    $ ssh mic0
    mic0 $ ~/path_to_binary/vect-add-seq-mic
    mic0 $ export LD_LIBRARY_PATH=/apps/intel/composer_xe_2013.5.192/compiler/lib/mic:$LD_LIBRARY_PATH
- libiomp5.so
- libimf.so
- libsvml.so
- libirng.so
- libintlc.so.5
    $ ~/path_to_binary/vect-add-mic
    module load opencl-sdk opencl-rt
    /apps/intel/opencl-examples/
    /apps/intel/opencl-examples/CapsBasic/capsbasic
    $ cp /apps/intel/opencl-examples/CapsBasic/* .
    $ qsub -I -q qmic -A NONE-0-0
    $ make
    $ g++ capsbasic.cpp -lOpenCL -o capsbasic -I/apps/intel/opencl/include/