Skip to content
Snippets Groups Projects
Commit f7efaa9f authored by Pavel Jirásek's avatar Pavel Jirásek
Browse files

merge

Merge branch 'master' of gitlab.it4i.cz:anselm-admins/anselm-docs
parents 59032164 e7bf0d06
No related branches found
No related tags found
4 merge requests!368Update prace.md to document the change from qprace to qprod as the default...,!367Update prace.md to document the change from qprace to qprod as the default...,!366Update prace.md to document the change from qprace to qprod as the default...,!303Předělání onboardovací dokumentace
...@@ -4,7 +4,7 @@ Po nastavení ACL sitari pro přístup na NFS mount anselm:/apps. Podobně jako ...@@ -4,7 +4,7 @@ Po nastavení ACL sitari pro přístup na NFS mount anselm:/apps. Podobně jako
```bash ```bash
#ověříme, kde je nfs resource #na mgmt1 ověříme, kde je nfs resource
16:06 # haadml show | grep nfs 16:06 # haadml show | grep nfs
Resource Group: nfs Resource Group: nfs
nfs-fs-nfs-shared-infodir (ocf::Bull:Filesystem): Started mgmt1 nfs-fs-nfs-shared-infodir (ocf::Bull:Filesystem): Started mgmt1
...@@ -17,4 +17,9 @@ Po nastavení ACL sitari pro přístup na NFS mount anselm:/apps. Podobně jako ...@@ -17,4 +17,9 @@ Po nastavení ACL sitari pro přístup na NFS mount anselm:/apps. Podobně jako
/usr/sbin/exportfs -r /usr/sbin/exportfs -r
``` ```
Možno i takto:
```bash
/usr/sbin/haadml show | /bin/grep nfs-nfs-server | grep `facter hostname` && /usr/sbin/exportfs -r
```
...@@ -17,7 +17,7 @@ Uzel má velký load 800. a stále se zvyšuje a po přihlášení a reboot na u ...@@ -17,7 +17,7 @@ Uzel má velký load 800. a stále se zvyšuje a po přihlášení a reboot na u
* Otočit nuceně nod: * Otočit nuceně nod:
``` ```bash
snmpRun.sh -n cn98 bladePowerOff snmpRun.sh -n cn98 bladePowerStatus snmpRun.sh -n cn98 bladePowerOn snmpRun.sh -n cn98 bladePowerOn snmpRun.sh -n cn98 bladePowerOff snmpRun.sh -n cn98 bladePowerStatus snmpRun.sh -n cn98 bladePowerOn snmpRun.sh -n cn98 bladePowerOn
``` ```
...@@ -25,21 +25,21 @@ snmpRun.sh -n cn98 bladePowerOff snmpRun.sh -n cn98 bladePowerStatus snmpRun.sh ...@@ -25,21 +25,21 @@ snmpRun.sh -n cn98 bladePowerOff snmpRun.sh -n cn98 bladePowerStatus snmpRun.sh
* Tiket Redmine Bullu * Tiket Redmine Bullu
** Zapsat do tiketu hlášení z logu nebo conmana: ** Zapsat do tiketu hlášení z logu nebo conmana:
``` ```bash
Bringing up interface ib0: ib_ipoib device ib0 does not seem to be present, delaying initialization. [FAILED] Bringing up interface ib0: ib_ipoib device ib0 does not seem to be present, delaying initialization. [FAILED]
... ibwarn: [2943] mad_rpc_open_port: can't open UMAD port ((null):0) ... ibwarn: [2943] mad_rpc_open_port: can't open UMAD port ((null):0)
``` ```bash
* Zadat text pro projevení v monitoringu: * Zadat text pro projevení v monitoringu:
Zadat vazbu na RB tiket: Zadat vazbu na RB tiket:
```bash ```bash
for node in 'nodeset -e cn[97,98]' ; do echo $node; qmgr -c 'set node '$node' comment ="''date +%Y%M%d''/hrb33/ib0 down BR#3036"' ; done for node in 'nodeset -e cn[97,98]' ; do echo $node; qmgr -c 'set node '$node' comment ="''date +%Y%M%d''/hrb33/ib0 down BR#3036"' ; done
``` ```bash
Ověření na mgmt: Ověřit co je na nodu za joby: Ověření na mgmt: Ověřit co je na nodu za joby:
``` ```bash
rspbs --get-node-jobs |grep cn98 rspbs --get-node-jobs |grep cn98
``` ```
...@@ -50,15 +50,15 @@ login2 Log Alerts Active checks of the service have been disabled - only passive ...@@ -50,15 +50,15 @@ login2 Log Alerts Active checks of the service have been disabled - only passive
* Ověření: v logu, kdo se v tu dobu přihlašoval: * Ověření: v logu, kdo se v tu dobu přihlašoval:
``` ```bash
grep -r "maw00" /var/log/ | less /var/log/secure .. login2 authpriv crit pam gdm-password: pam_succeed_if(gdm-password:auth): error retrieving information about user maw00 .. login2 authpriv err pam gdm-password: gkr-pam: error looking up user information for: maw00 grep -r "maw00" /var/log/ | less /var/log/secure .. login2 authpriv crit pam gdm-password: pam_succeed_if(gdm-password:auth): error retrieving information about user maw00 .. login2 authpriv err pam gdm-password: gkr-pam: error looking up user information for: maw00
``` ```
* Smažeme přes nagios cmd: * Smažeme přes nagios cmd:
``` ```bash
for node innodeset -e login[1,2]; do echo "[date +%s`] PROCESS_SERVICE_CHECK_RESULT;$node;Log Alerts;0;OK." > /var/spool/nagios/nagios.cmd ; done for node in `nodeset -e login[1,2]` ; do echo "[`date +%s`] PROCESS_SERVICE_CHECK_RESULT;$node;Log Alerts;0;OK." > /var/spool/nagios/nagios.cmd ; done
``` ```
## Na nodu běží výpočet, ale uživatel nemá zadanou úlohu ## Na nodu běží výpočet, ale uživatel nemá zadanou úlohu
...@@ -67,41 +67,41 @@ SERVICE ALERT: cn197;PBS node;WARNING;HARD;1;WARNING - node state(s): down, node ...@@ -67,41 +67,41 @@ SERVICE ALERT: cn197;PBS node;WARNING;HARD;1;WARNING - node state(s): down, node
Vyřadíme z produkce Vyřadíme z produkce
``` ```bash
pbsnodes -o cn197 pbsnodes -o cn197
``` ```
* Zjistíme, že na nodu stále běží výpočet, ale nic tam být nemá. Najdeme uživatele, který to spustil. * Zjistíme, že na nodu stále běží výpočet, ale nic tam být nemá. Najdeme uživatele, který to spustil.
``` ```bash
dmesg qstat -u soj0018 -x /etc/init.d/pbs status pbsnodes -l /etc/init.d/pbs restart (nepovedlo se, musíme pokilovat procesy) dmesg qstat -u soj0018 -x /etc/init.d/pbs status pbsnodes -l /etc/init.d/pbs restart (nepovedlo se, musíme pokilovat procesy)
``` ```
* Nepovedlo se, musíme pokilovat procesy * Nepovedlo se, musíme pokilovat procesy
``` ```bash
htop - F9 (pokilujme procesy uživatele) pkill -u soj0018 (kilneme uživatele) pbsnodes -l htop - F9 (pokilujme procesy uživatele) pkill -u soj0018 (kilneme uživatele) pbsnodes -l
``` ```
* Konečně otočíme * Konečně otočíme
``` ```bash
/etc/init.d/pbs restart pbsnodes -l /etc/init.d/pbs restart pbsnodes -l
``` ```
* Raději reboot * Raději reboot
``` ```bash
reboot reboot
``` ```
* Spustíme si * Spustíme si
``` ```bash
conman cn197 conman cn197
Specify that write-access to the console should be "joined". Specify that write-access to the console should be "joined".
...@@ -111,36 +111,83 @@ conman cn204 -j ...@@ -111,36 +111,83 @@ conman cn204 -j
* V druhém panelu tmuxu sledujeme * V druhém panelu tmuxu sledujeme
``` ```bash
watch pbsnodes -l watch pbsnodes -l
``` ```
* Zkontrolujeme Puppetem * Zkontrolujeme Puppetem
``` ```bash
clush -bw cn197 /home/user001/anselm-puppet.git/pp_test.sh clush -bw cn197 /home/user001/anselm-puppet.git/pp_test.sh
``` ```
* Vrátíme zpět do produkce * Vrátíme zpět do produkce
``` ```bash
pbsnodes -r cn19 pbsnodes -r cn19
``` ```
* Smažeme přes nagios cmd: * Smažeme přes nagios cmd:
``` ```bash
for node innodeset -e cn197; do echo "[date +%s`] PROCESS_SERVICE_CHECK_RESULT;$node;Log Alerts;0;OK." > /var/spool/nagios/nagios.cmd ; done for node innodeset -e cn197; do echo "[date +%s`] PROCESS_SERVICE_CHECK_RESULT;$node;Log Alerts;0;OK." > /var/spool/nagios/nagios.cmd ; done
``` ```
## Vadný disk
* Vypsání bolavých uzlů pomocí pbsnodes
```bash
[root@mgmt1 ~]# pbsnodes -l
cn17 offline,job-busy
cn18 offline
```
* Zkontrolujeme zda existuje tiket v BR.
* Přidání vazby "Odkazuje na" v tiketu RT na tiket v RB (RedMine Bull) viz [2549](https://support.it4i.cz/rt/Ticket/Display.html?id=2549#txn-66407).
* Vyřazení uzlu
```bash
pbsnodes -o cn131
```
* Přidání komentáře uzlu (probublá až do Nagiosu) pro spadlý node ale i jeho párový node:
```bash
[root@mgmt1 ~]# qmgr -c 'set node cn18 comment = "/20150213/jir13/vadny disk BR#3060"'
[root@mgmt1 ~]# qmgr -c 'set node cn17 comment = "/20150213/jir13/vadny disk cn18 BR#3060"'
```
Kontola:
```bash
pbsnodes -l
cn17 offline,job-busy /20150213/jir13/vadny disk cn18 BR#3060
cn18 offline /20150213/jir13/vadny disk BR#3060
```
* Dohledání informací o uzlu a párovém uzlu
```bash
/root/jose/admin_tools/get_node_info.sh cn131
/root/jose/admin_tools/get_node_info_v2.sh cn131
```
* Po obnově:
* Zařazení uzlu
```bash
pbsnodes -r cn131
```
* Odstranění komentáře uzlu
```bash
qmgr -c 'set node cn131 comment = ""'
```
## IB ## IB
Na akcelerovaných uzlech je z důvodu optimálního fungování Infinibandu zakázán jeden ze dvou portů IB HCA, viz.:cat /etc/rc.local Na akcelerovaných uzlech je z důvodu optimálního fungování Infinibandu zakázán jeden ze dvou portů IB HCA, viz.:cat /etc/rc.local
``` ```bash
[root@cn189 ~]# ibstat mlx4_1 CA 'mlx4_1' CA type: MT4099 Number of ports: 1 Firmware version: 2.11.500 Hardware version: 0 Node GUID: 0x08003800013a7058 System image GUID: 0x08003800013a705a Port 1: State: Down Physical state: Disabled Rate: 10 Base lid: 213 LMC: 0 SM lid: 12 Capability mask: 0x02514868 Port GUID: 0x08003800013a7059 Link layer: InfiniBand [root@cn189 ~]# ibstat mlx4_1 CA 'mlx4_1' CA type: MT4099 Number of ports: 1 Firmware version: 2.11.500 Hardware version: 0 Node GUID: 0x08003800013a7058 System image GUID: 0x08003800013a705a Port 1: State: Down Physical state: Disabled Rate: 10 Base lid: 213 LMC: 0 SM lid: 12 Capability mask: 0x02514868 Port GUID: 0x08003800013a7059 Link layer: InfiniBand
``` ```
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment