Line: 1 to 1 | ||||||||
---|---|---|---|---|---|---|---|---|
Brevi istruzioni cluster tnt (nato nel 2020 con i fondi PRIN CO-NEST) | ||||||||
Line: 75 to 75 | ||||||||
le righe mkdir e cd vanno modificate con un nome di directory specifico (temporaneo) per quella simulazione (per evitare che diverse simulazioni scrivano sulle stesse directory); l'eseguibile ovviamente lo scegliete voi; le righe finali ("mv ....") vanno personalizzate con molta attenzione: e' vostra cura spostare tutto quello che e' stato prodotto dalla simulazioni e che ritenete necessario conservare dalla dir dove ha girato alla home, in una directory apposita (vostra cura evitare di sovrascrivere altri vostri dati); è anche importante cancellare la directory temporanea dove ha girato la simulazione: facendo in questo modo tutto quel che non viene spostato (con i comandi "mv...") viene perso; ovviamente potete anche non mettere questi comandi alla fine, ma questo significa accumulare dati nei dischi dei nodi rischiando di finire lo spazio (nei nodi lo spazio e' molto minore); gli amministratori periodicamente libereranno spazio nei dischi dei nodi | ||||||||
Added: | ||||||||
> > | GUIDA VELOCE DEI COMANDI DI SLURM: https://slurm.schedmd.com/pdfs/summary.pdf![]() | |||||||
ALTRA DOCUMENTAZIONE PER IL SISTEMA DI CODE: il sistema di code si chiama "slurm" ed e' molto ben documentato (ed e' pieno di opzioni), si veda https://slurm.schedmd.com/documentation.html![]() ![]() | ||||||||
Line: 85 to 87 | ||||||||
ACCEDERE AI FILE SUI NODI LOCALI: durante l'esecuzione, ogni utente puo' vedere i file che vengono generati durante la simulazione controllando (tramite comando squeue) quale nodo N sta runnando il processo che vi interessa e poi andando su /mnt/ssd_nodeN/nomeutente | ||||||||
Added: | ||||||||
> > | RIPRISTINO DEI NODI DOPO CAMBIO STRUTTURA: 1) aggiornare /etc/slurm/slurm.conf 2) copiarlo su tutti i nodi (tutti!) ssh -p /etc/slurm/slurm.conf node1:/etc/slurm/slurm.conf … 3) riavviare i demoni sui nodi (tutti!) ssh node1 systemctl restart slurmd …. 4) riavviare il demone di controllo in locale systemctl restart slurmctld 5) rimettere in up tutti i nodi (tutti!) (perchè di default il sistema torna allo status precedente che era down) scontrol update NodeName=node1 State=RESUME … .. 6) controllare che non ci sia niente down sinfo —a | |||||||
-- ![]() |