管理サーバー失敗編
とりま起動してみる.
systemctl start slurmctld
おちたー
h225.229.249.10.1016485.vlan.kuins.net slurmctld[32705]: error: RealMemory value (4GB) is not a valid number
ひでえや4GBってダメなんだ.単位を入れてはならねえのか.では単位はなんだ?不明だ.マニュアルにも書いてないし,どこのWebサイトでも明らかにしていない.1に設定している猛者も多いな.slurm.conf を訂正してかんがえる.おちたー
slurmctld.service: Main process exited, code=exited, status=1/FAILURE
今度は不親切だな.
/usr/local/sbin/slurmctld -L BOKE
ん?BOKEになんか書いたぞ.
[2019-12-10T11:55:24.961] fatal: Incorrect permissions on state save loc: /var/spool
/var/spoolのパーミッションが嫌いなのね・・・そう思うならsystemdにいいやがれ.
# ls -ld /var/spool
drwxr-xr-x. 11 root root 123 12月 10 10:52 /var/spool
あーまーそりゃー書けねえわな,おまい UID slurm だから.どうしようか.グループは0にでもしとく? ありゃまあFreeIPAはGID=0を許容しないのね.危ないもんなあ.では/etc/groupに書いちまえ.きかねえな.どうしよう.それにしても, /var/spool/slurmd にslurmの持ちモノ準備しているのに,こいつは, /var/spool に何の用があるのだ.アホやな.まあええけどさ.ん?これか
StateSaveLocation=/var/spool
なんですかこれ.
Slurmdさんは,ジョブとかノードの状態とかをですね,かんりするんですう.でね,バックアップコントローラ,ってのもあってね,メインが落ちたら入れ替わるの.(ここで,筆者の脳内が「バックアップがなくても」,という話に切り替わったと想定)メインコントローラはね,状態が変わったら StateSaveLocation フォルダーに状態を書き出すの(おい・・・ということはそこはSSDとかなのか?まあうちじゃジョブ数は数十だからいいけどな),落ちても再起動するときにはそこを読むのね.
なるほど.普段使いの,(できれば速げな)ディスクってわけですね.これもなんか用意してあげよう.
このデフォルトのフォルダー構成,なかなかに糞匂っているよなあ.基本的にはspoolって, オリジナル的にはキャッシュだし再起動したら消えても文句を言えない感のある名称だけど(消えないけどな,そりゃな).ではこうする
StateSaveLocation=/var/slurmd
こんどはなんだ.
[2019-12-10T12:24:33.944] error: Configured MailProg is invalid
メールだって?お前らいつメールの説明をした?!まあええわ.探す.これな.コメントアウトされてるけど
#MailProg=/bin/mail
あーまー,OS入れる時サーバーっつったからインストールされてねえんだけどな.あることを前提にするなクソが.てゆうかチェックしろよ.せめてDocumentにかけよ.まあ入れるから待っとけ
ううん,このソフト,ドキュメントに知能が足りないのだが,大丈夫なのか?まあ動いたら良いんだけど
こんどはなんだ.
error: This host (h225/h225.229.249.10.1016485.vlan.kuins.net) not a valid controller
なぜnot a validなのか言ってくれねえと大変困るのだが,Google殿下はよく知っておられるようだ.このひと,ほとんど俺と同じ経路をたどっているぞwww もっとも,この人の方は真面目で2台サーバー作っているみたいだけど
That is because your configuration only lists node0 as the host. You can only have one slurmctld running at a time, so you can either define node1 as a backuphost or not bother trying to start slurmctld on it.
面白いバグだよな.ううん.