メインコンテンツに移動

失敗編


管理サーバー失敗編

とりま起動してみる.

systemctl start slurmctld

おちたー

h225.229.249.10.1016485.vlan.kuins.net slurmctld[32705]: error: RealMemory value (4GB) is not a valid number

ひでえや4GBってダメなんだ.単位を入れてはならねえのか.では単位はなんだ?不明だ.マニュアルにも書いてないし,どこのWebサイトでも明らかにしていない.1に設定している猛者も多いな.slurm.conf を訂正してかんがえる.おちたー

slurmctld.service: Main process exited, code=exited, status=1/FAILURE

今度は不親切だな.

/usr/local/sbin/slurmctld -L BOKE

ん?BOKEになんか書いたぞ.

[2019-12-10T11:55:24.961] fatal: Incorrect permissions on state save loc: /var/spool

/var/spoolのパーミッションが嫌いなのね・・・そう思うならsystemdにいいやがれ.

# ls -ld /var/spool
drwxr-xr-x. 11 root root 123 12月 10 10:52 /var/spool

あーまーそりゃー書けねえわな,おまい  UID slurm だから.どうしようか.グループは0にでもしとく? ありゃまあFreeIPAはGID=0を許容しないのね.危ないもんなあ.では/etc/groupに書いちまえ.きかねえな.どうしよう.それにしても, /var/spool/slurmd にslurmの持ちモノ準備しているのに,こいつは, /var/spool に何の用があるのだ.アホやな.まあええけどさ.ん?これか

StateSaveLocation=/var/spool

なんですかこれ.

Slurmdさんは,ジョブとかノードの状態とかをですね,かんりするんですう.でね,バックアップコントローラ,ってのもあってね,メインが落ちたら入れ替わるの.(ここで,筆者の脳内が「バックアップがなくても」,という話に切り替わったと想定)メインコントローラはね,状態が変わったら StateSaveLocation フォルダーに状態を書き出すの(おい・・・ということはそこはSSDとかなのか?まあうちじゃジョブ数は数十だからいいけどな),落ちても再起動するときにはそこを読むのね.

なるほど.普段使いの,(できれば速げな)ディスクってわけですね.これもなんか用意してあげよう.

このデフォルトのフォルダー構成,なかなかに糞匂っているよなあ.基本的にはspoolって, オリジナル的にはキャッシュだし再起動したら消えても文句を言えない感のある名称だけど(消えないけどな,そりゃな).ではこうする

StateSaveLocation=/var/slurmd

こんどはなんだ.

[2019-12-10T12:24:33.944] error: Configured MailProg is invalid

メールだって?お前らいつメールの説明をした?!まあええわ.探す.これな.コメントアウトされてるけど

#MailProg=/bin/mail

あーまー,OS入れる時サーバーっつったからインストールされてねえんだけどな.あることを前提にするなクソが.てゆうかチェックしろよ.せめてDocumentにかけよ.まあ入れるから待っとけ

ううん,このソフト,ドキュメントに知能が足りないのだが,大丈夫なのか?まあ動いたら良いんだけど

こんどはなんだ.

error: This host (h225/h225.229.249.10.1016485.vlan.kuins.net) not a valid controller

なぜnot a validなのか言ってくれねえと大変困るのだが,Google殿下はよく知っておられるようだ.このひと,ほとんど俺と同じ経路をたどっているぞwww もっとも,この人の方は真面目で2台サーバー作っているみたいだけど

That is because your configuration only lists node0 as the host. You can only have one slurmctld running at a time, so you can either define node1 as a backuphost or not bother trying to start slurmctld on it.

面白いバグだよな.ううん.