サーバ死活監視を導入したら即、役に立った話

先日書いた自宅のネットワークとサーバの構成の投稿の最後に、
PRTGのフリー版を各種サーバ・PCの死活監視に導入した
ということを書きました。

その時は、
「言うてもそうそうサーバもPCも変にならんだろう」
と高をくくっていたのですが、サーバ群の配置・配線を少し変えるために一旦、Proxmoxが入っているPC3台とも、全てのノードを停止して電源を落としたのですが、
配置・配線を変えてから再起動させると、メインPCのブラウザでProxmoxが表示されません。

壊れるにしても3台まとめてハードウェア的あるいはソフトウェア的に壊れるわけもないと思い、早速導入したばかりのPRTGを見てみると、3台ともPingは通っていることが分かりました。これにより、ネットワークが途切れているわけではない(ケーブル破損やIPアドレスのもんだいではない)と判明。

PCが起動したら勝手にProxmoxも起動して、ノードも自動起動するはずなのに?とハテナマークを抱えながら、サブモニターとPCをHDMIケーブルでつないでみると、クラスター構成の3台(pve、pve2、pve3)のうち、pve3は起動していました。

今度はpve2をモニターで見てみると、USB接続SSDやHDDが自動でマウント出来ないエラーにより、Proxmoxが起動できずに止まっていました。

nano /etc/fstab

でマウントしている行に # を付けてコメントアウトして保存、再起動すると無事、Proxmoxが自動で起動しました。

オプションで「ブート時に起動」するようにしていたLXCコンテナやVMも、当然ながら自動で起動していますが、一時的にマウントされなくなっているUSB接続のストレージも、改めてマウントして設定し直し。

ちなみに、VMやLXCコンテナでマウントする場合、USBパススルーでProxmoxホストを飛ばして各ノードでマウントさせる方法と、ホストでマウントしてから各ノードで共有する方法があります。汎用性があってスマートなのは後者なのでしょうけれど、素人のLinux・サーバユーザにとっては、USBパススルーを利用して、1台のストレージを1個のノードに紐付ける方が手っ取り早くて簡単ですね。

ともかく、サーバの死活監視って個人レベルでも役に立つことがあるのですね。早速そのメリットを実感した次第です。

コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です