タグ: クラスター

  • サーバ死活監視を導入したら即、役に立った話

    先日書いた自宅のネットワークとサーバの構成の投稿の最後に、
    PRTGのフリー版を各種サーバ・PCの死活監視に導入した
    ということを書きました。

    その時は、
    「言うてもそうそうサーバもPCも変にならんだろう」
    と高をくくっていたのですが、サーバ群の配置・配線を少し変えるために一旦、Proxmoxが入っているPC3台とも、全てのノードを停止して電源を落としたのですが、
    配置・配線を変えてから再起動させると、メインPCのブラウザでProxmoxが表示されません。

    壊れるにしても3台まとめてハードウェア的あるいはソフトウェア的に壊れるわけもないと思い、早速導入したばかりのPRTGを見てみると、3台ともPingは通っていることが分かりました。これにより、ネットワークが途切れているわけではない(ケーブル破損やIPアドレスのもんだいではない)と判明。

    PCが起動したら勝手にProxmoxも起動して、ノードも自動起動するはずなのに?とハテナマークを抱えながら、サブモニターとPCをHDMIケーブルでつないでみると、クラスター構成の3台(pve、pve2、pve3)のうち、pve3は起動していました。

    今度はpve2をモニターで見てみると、USB接続SSDやHDDが自動でマウント出来ないエラーにより、Proxmoxが起動できずに止まっていました。

    nano /etc/fstab

    でマウントしている行に # を付けてコメントアウトして保存、再起動すると無事、Proxmoxが自動で起動しました。

    オプションで「ブート時に起動」するようにしていたLXCコンテナやVMも、当然ながら自動で起動していますが、一時的にマウントされなくなっているUSB接続のストレージも、改めてマウントして設定し直し。

    ちなみに、VMやLXCコンテナでマウントする場合、USBパススルーでProxmoxホストを飛ばして各ノードでマウントさせる方法と、ホストでマウントしてから各ノードで共有する方法があります。汎用性があってスマートなのは後者なのでしょうけれど、素人のLinux・サーバユーザにとっては、USBパススルーを利用して、1台のストレージを1個のノードに紐付ける方が手っ取り早くて簡単ですね。

    ともかく、サーバの死活監視って個人レベルでも役に立つことがあるのですね。早速そのメリットを実感した次第です。