フェイルオーバー発生 [事例]
ずいぶん昔の話ですが。
第一報はフェイルオーバーが発生したので、業務継続の確認と原因調査を行えというもの。
こう言うと語弊がありますが、割とよくあるお話。
定番の調査方法はOSやクラスタのログ、データベースのログの採取、解析を行い、
原因を特定していきます。
動作している環境から定番の資料を送ってもらいましたがどうもちぐはぐな状態です。
必要なログがなかったり、動いているはずのモジュールが動いていなかったり。
多分資料を取ったサーバを間違ったのだろうと連絡しても、どうも間違いは無いらしい。
仕方ないのでまずもらった資料で該当すると思われる時間帯を調べると
OSのシャットダウンが発生していました。
その時間帯の状況をお聞きすると、まさにフェイルオーバーしているころだと。
よく考えました。どうもおかしいので。
引っ張っても仕方ないので結論だけ。
人力フェイルオーバーでした。
何でもOSを強制停止して、その後別筐体へストレージを結線しなおし、起動したと(!)
その後稼働しているサーバのログをもらいましたがどうやら業務自体は無事に動いているようでした。
フェイルオーバーとは言ったものの、クラスタウェアでの制御ではなく、コールドスタンバイだったようです。
このときは今でも仕方なかったと思ってはいます。
しかし、先入観に縛られず、何が起きているか環境の様子を聞くという基本を大事にする、
そんな教訓を忘れないようにする時々思い返すエピソードです。
第一報はフェイルオーバーが発生したので、業務継続の確認と原因調査を行えというもの。
こう言うと語弊がありますが、割とよくあるお話。
定番の調査方法はOSやクラスタのログ、データベースのログの採取、解析を行い、
原因を特定していきます。
動作している環境から定番の資料を送ってもらいましたがどうもちぐはぐな状態です。
必要なログがなかったり、動いているはずのモジュールが動いていなかったり。
多分資料を取ったサーバを間違ったのだろうと連絡しても、どうも間違いは無いらしい。
仕方ないのでまずもらった資料で該当すると思われる時間帯を調べると
OSのシャットダウンが発生していました。
その時間帯の状況をお聞きすると、まさにフェイルオーバーしているころだと。
よく考えました。どうもおかしいので。
引っ張っても仕方ないので結論だけ。
人力フェイルオーバーでした。
何でもOSを強制停止して、その後別筐体へストレージを結線しなおし、起動したと(!)
その後稼働しているサーバのログをもらいましたがどうやら業務自体は無事に動いているようでした。
フェイルオーバーとは言ったものの、クラスタウェアでの制御ではなく、コールドスタンバイだったようです。
このときは今でも仕方なかったと思ってはいます。
しかし、先入観に縛られず、何が起きているか環境の様子を聞くという基本を大事にする、
そんな教訓を忘れないようにする時々思い返すエピソードです。
コメント 0