障害のシナリオに応じて、回復作業には計画されたいくつかの修正対策を実行することが含まれます。
障害をともなうエンタープライズ サーバー クラスターの回復には、一般的に次の作業が含まれます。
- できる限り早く復旧する必要があるネットワーク接続のトラブルシューティング。接続が disabled としてマークされる前に行うのが理想的です。
- 後で障害を分析するための情報の収集。
- エンタープライズ サーバー クラスター クライアントが保持しているロックの解放。
- データベースの復元。
どの回復プロセスでも、その主な目的は業務の中断を最小限にすることです。クラスター障害に対する周到な準備によって、中断を最小限にできます。
- 想定される障害シナリオを特定し、それに対して準備します。
- 準備作業を文書化し、システム管理者および/またはオペレータが障害発生時に必要な作業を適切に理解していることで、中断期間を最短に抑えることができます。
回復シナリオ
エンタープライズ サーバー クラスター障害には、主な原因が 2 つあります。
- グローバル ロック マネージャー (GLM) への永続的な接続障害。
- 壊滅的な GLM 障害 - ディスクの故障、メモリ破損、リソース不足などによって起こります。
注:
システムは、非永続的な接続障害に対して、環境変数 ES_GLM_TIMEOUT で指定された期間は接続ステータスが維持されます。接続障害の期間がこの変数で設定された期間を過ぎると、クラスター クライアントと GLM の間に定義された接続のステータスが disabled とマークされます。
この時点から、グローバル ロックを要求してもすべて失敗し、JCL ジョブ ログに次のメッセージが表示されます。
JCLCM2000E Unable to acquire global lock for job JRX0033. JCLCM0181S JOB ABENDED - COND CODE S922
GLM に再接続すると、その直後に接続のステータスは enabled にリセットされます。