計算ノードの障害復旧ポリシ
計算ノードで障害が発生した場合の復旧ポリシについて説明します。
計算ノードの障害
計算ノードが正常に動作していないと判断した場合に障害が発生したとして復旧対応を実施します。下記は正常に動作していないと判断する一例です。
- 計算ノードが搭載するデバイスの一部が機能していない
- 計算ノードとの通信が確立できない
計算ノードの障害復旧ポリシ
計算ノードで障害が発生したと判断した場合には下記のポリシに基づき復旧対応を実施します。
- ユーザへの事前の告知なしに該当計算ノード上のワークロード(Kubernetes Pod)を削除し、計算ノードを再起動します
- 削除されたワークロードは、再スケジューリングポリシに基づき、別の計算ノードまたは同ノードで自動的に再作成されます
- Deployment や Job などの上位リソースを使わずにユーザにより直接作成された Pod(Bare Pod)は自動的に再作成されません
- 直接 Pod リソースを作成することは避けることを推奨します
- 削除されたワークロードは、再スケジューリングポリシに基づき、別の計算ノードまたは同ノードで自動的に再作成されます
- 専有ノードの場合に再起動で復旧が見込めない場合には代替の計算ノードとの入れ替えを行います
計算ノードの障害に備えて推奨される対応
- 計算結果や生成物などの重要なデータは必ず永続ストレージに保存してください
- ワークロードがステートフルな場合は、データの永続化および復旧手順を十分に検討・準備してください