概要
システム障害が発生すると、感情が揺さぶられてしまい、場当たり的な調査手順で右往左往してしまいがち。
そのため、冷静に調査を進められるよう対応手順を用意しておく。
注意すべき姿勢として、システムは複数のシステムからなることから、漠然として感覚で対応開始すると時間を浪費する。
そのため、調査時の行動一つ一つに対し行動理由を付して、障害対応に臨む。
手順
基本
- 報告者からヒアリング
- 具体的にどのような操作と手順で発生したか
- 可能なら、発生時の画面キャプチャが欲しい
- 自分の手元で障害を再現
- 再現可能であることを確認
- サービス仕様の可能性が存在する
- もし期待される仕様でない場合、修正の方向で報告者に打診
- 再現可能であることを確認
- エラー画面の調査
- エラー文で判明する可能性あり
- ログの調査
- アクセスログ等で再現条件の詳細が判明する可能性あり
障害発生した箇所はどこ?
- Rails 等のアプリケーション?
- nginx 等のミドルウェア?
- 外部API 等のサードパーティ?
- ブラウザ等のクライアント?