システム障害の調査手順 – Home

This page looks best with JavaScript enabled

システム障害の調査手順

2021-01-08 · ☕ 1 min read

#対応手順

概要

システム障害が発生すると、感情が揺さぶられてしまい、場当たり的な調査手順で右往左往してしまいがち。
そのため、冷静に調査を進められるよう対応手順を用意しておく。

注意すべき姿勢として、システムは複数のシステムからなることから、漠然として感覚で対応開始すると時間を浪費する。
そのため、調査時の行動一つ一つに対し行動理由を付して、障害対応に臨む。

手順

基本

報告者からヒアリング
- 具体的にどのような操作と手順で発生したか
- 可能なら、発生時の画面キャプチャが欲しい
自分の手元で障害を再現
- 再現可能であることを確認
  - サービス仕様の可能性が存在する
  - もし期待される仕様でない場合、修正の方向で報告者に打診
エラー画面の調査
- エラー文で判明する可能性あり
ログの調査
- アクセスログ等で再現条件の詳細が判明する可能性あり

障害発生した箇所はどこ？

Rails 等のアプリケーション？
nginx 等のミドルウェア？
外部API 等のサードパーティ？
ブラウザ等のクライアント？

Share on

WRITTEN BY

Masayuki Onishi

Web Developer