This page looks best with JavaScript enabled

システム障害の調査手順

 ·  ☕ 1 min read

概要

システム障害が発生すると、感情が揺さぶられてしまい、場当たり的な調査手順で右往左往してしまいがち。
そのため、冷静に調査を進められるよう対応手順を用意しておく。

注意すべき姿勢として、システムは複数のシステムからなることから、漠然として感覚で対応開始すると時間を浪費する。
そのため、調査時の行動一つ一つに対し行動理由を付して、障害対応に臨む。

手順

基本

  1. 報告者からヒアリング
    • 具体的にどのような操作と手順で発生したか
    • 可能なら、発生時の画面キャプチャが欲しい
  2. 自分の手元で障害を再現
    • 再現可能であることを確認
      • サービス仕様の可能性が存在する
      • もし期待される仕様でない場合、修正の方向で報告者に打診
  3. エラー画面の調査
    • エラー文で判明する可能性あり
  4. ログの調査
    • アクセスログ等で再現条件の詳細が判明する可能性あり

障害発生した箇所はどこ?

  • Rails 等のアプリケーション?
  • nginx 等のミドルウェア?
  • 外部API 等のサードパーティ?
  • ブラウザ等のクライアント?
Share on

Masayuki Onishi
WRITTEN BY
Masayuki Onishi
Web Developer