DevOps R&D Center
  • Home
    • DevOps R&D Center
  • EKS
    • Networking
      • IRSA
      • EKS API server endpoint policy
        • aws cli command
  • LOKI
    • grafana alert
    • LogQL
  • ISTIO
    • references
    • Istio 학습
  • GITLAB
    • ssh key 등록 ( n개의 계정 )
  • AWS
    • aws eks cluster kube config 등록
    • aws account protection
    • aws configure
      • configure profile 설정
  • R&D Center
    • ISTIO
      • ISTIO Documentation
        • Overview
          • What is Istio
          • Why choose Istio?
          • Sidecar or ambient?
        • Concepts
          • Traffic Management
      • 메모장
      • dev cluster ( public subnet ) traffic 조회
      • Istio Tutorial
      • 카카오페이 사례
      • 트래블 월렛 EKS 전환 여정
    • EKS
      • eks provisioning
        • alb controller, istio
        • EFS
        • loki
        • cattle-monitoring-system
        • Gitlab Kubernetes Agent 적용
        • 프로젝트 배포
        • IRSA 설정
      • Secrets Store CSI Driver
      • AWS 보안 서비스를 이용하여 안전한 컨테이너 운영환경 만들기
    • AWS
      • AWS Secrets Manager
    • Network
      • 혼자서 공부하는 네트워크
      • AWS ENI
    • IAC
      • Terraform
        • 첫번째 교육 아카이브
  • SRE
    • 장애 대응 메뉴얼
  • DevOps
    • DevOps란
Powered by GitBook
On this page

Was this helpful?

  1. SRE

장애 대응 메뉴얼

Previous첫번째 교육 아카이브NextDevOps란

Last updated 10 months ago

Was this helpful?

  1. 장애 영향도 파악

    1. 회사의 사용자 관점

  2. 장애 원인 파악

    1. Poka Yoke(Mistake proofing)

      1. 작업자의 실수로 부품을 잘못 끼운 게 원인이 아니다

  3. 재발 방지 대책 수립

    1. 장애가 날 순 있어도 동일한 장애가 재발되면 안됨

      1. 단기

        1. 지금 당장 복구 하지만 리스크 있음

      2. 중장기

        1. 비용도 크고 시간이 걸리지만 효율이 있음

https://blog.naver.com/gics17/221594892738