이번 포스트에서는 “재해복구 훈련(DR Drill) 완벽 가이드: 체크리스트부터 시나리오 설계까지”라는 주제로 한 번 썰을 풀어보겠습니다.
IT 인프라를 운영하다 보면 “만약 지금 데이터센터가 멈추면 어떻게 하지?”라는 생각이 문득 들 때가 있습니다. 실제로 2024년 IBM Cost of a Data Breach 보고서에 따르면 데이터 침해 사고의 평균 비용이 488만 달러에 달하고, 침해를 탐지하고 수용(Containment)하는 데 평균 258일이 소요된다고 합니다. 더 무서운 건, 많은 기업들이 재해가 발생한 후에야 “다음에는 뭘 해야 하지?”를 고민한다는 점입니다.
재해복구 훈련(DR Drill)은 바로 이런 상황을 미리 연습하는 과정입니다. 소방 훈련처럼 실제 상황이 닥치기 전에 팀의 대응 능력을 점검하고, 계획의 허점을 발견하는 중요한 작업이죠. 이 글에서는 DR 훈련을 어떻게 준비하고 실행해야 하는지, 실무에서 바로 활용할 수 있는 체크리스트와 시나리오 설계 방법을 상세히 다뤄보겠습니다.
1. 재해복구 훈련(DR Drill)이란 무엇인가?
재해복구 훈련(Disaster Recovery Drill)은 실제 재해 상황을 가정하고 복구 계획을 테스트하는 시뮬레이션 활동입니다. 단순히 문서상의 계획을 검토하는 것이 아니라, 실제로 시스템을 전환해보거나 복구 절차를 실행해보면서 계획이 제대로 작동하는지 확인하는 과정이죠.
DR 훈련이 필요한 이유
재해복구 계획(DRP, Disaster Recovery Plan)을 세워두고 서랍 속에 넣어둔 기업들이 의외로 많습니다. 하지만 테스트하지 않은 계획은 사실상 없는 것과 마찬가지입니다. 훈련을 통해 다음과 같은 문제들을 사전에 발견할 수 있습니다.
- 절차상의 허점 발견: 문서에는 “백업 서버로 전환”이라고 적혀 있지만, 실제로 해보면 네트워크 설정이 안 맞거나 인증서가 만료되어 있는 경우가 많습니다
- RTO/RPO 검증: 목표 복구 시간(RTO, Recovery Time Objective)을 4시간으로 잡았는데, 실제로 해보니 12시간이 걸린다면 계획을 수정해야 합니다
- 팀 역량 확인: 담당자가 휴가 중이거나 퇴사했을 때 누가 대응할 수 있는지, 팀원들이 자신의 역할을 정확히 알고 있는지 확인합니다
- 커뮤니케이션 점검: 위기 상황에서 누구에게 먼저 연락하고, 어떤 채널을 사용할지 실제로 테스트해봅니다
주요 용어 정리
DR 훈련을 이해하려면 몇 가지 핵심 용어를 알아둘 필요가 있습니다.
| 용어 | 영문명 | 설명 |
|---|---|---|
| RTO | Recovery Time Objective | 재해 발생 후 서비스가 복구되어야 하는 목표 시간 |
| RPO | Recovery Point Objective | 허용 가능한 최대 데이터 손실 시간 (백업 주기와 연관) |
| RTA | Recovery Time Actual | 실제 복구에 소요된 시간 |
| MTD | Maximum Tolerable Downtime | 비즈니스가 감당할 수 있는 최대 중단 시간 |
| BIA | Business Impact Analysis | 업무 영향도 분석 |
예를 들어, RTO가 4시간이고 RPO가 1시간이라면, 재해 발생 후 4시간 이내에 서비스를 복구해야 하고, 최대 1시간 전까지의 데이터만 복구하면 된다는 의미입니다.
DR 사이트 유형 이해하기
DR 시스템은 복구 수준에 따라 크게 4가지로 구분됩니다. RTO/RPO 요구사항과 예산에 따라 적합한 유형을 선택해야 합니다.
| 유형 | RTO | RPO | 특징 | 비용 |
|---|---|---|---|---|
| 미러 사이트 (Mirror Site) | 즉시 (이론상 0) | 즉시 (이론상 0) | 실시간 동기화, Active-Active 구성 | 매우 높음 |
| 핫 사이트 (Hot Site) | 수 분~수 시간 | 수 분~수 시간 | 동일 시스템 Standby 대기, Active-Standby 구성 | 높음 |
| 웜 사이트 (Warm Site) | 수 시간~1일 | 수 시간~1일 | 기본 인프라 구축, 데이터 주기적 복제 | 중간 |
| 콜드 사이트 (Cold Site) | 수 일~수 주 | 마지막 백업 시점 | 공간과 전력만 확보, 장비는 재해 시 설치 | 낮음 |
금융권처럼 서비스 중단이 허용되지 않는 업종은 미러 사이트가 필수이고, 일반 기업은 비용과 리스크를 고려해 핫 사이트나 웜 사이트를 선택하는 경우가 많습니다.
2. DR 훈련의 종류와 특징: 어떤 방식을 선택해야 할까?
DR 훈련은 복잡도와 리스크에 따라 여러 유형으로 나뉩니다. 처음 시작하는 조직이라면 가벼운 훈련부터 시작해서 점차 강도를 높여가는 것이 좋습니다.
테이블탑 훈련 (Tabletop Exercise, TTX)
가장 기본적인 형태의 훈련으로, 회의실에 관련자들이 모여 가상의 시나리오를 놓고 토론하는 방식입니다. 실제 시스템을 건드리지 않기 때문에 리스크가 없고, 비용도 거의 들지 않습니다.
진행 방식
- 진행자가 “오전 9시 30분, 랜섬웨어 공격으로 모든 도메인 컨트롤러가 접근 불가 상태입니다”와 같은 시나리오를 제시
- 참가자들이 각자의 역할에서 어떻게 대응할지 토론
- 계획서의 절차를 따라가면서 누락된 부분이나 모호한 점을 발견
장점: 준비 시간 약 1개월, 실행 시간 2~4시간으로 부담이 적음 단점: 실제 기술적 문제는 발견하기 어려움
워크스루 훈련 (Walk-Through Drill)
테이블탑보다 한 단계 발전한 형태로, 실제 복구 절차를 단계별로 따라가며 검증합니다. 시스템을 실제로 조작하지는 않지만, 매뉴얼의 각 단계가 현재 환경에 맞는지 확인합니다.
진행 방식
- DR 계획서의 각 단계를 순서대로 읽어가며 “이 단계를 실행하려면 무엇이 필요한가?” 질문
- 담당자가 해당 시스템에 접근 가능한지, 권한이 있는지 확인
- 연락처 정보가 최신인지, 백업 위치가 정확한지 검증
장점: 문서의 정확성과 현실성을 검증할 수 있고, 시스템 영향 없이 절차 점검 가능 단점: 실제 기술적 장애나 시간 압박 상황을 경험하기 어려움
기능 훈련 (Functional Exercise)
실제로 일부 시스템이나 프로세스를 테스트하는 훈련입니다. 예를 들어, 백업 복원만 테스트하거나, DR 사이트로의 네트워크 전환만 테스트하는 식입니다.
진행 방식
- 특정 시스템(예: 데이터베이스 서버)의 백업을 실제로 복원
- 복원된 시스템이 정상 작동하는지 확인
- 소요 시간과 발생한 문제점 기록
장점: 기술적 문제를 실제로 발견할 수 있음 단점: 프로덕션 환경에 영향을 줄 수 있어 주의 필요
전체 규모 훈련 (Full-Scale Exercise)
실제 재해 상황과 가장 유사하게 진행하는 훈련입니다. DR 사이트로 실제 전환(Failover)을 수행하고, 비즈니스 연속성을 검증합니다.
진행 방식
- 사전에 공지된 시간에 주 사이트의 서비스를 중단
- DR 사이트로 전체 시스템 전환
- 일정 시간 동안 DR 사이트에서 실제 업무 수행
- 다시 주 사이트로 복귀(Failback)
장점: RTO/RPO를 실제로 검증할 수 있음 단점: 준비에 수개월 소요, 비용과 리스크가 높음
훈련 유형 비교표
| 구분 | 테이블탑 | 워크스루 | 기능 훈련 | 전체 규모 |
|---|---|---|---|---|
| 준비 기간 | 2~4주 | 4~6주 | 1~2개월 | 3~6개월 |
| 실행 시간 | 2~4시간 | 4~8시간 | 1~2일 | 1~3일 |
| 시스템 영향 | 없음 | 없음 | 일부 | 전체 |
| 비용 | 낮음 | 낮음 | 중간 | 높음 |
| 권장 빈도 | 분기별 | 반기별 | 반기별 | 연 1회 |
3. DR 훈련 전 필수 준비사항: 체크리스트 25가지
훈련의 성패는 준비 단계에서 결정됩니다. 아래 체크리스트를 활용해 빠짐없이 준비하세요.
계획 및 문서 점검
- [ ] DR 계획서(DRP)가 최신 버전인지 확인
- [ ] 최근 6개월 내 인프라 변경사항이 DRP에 반영되었는지 확인
- [ ] 핵심 시스템의 복구 우선순위(Tier 1, 2, 3)가 정의되어 있는지 확인
- [ ] RTO/RPO 목표가 각 시스템별로 설정되어 있는지 확인
- [ ] 복구 절차서(Runbook)가 단계별로 명확히 기술되어 있는지 확인
인력 및 역할
- [ ] DR 팀 구성원 명단과 연락처가 최신인지 확인
- [ ] 각 팀원의 역할과 책임(R&R)이 명확히 정의되어 있는지 확인
- [ ] 담당자 부재 시 대체 인력이 지정되어 있는지 확인
- [ ] 외부 벤더/파트너 긴급 연락처가 확보되어 있는지 확인
- [ ] 경영진 에스컬레이션 절차가 정의되어 있는지 확인
기술 인프라 점검
- [ ] 백업이 정상적으로 수행되고 있는지 확인 (최근 백업 성공률 체크)
- [ ] 백업 데이터의 무결성 테스트를 최근 수행했는지 확인
- [ ] DR 사이트의 리소스(서버, 스토리지, 네트워크)가 충분한지 확인
- [ ] DR 사이트와 주 사이트 간 데이터 복제 상태 확인
- [ ] 네트워크 전환(DNS, 로드밸런서) 절차가 테스트되었는지 확인
- [ ] 라이선스(특히 클라우드 DR의 경우)가 유효한지 확인
커뮤니케이션 준비
- [ ] 위기 상황 커뮤니케이션 채널(비상 연락망, 메시지 그룹)이 설정되어 있는지 확인
- [ ] 내부 공지 템플릿이 준비되어 있는지 확인
- [ ] 고객/파트너 대응 스크립트가 준비되어 있는지 확인
- [ ] 언론 대응 담당자가 지정되어 있는지 확인
훈련 실행 준비
- [ ] 훈련 목표와 범위가 명확히 정의되어 있는지 확인
- [ ] 훈련 시나리오가 현실적으로 작성되어 있는지 확인
- [ ] 훈련 참가자 전원에게 사전 공지가 완료되었는지 확인
- [ ] 훈련 기록용 문서(체크리스트, 타임라인 기록지)가 준비되어 있는지 확인
- [ ] 훈련 후 리뷰 미팅이 예약되어 있는지 확인
4. 효과적인 DR 시나리오 설계 방법
시나리오는 훈련의 핵심입니다. 너무 단순하면 실효성이 없고, 너무 복잡하면 혼란만 가중됩니다. 실제 발생 가능성이 높은 시나리오부터 시작해서 점차 범위를 넓혀가는 것이 좋습니다.
시나리오 설계의 기본 원칙
1. 실제 위협 기반으로 설계
조직이 직면할 가능성이 높은 위협을 기반으로 시나리오를 만들어야 합니다. 최근 보안 업계에서는 사이버 공격, 특히 랜섬웨어가 가장 빈번한 재해 원인으로 꼽힙니다.
2. 단계적 복잡도 증가
처음에는 단일 시스템 장애부터 시작해서, 점차 다중 시스템 장애, 전체 데이터센터 장애로 범위를 확대합니다.
3. 예상치 못한 상황(Inject) 포함
훈련 중간에 예상치 못한 상황을 추가로 던져주면 팀의 적응력을 테스트할 수 있습니다. 예를 들어:
- “복원하려던 백업이 손상되어 있습니다”
- “클라우드 서비스 제공업체의 복구 예상 시간이 6시간 연장되었습니다”
- “기자가 장애에 대해 문의 전화를 했습니다”
주요 시나리오 유형별 설계 예시
시나리오 1: 랜섬웨어 공격
랜섬웨어는 현재 가장 흔하고 파괴적인 사이버 위협입니다. CISA(미국 사이버보안 및 인프라 보안국)의 Stop Ransomware 가이드를 참고하면 좋습니다.
상황 설정
일시: 화요일 오전 9:30
상황: 보안팀에서 여러 서버에 비정상 파일 암호화 활동 탐지
영향 범위: 파일 서버, ERP 시스템, 이메일 서버
공격자 요구: 72시간 내 비트코인 50개 지불 요구
검증 포인트
- 감염된 시스템을 얼마나 빨리 격리할 수 있는가?
- 백업이 랜섬웨어에 감염되지 않았는지 확인하는 절차가 있는가?
- 감염 이전의 깨끗한 백업을 찾을 수 있는가?
- 복호화 도구(No More Ransom 프로젝트 등)를 활용할 수 있는가?
- 법적 신고 의무(개인정보 유출 시)를 알고 있는가?
시나리오 2: 데이터센터 장애
자연재해나 전력 문제로 인한 데이터센터 장애 시나리오입니다.
상황 설정
일시: 월요일 새벽 2:00
상황: 주 데이터센터 지역에 대규모 정전 발생
예상 복구 시간: 불명 (전력회사에서 최소 24시간 이상 소요 예상)
영향 범위: 전체 온프레미스 시스템
검증 포인트
- DR 사이트로의 전환(Failover) 절차가 얼마나 빠르게 시작되는가?
- DNS 전환, 로드밸런서 설정 변경이 원활하게 진행되는가?
- 데이터 복제 지연으로 인한 데이터 손실은 RPO 내에 있는가?
- DR 사이트에서 실제 업무 처리가 가능한가?
시나리오 3: 클라우드 서비스 장애
클라우드를 사용하는 조직이 늘어나면서 클라우드 서비스 장애에 대한 대비도 중요해졌습니다.
상황 설정
일시: 금요일 오후 3:00
상황: 주요 클라우드 서비스 제공업체(AWS/Azure/GCP)의 특정 리전 장애
영향: 해당 리전에 배포된 모든 서비스 접근 불가
제공업체 공지: 원인 조사 중, 복구 예상 시간 미정
검증 포인트
- 멀티 리전 또는 멀티 클라우드 구성이 되어 있는가?
- 클라우드 제공업체의 상태 페이지 모니터링 체계가 있는가?
- 자동 페일오버가 설정되어 있다면 제대로 작동하는가?
시나리오 4: 핵심 인력 부재
기술적 장애뿐 아니라 인적 요소도 중요합니다.
상황 설정
상황: 주요 시스템 장애 발생, 그러나...
- 시스템 담당자 A: 해외 출장 중 (시차로 연락 어려움)
- 백업 담당자 B: 개인 사유로 휴가 중
- DBA: 최근 퇴사 (인수인계 완료 여부 불명확)
검증 포인트
- 문서화가 충분히 되어 있어 다른 사람도 복구를 수행할 수 있는가?
- 크로스 트레이닝이 이루어져 있는가?
- 비상 연락 체계가 실제로 작동하는가?
5. DR 훈련 실행 단계별 가이드
사전 준비 (D-Day 기준 2주 전~)
1주차: 계획 수립
- 훈련 목표, 범위, 시나리오 확정
- 참가자 명단 확정 및 일정 조율
- 필요한 리소스(테스트 환경, 백업 데이터 등) 확보
2주차: 사전 점검
- 참가자에게 역할 및 시나리오 사전 공유 (테이블탑의 경우)
- 기술 환경 사전 점검 (기능 훈련, 전체 규모 훈련의 경우)
- 훈련 기록지, 타임라인 시트 준비
훈련 당일 진행
1. 킥오프 (15분)
- 훈련 목적과 범위 설명
- 참가자 역할 확인
- 기본 규칙 안내 (예: “모르는 것은 모른다고 말해도 됩니다”)
2. 시나리오 발표 및 초기 대응 (30분)
- 시나리오 상황 제시
- 각 팀/담당자의 초기 대응 조치 논의
- “지금 당장 무엇을 해야 하는가?” 질문
3. 복구 절차 진행 (60~120분)
- DR 계획서에 따른 단계별 진행
- 각 단계별 소요 시간 기록
- 예상치 못한 상황(Inject) 투입
- 발생하는 문제점 및 의문사항 기록
4. 복구 완료 및 검증 (30분)
- 시스템 복구 완료 선언
- 서비스 정상화 확인
- 데이터 정합성 검증
5. 핫 워시업 (Hot Wash-up) (30분)
- 훈련 직후 즉각적인 피드백 수집
- 잘된 점, 개선이 필요한 점 논의
- 주요 발견사항 정리
훈련 후 활동
사후 분석 보고서(After Action Report) 작성
훈련 후 1~2주 내에 공식 보고서를 작성해야 합니다. 보고서에는 다음 내용이 포함되어야 합니다:
- 훈련 개요 (일시, 참가자, 시나리오)
- 목표 대비 결과 (RTO/RPO 달성 여부)
- 발견된 문제점 및 개선 권고사항
- 조치 계획 (담당자, 기한 포함)
개선 조치 이행
보고서에서 도출된 개선 사항을 실제로 이행하는 것이 중요합니다. 30일 후 후속 미팅을 잡아 진행 상황을 점검하세요.
6. 규제 및 컴플라이언스 요건: 얼마나 자주 훈련해야 하나?
산업별로 DR 훈련에 대한 규제 요건이 다릅니다.
금융권
한국 금융권의 경우 금융감독원의 「전자금융감독규정」에 따라 재해복구 훈련을 정기적으로 실시해야 합니다. 특히 제1금융권(은행)은 미러 사이트 수준의 DR 시스템 구축이 의무화되어 있습니다.
ISO 22301 (비즈니스 연속성 관리)
ISO 22301은 비즈니스 연속성 관리 시스템(BCMS)에 대한 국제 표준입니다. 이 표준을 준수하려면 다음이 필요합니다:
- 비즈니스 영향 분석(BIA) 수행
- 연속성 전략 수립
- 계획의 정기적 테스트 및 훈련
- 지속적인 개선
일반적인 권장 빈도
| 훈련 유형 | 권장 빈도 | 비고 |
|---|---|---|
| 테이블탑 | 분기 1회 | 시나리오를 매번 다르게 |
| 워크스루 | 반기 1회 | 절차서 업데이트 후 필수 |
| 기능 훈련 | 반기 1회 | 백업 복원 테스트 포함 |
| 전체 규모 | 연 1회 | 규제 산업은 필수 |
또한 다음과 같은 경우에는 비정기 훈련이 필요합니다:
- 주요 인프라 변경 후
- 새로운 시스템 도입 후
- 조직 구조 변경 후
- 이전 훈련에서 중대한 결함 발견 시
7. 흔한 실수와 해결 방법
실수 1: 비현실적인 시나리오 선택
너무 극단적이거나 발생 가능성이 낮은 시나리오는 참가자들의 진지한 참여를 이끌어내기 어렵습니다.
해결책: 실제 발생한 사례나 유사 산업의 사고 사례를 바탕으로 시나리오를 구성하세요.
실수 2: 훈련 후 개선 조치 미이행
훈련에서 문제점을 발견해도 바쁘다는 핑계로 개선 조치를 미루는 경우가 많습니다.
해결책: 각 개선 사항에 담당자와 기한을 명확히 지정하고, 30일 후 후속 미팅을 반드시 진행하세요.
실수 3: 항상 같은 시나리오 반복
매번 같은 시나리오로 훈련하면 팀이 해당 시나리오에만 익숙해지고, 다른 유형의 재해에는 대응하지 못합니다.
해결책: 분기별로 다른 시나리오를 순환하고, 연 1회는 공지 없이 불시 훈련을 실시하세요.
실수 4: 특정 인원만 참여
IT 팀만 참여하고 비즈니스 부서나 경영진이 빠지면 실제 재해 시 커뮤니케이션 문제가 발생합니다.
해결책: 최소한 테이블탑 훈련에는 IT, 보안, 비즈니스, 법무, 커뮤니케이션 담당자가 모두 참여하도록 하세요.
8. 유용한 도구와 리소스
체크리스트 및 템플릿
- CISA Tabletop Exercise Packages (CTEPs): 미국 CISA에서 제공하는 무료 테이블탑 훈련 패키지. 랜섬웨어, 자연재해 등 다양한 시나리오 템플릿 제공 (CISA CTEPs)
- NIST Cybersecurity Framework: 사이버 보안 대응 체계 수립에 참고할 수 있는 프레임워크 (NIST CSF)
- No More Ransom Project: 랜섬웨어 복호화 도구 제공 (nomoreransom.org)
DR 자동화 도구
대규모 환경에서는 수동으로 DR을 관리하기 어렵습니다. 다음과 같은 도구를 활용할 수 있습니다:
- Cutover: DR 런북 자동화 및 실시간 대시보드 제공
- Zerto: 실시간 복제 및 자동 페일오버
- Veeam: 백업 및 복구 자동화
- AWS Elastic Disaster Recovery: AWS 환경 DR 자동화
- Azure Site Recovery: Azure 환경 DR 자동화
마무리하며…
DR 훈련은 “만약의 상황”이 아니라 “언제 발생할지 모르는 상황”에 대비하는 과정입니다. 훈련을 통해 발견한 문제점은 실제 재해가 발생하기 전에 해결할 수 있는 기회입니다.
처음 시작하는 조직이라면 부담 없이 테이블탑 훈련부터 시작해보세요. 회의실에 관련자들을 모아 “지금 랜섬웨어에 감염되면 우리는 어떻게 대응할까?”라는 질문을 던지는 것만으로도 많은 것을 발견할 수 있습니다.
정기적인 훈련, 철저한 문서화, 그리고 지속적인 개선. 이 세 가지가 DR 성공의 핵심입니다. 재해는 예고 없이 찾아오지만, 준비된 조직은 빠르게 복구하고 비즈니스를 지속할 수 있습니다.