VMware ESXi 환경에서 vMotion을 수행하다가 보라색 화면의 “SCSI_DeviceClusteringClearState” PSOD(Purple Screen of Death) 오류를 만나셨나요? 이는 Microsoft Cluster Service(MSCS)나 Oracle RAC 가상머신을 운영하는 관리자들이 자주 마주치는 까다로운 문제입니다.
“SCSI_DeviceClusteringClearState” PSOD는 주로 ESXi 6.0과 6.5 환경에서 MSCS(Microsoft Cluster Service) 또는 Oracle RAC 가상머신을 vMotion 중에 발생하는 심각한 시스템 오류입니다. 이 문제는 SCSI 버스 공유 모드가 Physical로 설정된 상황에서 non-RDM 디스크의 잘못된 구성으로 인해 발생합니다.
1. ESXi “SCSI_DeviceClusteringClearState” 문제 증상 및 환경 분석
주요 증상
PSOD가 발생하면 다음과 같은 백트레이스(Backtrace)를 확인할 수 있습니다:
Backtrace for current CPU #xx, worldID=xyxyxy, fp=0x2005
0xyyyzyyyxyzzy:[0xxxxxxyxxxxxx]SCSI_DeviceClusteringClearState@vmkernel#nover+0x8
0xyyyzyyyxyyyy:[0xxxzxxxxxxxxx]VSCSI_DestroyDevice@vmkernel#nover+0x2b8
영향받는 환경
구분 | 세부사항 |
---|---|
ESXi 버전 | ESXi 6.0, 6.5 |
가상머신 유형 | MSCS VM, Oracle RAC VM, VVOLs |
SCSI 버스 공유 | Physical 모드 |
클러스터 구성 | CAB (Cluster Across Box) |
디스크 타입 | Shared non-RDM disk (VMDK, VVOL) |
이 문제는 특히 다음과 같은 상황에서 발생빈도가 높습니다:
- 물리적 버스 공유 모드에서 vMotion 수행 시
- 클러스터링 노드 VM이 공유 non-RDM 디스크를 포함하는 경우
- CAB 구성에서 SCSI 버스 공유가 Physical로 설정된 경우
2. ESXi “SCSI_DeviceClusteringClearState” 근본 원인 분석
이 PSOD의 핵심 원인은 물리적 버스 공유 모드(Physical Bus Sharing)에서 vMotion 중 non-RDM 디스크의 잘못된 구성 때문입니다.
구체적으로 살펴보면:
- SCSI-3 Persistent Reservations 충돌: MSCS는 공유 디스크에 대한 접근을 제어하기 위해 SCSI-3 Persistent Reservations을 사용하는데, vMotion 과정에서 이 예약 정보가 제대로 전달되지 않음
- Non-RDM 디스크 처리 오류: RDM이 아닌 일반 VMDK나 VVOLs가 물리적 버스 공유 환경에서 부적절하게 처리됨
- VMkernel의 장치 상태 정리 실패: vMotion 완료 후 SCSI 장치 상태를 정리하는 과정에서 예외 발생
3. 공식 패치 해결법
ESXi 6.5 패치
VMware는 이 문제에 대한 공식 패치를 제공했습니다:
ESXi 버전 | 패치명 | 링크 |
---|---|---|
ESXi 6.5 | ESXi650-201811002 | VMware 공식 문서 |
ESXi 6.0 | ESXi600-201909001 | VMware 공식 문서 |
패치 적용 방법
- vSphere Client 접속
- Host > Update Manager로 이동
- 해당 패치 다운로드 및 설치
- 호스트 재부팅
중요: 패치 적용 전 반드시 전체 환경을 백업하고, 유지보수 시간대에 수행하세요.
4. 임시 해결방법 (Workaround)
패치 적용이 어려운 환경에서는 다음 방법들을 활용할 수 있습니다.
방법 1: 공유 스토리지 구성 변경
MSCS 환경에서 지원되는 공유 스토리지 구성으로 변경합니다:
권장 구성:
- Single Host 클러스터: 하나 이상의 공유 eagerzeroedthick 가상 디스크 사용
- Physical RDM: 물리적 호환 모드의 RDM 사용
- Virtual RDM: 가상 호환 모드의 RDM 사용
방법 2: SCSI 컨트롤러 분리 구성
부팅 디스크용 SCSI 컨트롤러:
- Bus Sharing: None
- 용도: 시스템 디스크 (C:)
클러스터 공유 디스크용 SCSI 컨트롤러:
- Bus Sharing: Physical
- 용도: 클러스터 공유 디스크만
방법 3: vMotion 제한 설정
임시 조치로 MSCS VM의 vMotion을 비활성화할 수 있습니다:
- vSphere Client에서 해당 VM 선택
- Configure > VM Options > vMotion
- Disabled 선택
5. 최적화된 MSCS 구성 방법
RDM 구성 권장사항
구성 요소 | 권장 설정 |
---|---|
RDM 모드 | Physical Compatibility Mode |
스토리지 프로토콜 | FC, FCoE, Native iSCSI |
Path Policy | Round Robin (권장), Fixed, MRU |
가상 하드웨어 버전 | 11 이상 |
vMotion 네트워크 | 10GbE 이상 (1GbE 지원 안됨) |
상세 구성 단계
1단계: SCSI 컨트롤러 분리
SCSI0: 부팅 디스크 (Bus Sharing: None)
SCSI1: 클러스터 공유 디스크 (Bus Sharing: Physical)
2단계: RDM 설정
- Physical Compatibility 모드 선택
- Perennially Reserved 플래그 설정
- 모든 ESXi 호스트에서 동일한 SCSI ID 할당
3단계: 네트워크 구성
- Heartbeat용 전용 네트워크 구성
- vMotion용 10GbE 네트워크 확보
- DRS Anti-affinity 룰 설정
6. 평소 모니터링 방법
로그 모니터링
PSOD 발생 전 조기 징후를 포착하기 위해 다음 로그를 정기적으로 확인하세요:
# VMkernel 로그 확인
tail -f /var/run/log/vmkernel.log | grep -i "scsi\|cluster"
# vMotion 관련 로그 확인
tail -f /var/run/log/vmkernel.log | grep -i "migrate"
정기 점검 항목
점검 항목 | 주기 | 확인 방법 |
---|---|---|
패치 레벨 | 월 1회 | vSphere Update Manager |
SCSI 구성 | 분기 1회 | VM 설정 검토 |
스토리지 상태 | 주 1회 | 어레이 로그 확인 |
vMotion 성능 | 실시간 | vCenter 모니터링 |
백업 전략
MSCS 환경에서는 특별한 백업 고려사항이 있습니다:
- Agent 기반 백업 사용 (Physical Bus Sharing 때문에 VMware 백업 제한)
- 클러스터 인식 백업 솔루션 활용
- 애플리케이션 레벨 백업 병행
호환성 매트릭스
최신 호환성 정보는 VMware 호환성 가이드에서 확인하세요.
“SCSI_DeviceClusteringClearState” PSOD는 복잡해 보이지만, 원인을 정확히 이해하고 체계적으로 접근하면 충분히 해결 가능한 문제입니다. 가장 확실한 방법은 공식 패치를 적용하는 것이지만, 즉시 적용이 어려운 환경에서는 소개해드린 워크어라운드를 활용해보시기 바랍니다. 무엇보다 중요한 것은 예방입니다. MSCS나 Oracle RAC 환경을 구축할 때는 처음부터 VMware가 권장하는 구성 가이드라인을 따라 설정하고, 정기적인 모니터링을 통해 문제를 조기에 발견하는 것이 최선의 방법입니다. 🙂
더 자세한 기술 지원이 필요하시다면 VMware 공식 지원팀이나 Broadcom 지원 포털을 통해 도움을 받으실 수 있습니다. 🙂