VMware ESXi 환경에서 vMotion을 수행하다가 보라색 화면의 “SCSI_DeviceClusteringClearState” PSOD(Purple Screen of Death) 오류를 만나셨나요? 이는 Microsoft Cluster Service(MSCS)나 Oracle RAC 가상머신을 운영하는 관리자들이 자주 마주치는 까다로운 문제입니다.

“SCSI_DeviceClusteringClearState” PSOD는 주로 ESXi 6.0과 6.5 환경에서 MSCS(Microsoft Cluster Service) 또는 Oracle RAC 가상머신을 vMotion 중에 발생하는 심각한 시스템 오류입니다. 이 문제는 SCSI 버스 공유 모드가 Physical로 설정된 상황에서 non-RDM 디스크의 잘못된 구성으로 인해 발생합니다.

 

 

1. ESXi “SCSI_DeviceClusteringClearState” 문제 증상 및 환경 분석

주요 증상

PSOD가 발생하면 다음과 같은 백트레이스(Backtrace)를 확인할 수 있습니다:

Backtrace for current CPU #xx, worldID=xyxyxy, fp=0x2005
0xyyyzyyyxyzzy:[0xxxxxxyxxxxxx]SCSI_DeviceClusteringClearState@vmkernel#nover+0x8 
0xyyyzyyyxyyyy:[0xxxzxxxxxxxxx]VSCSI_DestroyDevice@vmkernel#nover+0x2b8 

영향받는 환경

구분 세부사항
ESXi 버전 ESXi 6.0, 6.5
가상머신 유형 MSCS VM, Oracle RAC VM, VVOLs
SCSI 버스 공유 Physical 모드
클러스터 구성 CAB (Cluster Across Box)
디스크 타입 Shared non-RDM disk (VMDK, VVOL)

이 문제는 특히 다음과 같은 상황에서 발생빈도가 높습니다:

  • 물리적 버스 공유 모드에서 vMotion 수행 시
  • 클러스터링 노드 VM이 공유 non-RDM 디스크를 포함하는 경우
  • CAB 구성에서 SCSI 버스 공유가 Physical로 설정된 경우

 

 

2. ESXi “SCSI_DeviceClusteringClearState” 근본 원인 분석

이 PSOD의 핵심 원인은 물리적 버스 공유 모드(Physical Bus Sharing)에서 vMotion 중 non-RDM 디스크의 잘못된 구성 때문입니다.

구체적으로 살펴보면:

  1. SCSI-3 Persistent Reservations 충돌: MSCS는 공유 디스크에 대한 접근을 제어하기 위해 SCSI-3 Persistent Reservations을 사용하는데, vMotion 과정에서 이 예약 정보가 제대로 전달되지 않음
  2. Non-RDM 디스크 처리 오류: RDM이 아닌 일반 VMDK나 VVOLs가 물리적 버스 공유 환경에서 부적절하게 처리됨
  3. VMkernel의 장치 상태 정리 실패: vMotion 완료 후 SCSI 장치 상태를 정리하는 과정에서 예외 발생

 

 

3. 공식 패치 해결법

ESXi 6.5 패치

VMware는 이 문제에 대한 공식 패치를 제공했습니다:

ESXi 버전 패치명 링크
ESXi 6.5 ESXi650-201811002 VMware 공식 문서
ESXi 6.0 ESXi600-201909001 VMware 공식 문서

패치 적용 방법

  1. vSphere Client 접속
  2. Host > Update Manager로 이동
  3. 해당 패치 다운로드 및 설치
  4. 호스트 재부팅

중요: 패치 적용 전 반드시 전체 환경을 백업하고, 유지보수 시간대에 수행하세요.

 

 

4. 임시 해결방법 (Workaround)

패치 적용이 어려운 환경에서는 다음 방법들을 활용할 수 있습니다.

방법 1: 공유 스토리지 구성 변경

MSCS 환경에서 지원되는 공유 스토리지 구성으로 변경합니다:

권장 구성:

  • Single Host 클러스터: 하나 이상의 공유 eagerzeroedthick 가상 디스크 사용
  • Physical RDM: 물리적 호환 모드의 RDM 사용
  • Virtual RDM: 가상 호환 모드의 RDM 사용

방법 2: SCSI 컨트롤러 분리 구성

부팅 디스크용 SCSI 컨트롤러:
- Bus Sharing: None
- 용도: 시스템 디스크 (C:)

클러스터 공유 디스크용 SCSI 컨트롤러:
- Bus Sharing: Physical
- 용도: 클러스터 공유 디스크만

방법 3: vMotion 제한 설정

임시 조치로 MSCS VM의 vMotion을 비활성화할 수 있습니다:

  1. vSphere Client에서 해당 VM 선택
  2. Configure > VM Options > vMotion
  3. Disabled 선택

 

 

5. 최적화된 MSCS 구성 방법

RDM 구성 권장사항

구성 요소 권장 설정
RDM 모드 Physical Compatibility Mode
스토리지 프로토콜 FC, FCoE, Native iSCSI
Path Policy Round Robin (권장), Fixed, MRU
가상 하드웨어 버전 11 이상
vMotion 네트워크 10GbE 이상 (1GbE 지원 안됨)

상세 구성 단계

1단계: SCSI 컨트롤러 분리

SCSI0: 부팅 디스크 (Bus Sharing: None)
SCSI1: 클러스터 공유 디스크 (Bus Sharing: Physical)

2단계: RDM 설정

  • Physical Compatibility 모드 선택
  • Perennially Reserved 플래그 설정
  • 모든 ESXi 호스트에서 동일한 SCSI ID 할당

3단계: 네트워크 구성

  • Heartbeat용 전용 네트워크 구성
  • vMotion용 10GbE 네트워크 확보
  • DRS Anti-affinity 룰 설정

 

 

6. 평소 모니터링 방법

로그 모니터링

PSOD 발생 전 조기 징후를 포착하기 위해 다음 로그를 정기적으로 확인하세요:

# VMkernel 로그 확인
tail -f /var/run/log/vmkernel.log | grep -i "scsi\|cluster"

# vMotion 관련 로그 확인  
tail -f /var/run/log/vmkernel.log | grep -i "migrate"

정기 점검 항목

점검 항목 주기 확인 방법
패치 레벨 월 1회 vSphere Update Manager
SCSI 구성 분기 1회 VM 설정 검토
스토리지 상태 주 1회 어레이 로그 확인
vMotion 성능 실시간 vCenter 모니터링

백업 전략

MSCS 환경에서는 특별한 백업 고려사항이 있습니다:

  • Agent 기반 백업 사용 (Physical Bus Sharing 때문에 VMware 백업 제한)
  • 클러스터 인식 백업 솔루션 활용
  • 애플리케이션 레벨 백업 병행

호환성 매트릭스

최신 호환성 정보는 VMware 호환성 가이드에서 확인하세요.

 

 

“SCSI_DeviceClusteringClearState” PSOD는 복잡해 보이지만, 원인을 정확히 이해하고 체계적으로 접근하면 충분히 해결 가능한 문제입니다. 가장 확실한 방법은 공식 패치를 적용하는 것이지만, 즉시 적용이 어려운 환경에서는 소개해드린 워크어라운드를 활용해보시기 바랍니다. 무엇보다 중요한 것은 예방입니다. MSCS나 Oracle RAC 환경을 구축할 때는 처음부터 VMware가 권장하는 구성 가이드라인을 따라 설정하고, 정기적인 모니터링을 통해 문제를 조기에 발견하는 것이 최선의 방법입니다. 🙂

더 자세한 기술 지원이 필요하시다면 VMware 공식 지원팀이나 Broadcom 지원 포털을 통해 도움을 받으실 수 있습니다. 🙂

 

댓글 남기기