VMware ESXi 관리자라면 한 번쯤 마주했을 법한 악명 높은 보라색 화면, 바로 PSOD(Purple Screen of Death)입니다. 특히 “GP Exception 13 in world 73583:NetWorld-VM” 오류는 많은 관리자들을 당황하게 만드는 대표적인 문제 중 하나입니다. 이번 포스트에서 이 오류의 정확한 원인과 해결 방법들을 단계적으로 알아 보겠습니다.

GP Exception 13은 일반 보호 예외(General Protection Exception)로, ESXi 커널에서 발생하는 심각한 오류입니다. NetWorld-VM은 ESXi의 네트워킹 관련 가상 머신 월드 프로세스를 의미하며, 이 조합은 주로 네트워크 드라이버나 가상 네트워크 어댑터와 관련된 문제를 나타냅니다.

 

 

1. 오류 분석 및 원인 파악하기

백트레이스 분석 방법

PSOD 발생 시 나타나는 백트레이스에서 다음 요소들을 확인해보세요:

요소 의미 해결 방향
Pkt_CopyBytesOut 패킷 복사 과정에서 오류 네트워크 드라이버 문제
Vmxnet3VMKDevDeliverPktToQueue VMXNet3 드라이버 큐 전달 오류 VMXNet3 드라이버 재설치
Vmxnet3VMKDevRxWithLock VMXNet3 수신 락 오류 가상 NIC 설정 변경
IOChain_Resume I/O 체인 재개 오류 스토리지/네트워크 혼합 문제

주요 원인들

  1. ESXi 6.5 버전 특정 버그: ESXi 6.5에서 발생하는 알려진 문제로, 6.5 U1에서 해결됨
  2. VMXNet3 드라이버 호환성 문제
  3. Intel 13세대 CPU 호환성 이슈
  4. 네트워크 어댑터 드라이버 충돌
  5. NUMA 설정 불일치

 

 

2. ESXi 버전 업그레이드 (최우선 해결책)

ESXi 6.5 U1 이상으로 업그레이드

이 문제는 ESXi 6.5 U1에서 공식적으로 해결되었습니다. 가장 확실한 해결책은 다음과 같습니다:

업그레이드 단계:

  1. 현재 ESXi 버전 확인: vmware -vl
  2. VMware 고객 포털에서 최신 패치 다운로드
  3. vSphere Update Manager 또는 esxcli를 통한 업그레이드 수행

명령어 예시:

# 현재 설치된 VIB 확인
esxcli software vib list

# 패치 적용
esxcli software vib install -d /vmfs/volumes/datastore1/patches/update-from-esxi6.5-6.5_update01.zip

 

 

3. 하드웨어 호환성 확인 및 조치

Intel 13세대 CPU 관련 문제 해결

Intel 13세대(Raptor Lake) CPU 사용 시 하이브리드 아키텍처로 인한 PSOD가 발생할 수 있습니다.

해결 방법:

  1. BIOS 설정 변경: E-Core 또는 P-Core 비활성화
  2. CPU 호환성 모드 설정: 하이브리드 기능 비활성화
  3. ESXi 지원 CPU로 교체 고려

네트워크 어댑터 드라이버 업데이트

확인 및 업데이트 절차:

# 네트워크 어댑터 정보 확인
esxcli network nic list

# 드라이버 정보 확인
esxcli software vib list | grep -i network

# 특정 NIC 상세 정보 확인
esxcli network nic get -n vmnic0

주의사항: 하드웨어 호환성 가이드(HCG)와 대조하여 검증된 드라이버와 펌웨어 조합만 사용해야 합니다.

 

 

4. NUMA 설정 최적화

Numa.FollowCoresPerSocket 설정 변경

ESXi 6.5로 마이그레이션된 가상 머신에서 발생하는 문제의 경우, Numa.FollowCoresPerSocket을 1로 설정하면 해결될 수 있습니다.

설정 방법:

  1. vSphere Client를 통한 설정:
    • ESXi 호스트 선택 → 구성(Configure) 탭 → 시스템(System) → 고급 시스템 설정(Advanced System Settings)
    • Numa.FollowCoresPerSocket 검색
    • 값을 1로 변경
  2. CLI를 통한 설정:
# 현재 NUMA 설정 확인
esxcli system settings advanced list -o /Numa/FollowCoresPerSocket

# 설정 변경
esxcli system settings advanced set -o /Numa/FollowCoresPerSocket -i 1

가상 머신 설정 정리

VMX 파일에서 다음 항목들을 제거:

numa.autosize.cookie
numa.autosize.vcpu.maxPerVirtualNode

 

 

5. 네트워크 구성 최적화

VMXNet3 드라이버 재구성

가상 머신별 네트워크 어댑터 확인 및 재구성:

  1. 현재 네트워크 어댑터 타입 확인
  2. E1000 사용 시 VMXNet3로 변경
  3. VMware Tools 최신 버전 설치 확인

물리적 네트워크 설정 검토

네트워크 혼잡도 관리:

  • vmk0 관리 네트워크의 과도한 워크로드 방지
  • MAC 주소 중복 방지
  • 링크 상태 변동 최소화 (10초 이상 간격 유지)

 

 

6. 진단 툴 및 로그 분석 방법

코어 덤프 설정

PSOD 재발 시 상세 분석을 위한 코어 덤프 설정:

# 코어 덤프 파티션 설정 확인
esxcli system coredump partition list

# 코어 덤프 파티션 생성 (필요시)
esxcli system coredump partition set --partition-name mpx.vmhba0:C0:T0:L0:7

로그 분석 포인트

주요 로그 파일:

  • /var/log/vmkernel.log: 커널 레벨 오류
  • /var/log/hostd.log: 호스트 데몬 로그
  • /var/log/vmkwarning.log: 경고 메시지

분석 명령어:

# 최근 PSOD 관련 로그 확인
grep -i "exception\|psod\|networld" /var/log/vmkernel.log

# 네트워크 관련 오류 확인
grep -i "vmxnet3\|network" /var/log/vmkernel.log

 

 

ESXi PSOD “GP Exception 13 in world 73583:NetWorld-VM” 오류는 복잡해 보이지만, 체계적인 접근으로 해결할 수 있는 문제입니다. 가장 중요한 것은 ESXi 6.5 U1 이상으로의 업그레이드이며, 이와 함께 하드웨어 호환성과 네트워크 설정을 최적화하면 대부분의 경우 문제가 해결됩니다. 정기적인 시스템 점검과 모니터링을 통해 이러한 문제를 사전에 방지할 수 있으며, 문제 발생 시에는 단계별 해결책을 차근차근 적용해보시기 바랍니다.

 

댓글 남기기