VMware ESXi 관리자라면 한 번쯤 마주했을 법한 악명 높은 보라색 화면, 바로 PSOD(Purple Screen of Death)입니다. 특히 “GP Exception 13 in world 73583:NetWorld-VM” 오류는 많은 관리자들을 당황하게 만드는 대표적인 문제 중 하나입니다. 이번 포스트에서 이 오류의 정확한 원인과 해결 방법들을 단계적으로 알아 보겠습니다.
GP Exception 13은 일반 보호 예외(General Protection Exception)로, ESXi 커널에서 발생하는 심각한 오류입니다. NetWorld-VM은 ESXi의 네트워킹 관련 가상 머신 월드 프로세스를 의미하며, 이 조합은 주로 네트워크 드라이버나 가상 네트워크 어댑터와 관련된 문제를 나타냅니다.
1. 오류 분석 및 원인 파악하기
백트레이스 분석 방법
PSOD 발생 시 나타나는 백트레이스에서 다음 요소들을 확인해보세요:
요소 | 의미 | 해결 방향 |
---|---|---|
Pkt_CopyBytesOut |
패킷 복사 과정에서 오류 | 네트워크 드라이버 문제 |
Vmxnet3VMKDevDeliverPktToQueue |
VMXNet3 드라이버 큐 전달 오류 | VMXNet3 드라이버 재설치 |
Vmxnet3VMKDevRxWithLock |
VMXNet3 수신 락 오류 | 가상 NIC 설정 변경 |
IOChain_Resume |
I/O 체인 재개 오류 | 스토리지/네트워크 혼합 문제 |
주요 원인들
- ESXi 6.5 버전 특정 버그: ESXi 6.5에서 발생하는 알려진 문제로, 6.5 U1에서 해결됨
- VMXNet3 드라이버 호환성 문제
- Intel 13세대 CPU 호환성 이슈
- 네트워크 어댑터 드라이버 충돌
- NUMA 설정 불일치
2. ESXi 버전 업그레이드 (최우선 해결책)
ESXi 6.5 U1 이상으로 업그레이드
이 문제는 ESXi 6.5 U1에서 공식적으로 해결되었습니다. 가장 확실한 해결책은 다음과 같습니다:
업그레이드 단계:
- 현재 ESXi 버전 확인:
vmware -vl
- VMware 고객 포털에서 최신 패치 다운로드
- vSphere Update Manager 또는 esxcli를 통한 업그레이드 수행
명령어 예시:
# 현재 설치된 VIB 확인
esxcli software vib list
# 패치 적용
esxcli software vib install -d /vmfs/volumes/datastore1/patches/update-from-esxi6.5-6.5_update01.zip
3. 하드웨어 호환성 확인 및 조치
Intel 13세대 CPU 관련 문제 해결
Intel 13세대(Raptor Lake) CPU 사용 시 하이브리드 아키텍처로 인한 PSOD가 발생할 수 있습니다.
해결 방법:
- BIOS 설정 변경: E-Core 또는 P-Core 비활성화
- CPU 호환성 모드 설정: 하이브리드 기능 비활성화
- ESXi 지원 CPU로 교체 고려
네트워크 어댑터 드라이버 업데이트
확인 및 업데이트 절차:
# 네트워크 어댑터 정보 확인
esxcli network nic list
# 드라이버 정보 확인
esxcli software vib list | grep -i network
# 특정 NIC 상세 정보 확인
esxcli network nic get -n vmnic0
주의사항: 하드웨어 호환성 가이드(HCG)와 대조하여 검증된 드라이버와 펌웨어 조합만 사용해야 합니다.
4. NUMA 설정 최적화
Numa.FollowCoresPerSocket 설정 변경
ESXi 6.5로 마이그레이션된 가상 머신에서 발생하는 문제의 경우, Numa.FollowCoresPerSocket을 1로 설정하면 해결될 수 있습니다.
설정 방법:
- vSphere Client를 통한 설정:
- ESXi 호스트 선택 → 구성(Configure) 탭 → 시스템(System) → 고급 시스템 설정(Advanced System Settings)
Numa.FollowCoresPerSocket
검색- 값을
1
로 변경
- CLI를 통한 설정:
# 현재 NUMA 설정 확인
esxcli system settings advanced list -o /Numa/FollowCoresPerSocket
# 설정 변경
esxcli system settings advanced set -o /Numa/FollowCoresPerSocket -i 1
가상 머신 설정 정리
VMX 파일에서 다음 항목들을 제거:
numa.autosize.cookie
numa.autosize.vcpu.maxPerVirtualNode
5. 네트워크 구성 최적화
VMXNet3 드라이버 재구성
가상 머신별 네트워크 어댑터 확인 및 재구성:
- 현재 네트워크 어댑터 타입 확인
- E1000 사용 시 VMXNet3로 변경
- VMware Tools 최신 버전 설치 확인
물리적 네트워크 설정 검토
네트워크 혼잡도 관리:
- vmk0 관리 네트워크의 과도한 워크로드 방지
- MAC 주소 중복 방지
- 링크 상태 변동 최소화 (10초 이상 간격 유지)
6. 진단 툴 및 로그 분석 방법
코어 덤프 설정
PSOD 재발 시 상세 분석을 위한 코어 덤프 설정:
# 코어 덤프 파티션 설정 확인
esxcli system coredump partition list
# 코어 덤프 파티션 생성 (필요시)
esxcli system coredump partition set --partition-name mpx.vmhba0:C0:T0:L0:7
로그 분석 포인트
주요 로그 파일:
/var/log/vmkernel.log
: 커널 레벨 오류/var/log/hostd.log
: 호스트 데몬 로그/var/log/vmkwarning.log
: 경고 메시지
분석 명령어:
# 최근 PSOD 관련 로그 확인
grep -i "exception\|psod\|networld" /var/log/vmkernel.log
# 네트워크 관련 오류 확인
grep -i "vmxnet3\|network" /var/log/vmkernel.log
ESXi PSOD “GP Exception 13 in world 73583:NetWorld-VM” 오류는 복잡해 보이지만, 체계적인 접근으로 해결할 수 있는 문제입니다. 가장 중요한 것은 ESXi 6.5 U1 이상으로의 업그레이드이며, 이와 함께 하드웨어 호환성과 네트워크 설정을 최적화하면 대부분의 경우 문제가 해결됩니다. 정기적인 시스템 점검과 모니터링을 통해 이러한 문제를 사전에 방지할 수 있으며, 문제 발생 시에는 단계별 해결책을 차근차근 적용해보시기 바랍니다.