VMware 환경을 운영하다 보면 갑자기 ESXi 호스트가 vCenter에서 “Not Responding” 상태로 표시되는 상황을 마주하게 됩니다. 체계적인 접근을 통해 대부분의 경우 해결할 수 있습니다. 오늘은 이런 상황에서 단계별로 문제를 진단하고 복구하는 방법을 알아보겠습니다.
ESXi 호스트가 “응답 없음” 상태가 되는 원인은 다양합니다. 네트워크 연결 문제부터 관리 서비스 오류, 스토리지 문제까지 여러 요인이 복합적으로 작용할 수 있습니다. 중요한 점은 각 단계를 순차적으로 점검하여 근본 원인을 찾아내는 것입니다.
주요 증상들:
- vCenter에서 ESXi 호스트가 회색으로 표시됨
- “Cannot synchronize host” 메시지 출현
- 가상머신들이 회색으로 비활성화됨
- 직접 연결 시도 시 연결 실패
1. 기본 상태 점검
가장 먼저 해야 할 일은 ESXi 호스트의 기본적인 상태를 확인하는 것입니다.
물리적 전원 상태 확인
ESXi 서버가 물리적으로 정상 작동하는지 확인해야 합니다:
- 서버 전원 LED 상태 점검
- iDRAC, iLO 같은 원격 관리 콘솔 접속 확인
- PSOD (Purple Screen of Death) 발생 여부 점검
PSOD가 발생했다면 해당 오류 코드를 VMware KB 343033에서 확인하여 하드웨어 문제인지 소프트웨어 문제인지 판단해야 합니다.
vCenter에서 재연결 시도
간단하지만 효과적인 첫 번째 시도입니다:
- vCenter 웹 클라이언트에서 해당 ESXi 호스트 우클릭
- Connection > Connect 선택
- 재연결이 성공하는지 확인
이 방법으로 해결되면 일시적인 통신 문제였을 가능성이 높습니다.
2. 네트워크 연결성 점검
ESXi와 vCenter 간의 네트워크 통신을 점검해야 합니다.
기본 ping 테스트
vCenter 서버에서 ESXi 호스트로 ping 테스트를 실행합니다:
# IP 주소로 ping 테스트
ping 192.168.1.100
# FQDN으로 ping 테스트
ping esxi-host.domain.local
포트 902 연결성 확인
ESXi 호스트는 10초마다 vCenter에 하트비트 패킷을 UDP 902 포트로 전송하며, vCenter는 60초 이내에 하트비트를 받지 못하면 호스트를 “Not Responding” 상태로 표시합니다.
Windows에서 포트 902 테스트:
telnet 192.168.1.100 902
Linux에서 포트 902 테스트:
nc -zv 192.168.1.100 902
연결이 실패한다면 방화벽이 UDP 902 포트를 차단하고 있을 가능성이 높습니다.
DNS 설정 확인
DNS 해석 문제로 인한 연결 장애를 점검합니다:
- ESXi 호스트에 SSH로 접속
/etc/hosts
파일 내용 확인- DNS 서버 설정 점검 (Network > TCP/IP Configuration)
3. 관리 에이전트 재시작
ESXi에는 두 가지 주요 관리 에이전트가 있습니다: hostd는 호스트의 대부분 작업을 관리하며, vpxa는 ESXi가 vCenter에 조인될 때 활성화되는 에이전트입니다.
DCUI를 통한 관리 서비스 재시작
물리적 콘솔이나 원격 콘솔을 통해:
- Alt + F2를 눌러 DCUI 접속
- Troubleshooting Options 선택
- Restart Management Agents 선택
- F11을 눌러 확인
SSH를 통한 개별 서비스 재시작
더 정밀한 제어가 필요한 경우:
# hostd 서비스 재시작
/etc/init.d/hostd restart
# vpxa 서비스 재시작
/etc/init.d/vpxa restart
⚠️ 주의사항:
- NSX가 설치된 환경에서는
/sbin/services.sh restart
명령을 사용하지 마세요. 네트워크 연결이 일시적으로 중단될 수 있습니다. - VDI 환경에서 공유 그래픽을 사용하는 경우 xorg 서비스 중단을 피하기 위해 개별 서비스만 재시작하세요.
PowerCLI를 통한 원격 재시작
# ESXi 호스트에 직접 연결
Connect-VIServer -Server 192.168.1.100
# 관리 서비스 재시작
Get-VMHostService | Where {$_.Key -eq "hostd"} | Restart-VMHostService -Confirm:$false
4. 디스크 공간 및 리소스 점검
디스크 파티션 /
또는 /var/log
가 가득 찬 경우 hostd가 시작할 수 없습니다.
디스크 공간 확인
ESXi 호스트에 SSH 접속 후:
# 디스크 사용량 확인
vdf -h
# 로그 파티션 사용량 확인
du -sh /var/log/*
CPU 및 메모리 사용률 점검
# 실시간 시스템 리소스 모니터링
esxtop
CPU 사용률이 90%를 지속적으로 넘는다면 리소스 부족이 원인일 수 있습니다.
5. 스토리지 연결성 확인
ESXi 호스트는 공유 스토리지 문제로 인해 vCenter에서 연결이 끊어질 수 있습니다.
스토리지 마운트 상태 점검
# VMFS 볼륨 상태 확인
ls /vmfs/volumes
# 스토리지 어댑터 상태 점검
esxcli storage core adapter list
명령어 실행이 매우 오래 걸리거나 오류를 반환한다면 스토리지 연결에 문제가 있을 가능성이 높습니다.
iSCSI/FC 연결 상태 확인
# iSCSI 세션 상태 확인
esxcli iscsi session list
# FC 어댑터 상태 확인
esxcli storage core adapter list -t fc
6. 로그 분석을 통한 상세 진단
주요 로그 파일 위치
로그 파일 | 경로 | 용도 |
---|---|---|
hostd 로그 | /var/log/hostd.log |
호스트 데몬 관련 문제 |
vpxa 로그 | /var/log/vpxa.log |
vCenter 에이전트 관련 문제 |
vmkernel 로그 | /var/log/vmkernel.log |
커널 레벨 오류 및 하드웨어 문제 |
vCenter 로그 | /var/log/vmware/vpxd/vpxd.log |
vCenter 서버 측 문제 |
일반적인 오류 패턴
하트비트 손실:
Missed 2 heartbeats for host esx.example.com
No heartbeats received from host; time since last heartbeat: 6745344ms
hostd 무응답:
hostd detected to be non-responsive
인증서 문제 (vCenter 8.0U2 이후):
Discarding non-CA certificate
7. 추가적인 에러 해결 방법
vCenter 8.0U2 인증서 문제
vCenter 8.0U2 업그레이드 후 TRUSTED_ROOTS 인증서 저장소에 비CA 인증서가 있으면 hostd가 해당 인증서를 폐기하고 vpxa를 재시작하는 문제가 발생할 수 있습니다.
해결 방법:
# vCenter에서 TRUSTED_ROOTS 저장소 인증서 확인
/usr/lib/vmware-vmafd/bin/vecs-cli entry list --store TRUSTED_ROOTS --text | egrep 'Alias|Key Usage' -A 1
# 비CA 인증서 제거 (필요시)
/usr/lib/vmware-vmafd/bin/vecs-cli entry delete --store TRUSTED_ROOTS --alias <certificate_alias>
하트비트 타임아웃 증가
일시적 해결책으로 vCenter에서 하트비트 타임아웃을 늘릴 수 있습니다:
- vCenter 웹 클라이언트에서 vCenter 객체 선택
- Configure > Advanced Settings 메뉴
config.vpxd.heartbeat.hostTimeout
값을 기본값(60초)에서 더 큰 값으로 변경
관리 네트워크 재시작
네트워크 설정에 문제가 있는 경우:
- DCUI에서 Configure Management Network 선택
- Restart Management Network 선택
- 네트워크 테스트 실행으로 연결성 확인