[VMware] ESXi "Host not responding" 호스트 응답 없음 복구하기

VMware 환경을 운영하다 보면 갑자기 ESXi 호스트가 vCenter에서 “Not Responding” 상태로 표시되는 상황을 마주하게 됩니다. 체계적인 접근을 통해 대부분의 경우 해결할 수 있습니다. 오늘은 이런 상황에서 단계별로 문제를 진단하고 복구하는 방법을 알아보겠습니다.

ESXi 호스트가 “응답 없음” 상태가 되는 원인은 다양합니다. 네트워크 연결 문제부터 관리 서비스 오류, 스토리지 문제까지 여러 요인이 복합적으로 작용할 수 있습니다. 중요한 점은 각 단계를 순차적으로 점검하여 근본 원인을 찾아내는 것입니다.

주요 증상들:

vCenter에서 ESXi 호스트가 회색으로 표시됨
“Cannot synchronize host” 메시지 출현
가상머신들이 회색으로 비활성화됨
직접 연결 시도 시 연결 실패

목차(Contents)

1. 기본 상태 점검

가장 먼저 해야 할 일은 ESXi 호스트의 기본적인 상태를 확인하는 것입니다.

물리적 전원 상태 확인

ESXi 서버가 물리적으로 정상 작동하는지 확인해야 합니다:

서버 전원 LED 상태 점검
iDRAC, iLO 같은 원격 관리 콘솔 접속 확인
PSOD (Purple Screen of Death) 발생 여부 점검

PSOD가 발생했다면 해당 오류 코드를 VMware KB 343033에서 확인하여 하드웨어 문제인지 소프트웨어 문제인지 판단해야 합니다.

vCenter에서 재연결 시도

간단하지만 효과적인 첫 번째 시도입니다:

vCenter 웹 클라이언트에서 해당 ESXi 호스트 우클릭
Connection > Connect 선택
재연결이 성공하는지 확인

이 방법으로 해결되면 일시적인 통신 문제였을 가능성이 높습니다.

2. 네트워크 연결성 점검

ESXi와 vCenter 간의 네트워크 통신을 점검해야 합니다.

기본 ping 테스트

vCenter 서버에서 ESXi 호스트로 ping 테스트를 실행합니다:

# IP 주소로 ping 테스트
ping 192.168.1.100

# FQDN으로 ping 테스트  
ping esxi-host.domain.local

포트 902 연결성 확인

ESXi 호스트는 10초마다 vCenter에 하트비트 패킷을 UDP 902 포트로 전송하며, vCenter는 60초 이내에 하트비트를 받지 못하면 호스트를 “Not Responding” 상태로 표시합니다.

Windows에서 포트 902 테스트:

telnet 192.168.1.100 902

Linux에서 포트 902 테스트:

nc -zv 192.168.1.100 902

연결이 실패한다면 방화벽이 UDP 902 포트를 차단하고 있을 가능성이 높습니다.

DNS 설정 확인

DNS 해석 문제로 인한 연결 장애를 점검합니다:

ESXi 호스트에 SSH로 접속
/etc/hosts 파일 내용 확인
DNS 서버 설정 점검 (Network > TCP/IP Configuration)

3. 관리 에이전트 재시작

ESXi에는 두 가지 주요 관리 에이전트가 있습니다: hostd는 호스트의 대부분 작업을 관리하며, vpxa는 ESXi가 vCenter에 조인될 때 활성화되는 에이전트입니다.

DCUI를 통한 관리 서비스 재시작

물리적 콘솔이나 원격 콘솔을 통해:

Alt + F2를 눌러 DCUI 접속
Troubleshooting Options 선택
Restart Management Agents 선택
F11을 눌러 확인

SSH를 통한 개별 서비스 재시작

더 정밀한 제어가 필요한 경우:

# hostd 서비스 재시작
/etc/init.d/hostd restart

# vpxa 서비스 재시작  
/etc/init.d/vpxa restart

⚠️ 주의사항:

NSX가 설치된 환경에서는 /sbin/services.sh restart 명령을 사용하지 마세요. 네트워크 연결이 일시적으로 중단될 수 있습니다.
VDI 환경에서 공유 그래픽을 사용하는 경우 xorg 서비스 중단을 피하기 위해 개별 서비스만 재시작하세요.

PowerCLI를 통한 원격 재시작

# ESXi 호스트에 직접 연결
Connect-VIServer -Server 192.168.1.100

# 관리 서비스 재시작
Get-VMHostService | Where {$_.Key -eq "hostd"} | Restart-VMHostService -Confirm:$false

4. 디스크 공간 및 리소스 점검

디스크 파티션 / 또는 /var/log가 가득 찬 경우 hostd가 시작할 수 없습니다.

디스크 공간 확인

ESXi 호스트에 SSH 접속 후:

# 디스크 사용량 확인
vdf -h

# 로그 파티션 사용량 확인  
du -sh /var/log/*

CPU 및 메모리 사용률 점검

# 실시간 시스템 리소스 모니터링
esxtop

CPU 사용률이 90%를 지속적으로 넘는다면 리소스 부족이 원인일 수 있습니다.

5. 스토리지 연결성 확인

ESXi 호스트는 공유 스토리지 문제로 인해 vCenter에서 연결이 끊어질 수 있습니다.

스토리지 마운트 상태 점검

# VMFS 볼륨 상태 확인
ls /vmfs/volumes

# 스토리지 어댑터 상태 점검
esxcli storage core adapter list

명령어 실행이 매우 오래 걸리거나 오류를 반환한다면 스토리지 연결에 문제가 있을 가능성이 높습니다.

iSCSI/FC 연결 상태 확인

# iSCSI 세션 상태 확인
esxcli iscsi session list

# FC 어댑터 상태 확인  
esxcli storage core adapter list -t fc

6. 로그 분석을 통한 상세 진단

주요 로그 파일 위치

로그 파일	경로	용도
hostd 로그	`/var/log/hostd.log`	호스트 데몬 관련 문제
vpxa 로그	`/var/log/vpxa.log`	vCenter 에이전트 관련 문제
vmkernel 로그	`/var/log/vmkernel.log`	커널 레벨 오류 및 하드웨어 문제
vCenter 로그	`/var/log/vmware/vpxd/vpxd.log`	vCenter 서버 측 문제

일반적인 오류 패턴

하트비트 손실:

Missed 2 heartbeats for host esx.example.com
No heartbeats received from host; time since last heartbeat: 6745344ms

hostd 무응답:

hostd detected to be non-responsive

인증서 문제 (vCenter 8.0U2 이후):

Discarding non-CA certificate

7. 추가적인 에러 해결 방법

vCenter 8.0U2 인증서 문제

vCenter 8.0U2 업그레이드 후 TRUSTED_ROOTS 인증서 저장소에 비CA 인증서가 있으면 hostd가 해당 인증서를 폐기하고 vpxa를 재시작하는 문제가 발생할 수 있습니다.

해결 방법:

# vCenter에서 TRUSTED_ROOTS 저장소 인증서 확인
/usr/lib/vmware-vmafd/bin/vecs-cli entry list --store TRUSTED_ROOTS --text | egrep 'Alias|Key Usage' -A 1

# 비CA 인증서 제거 (필요시)
/usr/lib/vmware-vmafd/bin/vecs-cli entry delete --store TRUSTED_ROOTS --alias <certificate_alias>

하트비트 타임아웃 증가

일시적 해결책으로 vCenter에서 하트비트 타임아웃을 늘릴 수 있습니다:

vCenter 웹 클라이언트에서 vCenter 객체 선택
Configure > Advanced Settings 메뉴
config.vpxd.heartbeat.hostTimeout 값을 기본값(60초)에서 더 큰 값으로 변경

관리 네트워크 재시작

네트워크 설정에 문제가 있는 경우:

DCUI에서 Configure Management Network 선택
Restart Management Network 선택
네트워크 테스트 실행으로 연결성 확인