VMware 환경을 운영하다 보면 갑자기 ESXi 호스트가 vCenter에서 “Not Responding” 상태로 표시되는 상황을 마주하게 됩니다. 체계적인 접근을 통해 대부분의 경우 해결할 수 있습니다. 오늘은 이런 상황에서 단계별로 문제를 진단하고 복구하는 방법을 알아보겠습니다.

 

ESXi 호스트가 “응답 없음” 상태가 되는 원인은 다양합니다. 네트워크 연결 문제부터 관리 서비스 오류, 스토리지 문제까지 여러 요인이 복합적으로 작용할 수 있습니다. 중요한 점은 각 단계를 순차적으로 점검하여 근본 원인을 찾아내는 것입니다.

주요 증상들:

  • vCenter에서 ESXi 호스트가 회색으로 표시됨
  • “Cannot synchronize host” 메시지 출현
  • 가상머신들이 회색으로 비활성화됨
  • 직접 연결 시도 시 연결 실패

 

 

1. 기본 상태 점검

가장 먼저 해야 할 일은 ESXi 호스트의 기본적인 상태를 확인하는 것입니다.

물리적 전원 상태 확인

ESXi 서버가 물리적으로 정상 작동하는지 확인해야 합니다:

  • 서버 전원 LED 상태 점검
  • iDRAC, iLO 같은 원격 관리 콘솔 접속 확인
  • PSOD (Purple Screen of Death) 발생 여부 점검

PSOD가 발생했다면 해당 오류 코드를 VMware KB 343033에서 확인하여 하드웨어 문제인지 소프트웨어 문제인지 판단해야 합니다.

vCenter에서 재연결 시도

간단하지만 효과적인 첫 번째 시도입니다:

  1. vCenter 웹 클라이언트에서 해당 ESXi 호스트 우클릭
  2. Connection > Connect 선택
  3. 재연결이 성공하는지 확인

이 방법으로 해결되면 일시적인 통신 문제였을 가능성이 높습니다.

 

 

2. 네트워크 연결성 점검

ESXi와 vCenter 간의 네트워크 통신을 점검해야 합니다.

기본 ping 테스트

vCenter 서버에서 ESXi 호스트로 ping 테스트를 실행합니다:

# IP 주소로 ping 테스트
ping 192.168.1.100

# FQDN으로 ping 테스트  
ping esxi-host.domain.local

포트 902 연결성 확인

ESXi 호스트는 10초마다 vCenter에 하트비트 패킷을 UDP 902 포트로 전송하며, vCenter는 60초 이내에 하트비트를 받지 못하면 호스트를 “Not Responding” 상태로 표시합니다.

Windows에서 포트 902 테스트:

telnet 192.168.1.100 902

Linux에서 포트 902 테스트:

nc -zv 192.168.1.100 902

연결이 실패한다면 방화벽이 UDP 902 포트를 차단하고 있을 가능성이 높습니다.

DNS 설정 확인

DNS 해석 문제로 인한 연결 장애를 점검합니다:

  1. ESXi 호스트에 SSH로 접속
  2. /etc/hosts 파일 내용 확인
  3. DNS 서버 설정 점검 (Network > TCP/IP Configuration)

 

 

3. 관리 에이전트 재시작

ESXi에는 두 가지 주요 관리 에이전트가 있습니다: hostd는 호스트의 대부분 작업을 관리하며, vpxa는 ESXi가 vCenter에 조인될 때 활성화되는 에이전트입니다.

DCUI를 통한 관리 서비스 재시작

물리적 콘솔이나 원격 콘솔을 통해:

  1. Alt + F2를 눌러 DCUI 접속
  2. Troubleshooting Options 선택
  3. Restart Management Agents 선택
  4. F11을 눌러 확인

SSH를 통한 개별 서비스 재시작

더 정밀한 제어가 필요한 경우:

# hostd 서비스 재시작
/etc/init.d/hostd restart

# vpxa 서비스 재시작  
/etc/init.d/vpxa restart

⚠️ 주의사항:

  • NSX가 설치된 환경에서는 /sbin/services.sh restart 명령을 사용하지 마세요. 네트워크 연결이 일시적으로 중단될 수 있습니다.
  • VDI 환경에서 공유 그래픽을 사용하는 경우 xorg 서비스 중단을 피하기 위해 개별 서비스만 재시작하세요.

PowerCLI를 통한 원격 재시작

# ESXi 호스트에 직접 연결
Connect-VIServer -Server 192.168.1.100

# 관리 서비스 재시작
Get-VMHostService | Where {$_.Key -eq "hostd"} | Restart-VMHostService -Confirm:$false

 

 

4. 디스크 공간 및 리소스 점검

디스크 파티션 / 또는 /var/log가 가득 찬 경우 hostd가 시작할 수 없습니다.

디스크 공간 확인

ESXi 호스트에 SSH 접속 후:

# 디스크 사용량 확인
vdf -h

# 로그 파티션 사용량 확인  
du -sh /var/log/*

CPU 및 메모리 사용률 점검

# 실시간 시스템 리소스 모니터링
esxtop

CPU 사용률이 90%를 지속적으로 넘는다면 리소스 부족이 원인일 수 있습니다.

 

 

5. 스토리지 연결성 확인

ESXi 호스트는 공유 스토리지 문제로 인해 vCenter에서 연결이 끊어질 수 있습니다.

스토리지 마운트 상태 점검

# VMFS 볼륨 상태 확인
ls /vmfs/volumes

# 스토리지 어댑터 상태 점검
esxcli storage core adapter list

명령어 실행이 매우 오래 걸리거나 오류를 반환한다면 스토리지 연결에 문제가 있을 가능성이 높습니다.

iSCSI/FC 연결 상태 확인

# iSCSI 세션 상태 확인
esxcli iscsi session list

# FC 어댑터 상태 확인  
esxcli storage core adapter list -t fc

 

 

6. 로그 분석을 통한 상세 진단

주요 로그 파일 위치

로그 파일 경로 용도
hostd 로그 /var/log/hostd.log 호스트 데몬 관련 문제
vpxa 로그 /var/log/vpxa.log vCenter 에이전트 관련 문제
vmkernel 로그 /var/log/vmkernel.log 커널 레벨 오류 및 하드웨어 문제
vCenter 로그 /var/log/vmware/vpxd/vpxd.log vCenter 서버 측 문제

일반적인 오류 패턴

하트비트 손실:

Missed 2 heartbeats for host esx.example.com
No heartbeats received from host; time since last heartbeat: 6745344ms

hostd 무응답:

hostd detected to be non-responsive

인증서 문제 (vCenter 8.0U2 이후):

Discarding non-CA certificate

 

 

7. 추가적인 에러 해결 방법

vCenter 8.0U2 인증서 문제

vCenter 8.0U2 업그레이드 후 TRUSTED_ROOTS 인증서 저장소에 비CA 인증서가 있으면 hostd가 해당 인증서를 폐기하고 vpxa를 재시작하는 문제가 발생할 수 있습니다.

해결 방법:

# vCenter에서 TRUSTED_ROOTS 저장소 인증서 확인
/usr/lib/vmware-vmafd/bin/vecs-cli entry list --store TRUSTED_ROOTS --text | egrep 'Alias|Key Usage' -A 1

# 비CA 인증서 제거 (필요시)
/usr/lib/vmware-vmafd/bin/vecs-cli entry delete --store TRUSTED_ROOTS --alias <certificate_alias>

하트비트 타임아웃 증가

일시적 해결책으로 vCenter에서 하트비트 타임아웃을 늘릴 수 있습니다:

  1. vCenter 웹 클라이언트에서 vCenter 객체 선택
  2. Configure > Advanced Settings 메뉴
  3. config.vpxd.heartbeat.hostTimeout 값을 기본값(60초)에서 더 큰 값으로 변경

관리 네트워크 재시작

네트워크 설정에 문제가 있는 경우:

  1. DCUI에서 Configure Management Network 선택
  2. Restart Management Network 선택
  3. 네트워크 테스트 실행으로 연결성 확인

 

댓글 남기기