목차/10. 모니터링·문제 해결

10모니터링·문제 해결모니터링·문제 해결

클러스터를 운영하면서 멤버 상태를 들여다보고, 문제가 생기면 원인을 찾는 방법을 다룹니다. 명령줄 도구, SmartConsole, SNMP, 그리고 흔한 문제의 진단이 핵심입니다.

상태 모니터링

ClusterXL은 상태를 보는 명령들 을 제공합니다. 대표가 cphaprob 계열로, 멤버의 상태(Active/Standby/Down), Critical Device 목록, 인터페이스 상태, CCP 설정 등을 봅니다. 멤버 상태는 Active(트래픽 처리), Standby(HA 대기), Down(문제), Active(!)(모든 멤버 문제 시 하나만 살린 상태) 로 나타납니다.

SmartConsole에서도 클러스터 상태를 한눈에 볼 수 있고, SNMP Trap 으로 상태 변화를 외부 모니터링 시스템에 알릴 수 있습니다.

Critical Device — 페일오버의 방아쇠

문제 해결의 중심은 Critical Device(중요 장치) 입니다. 멤버가 정상 동작하는 데 필수인 요소들 로, 하나라도 "problem"을 보고하면 페일오버 가 일어납니다(ClusterXL 구성 명령). 예를 들어 fwd 프로세스 실패, 정책 미설치, 인터페이스 링크 다운 등이 Critical Device 문제로 잡힙니다.

페일오버 일으키기와 문제 진단

테스트나 유지보수를 위해 수동으로 페일오버를 일으킬 수 있습니다(ClusterXL 스크립트clusterXL_admin 참고).

흔한 문제로 Critical Device routed 가 있습니다 — 동적 라우팅 데몬(routed)이 Critical Device로 등록되어 문제를 보고 하면 페일오버가 일어나니, 동적 라우팅 환경에서 예기치 않은 페일오버가 잦다면 여기를 살핍니다. 이 밖에 ClusterXL Error Messages(오류 메시지) 를 해석해 원인을 좁혀 갑니다.

특히 요구사항·호환성에서 강조한 멤버 간 불일치(CoreXL 인스턴스 수·버전·블레이드 차이) 가 예기치 않은 상태 변화나 Full Sync 실패의 흔한 원인이므로, 문제가 생기면 멤버들이 정말 동일한지 부터 확인하는 것이 좋습니다. 자세한 명령·오류 코드는 CLI·스크립트·API 참조가 가리키는 R82 CLI Reference Guide를 참고하세요.