아침 7시 40분쯤 메신저에서 긴급이라는 메세지가 보였습니다. 서비스 장애가 생겼다는 메세지였습니다. 출근하기 위해 현관문 앞까지 나갔는데 장애라는 키워드를 보자마자 다시 집에 들어가서 노트북을 열었습니다. 실제 서비스 장애가 있었지만 애플리케이션 에러가 없어 조금 늦게 장애를 발견했습니다. 장애가 난 아키텍처는 아래 그림과 같습니다. 애플리케이션은 스프링부트이고 EKS pod에서 실행되고 있었습니다. 클라이언트는 on premise에 위치하고 EKS pod API를 호출하기 위해 public ALB를 사용합니다. 몇십분이 지나서야 EKS에는 이상이 없는 것을 확인했습니다. 대신 ALB에 메트릭 이상현상이 있었습니다. ALB requests가 어느 순간부터 0이었습니다. ALB설정은 수정을 안했는데 어느..