전공영역 공부 기록

Datadog cloudwatch 메트릭기반 알람의 주의사항

악분 2025. 7. 6. 23:01
반응형

주의사항

Datadog에서 cloudwatch 메트릭기반으로 알람을 설정하면 실시간이 보장이 되지 않습니다. 그 이유를 예제와 함께 살펴보시죠.

예제

Datadog에서 AWS Cloudwatch ALB메트릭을 기반으로 알람을 설정했습니다. 알람은 1분마다 평가하고 평가지연 등 다른 옵션을 설정하지 않았습니다.

만약 12:05분에 ALB Error Rate 알람 조건이 만족한다면, Datadog에서는 알람이 언제 울릴까요?

 

정답과 그 이유

정답은 12:10이나 12:20분입니다.

Datadog은 기본 설정으로 10분마다 cloudwatch 메트릭을 수집합니다. 따라서 12:05분의 ALB메트릭은 12:10이 지나야 datadog에 cloudwatch메트릭이 있습니다.

 

참고자료: https://docs.datadoghq.com/ko/integrations/guide/aws-integration-and-cloudwatch-faq/

 

만약, cloudwatch 자체 지연이 발생한다면 최악의 상황을 만나게 됩니다. cloudwatch에서는 aggregation 지연이 발생할 수 있습니다. 이 지연이 발생하면 datadog에서 12:10분에 수집했던 메트릭 중에 일부 누락이 됩니다. 최악의 상황에서는 12:20분이 지나야 datadog에서는 다음 수집주기인 12:20분이 지나야 12:05알람을 받습니다.

 

평가 지연

cloudwatch의 자체 지연이 발생하면 datadog입장에서는 데이터 신뢰성이 낮아집니다. 그래서 cloudwatch기반 datadog 알람을 설정할때는 15분 평가지연을 설정할 것을 권장합니다. 평가지연을 15분 설정하면, 15분 알람을 더 늦게 받습니다.

참고자료: https://docs.datadoghq.com/monitors/configuration/?tab=thresholdalert

 

 

실시간으로 알람을 받으려면?

실시간으로 datadog에서 알람을 받으려면 APM메트릭을 사용하면 좋습니다. 단, 주의사항은 모든 APM 지표를 알람으로 사용하면 안되고 핵심 목록을 설정해야 합니다. 모든 메트릭에 알람을 설정하면 알람 노이즈가 증가합니다. 알람 노이즈가 많아지면 알람을 안보게되는 역효과가 발생합니다.

 

참고자료

반응형