Tenemos tres instancias EC2, una en cada zona de disponibilidad (AZ) en la región eu-west-1. Se equilibran según el uso de ELB. Nos gustaría controlar cuántas instancias están registradas en loadbalancer, usando CloudWatch. El problema es: realmente no entiendo la métrica HealthyHostCount
.¿Cómo uso el HealthyHostCount de ELB para monitorear en CloudWatch?
Para una implementación, nos gustaría poder anular el registro de una sola instancia (sacarla del LB) sin que se nos notifique. Entonces, la alarma sería: Notificar si solo queda 1 instancia saludable detrás del loadbalancer durante 5 minutos.
Por lo que tengo entendido, HealthyHostCount
(HHC) es la cantidad de instancias sanas que se registran con un ELB determinado, promediado en todos los AZ. Si todo está bien, el HHC debe ser 1 (sin importar en qué período de tiempo) porque hay 1 instancia en cada AZ.
Hace un par de días, alguien implementó sin volver a registrar las instancias, por lo que solo se equilibró 1 instancia. Cuando lo notamos, creamos una alarma que nos avisaba cuando el HHC promedio se hundía por debajo de 0.6 después de 5 minutos. (Si solo se registra 1 instancia en ELB, el HHC debe promediar 0.33 para cualquier período de tiempo). Sin embargo, la alarma nunca cambió para indicar "ALARMA".
Cuando revisé el HHC en CloudWatch, el HHC eran números que no tenían sentido (la suma de 10.0 para un intervalo de 5 minutos es todo lo que recuerdo ahora).
Todo es un gran desastre para mí. Cada vez que creo que entiendo la métrica, los gráficos de CloudWatch son todo un galimatías para mí.
¿Podría alguien explicar cómo usar HHC para obtener una alarma cuando solo se registra 1 instancia? ¿Es HHC promedio el camino a seguir o debería usar otra métrica?
Gracias por esta explicación detallada y sorprendente! –