Problema en cierre de pedidos, en la app Chiper Repartidores

Incident Report for Chiper

Postmortem

🧠 Resumen del incidente

El 13 de mayo de 2025, se presentó una intermitencia en la operación de entrega a través de la app Chiper Repartidores, impactando principalmente a las operaciones en Colombia y Chile. La causa fue un bloqueo de IPs de Google, utilizadas por el servicio de Pub/Sub, al ser clasificadas erróneamente como maliciosas por el appliance de seguridad perimetral (Reblaze). Estas IPs no estaban incluidas en la lista blanca del sistema, lo cual provocó un encolamiento de mensajes que afectó el procesamiento asincrónico y bloqueó el flujo normal de pedidos.

🕒 C‌ronologia

Fecha y Hora Evento
09:49 AM Inicio del incidente. Se observa afectación en la app de repartidores.
10:10 AM Se detecta encolamiento de mensajes en recursos asíncronos (alarma en Slack). Ingreso de tickets al portal de soporte reportando bloqueos parciales en entregas.
10:15 AM Se abre War Room con el Squad VIVO y Tech Support.
10:20 AM Se identifican IPs bloqueadas en los logs de Reblaze.
10:38 AM Ingreso del equipo de DevOps al War Room.
10:45 AM Se realiza intento de desbloqueo de IPs para permitir tráfico, sin éxito.
10:55 AM La configuración aplicada no resuelve el problema. Persisten bloqueos y encolamiento.
11:00 AM Se agregan manualmente las IPs de Google a la lista blanca en Reblaze.
11:35 AM Se desactiva la regla de bloqueo responsable del incidente. IPs comienzan a desbloquearse.
11:52 AM El incidente se da por resuelto tras validar la configuración.
12:15 PM Se realizan pruebas en la app de repartidores para confirmar la estabilidad.

🧾 Causa raíz

  • Reblaze bloqueó peticiones provenientes de IPs de Google (utilizadas por Pub/Sub), al considerarlas potencialmente maliciosas.
  • Las IPs no se encontraban en la lista blanca.
  • Esto provocó un encolamiento de mensajes en Pub/Sub, interrumpiendo el flujo de procesamiento de eventos críticos para la operación de entregas.‌‌

🔥 Impacto

  • Duración del incidente: 1 hora y 52 minutos.
  • Usuarios afectados: Drivers (Entregadores) en Colombia y Chile.
  • Servicios impactados: Procesamiento de entregas en la app Chiper Repartidores (bloqueo/intermitencia en el cierre de pedidos).‌‌

✅ Acciones correctivas ejecutadas

  • Inclusión de las IPs de Google afectadas en la lista blanca de Reblaze.
  • Desactivación temporal de la regla de seguridad responsable del bloqueo.
  • Limpieza de bloqueos automáticos generados por la herramienta.
  • Validación funcional post-incidente con pruebas reales desde la app.‌‌

🛡️ Acciones preventivas (corto plazo)

  1. Ajustes en la configuración de Reblaze para prevenir falsos positivos en la detección de amenazas.
  2. Revisión y ajuste de reglas de bloqueo automático para permitir tráfico legítimo desde servicios externos como Google Pub/Sub.
  3. Monitoreo activo de IPs bloqueadas para tomar acción proactiva antes de que afecten producción.
  4. Suspensión temporal de la regla de bloqueo mientras se valida una nueva lógica más precisa.
  5. Mejora en alertamiento: Incluir notificaciones específicas de bloqueos de IP en los canales de comunicación internos (Slack).
  6. Documentación y configuración técnica: Establecer parámetros que reconozcan correctamente las solicitudes provenientes de Google.
Posted May 13, 2025 - 15:33 GMT-05:00

Resolved

Les informamos que el equipo acaba de dar por solucionado el incidente. Se requiere por parte de los usuarios ejecutar las siguientes acciones:
- Hacer su proceso normal de entrega y cualquier novedad adicional reportarla por el portal
Estaremos monitoreando nuestros sistemas para garantizar que la solución haya sido definitiva
Posted May 13, 2025 - 12:01 GMT-05:00

Monitoring

El sistema ha comenzado a desbloquear a los repartidores afectados. Sin embargo, aún existe un encolamiento de solicitudes que puede generar demoras en el proceso de actualización. Continuamos monitoreando hasta confirmar la recuperación completa.
Posted May 13, 2025 - 11:04 GMT-05:00

Identified

Se identificó que la causa del problema fue un bloqueo de seguridad en nuestro ecosistema, el cual impedía el procesamiento de recursos debido a un alto volumen de solicitudes provenientes de una misma IP.
Posted May 13, 2025 - 10:59 GMT-05:00

Investigating

Estamos experimentado un problema con el cierre de entregas en la app de repartidores, con un impacto en la operación de entrega inicialmente en Colombia y Chile. Se está investigando las causas y plan de acción.
Posted May 13, 2025 - 10:36 GMT-05:00
This incident affected: Vivo web.