Interrupción de Servicios: Fallo en la Base de Datos

Incident Report for Chiper

Postmortem

¿Qué sucedió?

A las 3:40 p.m., se recibieron reportes de un bloqueo general en todas nuestras plataformas (VIVO, eCommerce y Operacional). Esto provocó la imposibilidad de:

  • Realizar pedidos.
  • Gestionar el alistamiento de órdenes en bodega.
  • Efectuar entregas en el mercado.

Diagnóstico

El incidente comenzó a las 2:58 p.m., cuando el servicio de Google BigQuery experimentó altas latencias en la ingesta y edición de datos en la nube. Esto generó bloqueos en nuestra base de datos principal, donde se almacena la información crítica de nuestras plataformas.

Los bloqueos iniciales provocaron encolamientos, lo que activó alertas en nuestros sistemas y derivó en el bloqueo total de las plataformas.

Adicionalmente, los usuarios de las operaciones intentaron acceder repetidamente al sistema, lo que resultó en bloqueos automáticos de direcciones IP, especialmente en las bodegas. Estos bloqueos de IP están diseñados para prevenir ataques cibernéticos masivos.

Plan de acción

El equipo de Ingeniería y Arquitectura:

  1. Identificó los procesos y consultas que estaban bloqueando los sistemas.
  2. Liberó datos para restablecer las plataformas.
  3. Gestionó las alertas de bloqueo de IP, rastreó las direcciones afectadas y las desbloqueó.
  4. Monitoreó el restablecimiento del servicio de Google BigQuery, lo que permitió estabilizar la base de datos y todas las plataformas.

El servicio fue completamente restaurado a las 4:56 p.m.

Impacto

Este incidente tuvo un alcance global, afectando operaciones en Colombia, México, Brasil, Chile y Venezuela. Durante los 76 minutos de interrupción (de 3:40 p.m. a 4:56 p.m.):

  • No fue posible realizar ventas ni entregas.
  • Se estima que se perdieron 240 órdenes, basado en el promedio de órdenes generadas en ese lapso un lunes.

Link:
Falla Google BigQuery Cloud https://status.cloud.google.com/incidents/LztMRFrCwWofMbzRENLW

Posted Dec 09, 2024 - 20:11 GMT-05:00

Resolved

Les informamos que el equipo acaba de dar por solucionado el incidente.

Estaremos monitoreando nuestros sistemas para garantizar que la solución haya sido definitiva.
Posted Dec 09, 2024 - 16:56 GMT-05:00

Investigating

Estamos experimentado un problema en nuestras principales plataformas, generando bloqueos en nuestros principales flujos. Se está investigando las causas y plan de acción.
Posted Dec 09, 2024 - 15:50 GMT-05:00
This incident affected: Vivo web.