07.2 — RUNBOOK OPERATIVO DE RESPUESTA A INCIDENTES CRÍTICOS

Código: BCM-002 Versión: 1.0 — 16 de abril de 2026 Audiencia: SRE, DevOps, Ingeniería, Comité de Crisis.

1. Propósito

Guía operacional de referencia rápida durante un incidente disruptivo o ciberataque. Complementa el BCP (07.1) con pasos accionables.

2. Severidades

Sev	Definición	Objetivo de respuesta
SEV-1	Pérdida total o parcial del servicio transaccional	Respuesta en ≤ 5 min; restauración ≤ 1 h
SEV-2	Degradación severa de servicio secundario o amenaza activa	Respuesta ≤ 15 min; restauración ≤ 4 h
SEV-3	Problema limitado sin impacto transaccional	Respuesta ≤ 1 h; restauración ≤ 24 h
SEV-4	Anomalía sin impacto de negocio	Respuesta ≤ 8 h; cierre en sprint

3. Roles durante un incidente

Incident Commander (IC): coordina. Un solo IC en cualquier momento.
Communications Lead: comunicación interna y externa.
Operations Lead: ejecución técnica.
Scribe: bitácora en canal #incident-<id>.
Subject Matter Experts (SMEs): según necesidad.

4. Flujo estándar (SEV-1 / SEV-2)

Detección — monitoreo automático (CloudWatch, Prometheus, Grafana) o reporte humano.
Declaración — IC abre canal #incident-<id> y page a Comité de Crisis.
Triage — identificación de alcance, impacto, hipótesis inicial.
Contención — aislar sistemas comprometidos, activar circuit breakers, limitar tráfico si aplica.
Comunicación inicial — subcomercios + banco sponsor + regulador cuando aplique.
Investigación — logs (@fintrix/logging + SIEM), trazas de correlación, análisis forense preliminar.
Remediación — rollback, hotfix, failover según corresponda.
Verificación — smoke tests, métricas de negocio estables, ausencia de alertas.
Recuperación — restablecimiento de tráfico al 100%.
Post-mortem — documento publicado ≤ 5 días hábiles (blameless).

5. Runbooks específicos (índice)

RUN-DR-001 — Failover a región DR.
RUN-DB-001 — Rotación / promoción de réplica PostgreSQL.
RUN-KAFKA-001 — Rebalanceo de consumidores / reemplazo de broker.
RUN-VAULT-001 — Aislamiento del card-vault-service.
RUN-FRAUD-001 — Activación de reglas antifraude reforzadas.
RUN-AUTH-001 — Rotación de llaves JWT y secretos KMS.
RUN-API-001 — Throttling / circuit breaker en Kong.
RUN-CRED-001 — Contingencia ante falla de Credibanco.

Los runbooks detallados residen en el repositorio interno runbooks/ y se entregan bajo NDA.

6. Árbol de decisión para escalamiento

7. Plantillas de comunicación

Asunto: [INCIDENTE] Fintrixs Pay — {breve descripción} Estimados, reportamos un incidente clasificado como {SEV-X} iniciado a las {HH:MM COT}. Impacto observado: {descripción}. Plan de acción: {pasos}. Próxima actualización en 30 minutos.

7.2. Status page público

Estamos investigando una degradación en el servicio de {procesamiento / autenticación / …}. Los equipos están activos. Actualizaremos cada 15 minutos.

8. Checklist post-incidente

[ ] Incidente cerrado en la herramienta de tickets.
[ ] Bitácora y evidencias archivadas.
[ ] Post-mortem publicado.
[ ] Acciones correctivas abiertas en backlog con dueño y fecha.
[ ] Comunicación final a banco sponsor.
[ ] Reporte regulatorio presentado (cuando aplique).
[ ] Matriz de riesgos (05.4) actualizada si corresponde.
[ ] Lecciones aprendidas socializadas a todo el equipo.

07.2 — RUNBOOK OPERATIVO DE RESPUESTA A INCIDENTES CRÍTICOS ​

1. Propósito ​

2. Severidades ​

3. Roles durante un incidente ​

4. Flujo estándar (SEV-1 / SEV-2) ​

5. Runbooks específicos (índice) ​

6. Árbol de decisión para escalamiento ​

7. Plantillas de comunicación ​

7.1. Aviso inicial a banco sponsor (interno) ​

7.2. Status page público ​

8. Checklist post-incidente ​