Gestión de errores de software: cómo clasificar, registrar y recuperarse de errores en sistemas de producción.

EN-COM 26 de mayo de 2026 Revisión de código, Modernización de datos, Desarrolladores, Tech Talk (Información técnica)

El manejo de errores no es una función que se añade después de que el sistema funciona. Es una decisión de diseño que determina cómo se comporta un sistema cuando algo deja de funcionar, lo cual, en producción, es cuestión de cuándo, no de si ocurrirá. Las redes se agotan. Las bases de datos dejan de estar disponibles temporalmente. Los usuarios envían datos que violan todas las suposiciones del desarrollador. Los servicios externos devuelven respuestas inesperadas. El hardware falla. El sistema que maneja todas estas condiciones de forma predecible, sin corromper datos ni exponer información confidencial, está bien diseñado. El sistema que se bloquea, corrompe silenciosamente el estado o filtra detalles de implementación interna cuando ocurre cualquiera de estas situaciones tiene un problema estructural que ninguna cantidad de desarrollo de funciones podrá solucionar.

Manejo de errores para todo su código base

SMART TS XL Detecta excepciones no controladas y deficiencias en el manejo de errores en todos los lenguajes y plataformas de su entorno.

Explorar SMART TS XL

Las consecuencias prácticas de un manejo inadecuado de errores no son hipotéticas. El manejo incorrecto de errores se reconoce ahora explícitamente como uno de los riesgos de seguridad más críticos en el desarrollo de software: OWASP A10:2025 (Manejo incorrecto de condiciones excepcionales se centra en el manejo incorrecto de errores, errores lógicos, fallos abiertos y otros escenarios relacionados derivados de condiciones anormales) que los sistemas pueden encontrar. Esta es una nueva categoría en el OWASP Top 10 de 2025, que refleja una comprensión más madura de cómo los fallos en el manejo de errores producen no solo inestabilidad operativa, sino también vulnerabilidades de seguridad explotables. Las debilidades notables en esta categoría incluyen CWE-209 Generación de mensajes de error que contienen información sensible, CWE-476 Desreferenciación de puntero nulo y CWE-636 Fallo no seguro. Cada una de estas debilidades se puede prevenir con prácticas disciplinadas de manejo de errores aplicadas de manera consistente en todo el código.

Índice

¿Qué es el manejo de errores en el desarrollo de software?

El manejo de errores es el conjunto de mecanismos mediante los cuales un sistema de software detecta, clasifica y responde a condiciones que impiden la ejecución normal. Incluye la captura de excepciones, la gestión del estado de error, el registro de diagnósticos, la comunicación de fallos a los usuarios o sistemas posteriores, y la recuperación controlada o la terminación del proceso afectado. Un sistema con un manejo de errores adecuado no es un sistema que nunca falla: es un sistema que responde a los fallos de forma predecible, sin corrupción de datos, sin exponer información sensible y sin propagar el fallo a componentes que, de otro modo, podrían seguir funcionando.

Esta distinción, entre fallar de forma predecible y fallar de forma caótica, tiene una gran importancia operativa. Un sistema que falla de forma predecible genera registros claros, activa mecanismos de recuperación definidos y proporciona al equipo de operaciones la información necesaria para diagnosticar y resolver el problema. Un sistema que falla de forma caótica genera registros incompletos, permite que errores silenciosos corrompan el estado antes de que se manifieste cualquier falla visible y obliga al equipo de guardia a dedicar la mayor parte del tiempo del incidente a reconstruir lo sucedido en lugar de resolverlo. La diferencia entre un incidente de diez minutos y uno de tres horas a menudo no radica en la falla en sí, sino en la calidad de la gestión de errores que la rodea.

El manejo de errores también tiene implicaciones directas en la seguridad. El problema de seguridad más común causado por un manejo inadecuado de errores se produce cuando se muestran al usuario mensajes de error internos detallados, como rastreos de pila, volcados de base de datos y códigos de error. Estos mensajes revelan detalles de implementación que nunca deberían divulgarse, proporcionando a los hackers pistas importantes sobre posibles vulnerabilidades en el sitio. Un manejo eficaz de errores mantiene una estricta separación entre la información de diagnóstico registrada internamente y la información que se devuelve a los usuarios o que se expone a través de las API.

Tipos de errores de software y cómo identificarlos

Los errores de software no constituyen una categoría uniforme. Difieren en el momento en que ocurren, cómo se detectan, qué respuesta requieren y si dicha respuesta puede automatizarse. Comprender esta taxonomía es fundamental para diseñar una estrategia de manejo adecuada para cada tipo de error, en lugar de aplicar el mismo mecanismo a todos.

Errores de sintaxis

Los errores de sintaxis se producen cuando el código infringe las reglas gramaticales del lenguaje de programación. Los compiladores e intérpretes los detectan antes de la ejecución, lo que los convierte en la categoría más fácil de gestionar: no pueden llegar a producción en sistemas con procesos de compilación automatizados. Sin embargo, en lenguajes interpretados como Python o JavaScript, los errores de sintaxis en rutas de código no probadas por el conjunto de pruebas pueden llegar a producción y provocar fallos en tiempo de ejecución cuando esas rutas se ejecutan por primera vez. Las herramientas de análisis estático y de análisis de código detectan los errores de sintaxis en estos entornos antes del despliegue.

Los errores de ejecución

Los errores de tiempo de ejecución ocurren durante la ejecución del programa cuando este encuentra una condición que no puede manejar mediante el flujo de control normal: una desreferenciación de puntero nulo, una división por cero, un archivo inexistente, una conexión de red que falla o una base de datos temporalmente no disponible. Son el objetivo principal de los mecanismos de manejo de errores en los sistemas de producción porque son impredecibles, dependen de condiciones externas que escapan al control del código y pueden ocurrir en cualquier momento durante la ejecución de una transacción.

Los errores de ejecución se dividen en recuperables e irrecuperables, siendo esta la clasificación más importante desde el punto de vista operativo que debe realizar el sistema de gestión de errores. Un fallo temporal de conexión a la base de datos es un error de ejecución recuperable: reintentar tras un breve retraso probablemente tendrá éxito. Un archivo de configuración dañado que impide la inicialización de la aplicación es un error de ejecución irrecuperable: reintentar no servirá de nada, y la respuesta correcta es la terminación controlada con un mensaje de diagnóstico claro. Tratar estas dos categorías de forma idéntica, aplicando la misma lógica de reintento a una condición que no se puede resolver reintentando, es una de las causas más comunes de un comportamiento descontrolado en la gestión de errores en sistemas de producción.

Errores lógicos

Los errores lógicos constituyen la categoría más peligrosa precisamente porque son invisibles para los mecanismos estándar de gestión de errores. El programa se ejecuta sin generar ninguna excepción, pero produce resultados incorrectos porque la lógica implementada no se corresponde con el comportamiento previsto. Un cálculo de precios con un error de uno en un bucle, una comparación de fechas que no tiene en cuenta las diferencias horarias, una comprobación de autorización que concede acceso a un grupo de usuarios incorrecto: estos son errores lógicos. No activan ningún gestor de excepciones, no aparecen en ningún registro de errores y, a menudo, propagan sus resultados incorrectos a través de múltiples sistemas posteriores antes de que alguien se dé cuenta de que algo anda mal.

La detección de errores lógicos requiere la validación de resultados en lugar de la captura de excepciones. Esto implica aserciones que verifiquen las condiciones posteriores, pruebas comparativas que validen las salidas con una referencia correcta conocida y un monitoreo que genere alertas cuando las métricas de negocio se desvíen de los rangos esperados.

Errores del sistema

Los errores del sistema se originan fuera del código de la aplicación: fallos de hardware, agotamiento de memoria, limitaciones de recursos del sistema operativo, fallos en la infraestructura de red. Por lo general, la aplicación no puede resolverlos por sí sola y requieren respuestas coordinadas con la capa de infraestructura: conmutación por error a componentes redundantes, degradación gradual a funcionalidad reducida o apagado controlado con notificación a un equipo de operaciones. La función del código de la aplicación es detectar estas condiciones con antelación, responder con una degradación adecuada en lugar de un fallo catastrófico y generar información de diagnóstico que permita al equipo de infraestructura comprender lo ocurrido.

La siguiente tabla relaciona cada tipo de error con su mecanismo de detección y la estrategia de respuesta adecuada:

Tipo de error	Cuando se produce	Mecanismo de detección	Estrategia de respuesta
Sintaxis	Tiempo de compilación/interpretación	Compilador, linter, análisis estático	Corregir antes de la implementación
Tiempo de ejecución (recuperable)	Ejecución	Try-catch, manejo de excepciones	Reintentar con retroceso, ruta alternativa
Tiempo de ejecución (irrecuperable)	Ejecución	Try-catch, manejo de excepciones	Terminación controlada, escalada
Logic	Ejecución	Validación y seguimiento de resultados	Corrección lógica, auditoría de datos
Sistema	Ejecución	Monitoreo de infraestructura, alertas	Conmutación por error, degradación elegante

Consecuencias de un manejo inadecuado de errores

Las consecuencias de una gestión inadecuada de errores se dividen en cuatro categorías, cada una con un impacto directo en las operaciones o en el negocio. Comprenderlas concretamente es lo que justifica la inversión en ingeniería para un enfoque sistemático de gestión de errores.

Inestabilidad de la aplicación y fallos en cascada

Una excepción no controlada que se propaga hasta la parte superior de la pila de llamadas finaliza el proceso o hilo que la encontró. En una aplicación web, esto significa que la solicitud del usuario no recibe respuesta o recibe una respuesta de error genérica que no proporciona información útil. En sistemas con transacciones activas o estado de sesión, la transacción puede quedar en un estado parcialmente completado que resulta inconsistente desde la perspectiva de la base de datos.

En las arquitecturas de microservicios, la inestabilidad de las aplicaciones debido a errores no gestionados tiene un efecto multiplicador. Un servicio que no implementa disyuntores en sus dependencias externas, cuando estas se ralentizan o dejan de estar disponibles, agotará su propio grupo de conexiones intentando completar solicitudes que no se completan. Una vez agotado el grupo de conexiones, el servicio deja de estar disponible para sus clientes, independientemente de si la causa raíz del problema involucró a dichos clientes. Una gestión deficiente de errores, como ignorar excepciones, filtrar datos confidenciales en los mensajes de error o fallar silenciosamente, es una fuente común de errores y vulnerabilidades de seguridad. Fallar silenciosamente es particularmente perjudicial en sistemas distribuidos, ya que permite que el fallo se propague de forma invisible antes de que se active cualquier alerta.

Corrupción de la integridad de los datos

Los errores que se producen durante operaciones de escritura de varios pasos pueden dejar el sistema en un estado inconsistente si dichas operaciones no se encapsulan en transacciones atómicas. El ejemplo clásico es el procesamiento de pagos: si el cargo al método de pago del usuario se realiza correctamente, pero la creación del registro de pedido correspondiente falla sin activar una transacción de compensación, se le facturará al usuario una compra que no existe en el sistema. Resolver esto a posteriori requiere una conciliación manual, que es costosa, propensa a errores e incompleta.

Los fallos de integridad de datos causados por una gestión de errores inadecuada suelen descubrirse mucho después de ocurridos, cuando los sistemas posteriores que consumieron los datos incorrectos ya han tomado medidas al respecto. El coste de la corrección aumenta con el tiempo transcurrido entre el error y su detección, por lo que la prevención mediante el diseño de transacciones atómicas resulta significativamente más económica que la corrección.

Vulnerabilidades de seguridad derivadas de la salida de errores

La exposición de datos confidenciales mediante el manejo inadecuado de errores de base de datos, que revela el error completo del sistema al usuario, proporciona a los atacantes la información necesaria para crear ataques más precisos. Esto se clasifica formalmente como uno de los diez principales riesgos de seguridad en OWASP 2025. Los rastreos de pila expuestos en las respuestas HTTP revelan versiones de frameworks, rutas de archivos, nombres de clases y firmas de métodos. Los mensajes de error de la base de datos revelan nombres de tablas, nombres de columnas y estructuras de consulta. Estos detalles reducen el esfuerzo necesario para llevar a cabo un ataque exitoso de inyección SQL o de recorrido de ruta, pasando de la intuición a la selección de objetivos bien fundamentada.

La solución requiere dos cosas: primero, que todos los manejadores de excepciones en la interfaz de usuario devuelvan solo mensajes apropiados para el usuario, nunca detalles internos; y segundo, que la información de diagnóstico interna se registre en un sistema de registro con los controles de acceso adecuados, en lugar de descartarse. El mensaje para el usuario y el mensaje de diagnóstico tienen propósitos diferentes y deben generarse de forma independiente.

Deuda de mantenimiento derivada de un manejo inconsistente de errores

Los sistemas de código que carecen de un enfoque estandarizado para el manejo de errores acumulan deuda de mantenimiento a medida que crecen. Cada desarrollador implementa sus propias convenciones: algunos usan excepciones personalizadas, otros devuelven códigos de error, otros registran el error en el momento en que ocurre, otros lo propagan sin registrarlo. El resultado es un sistema donde reconstruir la causa de un fallo en producción requiere leer múltiples archivos de registro con formatos incompatibles, comprender convenciones de manejo de errores que difieren según el módulo y su autor, y descubrir con frecuencia que la causa raíz real no se registró porque el bloque catch correspondiente estaba vacío o solo registraba un mensaje genérico que descartaba el contexto de la excepción original.

Mejores prácticas para el manejo de errores en ingeniería de software

Las siguientes buenas prácticas no son preferencias de estilo. Cada una aborda un modo de fallo específico que produce incidentes de producción cuando no se aplica. Están ordenadas de las más básicas a las más avanzadas, reflejando el orden en que un equipo que desarrolla o adapta un sistema de gestión de errores debería abordarlas.

Clasifique los errores como recuperables o irrecuperables en el punto de detección.

Cada decisión sobre el manejo de errores comienza con una clasificación: ¿puede resolverse este error sin intervención humana o requiere escalamiento o terminación del proceso? Esta clasificación debe realizarse en el momento en que se detecta el error, y no posponerse a un nivel superior de la pila de llamadas donde se ha perdido el contexto que informa dicha clasificación.

Los errores recuperables son aquellos en los que un reintento, una ruta alternativa o una respuesta con funcionalidad reducida pueden completar la operación de forma aceptable. Los errores irrecuperables son aquellos en los que continuar la ejecución produciría resultados incorrectos, datos corruptos o una vulnerabilidad de seguridad. La ausencia de un archivo de configuración necesario, la detección de corrupción de datos en un almacenamiento crítico y el agotamiento de un recurso sin una alternativa son irrecuperables. Un tiempo de espera de red transitorio, una respuesta de limitación de velocidad de una API externa y un servicio secundario temporalmente no disponible son recuperables.

Clasificar erróneamente un error irrecuperable como recuperable y aplicarle lógica de reintento genera sobrecarga de reintentos: un proceso que se repite indefinidamente contra una condición que no se puede mejorar con reintentos, consumiendo recursos que podrían estar atendiendo otras solicitudes. Clasificar erróneamente un error recuperable como irrecuperable y finalizar el proceso produce tiempos de inactividad innecesarios. La clasificación es una decisión de diseño que debe documentarse para cada tipo de error, no tomarse de forma arbitraria en cada bloque catch.

Implementar el manejo centralizado de errores

La gestión centralizada de errores implica que una única ubicación del sistema se encarga de recibirlos, clasificarlos, registrarlos con metadatos estandarizados y determinar la política de respuesta. Los módulos individuales detectan y propagan los errores, pero no son responsables del formato de registro, el umbral de alerta ni la estrategia de respuesta. Estos parámetros se definen una sola vez en el gestor centralizado y se aplican de forma consistente.

En una aplicación web, el manejo centralizado de errores generalmente toma la forma de un componente de middleware que captura todas las excepciones no manejadas en el límite de la solicitud, las registra con el contexto de la solicitud (identificador de usuario, identificador de solicitud, punto final, duración), aplica la lógica de clasificación y devuelve una respuesta apropiada para la clase de error. Los marcos de lenguaje proporcionan el gancho para esto: middleware de Express en Node.js, @ControllerAdvice en Spring, componentes de límite de error en React, app.errorhandler en Flask.

La ventaja radica en la consistencia. Cada error registrado en cualquier parte del sistema tiene el mismo formato. Cada error que llega al usuario final se filtra mediante la misma lógica de saneamiento. Cada error que supera un umbral de gravedad definido activa la misma alerta. Esta consistencia es lo que hace que el análisis de registros y la respuesta a incidentes sean eficientes, en lugar de requerir un enfoque artesanal.

Implementar retroceso exponencial con fluctuación para reintentos

Los reintentos sin retroceso agravan el problema que intentan resolver. Si una base de datos se sobrecarga temporalmente y cien clientes comienzan a reintentar simultáneamente las solicitudes fallidas a intervalos de un segundo, el tráfico de reintentos puede impedir que la base de datos se recupere por completo. El retroceso exponencial aumenta progresivamente el tiempo entre reintentos, reduciendo la presión sobre el componente que falla y dándole tiempo para recuperarse.

La variación de tiempo (jitter) introduce aleatoriedad en el retardo para evitar avalanchas de reintentos: si todos los clientes utilizan el mismo esquema de retroceso determinista, todos reintentan en el mismo instante tras cada período de retardo, reproduciendo así el problema de sincronización. Aleatorizar el retardo dentro de un rango garantiza que el tráfico de reintentos de múltiples clientes se distribuya a lo largo del tiempo en lugar de sincronizarse.

Los reintentos solo son seguros cuando la operación que se reintenta es idempotente, lo que significa que ejecutarla varias veces produce el mismo resultado que ejecutarla una sola vez. Las operaciones de lectura son inherentemente idempotentes. Las operaciones de escritura deben diseñarse para que sean idempotentes, normalmente incluyendo una clave de idempotencia en la solicitud que el servidor utiliza para eliminar duplicados de múltiples entregas de la misma solicitud.

pitón

import time
import random

def with_retry(operation, max_attempts=4, base_delay_seconds=1.0):
    """
    Execute an operation with exponential backoff and jitter.
    Only retries on recoverable IOError and TimeoutError.
    Propagates all other exceptions immediately without retry.
    """
    for attempt in range(max_attempts):
        try:
            return operation()
        except (IOError, TimeoutError) as exc:
            if attempt == max_attempts - 1:
                raise  # exhausted retries, propagate
            delay = base_delay_seconds * (2 ** attempt) + random.uniform(0, 0.5)
            print(f"Attempt {attempt + 1} failed ({exc}). Retrying in {delay:.1f}s")
            time.sleep(delay)
        except Exception:
            raise  # unrecoverable, do not retry

Utilice el registro estructurado con contexto de diagnóstico completo.

Una entrada de registro que solo contiene el mensaje de excepción, sin contexto sobre la operación que se estaba ejecutando, las entradas que recibió y el estado del sistema en ese momento, obliga al ingeniero de depuración a reproducir el error para comprenderlo. En producción, la reproducción suele ser imposible. El registro estructurado captura los errores como objetos con campos definidos: marca de tiempo en formato ISO 8601, nivel de gravedad, identificador único de error, módulo y función, seguimiento completo de la pila y campos de contexto específicos de la operación, como el identificador de usuario, el identificador de solicitud y los parámetros relevantes para la operación que falló.

Esta estructura permite realizar consultas al sistema de registro que no son posibles con texto de registro no estructurado: todos los errores de tiempo de espera en el módulo de pagos en los últimos treinta minutos, todos los errores que afectan a las solicitudes del usuario con ID 12345 en las últimas 24 horas, todos los errores cuyo rastreo de pila contiene una referencia a una función específica. Estas consultas son las que hacen que el análisis posterior a un incidente sea eficiente.

El mensaje de error que ve el usuario es un asunto distinto al registro interno. Este último debe contener toda la información necesaria para el diagnóstico. El mensaje que ve el usuario no debe revelar detalles de implementación y debe indicarle qué sucedió, si necesita tomar alguna medida y qué puede hacer si el problema persiste.

Cómo deberían las plataformas de software notificar a los usuarios sobre los errores

La comunicación eficaz de errores al usuario se basa en cuatro principios. Primero, describa el problema en términos que el usuario entienda, no en términos que reflejen la estructura interna del sistema. "No pudimos procesar su pago en este momento" es preferible a "Reversión de transacción: violación de restricción en la tabla de pedidos". Segundo, indique si el problema es temporal o requiere la acción del usuario. Una interrupción temporal del servicio justifica "inténtelo de nuevo en unos minutos". Un error de validación justifica "verifique que su número de tarjeta sea correcto". Tercero, para errores que afecten transacciones en curso, confirme explícitamente el estado de esa transacción. Si no se realizó un cargo, indíquelo explícitamente. Si no se realizó el pedido, indíquelo explícitamente. La incertidumbre sobre el estado de la transacción es una fuente importante de desconfianza del usuario. Cuarto, proporcione una vía de acceso al soporte si el usuario no puede resolver el problema por sí mismo.

La implementación de estos principios requiere que el código de manejo de errores en la interfaz de usuario tenga acceso a la clasificación del error (para determinar qué tipo de mensaje mostrar), al contexto del error (para que el mensaje sea específico de lo que estaba haciendo el usuario) y a un sistema de plantillas que genere formatos de mensaje consistentes en toda la aplicación.

Diseño a prueba de fallos: Deniegue el acceso cuando se produzcan errores en los controles de seguridad.

Un problema de seguridad común causado por un manejo inadecuado de errores es la comprobación de seguridad de acceso abierto. Todos los mecanismos de seguridad deben denegar el acceso hasta que se conceda específicamente, no concederlo hasta que se deniegue, lo cual es una causa común de errores de acceso abierto. Cuando una comprobación de autenticación genera una excepción inesperada, el comportamiento correcto es denegar el acceso. Cuando una comprobación de autorización no logra recuperar los permisos del usuario debido a un error de base de datos, el comportamiento correcto es denegar el acceso. Devolver un resultado que concede el acceso cuando el mecanismo que lo denegaría ha fallado es la definición de acceso abierto, y está explícitamente incluido en la categoría A10 de OWASP 2025 como un patrón de vulnerabilidad crítico.

Implementar un manejo de errores a prueba de fallos en los controles de seguridad implica encapsular el control en un manejador de errores que, por defecto, recurra al resultado más restrictivo posible ante cualquier excepción. Significa no utilizar nunca un bloque catch simple en un contexto sensible a la seguridad que permita que la ejecución continúe. Y significa probar las rutas de error en los controles de seguridad con el mismo rigor que las rutas normales.

Patrones de diseño para el manejo de errores en sistemas distribuidos

Patrón de disyuntor

El patrón de disyuntor evita que los fallos en un servicio se propaguen a sus consumidores. Cuando una dependencia de servicio supera un umbral de tasa de error definido, el disyuntor se abre y deja de reenviar solicitudes a dicha dependencia, devolviendo un error inmediato o una respuesta alternativa sin esperar a que la dependencia responda. Tras un periodo de espera configurable, el disyuntor entra en un estado semiabierto que permite el paso de un pequeño número de solicitudes de sondeo. Si estas tienen éxito, el circuito se cierra y se reanuda el tráfico normal. Si fallan, el circuito se reabre y el periodo de espera se reinicia.

Sin disyuntores, una dependencia lenta o no disponible provoca que los subprocesos del servicio consumidor se bloqueen a la espera de respuestas que quizás nunca lleguen. El grupo de subprocesos se llena, no se pueden procesar nuevas solicitudes y el propio servicio consumidor deja de estar disponible para sus invocadores. El disyuntor convierte un fallo en cascada en un fallo limitado: la dependencia no está disponible, pero el servicio consumidor permanece operativo y puede atender solicitudes que no dependen de esa dependencia específica.

Patrón de mamparo

El patrón de aislamiento de recursos (bulkhead pattern) aísla los grupos de recursos según su dependencia, de modo que el agotamiento de un grupo no afecte a las solicitudes que no utilizan dicha dependencia. En un servicio que llama a tres API externas, asignar a cada API su propio grupo de subprocesos implica que una avalancha de solicitudes lentas a la API A solo agota el grupo de subprocesos de la API A. Las solicitudes a las API B y C continúan procesándose con normalidad, ya que sus grupos de subprocesos son independientes.

El límite de aislamiento puede aplicarse a nivel de grupo de subprocesos, grupo de conexiones o proceso, según la criticidad del aislamiento y la sobrecarga que introduce cada enfoque. El principio es el mismo en todos los casos: el fallo de una dependencia no debe consumir los recursos necesarios para otras dependencias.

Patrón Saga para transacciones distribuidas

En sistemas distribuidos donde una operación comercial abarca múltiples servicios, mantener la integridad de los datos cuando falla un paso requiere una estrategia de compensación. El patrón saga define una secuencia de transacciones locales, cada una con una transacción compensatoria correspondiente que revierte su efecto. Si falla el paso N de la saga, esta ejecuta las transacciones compensatorias de los pasos N-1 al 1 en orden inverso, restaurando el sistema a su estado anterior a la saga.

El patrón saga no garantiza la atomicidad a nivel de base de datos: logra la consistencia eventual mediante compensación en lugar de reversión. Esto significa que, durante un intervalo de tiempo entre el éxito de un paso y la ejecución de su compensación, el sistema puede encontrarse en un estado que ninguna regla de negocio preveía. El manejo de errores de cada paso debe contemplar esta situación: las transacciones compensatorias deben ser idempotentes y el orquestador saga debe diseñarse para sobrevivir a los fallos y reanudar la ejecución desde el último estado consistente.

Cómo prevenir el manejo inseguro de la salida

El manejo inseguro de la salida en el contexto de los mensajes de error es una de las categorías de vulnerabilidad más explotadas en las aplicaciones web. El patrón de ataque es directo: forzar a la aplicación a generar un error mediante el envío de datos de entrada mal formados, tipos de datos inesperados o valores límite que activan rutas de excepción. Se lee el mensaje de error o el cuerpo de la respuesta HTTP. Se extraen los detalles de implementación revelados. Se utilizan esos detalles para refinar el ataque.

Para evitar un manejo inseguro de la salida se requiere lo siguiente:

Nunca incluyas detalles de excepciones internas en las respuestas dirigidas al usuario. El cuerpo de la respuesta HTTP, el objeto de error JSON y la página de error HTML que recibe el usuario deben contener un mensaje apropiado para el usuario y, opcionalmente, un código de referencia de error que el personal de soporte pueda usar para consultar la entrada del registro interno. Nunca deben contener un rastreo de pila, una instrucción SQL, una ruta de archivo, un nombre de clase ni una versión del framework.

Verifique que el código de manejo de errores haya sido probado. Las pruebas unitarias para condiciones de error deben verificar tanto lo que contiene como lo que no contiene la respuesta de error. Una prueba que confirma que el estado de la respuesta es 500, pero no verifica que el cuerpo de la respuesta no contenga un rastreo de pila, es una prueba incompleta para esta vulnerabilidad.

Utilice formatos de respuesta de error estructurados de forma coherente. Un esquema de respuesta de error estandarizado, aplicado uniformemente a todos los puntos finales, facilita la auditoría de la información que se devuelve y permite garantizar que no se incluyan detalles internos. El formato ad hoc de las respuestas de error es donde se producen inconsistencias y fugas accidentales de información.

Registre internamente todos los detalles del diagnóstico. La información de diagnóstico que no debe aparecer en la respuesta para el usuario debe capturarse en un lugar accesible para el equipo de ingeniería. Un sistema de registro con campos estructurados y controles de acceso adecuados es el destino correcto. La llamada al sistema de registro y la generación de la respuesta para el usuario deben ser operaciones claramente separadas en el código de manejo de errores, sin compartir una cadena de mensaje común.

Un ejemplo concreto en Java que muestra la separación entre el registro de diagnóstico y la respuesta orientada al usuario:

Java

@ExceptionHandler(Exception.class)
public ResponseEntity<ErrorResponse> handleUnexpectedError(
        Exception ex, HttpServletRequest request) {

    // Full diagnostic context logged internally; never sent to the user
    String errorId = UUID.randomUUID().toString();
    log.error("Unhandled exception [errorId={}] [path={}] [userId={}]",
            errorId,
            request.getRequestURI(),
            getCurrentUserId(),
            ex);  // full stack trace captured in the log entry

    // User-facing response: error ID for support lookup, no internal details
    ErrorResponse response = new ErrorResponse(
            "An unexpected error occurred. Reference: " + errorId,
            Instant.now()
    );
    return ResponseEntity.status(HttpStatus.INTERNAL_SERVER_ERROR).body(response);
}

Este patrón garantiza que el seguimiento de la pila, la clase de excepción y todo el contexto interno se capturen en el registro, mientras que el usuario solo recibe un código de referencia que el personal de soporte puede usar para recuperar la entrada de registro correspondiente.

Análisis de código estático para detectar deficiencias en el manejo de errores

Las deficiencias en el manejo de errores que tienen más probabilidades de generar incidentes en producción no son las obvias que detectan los revisores de código. Se trata de patrones estructurales que se acumulan silenciosamente en una base de código en crecimiento: bloques `catch` vacíos que ignoran las excepciones sin registrarlas, bloques `catch` que registran un mensaje genérico descartando la excepción original, valores de retorno de error que no se verifican y manejadores de excepciones en rutas de código sensibles a la seguridad que permiten que la ejecución continúe incluso después de un fallo. Estos patrones son invisibles para los revisores a menos que los busquen específicamente, y en una base de código grande, revisar cada bloque `catch` no es práctico.

Las herramientas de análisis de código estático abordan este problema de forma sistemática. Sin ejecutar el código, lo analizan y lo convierten en un árbol de sintaxis abstracta, consultando dicha estructura en busca de patrones asociados con un manejo de errores incorrecto. SonarQube y herramientas similares detectan patrones de manejo de errores inseguros y poco fiables en el código fuente, incluyendo bloques catch vacíos, rastreos de pila expuestos y validación faltante. El análisis abarca todo el código fuente en una sola pasada, no solo los archivos que han cambiado recientemente o los módulos que han causado incidentes recientemente.

Para los sistemas empresariales que mezclan idiomas, el análisis debe cubrir todos los idiomas presentes en el entorno. Un servicio Java que maneja errores correctamente pero llama a un programa COBOL a través de una interfaz que no propaga errores desde la capa del mainframe tiene una brecha en el manejo de errores que el análisis estático solo de Java no puede ver. Como se discutió en el contexto de Análisis de código estático empresarial en diferentes lenguajesEl análisis unificado que abarca todos los lenguajes del sistema es el requisito técnico previo para encontrar deficiencias en el manejo de errores a nivel del sistema, en lugar de a nivel de archivo.

En los sistemas heredados, la deuda de manejo de errores se concentra típicamente en las partes más antiguas del código base, donde se establecieron convenciones de manejo de errores antes de que se estandarizaran las prácticas modernas. Como se examinó en el análisis de Modernización de sistemas heredados y gestión de errores en sistemas heredadosMigrar de un manejo de errores disperso e inconsistente a un enfoque centralizado y estandarizado es una tarea de modernización que se beneficia de herramientas automatizadas capaces de identificar el estado actual antes de realizar cualquier cambio.

Cómo SMART TS XL Aborda el manejo de errores a escala del sistema.

SMART TS XL Construye un modelo unificado de referencias cruzadas de todo el entorno de software, incorporando código fuente de todos los lenguajes y plataformas, incluyendo COBOL, JCL, Java, .NET, Python, JavaScript, TypeScript y SQL, y creando un índice estructural que representa las relaciones entre todos los componentes. Para el análisis del manejo de errores, este modelo responde preguntas que las herramientas de un solo lenguaje no pueden: qué funciones en un programa COBOL propagan errores a quienes las llaman, qué funciones que llaman manejan el error propagado y qué rutas a través del sistema pueden llegar a una salida visible para el usuario sin ningún manejo de errores en la cadena de llamadas.

La capacidad de análisis de impacto de la plataforma extiende esto a la evaluación de cambios: antes de modificar el comportamiento de manejo de errores de un componente compartido, el análisis de impacto identifica todos los demás componentes del sistema que dependen del comportamiento actual, de modo que los cambios se puedan escalonar y validar en lugar de implementarse con consecuencias posteriores desconocidas. Este es el análisis descrito en el soluciones de análisis de impacto que IN-COM proporciona para entornos empresariales, aplicado específicamente al problema de comprender qué efectos tendrá un cambio en la lógica de manejo de errores antes de que se realice dicho cambio.

SMART TS XLLa capacidad de búsqueda empresarial facilita el análisis: una consulta de todas las funciones del sistema que capturan una excepción sin registrarla devuelve ubicaciones de archivos y nombres de funciones específicos, organizados por lenguaje y por la gravedad de la brecha según la cantidad de usuarios que acceden a esa función. Esta priorización es lo que hace que la corrección de la deuda de manejo de errores sea práctica en lugar de abrumadora.

Manejo de errores como una propiedad a nivel de sistema

El manejo eficaz de errores no es una propiedad de los módulos individuales de forma aislada. Un módulo que maneja correctamente sus propios errores, pero que opera dentro de un sistema sin registro centralizado, sin disyuntores en sus dependencias externas y sin un diseño de transacciones atómicas para sus operaciones de escritura de varios pasos, seguirá generando incidentes de producción difíciles de diagnosticar. La corrección a nivel de módulo es necesaria, pero no suficiente.

Las propiedades a nivel de sistema que hacen que el manejo de errores sea efectivo en toda la aplicación son: una clasificación de errores consistente para que las condiciones recuperables e irrecuperables se traten de manera diferente en cada capa; un registro centralizado para que todos los eventos de error se capturen en un único sistema consultable con metadatos estandarizados; disyuntores en todas las dependencias externas para que la falla de una dependencia no pueda agotar los recursos que necesitan otras; un diseño de transacción atómica para todas las escrituras de varios pasos para que la finalización parcial no pueda producir un estado inconsistente; y valores predeterminados a prueba de fallos en todas las rutas de código sensibles a la seguridad para que los errores en las comprobaciones de control de acceso denieguen en lugar de conceder el acceso.

Integrar estas propiedades en un sistema que actualmente carece de ellas es un trabajo incremental, no una simple refactorización. El camino práctico consiste en un análisis estático para identificar las deficiencias actuales, priorizarlas según su impacto potencial en la estabilidad y la seguridad, y corregirlas progresivamente comenzando por los patrones de mayor riesgo. El resultado final es un sistema donde el manejo de errores no es algo que los ingenieros consideren al desarrollar cada nueva funcionalidad, ya que los patrones están estandarizados, el marco de trabajo los aplica y el pipeline de integración continua verifica que el nuevo código no introduzca los antipatrones que el equipo se ha comprometido a eliminar.