ソフトウェアエラー処理：本番システムにおけるエラーの分類、ログ記録、および復旧方法

インコム 2026 年 5 月 26 日コードレビュー, データの近代化, 開発者向け, Tech Talk（テクニカルトーク）

エラー処理は、システムが正常に動作するようになってから追加する機能ではありません。それは、システムが動作しなくなったときにどのように動作するかを決定する設計上の決定事項であり、本番環境では、動作しなくなるのは「いつ」起こるかの問題であって、「起こるかどうか」の問題ではありません。ネットワークはタイムアウトします。データベースは一時的に利用できなくなります。ユーザーは、開発者が想定していたすべての前提に反する入力を送信します。外部サービスから予期しない応答が返されます。ハードウェアが故障します。これらの状況すべてを、データを破損したり機密情報を漏洩させたりすることなく、予測可能な方法で処理できるシステムは、優れた設計と言えます。これらのいずれかの状況が発生したときにクラッシュしたり、状態が静かに破損したり、内部実装の詳細が漏洩したりするシステムは、どんなに機能開発を進めても解決できない構造的な問題を抱えています。

コードベース全体のエラー処理

SMART TS XL 環境内のあらゆる言語とプラットフォームにおいて、未処理の例外やエラー処理の不備を検出します。

詳しく見る SMART TS XL

不適切なエラー処理がもたらす実際的な影響は、単なる仮説ではありません。不適切なエラー処理は、ソフトウェア開発における最も重大なセキュリティリスクの1つとして明確に認識されています。OWASP A10:2025（例外的な状況の不適切な処理）は、システムが遭遇する異常な状況に起因する不適切なエラー処理、論理エラー、オープン状態へのフェイル、その他の関連シナリオに焦点を当てています。これは、2025年のOWASP Top 10に新たに追加されたカテゴリであり、エラー処理の失敗が運用上の不安定性だけでなく、悪用可能なセキュリティ脆弱性も生み出すという理解が深まったことを反映しています。このカテゴリの注目すべき脆弱性には、CWE-209「機密情報を含むエラーメッセージの生成」、CWE-476「NULLポインタの逆参照」、CWE-636「安全なフェイルオーバーの欠如」などがあります。これらの脆弱性は、コードベース全体に一貫して適用される規律あるエラー処理手法によって、いずれも防止可能です。

ソフトウェア開発におけるエラー処理とは何か

エラー処理とは、ソフトウェアシステムが正常な実行を妨げる状態を検出、分類、および対応するための一連のメカニズムのことです。これには、例外の捕捉、エラー状態の管理、診断ログの記録、ユーザーまたは下流システムへの障害の通知、および影響を受けたプロセスの制御された回復または終了が含まれます。適切なエラー処理を備えたシステムは、決して障害が発生しないシステムではありません。それは、データ破損や機密情報の漏洩、および本来であれば動作を継続できるはずのコンポーネントへの障害の伝播を起こすことなく、障害に対して予測可能な対応を行うシステムです。

予測可能な障害と無秩序な障害の区別は、運用上非常に重要です。予測可能な障害が発生するシステムは、明確なログを生成し、定義された復旧メカニズムをトリガーし、運用チームが問題の診断と解決に必要な情報を提供します。一方、無秩序な障害が発生するシステムは、不完全なログを生成し、目に見える障害が発生する前にサイレントエラーによって状態が破損し、オンコールチームはインシデント発生時間のほとんどを、問題を解決するのではなく、何が起こったのかを再構築することに費やさざるを得なくなります。10分で終わるインシデントと3時間かかるインシデントの違いは、多くの場合、障害そのものではなく、その障害を取り巻くエラー処理の質にあります。

エラー処理は、セキュリティにも直接的な影響を及ぼします。不適切なエラー処理によって引き起こされる最も一般的なセキュリティ問題は、スタックトレース、データベースダンプ、エラーコードなどの詳細な内部エラーメッセージがユーザーに表示されることです。これらのメッセージは、決して公開されるべきではない実装の詳細を明らかにし、ハッカーにサイトの潜在的な脆弱性に関する重要な手がかりを与えてしまいます。効果的なエラー処理では、内部に記録される診断情報と、ユーザーに返される情報、またはAPIを通じて公開される情報との間に厳密な分離を維持する必要があります。

ソフトウェアエラーの種類とその特定方法

ソフトウェアエラーは均一なカテゴリーではありません。発生時期、検出方法、必要な対応、そしてその対応を自動化できるかどうかなど、様々な点で異なります。すべてのエラーに同じメカニズムを適用するのではなく、それぞれのエラータイプに適した処理戦略を設計するためには、まず分類体系を理解することが不可欠です。

構文エラー

構文エラーは、コードがプログラミング言語の文法規則に違反した場合に発生します。コンパイラやインタプリタは実行前に構文エラーを検出するため、最も扱いやすいカテゴリです。自動ビルドパイプラインを備えたシステムでは、本番環境に到達することはありません。しかし、PythonやJavaScriptのようなインタプリタ型言語では、テストスイートで実行されないコードパスの構文エラーが本番環境に到達し、それらのパスが最初に実行されたときに実行時エラーを引き起こす可能性があります。このような環境では、リンティングツールや静的解析ツールがデプロイ前に構文エラーを検出します。

ランタイムエラー

実行時エラーは、プログラムが通常の制御フローでは処理できない状況に遭遇した際に発生します。例えば、ヌルポインタの逆参照、ゼロ除算、存在しないファイル、ネットワーク接続の失敗、一時的に利用できないデータベースなどが挙げられます。実行時エラーは予測不可能であり、コードの制御範囲外の外部条件に依存し、トランザクションの実行中のどの時点でも発生する可能性があるため、本番システムにおけるエラー処理メカニズムの主要な対象となります。

実行時エラーは、回復可能なものと回復不可能なものにさらに分類され、これはエラー処理システムが行うべき最も重要な運用上の分類です。一時的なデータベース接続の失敗は回復可能な実行時エラーであり、少し待ってから再試行すれば成功する可能性が高いです。アプリケーションの初期化を妨げる構成ファイルの破損は回復不可能な実行時エラーであり、再試行しても解決せず、適切な対応は明確な診断メッセージとともに制御された終了を行うことです。これら2つのカテゴリを同一視し、再試行しても解決できない状況に同じ再試行ロジックを適用することは、本番システムでエラー処理が暴走する最も一般的な原因の1つです。

論理エラー

論理エラーは、標準的なエラー処理メカニズムでは検出されないため、最も危険なカテゴリと言えます。プログラムは例外を発生させることなく実行されますが、実装されたロジックが意図した動作と一致しないため、誤った結果が生成されます。ループ内のオフバイワンエラーを含む価格計算、タイムゾーンの違いを考慮しない日付比較、誤ったユーザーセットにアクセス権を付与する認証チェックなどは、論理エラーの一例です。これらのエラーは例外ハンドラをトリガーせず、エラーログにも記録されず、多くの場合、誰かが問題に気づく前に、誤った結果が複数の下流システムに伝播してしまいます。

論理エラーの検出には、例外の捕捉ではなく、結果の検証が必要です。つまり、事後条件を検証するアサーション、既知の正しい参照値に対して出力を検証する比較テスト、そしてビジネス指標が想定範囲から逸脱した場合に警告を発するモニタリングが必要となります。

システムエラー

システムエラーは、アプリケーションコードの外部で発生します。ハードウェア障害、メモリ不足、オペレーティングシステムのリソース制限、ネットワークインフラストラクチャの障害などがその例です。これらのエラーは通常、アプリケーション単独では解決できず、インフラストラクチャ層と連携した対応が必要です。具体的には、冗長コンポーネントへのフェイルオーバー、機能制限を伴う段階的なダウングレード、運用チームへの通知を伴う制御されたシャットダウンなどが挙げられます。アプリケーションコードの役割は、これらの状況を早期に検知し、壊滅的な障害ではなく適切なダウングレードで対応し、インフラストラクチャチームが何が起こったのかを理解できるような診断情報を生成することです。

以下の表は、各エラーの種類と、それを検出するメカニズムおよび適切な対応戦略を対応付けたものです。

エラータイプ	これが発生した場合	検出メカニズム	対応戦略
構文	コンパイル/解釈時間	コンパイラ、リンター、静的解析	デプロイ前に修正してください
実行時（回復可能）	実行	try-catch、例外処理	バックオフ、フォールバックパスを使用して再試行
実行時エラー（回復不能）	実行	try-catch、例外処理	制御された終了、エスカレーション
ロジック	実行	結果の検証、モニタリング	論理修正、データ監査
システム	実行	インフラ監視、アラート	フェイルオーバー、グレースフルデグラデーション

不適切なエラー処理の結果

不適切なエラー処理の結果は4つのカテゴリーに分類され、それぞれが運用面または事業面に直接的な影響を及ぼします。これらの影響を具体的に理解することが、体系的なエラー処理アプローチへのエンジニアリング投資を正当化する根拠となります。

アプリケーションの不安定性と連鎖的な障害

処理されない例外がコールスタックの最上位まで伝播すると、その例外が発生したプロセスまたはスレッドが終了します。Webアプリケーションでは、これはユーザーのリクエストに対して応答がないか、または対処可能な情報を提供しない一般的なエラー応答が返されることを意味します。アクティブなトランザクションまたはセッション状態を持つシステムでは、トランザクションが部分的に完了した状態のままになり、データベースの観点から見て矛盾が生じる可能性があります。

マイクロサービスアーキテクチャでは、未処理のエラーによるアプリケーションの不安定性は、連鎖的な影響を及ぼします。外部依存関係にサーキットブレーカーを実装していないサービスは、それらの依存関係が遅くなったり利用できなくなったりすると、完了しないリクエストを試行し、自身の接続プールを枯渇させてしまいます。接続プールが枯渇すると、根本原因が呼び出し元に関係しているかどうかに関わらず、サービスは自身のアップストリーム呼び出し元から利用できなくなります。例外を無視したり、エラーメッセージに機密データを漏洩したり、サイレントに障害を発生させたりするなど、不適切なエラー処理は、バグとセキュリティ脆弱性の両方の一般的な原因となります。サイレント障害は、アラートが発生する前に障害が目に見えない形で伝播してしまうため、分散システムでは特に有害です。

データ整合性の破損

複数ステップの書き込み操作の途中でエラーが発生した場合、それらの操作がアトミックトランザクションでラップされていないと、システムが矛盾した状態になる可能性があります。典型的な例は決済処理です。ユーザーの決済方法への請求は成功したが、対応する注文レコードの作成が補償トランザクションをトリガーせずに失敗した場合、ユーザーにはシステムに存在しない購入に対して請求が行われます。事後的にこれを解決するには手動での照合が必要となり、コストがかかり、エラーが発生しやすく、不完全な結果を招く可能性があります。

不適切なエラー処理によって引き起こされるデータ整合性障害は、多くの場合、誤ったデータを利用した下流システムが既にそのデータに基づいて何らかの処理を実行した後になって初めて発覚します。エラー発生から発見までの遅延が長引くほど、修復コストは増大します。そのため、アトミックトランザクション設計による予防は、修正よりもはるかに低コストです。

エラー出力に起因するセキュリティ脆弱性

データベースエラーの不適切な処理によって機密データが漏洩し、システムエラーの全容がユーザーに公開されると、攻撃者はより効果的な標的型攻撃を仕掛けるために必要な情報を入手できてしまいます。これは現在、OWASP 2025でトップ10のセキュリティリスクとして正式に分類されています。HTTPレスポンスで公開されるスタックトレースからは、フレームワークのバージョン、ファイルパス、クラス名、メソッドシグネチャが明らかになります。データベースエラーメッセージからは、テーブル名、列名、クエリ構造が明らかになります。これらの詳細情報によって、SQLインジェクション攻撃やパストラバーサル攻撃を成功させるために必要な労力が、推測から情報に基づいた標的型攻撃へと大幅に削減されます。

この問題を解決するには、2つのことが必要です。1つ目は、ユーザーと接する境界にあるすべての例外ハンドラが、ユーザーに適したメッセージのみを返し、内部の詳細情報を決して返さないこと。2つ目は、内部診断情報を破棄するのではなく、適切なアクセス制御を備えたログシステムに記録することです。ユーザー向けメッセージと診断メッセージはそれぞれ異なる目的を持つため、独立して生成されるべきです。

一貫性のないエラー処理による保守負債

エラー処理に標準化されたアプローチがないコードベースは、規模が大きくなるにつれて保守上の負債が蓄積されます。開発者ごとに独自の慣習が採用され、カスタム例外を使用する開発者、エラーコードを返す開発者、発生箇所でログを記録する開発者、ログを記録せずに伝播させる開発者などがいます。その結果、本番環境での障害の原因を解明するには、互換性のない形式の複数のログファイルを読み込み、モジュールごと、また開発者ごとに異なるエラー処理の慣習を理解し、関連するcatchブロックが空であったり、元の例外コンテキストを破棄する一般的なメッセージしかログに記録されなかったために、実際の根本原因がログに記録されていなかったことを頻繁に発見する必要が生じます。

ソフトウェアエンジニアリングにおけるエラー処理のベストプラクティス

以下のベストプラクティスは、単なるスタイルの好みではありません。それぞれが、そのプラクティスが欠如している場合に発生する、特定の障害モードに対処するものです。これらは基礎的なものから高度なものへと順に並べられており、エラー処理システムを構築または改修するチームが取り組むべき順序を反映しています。

エラーを検出時点で回復可能か回復不可能かに分類する

エラー処理に関するあらゆる判断は、まず一つの分類から始まります。それは、このエラーは人間の介入なしに解決できるのか、それともエスカレーションやプロセスの終了が必要なのか、という分類です。この分類は、エラーが最初に検出された時点で行われるべきであり、分類の根拠となるコンテキストが失われてしまうコールスタックの上位レベルまで延期されるべきではありません。

回復可能なエラーとは、再試行、代替パスへのフォールバック、または機能制限付き応答によって操作を許容範囲内で完了できるエラーです。回復不可能なエラーとは、実行を継続すると誤った結果が生じたり、データが破損したり、セキュリティ上の脆弱性が発生したりするエラーです。必要な構成ファイルが存在しない、重要なストレージでデータ破損が検出される、フォールバックがない状態でリソースが枯渇する、といったエラーは回復不可能です。一時的なネットワークタイムアウト、外部APIからのレート制限応答、および一時的に利用できないセカンダリサービスは回復可能です。

回復不能なエラーを回復可能と誤分類し、再試行ロジックを適用すると、再試行の嵐が発生します。これは、再試行によって改善できない状況に対してプロセスが無限ループし、他のリクエストに対応できるはずのリソースを消費してしまう状態です。回復可能なエラーを回復不能と誤分類し、プロセスを終了させると、不要なダウンタイムが発生します。エラーの分類は設計上の決定事項であり、各catchブロックで場当たり的に行うのではなく、エラーの種類ごとに文書化する必要があります。

集中型エラー処理を実装する

集中型エラー処理とは、システム内の単一の場所で、エラーの受信、分類、標準化されたメタデータによるログ記録、および対応ポリシーの決定を担当することを意味します。個々のモジュールはエラーを検出して伝播しますが、ログのフォーマット、アラートのしきい値、または対応戦略については責任を負いません。これらは集中型ハンドラーで一度定義され、一貫して適用されます。

Web アプリケーションでは、集中型エラー処理は通常、リクエスト境界で未処理の例外をすべてキャッチし、リクエストコンテキスト (ユーザー識別子、リクエスト識別子、エンドポイント、期間) とともにログに記録し、分類ロジックを適用し、エラークラスに適したレスポンスを返すミドルウェアコンポーネントの形式をとります。言語フレームワークは、このためのフックを提供します。Node.js の Express ミドルウェア、 @ControllerAdvice Spring のエラー境界コンポーネント、React のエラー境界コンポーネント、 app.errorhandler Flask で。

その利点は一貫性です。システム内のどこに記録されたエラーもすべて同じ形式です。ユーザーインターフェースを通過するエラーはすべて同じサニタイズロジックでフィルタリングされます。定義された重大度しきい値を超えるエラーはすべて同じアラートをトリガーします。この一貫性こそが、ログ分析とインシデント対応を手作業ではなく効率的なものにするのです。

再試行にジッター付き指数バックオフを実装する

バックオフなしの再試行は、解決しようとしている問題を悪化させます。データベースが一時的に過負荷状態になり、100台のクライアントが同時に1秒間隔で失敗したリクエストの再試行を開始すると、再試行トラフィックによってデータベースが全く回復できなくなる可能性があります。指数バックオフは再試行間の遅延を段階的に増加させることで、障害が発生したコンポーネントへの再試行の負荷を軽減し、回復のための時間を与えます。

ジッターは遅延にランダム性を導入することで、リトライの連鎖を防ぎます。すべてのクライアントが同じ決定論的なバックオフスケジュールを使用すると、各遅延期間後にすべてのクライアントが同じタイミングでリトライするため、同期の問題が再現されます。遅延を一定の範囲内でランダム化することで、複数のクライアントからのリトライトラフィックが同期するのではなく、時間的に分散されることが保証されます。

再試行は、再試行対象の操作が冪等である場合に限り安全です。冪等性とは、操作を複数回実行しても、1回実行した場合と同じ結果が得られることを意味します。読み取り操作は本質的に冪等です。書き込み操作は、設計上冪等にする必要があります。通常は、サーバーが同じリクエストの複数回の配信を重複排除するために使用する冪等性キーをリクエストに含めることで実現します。

パイソン

import time
import random

def with_retry(operation, max_attempts=4, base_delay_seconds=1.0):
    """
    Execute an operation with exponential backoff and jitter.
    Only retries on recoverable IOError and TimeoutError.
    Propagates all other exceptions immediately without retry.
    """
    for attempt in range(max_attempts):
        try:
            return operation()
        except (IOError, TimeoutError) as exc:
            if attempt == max_attempts - 1:
                raise  # exhausted retries, propagate
            delay = base_delay_seconds * (2 ** attempt) + random.uniform(0, 0.5)
            print(f"Attempt {attempt + 1} failed ({exc}). Retrying in {delay:.1f}s")
            time.sleep(delay)
        except Exception:
            raise  # unrecoverable, do not retry

完全な診断コンテキストを備えた構造化ログを使用する

例外メッセージのみを含むログエントリでは、実行された操作、受け取った入力、および当時のシステムの状態に関するコンテキストがないため、デバッグエンジニアはエラーを理解するためにエラーを再現する必要があります。本番環境では、再現が不可能な場合がよくあります。構造化ログでは、エラーを定義済みのフィールドを持つオブジェクトとしてキャプチャします。定義済みのフィールドには、ISO 8601形式のタイムスタンプ、重大度レベル、一意のエラー識別子、モジュールと関数、完全なスタックトレース、およびユーザー識別子、リクエスト識別子、失敗した操作に関連するパラメータなどの操作固有のコンテキストフィールドが含まれます。

この構造により、非構造化ログテキストでは不可能な、ログシステムに対するクエリが可能になります。例えば、過去30分間の支払いモジュールにおけるすべてのタイムアウトエラー、過去24時間以内にユーザーID 12345からのリクエストに影響を与えたすべてのエラー、スタックトレースに特定の関数への参照が含まれているすべてのエラーなどです。これらのクエリによって、インシデント後の分析が効率化されます。

ユーザーに表示されるエラーメッセージは、内部ログエントリとは別の問題です。ログエントリには、診断に必要なすべての情報が含まれている必要があります。ユーザーに表示されるメッセージには、実装の詳細を明らかにするような情報は一切含めず、何が起こったのか、ユーザーが何らかの対応を取る必要があるのか、そして問題が解決しない場合にどうすればよいのかをユーザーに伝える必要があります。

ソフトウェアプラットフォームは、エラー発生時にユーザーにどのように通知すべきか

効果的なユーザー向けエラー伝達は、4つの原則に従います。第一に、システムの内部構造を反映した用語ではなく、ユーザーが理解できる用語で問題を説明します。「現在、お支払いを処理できませんでした」は、「トランザクションのロールバック：注文テーブルの制約違反」よりも好ましい表現です。第二に、問題が一時的なものか、ユーザーによる操作が必要なものかを示します。一時的なサービス停止の場合は、「数分後にもう一度お試しください」と伝えます。検証エラーの場合は、「カード番号が正しいかご確認ください」と伝えます。第三に、進行中のトランザクションに影響するエラーの場合は、そのトランザクションの状態を明確に確認します。支払いが行われなかった場合は、その旨を明確に伝えます。注文が行われなかった場合も、その旨を明確に伝えます。トランザクションの状態が不明確だと、ユーザーの不信感につながります。第四に、ユーザーが自分で問題を解決できない場合は、サポートへの道筋を示します。

これらの原則を実装するには、ユーザーと接する境界にあるエラー処理コードが、エラー分類（表示するメッセージの種類を決定するため）、エラーコンテキスト（ユーザーが行っていた操作に合わせてメッセージを具体的にするため）、およびアプリケーション全体で一貫したメッセージ形式を生成するテンプレートシステムにアクセスできる必要があります。

フェイルセキュア設計：セキュリティ制御にエラーが発生した場合はアクセスを拒否する

不適切なエラー処理によって引き起こされる一般的なセキュリティ問題の1つに、フェイルオープンセキュリティチェックがあります。すべてのセキュリティメカニズムは、明示的に許可されるまでアクセスを拒否するべきであり、拒否されるまでアクセスを許可すべきではありません。これがフェイルオープンエラーが発生する一般的な原因です。認証チェックで予期しない例外が発生した場合、正しい動作はアクセスを拒否することです。認可チェックでデータベースエラーによりユーザーの権限を取得できなかった場合も、正しい動作はアクセスを拒否することです。アクセスを拒否するメカニズムが失敗したにもかかわらず、アクセスを許可する結果を返すことは、フェイルオープンの定義であり、OWASP 2025のA10カテゴリで重大な脆弱性パターンとして明示的に記載されています。

セキュリティ制御においてフェイルセキュアなエラー処理を実装するということは、例外が発生した場合に最も厳格な結果をデフォルトで実行するエラーハンドラで制御をラップすることを意味します。つまり、セキュリティ上重要なコンテキストで、実行を継続させてしまうような単純なcatchブロックを決して使用しないということです。そして、セキュリティ制御におけるエラーパスを、正常パスと同様に厳密にテストすることを意味します。

分散システムにおけるエラー処理設計パターン

サーキットブレーカーパターン

サーキットブレーカーパターンは、あるサービスの障害が他のサービスに連鎖的に影響を及ぼすのを防ぎます。サービス依存関係が定義されたエラー率のしきい値を超えると、サーキットブレーカーが開き、その依存関係へのリクエストの転送を停止し、依存関係からの応答を待たずに即座にエラーまたはフォールバック応答を返します。設定可能な待機期間の後、サーキットブレーカーは半開状態になり、少数のプローブリクエストを通過させます。これらのリクエストが成功した場合、サーキットブレーカーは閉じ、通常のトラフィックが再開されます。失敗した場合は、サーキットブレーカーが再び開き、待機期間がリセットされます。

サーキットブレーカーがない場合、依存関係の処理が遅い、または利用できないと、サービス側のスレッドが応答待ちでブロックされ、応答が届かない可能性があります。スレッドプールが満杯になり、新しいリクエストを処理できなくなり、サービス自体も呼び出し元から利用できなくなります。サーキットブレーカーは、連鎖的な障害を限定的な障害に変換します。つまり、依存関係は利用できなくなりますが、サービス側は引き続き動作し、その特定の依存関係に依存しないリクエストを処理できます。

隔壁パターン

バルクヘッドパターンは、依存関係に基づいてリソースプールを分離するため、あるプールの枯渇が、その依存関係を使用しないリクエストに影響を与えることはありません。3つの外部APIを呼び出すサービスの場合、各APIに独自のスレッドプールを割り当てることで、API Aへの低速なリクエストが大量に発生しても、API Aのスレッドプールのみが枯渇します。API BとCへのリクエストは、それぞれのスレッドプールが分離されているため、通常どおり処理され続けます。

分離境界は、分離の重要度と各アプローチによって生じるオーバーヘッドに応じて、スレッドプールレベル、コネクションプールレベル、またはプロセスレベルのいずれかに適用できます。いずれの場合も原則は同じです。つまり、ある依存関係の障害によって、他の依存関係が必要とするリソースが消費されてはならないということです。

分散トランザクションのためのSagaパターン

複数のサービスにまたがる業務運営を行う分散システムでは、いずれかのステップで障害が発生した場合にデータの整合性を維持するには、補償戦略が必要です。サガパターンは、ローカルトランザクションのシーケンスを定義し、各トランザクションには、その影響を逆転させる対応する補償トランザクションがあります。サガのステップNで障害が発生した場合、サガはステップN-1からステップ1までの補償トランザクションを逆順に実行し、システムをサガ実行前の状態に復元します。

サガパターンはデータベースレベルでのアトミック性を保証するものではありません。ロールバックではなく補償によって結果整合性を実現します。つまり、あるステップの成功からその補償の実行までの間、システムはビジネスルールで想定されていない状態になる可能性があるということです。各ステップのエラー処理はこの点を考慮する必要があります。補償トランザクションは冪等性を持つ必要があり、サガオーケストレーターは障害が発生しても処理を継続し、最後に整合性の取れた状態から再開できるように設計する必要があります。

安全でない出力処理を防ぐ方法

エラーメッセージにおける安全でない出力処理は、Webアプリケーションにおいて最も頻繁に悪用される脆弱性の一つです。攻撃パターンは単純明快です。不正な入力、予期しないデータ型、または例外パスをトリガーする境界値を送信することで、アプリケーションにエラーを生成させます。エラーメッセージまたはHTTPレスポンスボディを読み取り、明らかになった実装の詳細を抽出します。そして、その詳細を利用して攻撃を洗練させます。

安全でない出力処理を防止するには、以下のことが必要です。

ユーザー向けの応答には、内部例外の詳細を決して含めないでください。 ユーザーが受け取るHTTPレスポンスボディ、JSONエラーオブジェクト、およびHTMLエラーページには、ユーザーに適したメッセージと、必要に応じてサポート担当者が内部ログエントリを検索するために使用できるエラー参照コードを含める必要があります。スタックトレース、SQLステートメント、ファイルパス、クラス名、またはフレームワークバージョンは決して含めてはいけません。

エラー処理コードがテスト済みであることを検証する。 エラー条件に対する単体テストでは、エラーレスポンスに含まれる内容だけでなく、含まれていない内容についても検証する必要があります。レスポンスステータスが500であることを確認するだけで、レスポンスボディにスタックトレースが含まれていないことを検証しないテストは、この脆弱性に対する不完全なテストです。

構造化されたエラー応答フォーマットを一貫して使用してください。 すべてのエンドポイントに統一的に適用される標準化されたエラー応答スキーマを使用することで、返される情報の監査が容易になり、内部情報が漏洩しないように徹底しやすくなります。一方、場当たり的なエラー応答フォーマットは、不整合や意図しない情報漏洩の原因となります。

診断の詳細をすべて内部的に記録する。 ユーザーへの応答に含めるべきではない診断情報は、エンジニアリングチームがアクセスできる場所に記録する必要があります。構造化されたフィールドと適切なアクセス制御を備えたログシステムが適切な保存先です。ログ記録の呼び出しとユーザーへの応答生成は、エラー処理コード内で明確に分離された操作として扱い、共通のメッセージ文字列を共有してはいけません。

診断ログとユーザー向けレスポンスの分離を示す具体的なJavaの例：

ジャワ

@ExceptionHandler(Exception.class)
public ResponseEntity<ErrorResponse> handleUnexpectedError(
        Exception ex, HttpServletRequest request) {

    // Full diagnostic context logged internally; never sent to the user
    String errorId = UUID.randomUUID().toString();
    log.error("Unhandled exception [errorId={}] [path={}] [userId={}]",
            errorId,
            request.getRequestURI(),
            getCurrentUserId(),
            ex);  // full stack trace captured in the log entry

    // User-facing response: error ID for support lookup, no internal details
    ErrorResponse response = new ErrorResponse(
            "An unexpected error occurred. Reference: " + errorId,
            Instant.now()
    );
    return ResponseEntity.status(HttpStatus.INTERNAL_SERVER_ERROR).body(response);
}

このパターンにより、スタックトレース、例外クラス、およびすべての内部コンテキストがログに記録される一方で、ユーザーにはサポート担当者が対応するログエントリを取得するために使用できる参照コードのみが提供されます。

エラー処理の欠陥を検出するための静的コード分析

本番環境でインシデントを引き起こす可能性が最も高いエラー処理の欠陥は、コードレビュー担当者が見つけるような明白なものではありません。それらは、コードベースが拡大するにつれて静かに蓄積されていく構造的なパターンです。例えば、例外をログに記録せずに無視する空の catch ブロック、元の例外を破棄しながら汎用的なメッセージをログに記録する catch ブロック、呼び出し元がチェックしないエラー戻り値、セキュリティ上重要なコードパスで失敗しても実行が継続される例外ハンドラなどが挙げられます。これらのパターンは、レビュー担当者が意識的に探さない限り見えず、大規模なコードベースでは、すべての catch ブロックをレビューすることは現実的ではありません。

静的コード解析ツールは、この問題に体系的に対処します。コードを実行することなく、ソースコードを抽象構文木に解析し、その構造から不適切なエラー処理に関連するパターンを検出します。SonarQubeなどのツールは、空のcatchブロック、スタックトレースの露出、検証の欠落など、ソースコード内の安全でない、または信頼性の低いエラー処理パターンを検出します。この解析は、最近変更されたファイルや最近インシデントを引き起こしたモジュールだけでなく、コードベース全体を一度の処理でカバーします。

複数の言語が混在するエンタープライズシステムの場合、分析は環境に存在するすべての言語を網羅する必要があります。エラーを正しく処理するJavaサービスであっても、メインフレーム層からエラーを伝播しないインターフェースを介してCOBOLプログラムを呼び出す場合、Javaのみの静的分析では検出できないエラー処理のギャップが存在します。言語を横断するエンタープライズ静的コード分析システム内のすべての言語を網羅する統一的な分析は、ファイルレベルではなくシステムレベルでエラー処理の欠陥を見つけるための技術的な前提条件です。

レガシーシステムの場合、エラー処理の負債は通常、コードベースの最も古い部分に集中しており、そこではエラー処理の慣習が現代の慣行が標準化される前に確立されています。既存システムの近代化とエラー処理散在的で一貫性のないエラー処理から、一元化された標準化されたアプローチへの移行は、変更を加える前に現状を特定できる自動化ツールを活用することでメリットが得られる近代化タスクです。

認定条件 SMART TS XL システム規模でのエラー処理に対応

SMART TS XL このツールは、COBOL、JCL、Java、.NET、Python、JavaScript、TypeScript、SQLなど、あらゆる言語とプラットフォームのソースコードを取り込み、ソフトウェア環境全体の統一された相互参照モデルを構築し、すべてのコンポーネント間の関係を表す構造インデックスを作成します。エラー処理分析においては、このモデルは単一言語ツールでは解決できない疑問に答えます。例えば、COBOLプログラムのどの関数が呼び出し元にエラーを伝播させるか、それらの関数のどの呼び出し元が伝播されたエラーを処理するか、そして呼び出しチェーンでエラー処理を行わずにシステム内のどのパスがユーザー向けの出力に到達できるか、といった疑問です。

プラットフォームの影響分析機能は、これを変更評価にまで拡張します。共有コンポーネントのエラー処理動作を変更する前に、影響分析によって、現在の動作に依存するシステム内の他のすべてのコンポーネントが特定されるため、変更を段階的に実行して検証することができ、下流への影響が不明なまま展開されることはありません。これは、影響分析ソリューションこれは、IN-COMがエンタープライズ環境向けに提供する機能であり、特にエラー処理ロジックの変更がどのような影響を与えるかを、変更前に理解するという問題に適用されます。

SMART TS XLのエンタープライズ検索機能により、分析が容易になります。システム内で例外をキャッチしてもログに記録しないすべての関数を検索すると、特定のファイルパスと関数名が返され、言語別、および呼び出し元が関数に到達する回数に基づくギャップの深刻度別に整理されます。この優先順位付けにより、エラー処理の負債の是正が、圧倒されることなく実行可能なものになります。

システムレベルの特性としてのエラー処理

効果的なエラー処理は、個々のモジュールが単独で持つ特性ではありません。たとえモジュール自身のエラー処理が正しく行われていても、集中ログ機能がなく、外部依存関係に対するサーキットブレーカーがなく、複数ステップの書き込み操作にアトミックなトランザクション設計が採用されていないシステム内で動作する場合、診断が困難な本番環境でのインシデントが発生する可能性があります。モジュールレベルの正確性は必要条件ではありますが、十分条件ではありません。

アプリケーション全体でエラー処理を効果的にするシステムレベルの特性は次のとおりです。回復可能な状態と回復不可能な状態が各レイヤーで異なるように、一貫したエラー分類を行うこと。すべてのエラーイベントが標準化されたメタデータを持つ単一のクエリ可能なシステムに記録されるように、集中ログ記録を行うこと。1 つの依存関係の障害によって他の依存関係に必要なリソースが枯渇しないように、すべての外部依存関係にサーキットブレーカーを設けること。部分的な完了によって矛盾した状態が発生しないように、すべてのマルチステップ書き込みに対してアトミックなトランザクション設計を採用すること。アクセス制御チェックのエラーによってアクセスが許可されるのではなく拒否されるように、すべてのセキュリティに敏感なコードパスにフェイルセキュアなデフォルトを設定すること。

現在これらの特性を備えていないシステムにこれらを組み込むには、一度のリファクタリングではなく、段階的な作業が必要です。現実的なアプローチとしては、静的解析によって現状のギャップを特定し、安定性とセキュリティへの潜在的な影響に基づいてそれらのギャップに優先順位を付け、リスクの高いパターンから順に段階的に修正していくことです。最終的な目標は、パターンが標準化され、フレームワークによって強制され、CIパイプラインによって新しいコードがチームが排除することに合意したアンチパターンを導入していないことが検証されるため、エンジニアが新しい機能を作成するたびにエラー処理について考える必要のないシステムを実現することです。