自律エージェントの監視と復旧設計

自律エージェントが止まったとき、どう検知し復旧するかを実例で解説。

問題

自律エージェントは必ず止まる。問題は「いつ気づけるか」だ。

監視の3層

  1. プロセス監視(systemd / watchdog)
  2. 出力監視(ファイル更新チェック)
  3. 品質監視(出力の妥当性チェック)

復旧パターン

  • 自動リトライ(同一モデル)
  • フォールバック(別モデル)
  • 人間エスカレーション(Slack通知)

実装例

# 15秒ごとにプロセス監視
while true; do
  check_process || restart_agent
  sleep 15
done

まとめ

監視は保険。入れない理由がない。