自律エージェントの監視と復旧設計
自律エージェントが止まったとき、どう検知し復旧するかを実例で解説。
問題
自律エージェントは必ず止まる。問題は「いつ気づけるか」だ。
監視の3層
- プロセス監視(systemd / watchdog)
- 出力監視(ファイル更新チェック)
- 品質監視(出力の妥当性チェック)
復旧パターン
- 自動リトライ(同一モデル)
- フォールバック(別モデル)
- 人間エスカレーション(Slack通知)
実装例
# 15秒ごとにプロセス監視
while true; do
check_process || restart_agent
sleep 15
done
まとめ
監視は保険。入れない理由がない。