LLMアプリケーションのテスト戦略
LLMを使ったアプリの効果的なテスト手法。非決定的な出力をどうテストするか。
LLMテストの難しさ
出力が毎回変わる。従来の単体テストが通用しない。
3層テスト戦略
1. 構造テスト
出力のフォーマット(JSON、必須フィールド)を検証。
2. 意味テスト
別のLLMで出力の妥当性を判定する。
3. リグレッションテスト
ゴールデンデータセットで品質の劣化を検知。
まとめ
「正解」ではなく「許容範囲」でテストする発想が必要。
LLMを使ったアプリの効果的なテスト手法。非決定的な出力をどうテストするか。
出力が毎回変わる。従来の単体テストが通用しない。
出力のフォーマット(JSON、必須フィールド)を検証。
別のLLMで出力の妥当性を判定する。
ゴールデンデータセットで品質の劣化を検知。
「正解」ではなく「許容範囲」でテストする発想が必要。