トークン数を77分の1に減らしたら、AIレポートの品質が上がった

はじめに

毎週自動生成しているAIポートフォリオ考察レポート。当初は「情報が多いほど良い分析ができるはず」と考えて、Claude SonnetにWeb検索機能を持たせ、最新ニュースや地政学情報まで取り込んでいました。

入力トークン数は約15万5,000。経済指標、コモディティ価格、CPI、中央銀行情報に加えて、Sonnet自身がWeb検索した数十件のニュース記事が含まれていました。

ところが、生成されたレポートには問題が山積みでした。

何が起きたか

15万トークンを入力したレポートには、以下の問題がありました。

AIの思考プロセスが本文に漏れた

「まず最新情報を収集するために、複数の検索を同時に実行します。情報が揃いました。」という内部プロセスの記述が、そのまま記事として公開されてしまいました。本来、読者に見せるべき内容ではありません。

記事の末尾が途中で切れた

出力トークンの上限に達して、分析の最後のセクションが途中で切断されていました。リスク要因の整理が「世界経済フォーラムによると、地経学的対立が」で唐突に終わるという状態です。

銘柄の分類に誤りが発生した

先週と今週で同じ「銘柄G」が別の銘柄を指していたり、セクター分類が入れ替わっていたり。情報量が多すぎて、Sonnetがデータの整合性を保てなくなっていました。

数値の根拠が不明確になった

「今週だけで日経平均に対して+9.07%のアウトパフォーム」という記述がありましたが、計算の根拠が曖昧で、事実と異なる可能性がある数値でした。

引き算の改善

そこで、Web検索機能を完全に外しました。

Sonnetに渡すデータを、自前で取得した数値データだけに絞りました。

ポートフォリオの構成・騰落率・バリュエーション
経済指標（為替・金利・VIX・セクターETF）
コモディティ（原油・金・天然ガス）
CPI（日米4指標）
中央銀行の直近情報

入力トークン数は約2,000〜3,000。Web検索ありの77分の1です。

結果

品質が明確に改善しました。

思考プロセスの漏れがなくなった
末尾の切断がなくなった
銘柄の分類が安定した
数値の整合性が保たれるようになった
分析の焦点が明確になった

コストも劇的に下がりました。

1回あたりのAPI費用が約0.56ドルから約0.07ドルに。月額に換算すると約340円から約42円。品質が上がって、コストは8分の1です。

なぜ少ない方が良かったのか

人間に置き換えると分かりやすいかもしれません。

会議で「この案件について分析してください」と頼まれたとき、関連資料が3枚なら集中して読み込めます。でも、関連しそうな資料を100枚渡されたら、どこに注目すべきか分からなくなります。重要な数字を見落としたり、異なる資料の情報を混同したりするリスクが上がります。

AIも同じでした。

15万トークンの入力には、ポートフォリオに直接関係ないニュース記事が大量に含まれていました。中東情勢の詳細な経緯、FOMCの過去の議事録の引用、日経平均の史上最高値に関する複数メディアの報道。それぞれは正確な情報でも、ポートフォリオの週次考察に必要な情報は一部だけです。

ノイズが増えると、シグナルが埋もれる。 これはAIでも人間でも同じことでした。

厳選したデータの方が分析の軸がブレない

Web検索を外した後のレポートでは、Sonnetの分析の軸が安定しました。

渡されたデータが「ポートフォリオの構成」「経済指標」「バリュエーション」に絞られているので、Sonnetはこれらの関係性に集中できます。「銀行ETFが+3.7%、あなたの銀行株はPER14.8倍で適正水準、配当性向35%で余力あり」という、データ同士を結びつけた分析が自然に出てくるようになりました。

Web検索ありの時は、ニュースの解説に文字数を取られて、肝心の銘柄分析が浅くなっていました。情報を減らしたことで、分析が深くなった。逆説的ですが、これが現実でした。

上位モデル（Opus）なら違う結果になるのか

ひとつ気になっているのは、より高性能なモデルなら大量入力でも品質を保てるのかという点です。

現在はClaude Sonnetを使っていますが、上位モデルのClaude Opusであれば、15万トークンの入力でも情報を適切に取捨選択して、高品質なレポートを生成できる可能性があります。

Opusの場合、1回あたり約1ドル（月4回で約4ドル＝約600円）。Sonnetの厳選データ版（月42円）と比べるとコストは上がりますが、ニュースを含む包括的なレポートが正確に生成できるなら、それはそれで価値があります。

これは今後の検証課題として残しておきたいと思います。「データを絞ってSonnet」と「データを盛ってOpus」のどちらが良い結果を出すのか。個人的には興味深い比較です。

まとめ

AIに渡す情報は、多ければ多いほど良いわけではありませんでした。

15万トークンの大量入力は、思考プロセスの漏れ、データの混同、末尾の切断、分析の浅さを招きました。3,000トークンの厳選データに絞ったら、品質が上がり、コストは8分の1になりました。

たくさん情報を入れると良くなるという直感は、正しくなかった。

人間と同じで、AIも情報過多だと判断を誤ります。大事なのは情報の量ではなく、質と焦点。これはプロンプト設計の基本原則として、今後も意識していきたい教訓です。

トークン数を77分の1に減らしたら、AIレポートの品質が上がった

はじめに

何が起きたか

引き算の改善

結果

なぜ少ない方が良かったのか

厳選したデータの方が分析の軸がブレない

上位モデル（Opus）なら違う結果になるのか

まとめ

関連記事

親子上場TOB候補スクリーニングの改善

親子上場TOB候補スクリーニング: 検証で見えた3つのTOBパターン

「地味業種=非公開化候補」の仮説をデータで検証した記録