2026-03-18 04:28:38

o1がリリースされてから今までで、最大の不満点は「話が長すぎる」ことだ。

私はただ簡単なバグを修正したいだけなのに、背景説明が3段落、解決策が2つ、さらにエラーハンドリングまで付いてきて、最後には幸運を祈る言葉まで添えられる。
本当に12行目のスペルミスを見つけるだけのつもりだったのに、結果的にPythonの命名規則を復習させられる羽目になった。
この責任はRLHFにあると言える。アノテーターは長い回答に高評価をつける傾向があり、字数が多いほど専門的に見えると考えている。
だから、モデルは無理やり「役に立ちそうな」無駄な話を積み重ね、核心的な情報は逆に薄まってしまう。
隣のClaudeを見ると、この点ではずっと賢明で、どんな問題にはどのくらいの長さが適切かを理解している。
一番痛いのはやはりコストだ：o1の出力は1Mトークンあたり60ドルの価格設定で、100トークンで済むはずの内容を無理やり500トークンに水増しされてしまい、そのためコストは五倍に跳ね上がる。
最近は質問する際に「コードだけ欲しい」とわざわざ付け加える必要があり、それでもうまくいかないこともある。
モデルの今の状態は、知能は非常に高いが、感情的な知性は切れており、いつ黙るべきか全くわかっていない。

原文表示