o1がリリースされてから今までで、最大の不満点は「話が長すぎる」ことだ。


私はただ簡単なバグを修正したいだけなのに、背景説明が3段落、解決策が2つ、さらにエラーハンドリングまで付いてきて、最後には幸運を祈る言葉まで添えられる。
本当に12行目のスペルミスを見つけるだけのつもりだったのに、結果的にPythonの命名規則を復習させられる羽目になった。
この責任はRLHFにあると言える。アノテーターは長い回答に高評価をつける傾向があり、字数が多いほど専門的に見えると考えている。
だから、モデルは無理やり「役に立ちそうな」無駄な話を積み重ね、核心的な情報は逆に薄まってしまう。
隣のClaudeを見ると、この点ではずっと賢明で、どんな問題にはどのくらいの長さが適切かを理解している。
一番痛いのはやはりコストだ:o1の出力は1Mトークンあたり60ドルの価格設定で、100トークンで済むはずの内容を無理やり500トークンに水増しされてしまい、そのためコストは五倍に跳ね上がる。
最近は質問する際に「コードだけ欲しい」とわざわざ付け加える必要があり、それでもうまくいかないこともある。
モデルの今の状態は、知能は非常に高いが、感情的な知性は切れており、いつ黙るべきか全くわかっていない。
原文表示
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン