バークレーGEPA解析:重みを更新しなくてもAIは新しいタスクを学習でき、訓練コストを35倍も削減してRLに勝つ

ChainNewsAbmedia

カリフォルニア大学バークレー校の研究チームが新しいAIトレーニング手法GEPAを提案し、ICLR 2026にOral論文として受理された。GEPAはモデルの重みを更新せず、GPUによる訓練も不要で、「学習ログを読み取る」LLMを使ってAIシステムのプロンプトを反復的に書き換えるだけで、6つのタスクにおいて平均的に主流の強化学習手法GRPOに対して6%上回り、最高で20%勝ち、必要な訓練試行回数(rollouts)も35倍少ない。研究がAIエンジニアリングコミュニティで拡散され、Xプラットフォーム上で議論を呼んだのち、現在はDSPyに統合されて一次最適化器(一等優化器)になっている。

GEPAは何をするのか:学習ログを教材として扱い、スコアだけを見ない

従来の強化学習手法(例:GRPO)のワークフローは次のとおりだ。AIに一度タスクを実行させ、その結果に基づいて「+1か-1」のスコアを与え、そのスコアを用いてモデルの重みを反復調整する。問題は、AIがこの一度のタスクを実行する過程には通常、数千tokenに及ぶ推論ステップ、ツール呼び出し、エラー情報が含まれていることだ。こうした豊富な詳細はすべて1つのスコアに圧縮され、過程の情報が捨てられる。だからこそ、RLは収束するまでに何万回もの試行が必要になる。

GEPAは逆だ。毎回AIがタスクを走り終えたら、その一連の過程(reasoning、ツール呼び出し、エラー記録)をそのまま別の「反省LLM」に読み込ませる。反省LLMは、熟練したエンジニアがプログラムのログを読むのと同じように、どのステップで失敗したのか、なぜ失敗したのか、そしてプロンプトをどう修正すべきかを見つけ、その後に該当モジュールのプロンプトを直接書き換える。同様に一度だけタスクを実行するが、GEPAがそこから抽出する信号量は、RLの単一スコアよりはるかに多い。

なぜ勝てるのか:「採点」を「一連の過程の読み取り」に変えるから

GEPAは6つのタスクで平均してGRPOに対し6%上回り、最高で20%勝つ。別の主流なプロンプト最適化器MIPROv2とも比較すると、10%以上上回っている(AIME-2025の数学問題ベンチマークで12%向上)。最も重要なのは訓練コストだ。GEPAは同等の性能に到達するために必要なrollouts(1回のタスク完全実行)が、35倍少ない。

もう一つのデータとして、GEPAがDSPyと統合された後の「Full Program Adapter」は、signature、モジュール、制御フローを含むDSPy全体のプログラムを最適化でき、MATHの数学ベンチマークで93%の精度を達成し、DSPy本来のChainOfThoughtの書き方の67%を大きく上回る。GEPAはmulti-moduleワークフロー(複数モジュールを直列に接続するAIエージェント)でも特に優れており、システム全体を調整するのではなく、特定の失敗しているモジュールをピンポイントで特定して、そのプロンプトを書き換えられる。

誰が最初に使うのか:DSPyの一等市民、GitHubでオープンソース

GEPAのコードはGitHubで公開されており、dspy.GEPAの形でDSPyフレームワークに統合されると同時に、Pythonライブラリとして独立して公開されている。研究チームはUC Berkeley、Stanford、Notre Dame、Anthropicなどの機関にまたがり、論文の著者にはMatei Zaharia(Databricks共同創業者、DSPyの主要著者)とOmar Khattab(DSPyの主要著者)が含まれる。

開発者コミュニティにとってGEPAは、「大量のrolloutはあるが、どう活用すればいいか分からない」という新しい解決策を提供する。多くのチームはすでに、エージェントがタスクを実行した記録を数千件〜数万件単位で蓄積しているが、失敗したときに数件をめくってバグを探す以外に、それらの記録をモデル改善に体系的に変換する方法がない。次の注目点は、GEPAが企業のエージェント型ワークフロー(例:カスタマーサポート自動化、プログラム自動修復)で実際に導入されるケースと、DSPy以外のフレームワークでのGEPAに対応する実装が現れるかどうかだ。

この記事「Berkeley GEPA解説:重みを更新しないのにAIが新しいタスクを学べ、35倍少ない訓練コストでRLに勝つ」が最初に現れたのは、鎖新聞のABMedia。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

OpenAI、Codex Petsを発表—カスタム生成に対応したAI搭載の仮想コンパニオン

Beatの指摘によれば、OpenAIはCodexデスクトップアプリに新しい「Codex Pets」機能を追加し、ユーザーがアニメーション化された仮想コンパニオンを生成して対話できるようにした。ユーザーはエディタで/petと入力することでペットを有効化できる。この機能はエージェントのステータス表示として機能し、「a」を表示する。

GateNews2時間前

MoonPayが金曜日にAIエージェント向けの仮想マスターカードである「MoonAgents Card」をローンチ

MoonPayは金曜日、AIエージェントおよびユーザー向けの仮想マスターカードデビットカード「MoonAgents Card」をローンチしました。このカードは決済時点でステーブルコインを法定通貨に換金し、世界中でマスターカードを受け付けるあらゆるオンライン加盟店で利用可能です。このカードは、規制を受けたグローバル決済企業であるMonavateを通じて発行されます

GateNews6時間前

xAI、28言語で80以上の音声に対応するボイスクローンAPIを提供開始

PANewsによると、xAIは5月2日に音声クローンAPIをローンチし、ユーザーが約2分でカスタムボイスを作成できるほか、音声アシスタント、オーディオブック、ゲームキャラクターなどの用途向けに28言語にまたがる80種類以上のプリセット音声から選択できるようになった。この機能は現在…

GateNews6時間前

MoonPayが金曜に「MoonAgents Card」を提供開始、AIエージェントとユーザー向けのバーチャルMastercard

The Blockによると、MoonPayは金曜日に、AIエージェントとユーザー向けのバーチャルMastercardデビットカードであるMoonAgents Cardをローンチした。 このカードは決済時点でステーブルコインを法定通貨へ換算し、Mastercardを受け付ける世界中のあらゆるオンライン加盟店で利用できる。規制された支払いを提供するMonavateを通じて発行される

GateNews15時間前

MoonPayは金曜日、MastercardネットワークでMoonAgentsカードをローンチします

The Blockによると、MoonPayは金曜日にMoonAgents Cardをローンチしました。これは仮想マスターカードのデビットカードで、AIエージェントとユーザーがオンチェーンのウォレットから直接ステーブルコインを使って支払えるようにするものです。このカードは、Monavateを通じて発行されます。Monavateは、規制を受けた世界的な決済プラットフォームであり、Mastercardのプリンシパル・メンバーで、

GateNews18時間前

ヌバンクは2026年にブラジルで82億ドルを投資する計画で、AIとクレジットの拡大にかける支出を2倍にする

Crowdfundinsiderによると、ヌバンクは2026年にブラジル市場へ82億ドルを投資する計画を発表し、2年前と比べて投資額をほぼ2倍にするという。資金はAIを活用した与信評価システム、デジタル金融商品、チームの拡充、インフラに重点を置く。

GateNews19時間前
コメント
0/400
コメントなし