我正在关注由Gemini 3 Flash领导的AI模型新排名。根据PinchBench基准测试,在OpenClaw任务中,Gemini 3 Flash以95.1%的成功率排名第一。



第二和第三名分别是minimax-m2.1 (93.6%) 和 kimi-k2.5 (93.4%)。Claude Sonnet 4.5的成功率为92.7%,而GPT-4o为85.2%。可以看出这些模型之间的差异。

Magma的CISO 23pads分享了这些数据。这些AI模型在代理任务中的表现差异相当大。目前,Gemini的领先地位仍然明显。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言