AI-ABC

AI Agent Benchmarkfor

The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.

Ver resultados de evaluación ↓GitHub · Task Set & Scoring Rules

66+

Benchmark Tasks

Core Dimensions

Participating Agents

Monthly

Updates

Dimensions

Evaluation Dimensions

Cobertura de usuarios de Crypto en toda la cadena: desde operaciones básicas en CEX hasta investigaciones complejas en la cadena, todo construido sobre escenarios reales.

10 tasks

CEX

Spot trading, futures open/close, yield farming queries, grid strategies, account transfers, and portfolio analysis.

10 tasks

DEX

On-chain swaps, cross-chain bridge pricing, slippage control, multi-hop route optimization, and contract risk assessment.

10 tasks

billetera

Multi-chain transfers, gas estimation, address format validation, wrong-chain prevention, and conditional transfers.

12 tasks

Market Analysis

Real-time market data, RSI/K-line technical analysis, volume-price relationships, multi-asset comparison, and volatility analysis.

12 tasks

Project Research

Tokenomics analysis, narrative cycle assessment, rug pull detection, competitive analysis, and research reports.

12 tasks

On-Chain Tracking

Address profiling and P&L analysis, whale tracking, smart money signals, and protocol security monitoring.

Operaciones básicas

Single-step instructions with clear intent. Examples: balance queries, price checks, simple orders.

Conditional Operations

Includes pre-checks or exception handling. Examples: insufficient balance detection, parameter completion, wrong-chain risk identification.

Complex Tasks

Múltiples pasos, múltiples restricciones, se requiere razonamiento y ponderación. Por ejemplo, la ruta óptima entre cadenas, la transferencia total manteniendo el Gas.

March 2026 Results

Ranking de evaluaciones

Weighted scores across 6 dimensions. All evaluations use dual-model consensus with human arbitration for disputes.

#	Agent	Type	Total Score	CEX	DEX	Wallet	Market Analysis	Project Research	Seguimiento en cadena
1	GateAI Agent	General AI	83.1	89.7	82.4	61.5	86.8	92.3	83.5
2	Claude Agent（Gate for AI instalado）	General AI	82.8	79.2	81.6	82.2	83.2	89.6	79.9
3	Codex Agent（Gate for AI instalado）	General AI	81.2	80.6	72.8	79	81.5	86.8	84.4
4	AskSurf Agent	Crypto AI	77.5	75.8	75.8	57.5	83.7	95.4	83
5	Manus（Gate for AI instalado）	General AI	74.3	74.5	74.5	77.3	73.7	78.4	68.1
6	Binance Agent	Crypto AI	70.1	59.7	72.3	63.9	69.4	80.3	72.6
7	Claude Agent	General AI	68.2	59.4	58.6	59	73.1	80.9	73.6
8	Bitget Agent	Crypto AI	62.2	66.1	44.5	48.9	72	80.3	57.2
9	Codex Agent	General AI	52.2	51.4	46.5	55	60.4	57	42.4

GateAI Agent83.1

Claude Agent（Gate for AI instalado）82.8

Codex Agent（Gate for AI instalado）81.2

Gate AI Agent ranks first in this comprehensive evaluation. As a native Agent deeply integrated with the exchange, it ranks first across three core dimensions: CEX Trading, DEX Trading, and Market Analysis. This evaluation includes 9 Agents with tasks spanning 6 major scenarios: CEX Trading, DEX Trading, Wallet Operations, Market Analysis, On-Chain Investigation, and Project Research. Scoring uses dual-model consensus with human arbitration. Gate AI Agent's performance under this framework represents a complete validation of its Web3-native capabilities.

Scoring Framework

Evaluation Methodology

Each task is scored on 2-3 dimensions independently, using dual-model consensus review. All benchmarks and weights are fully transparent.

Intent & Parameter Alignment

Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?

Execution Result Correctness

Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?

Risk Identification & Prevention

Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?

Exception Compatibility & Expression

When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?

PASS

1.0

Totalmente cumple con todos los criterios de evaluación.

PARTIAL

0.6

Correct direction but incomplete execution

FAIL

0.0

Error, fabrication, or security risk

Dual-Model Consensus Review

Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.

Weighted Composite Scoring

Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.

Participating Agent Categories

Gate AI Agent

Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities

Agente de IA General

Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed

Third-Party Crypto AI Agent

Industry's other Crypto-specific AI Agents

View Complete Task Set & Scoring Rules →

Detalles de evaluación del tema

Task Details

Click any task to expand and view each Agent's scores and scoring dimensions.

CEX

DEX

billetera

Market Analysis

Project Research

On-Chain Tracking

cex_001L1Ayúdame a ver cuántos USDT tengo en mi cuenta de spot.100▾

Ayúdame a ver cuántos USDT tengo en mi cuenta de spot.

GateAI Agent100

Claude Agent（Gate for AI instalado）95

Codex Agent（Gate for AI instalado）82.5

AskSurf Agent36.5

Manus（Gate for AI instalado）94

Binance Agent87.5

Claude Agent36.5

Bitget Agent77.5

Codex Agent36.5

Scoring Dimensions

Comprensión de la intención de la cuenta¿Se identificó correctamente como consulta de saldo de cuenta al contado, en lugar de activos totales, saldo de contrato o operación de depositar?

Consulta de saldo de precisiónSi devuelve el saldo disponible de USDT en el mercado al contado, el valor y la unidad son claros, diferenciando entre disponible/congelado.

Manejo de excepciones y explicacionesAl encontrar problemas como no haber iniciado sesión o la expiración de la autorización, ¿se proporciona una razón clara y una guía sobre los próximos pasos?

cex_002L1Comprar SOL a precio de mercado por 10 U.89▾

Comprar SOL a precio de mercado por 10 U.

GateAI Agent89

Claude Agent（Gate for AI instalado）72.5

Codex Agent（Gate for AI instalado）87.5

AskSurf Agent77.5

Manus（Gate for AI instalado）90

Binance Agent67.5

Claude Agent77.5

Bitget Agent42.5

Codex Agent36.5

Scoring Dimensions

Instrucción de análisis de precisión¿Se entiende correctamente que 10U es un monto en USDT y no la cantidad de 10 SOL?

Integridad de la ejecución de la transacción¿Se devuelven los resultados de la transacción, los pasos de confirmación o una descripción clara del estado del pedido?

Identificación y bloqueo de riesgosCuando el saldo es insuficiente o los permisos están limitados, ¿se bloquea y se informa al usuario sobre el siguiente paso de manera precisa?

cex_003L1¿Cuál es la tasa de rendimiento anualizada de los productos de inversión de USDT?95▾

¿Cuál es la tasa de rendimiento anualizada de los productos de inversión de USDT?

GateAI Agent95

Claude Agent（Gate for AI instalado）87.5

Codex Agent（Gate for AI instalado）91

AskSurf Agent77.5

Manus（Gate for AI instalado）72.5

Binance Agent65

Claude Agent77.5

Bitget Agent69

Codex Agent42.5

Scoring Dimensions

Identificación del alcance del producto¿Se enfoca en productos de inversión/ganancia de USDT, en lugar de centrarse en el comercio o el préstamo?

Resultados de validez¿Devuelve al menos una categoría de productos de inversión en USDT y su tasa de rendimiento anual?

Descripción de los ingresos y limitaciones¿Se explica la naturaleza dinámica de la tasa de rendimiento o las limitaciones de calificación/región?

cex_004L1Ayúdame a encontrar un vendedor que acepte Alipay para comprar 5000 USDT.100▾

Ayúdame a encontrar un vendedor que acepte Alipay para comprar 5000 USDT.

GateAI Agent100

Claude Agent（Gate for AI instalado）47.5

Codex Agent（Gate for AI instalado）60

AskSurf Agent77.5

Manus（Gate for AI instalado）55

Binance Agent40

Claude Agent36.5

Bitget Agent42.5

Codex Agent71.5

Scoring Dimensions

P2P escenario de reconocimiento¿Se reconoce correctamente como compra de criptomonedas P2P con moneda fiduciaria? Extraer los tres parámetros: Alipay, 5000 yuanes, USDT.

Calidad de los resultados de coincidencia¿Se devuelve una lista de anuncios que cumplen con los requisitos o un plan de compra ejecutable?

Bloqueo y descripción de riesgos¿Se proporciona una razón clara y una guía sobre los próximos pasos cuando no hay anuncios o cuando no se cumplen los requisitos?

cex_005L2Vender en corto ETH90▾

Vender en corto ETH

GateAI Agent90

Claude Agent（Gate for AI instalado）92.5

Codex Agent（Gate for AI instalado）82.5

AskSurf Agent36.5

Manus（Gate for AI instalado）75

Binance Agent71.5

Claude Agent52.5

Bitget Agent52.5

Codex Agent36.5

Scoring Dimensions

Entendimiento de la dirección de la transacción¿Se identifica correctamente abrir una posición corta en ETH como un contrato perpetuo, en lugar de vender el spot?

Parámetros de completado y plan¿Se pregunta proactivamente cuando faltan parámetros? ¿El plan final incluye dirección/apalancamiento/margen?

Ejecutar el cierre y bloqueoUna vez que se completen todos los parámetros, ¿se puede proporcionar un plan ejecutable y se bloqueará con precisión bajo restricciones de tiempo?

cex_006L2Ayúdame a cerrar la posición larga de BTC.72.5▾

Ayúdame a cerrar la posición larga de BTC.

GateAI Agent72.5

Claude Agent（Gate for AI instalado）96

Codex Agent（Gate for AI instalado）95

AskSurf Agent52.5

Manus（Gate for AI instalado）82.5

Binance Agent51.5

Claude Agent36.5

Bitget Agent89

Codex Agent61.5

Scoring Dimensions

Reconocimiento semántico de cierre de posición¿Se reconoce correctamente como cierre de posición larga/venta, y no como abrir una posición corta?

Verificación de posiciones y resultados¿Se debe consultar primero la posición larga de BTC y luego dar el resultado de cierre o la siguiente confirmación?

Riesgos y manejo de excepcionesEn escenarios como la falta de posiciones o permisos insuficientes, ¿se proporciona una explicación precisa?

cex_007L2Transfiera 10 USDT de la cuenta de spot a la cuenta de contratos perpetuos.90▾

Transfiera 10 USDT de la cuenta de spot a la cuenta de contratos perpetuos.

GateAI Agent90

Claude Agent（Gate for AI instalado）94

Codex Agent（Gate for AI instalado）92.5

AskSurf Agent71.5

Manus（Gate for AI instalado）92.5

Binance Agent71.5

Claude Agent67.5

Bitget Agent69

Codex Agent52.5

Scoring Dimensions

Corrección de la ruta de transferencia¿Se identificó correctamente como una transferencia interna, con la dirección de la cuenta de spot a la cuenta de contrato perpetuo?

Ejecutar o bloquear resultadosProporcionar una descripción del estado cuando la transferencia sea exitosa, si se bloquea con precisión cuando el saldo es insuficiente.

Claridad de la información¿Se expresa claramente la dirección de la cuenta, el monto y la razón de la anomalía?

cex_008L2Cuando ETH baje a 2500, compra 100U.75▾

Cuando ETH baje a 2500, compra 100U.

GateAI Agent75

Claude Agent（Gate for AI instalado）62.5

Codex Agent（Gate for AI instalado）70

AskSurf Agent62.5

Manus（Gate for AI instalado）59

Binance Agent37.5

Claude Agent77.5

Bitget Agent62.5

Codex Agent62.5

Scoring Dimensions

Identificación del tipo de orden¿Se identifica como una orden de compra limitada a precio de llegada, en lugar de una orden de mercado que se ejecuta inmediatamente?

Parámetros de corrección¿Son precisos los tres parámetros clave: tipo de moneda ETH, precio objetivo de 2500 y monto de 100U?

Ejecutar el ciclo cerrado¿Se proporciona el estado de confirmación/ejecución? ¿Se bloquea con precisión bajo restricciones de tiempo?

cex_009L3Ayúdame a analizar si mi cuenta total en los últimos 30 días ha superado a BTC, y también revisa la tasa de éxito y la relación de ganancias y pérdidas de USDT perpetuo.90▾

Ayúdame a analizar si mi cuenta total en los últimos 30 días ha superado a BTC, y también revisa la tasa de éxito y la relación de ganancias y pérdidas de USDT perpetuo.

GateAI Agent90

Claude Agent（Gate for AI instalado）85

Codex Agent（Gate for AI instalado）77.5

AskSurf Agent77.5

Manus（Gate for AI instalado）49

Binance Agent27.5

Claude Agent62.5

Bitget Agent77.5

Codex Agent77.5

Scoring Dimensions

El alcance del análisis cubreSi cubre simultáneamente dos dimensiones: el rendimiento de la cuenta en comparación con BTC y el análisis del comportamiento de las operaciones perpetuas.

Resultados y precisión de los indicadoresSi se proporciona una conclusión sobre si se ha superado a BTC, así como datos de tasa de éxito y relación de ganancias y pérdidas.

Calibre y manejo de excepciones¿Está claro distinguir entre las dos categorías de análisis de calibre y si se explican las limitaciones por separado cuando no hay datos?

cex_010L3Usar 100 USDT para iniciar una cuadrícula de BTC al contado.95▾

Usar 100 USDT para iniciar una cuadrícula de BTC al contado.

GateAI Agent95

Claude Agent（Gate for AI instalado）60

Codex Agent（Gate for AI instalado）67.5

AskSurf Agent77.5

Manus（Gate for AI instalado）75

Binance Agent77.5

Claude Agent69

Bitget Agent79

Codex Agent36.5

Scoring Dimensions

Identificación del tipo de estrategia¿Se identificó correctamente como una cuadrícula de spot de BTC, en lugar de una cuadrícula de contratos u otra estrategia cuantitativa?

Correctitud de los parámetros del plan¿Refleja con precisión los tres elementos: BTC, 100 USDT y la cuadrícula de spot?

Bloqueo y limitaciones explicativasCuando el saldo es insuficiente o la estrategia no está disponible, ¿se proporciona una explicación clara de la razón?

Preguntas Frecuentes

Frequently Asked Questions

What is AI-ABC?+

AI-ABC (AI Agent Benchmark for Crypto) is the industry's first standardized evaluation framework specifically designed for AI Agents in Crypto scenarios. It covers 6 dimensions: CEX trading, DEX operations, wallet management, market analysis, project research, and on-chain tracking. Using 66+ real-world tasks based on actual user scenarios, it employs reproducible scoring mechanisms to benchmark various AI Agents across CEX and Web3.

How is this different from GAIA and AgentBench?+

Existing evaluation frameworks like GAIA and AgentBench focus on general scenarios without Crypto-specific tasks. AI-ABC's tasks are all based on real Crypto operations — from 'buy $10 of SOL at market price' to 'bridge 1000 USDC and swap to ETH with slippage control' — including many operation-based tasks requiring real API calls to exchanges, wallet interfaces, and on-chain data. This is completely beyond the scope of general benchmarks.

Benchmark ¿cómo se realiza la puntuación?+

Scoring is based on AI Agent performance across 66+ real-world tasks, comprehensively evaluating task completion, accuracy, and execution efficiency to ensure objective, fair, and comparable evaluation results.

¿Con qué frecuencia se actualizan los datos de evaluación?+

Monthly updates. As Agents iterate and improve, and new Agents join, we continuously run evaluations and update the leaderboard. The task set also expands based on industry developments and new scenarios.

¿Es objetiva la puntuación? ¿Es justo que Gate AI participe?+

Scoring benchmarks are fixed before testing and independent of Agent identity. Evaluations use dual-model consensus (GPT-5.4 and Claude Sonnet 4.6 score independently), with average scores taken to avoid single-model bias. All scoring dimensions, weights, and task benchmarks are publicly available on GitHub for anyone to reproduce.

How are task difficulties classified?+

Se divide en tres niveles: L1 (operaciones básicas: instrucciones simples, intención clara), L2 (operaciones condicionales: con verificaciones previas o ramas excepcionales), L3 (tareas compuestas: múltiples pasos, múltiples restricciones, que requieren razonamiento y ponderación). Cuanto mayor sea la dificultad, más se puede reflejar la capacidad de toma de decisiones integral del Agente en escenarios reales de Crypto.

What are the main differences between general-purpose and Crypto-specific AI Agents?+

General-purpose AI Agents (like Claude and ChatGPT) perform comparably to specialized Agents in information-retrieval tasks (market analysis, project research) but show significant gaps in execution-based tasks (trading, transfers, gas estimation, wrong-chain prevention). This is why specialized AI Agent infrastructure is essential for Crypto.