AI-ABC

AI Agent Benchmarkfor

The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.

Ver resultados da avaliação ↓GitHub · Coleção de Tópicos & Regras de Avaliação

66+

Tarefa de avaliação

dimensões centrais

Avaliação de Agente

Mensal

Atualização mensal

Dimensões

Dimensões de avaliação

Cobertura total para utilizadores de Crypto — desde operações básicas em CEX até investigações complexas em cadeia, tudo construído com base em cenários reais.

10 tarefas

CEX

Ordens à vista, abertura e fecho de contratos, consulta de gestão de património, estratégia de grelha, transferência de contas e análise de combinações.

10 tarefas

DEX

Swap em cadeia, comparação de preços de pontes entre cadeias, controlo de slippage, otimização de roteamento em múltiplos passos e avaliação de risco de contratos.

10 tarefas

carteira

Transferências multichain, estimativa de reserva de Gas, verificação de formato de endereço, bloqueio de cadeias erradas e transferências condicionais.

12 tarefas

Análise de mercado

Análise técnica em tempo real, RSI / K linha, avaliação da relação entre volume e preço, comparação de múltiplas criptomoedas e comparação de volatilidade.

12 tarefas

Pesquisa de projeto

Análise da economia dos tokens, avaliação do ciclo narrativo, deteção de Rug Pull, comparação de concorrentes e relatório de pesquisa.

12 tarefas

Rastreamento em cadeia

Análise de endereços e lucros/perdas, rastreamento de grandes investidores, sinais de Smart Money, monitorização de segurança de protocolos.

Operações básicas

Instruções simples, com intenções claras. Como consultar saldo, ver preços de mercado, fazer uma ordem simples.

Operação Condicional

Inclui verificação prévia ou ramificações de exceção. Como bloqueio por saldo insuficiente, complementação de parâmetros, identificação de riscos de cadeia errada.

Tarefa composta

Múltiplos passos, múltiplas restrições, requer raciocínio e ponderação. Como o caminho ótimo entre cadeias, a transferência total mantém o Gas.

Resultados de Março de 2026

Classificação de Avaliações

Pontuação ponderada com base em 6 grandes dimensões. Todas as avaliações utilizam um mecanismo de consenso de dois modelos, complementado por arbitragem humana.

#	Agente	tipo	Total	CEX	DEX	carteira	Análise de mercado	Pesquisa de projeto	Rastreamento em cadeia
1	GateAI Agent	Inteligência Artificial Genérica	83.1	89.7	82.4	61.5	86.8	92.3	83.5
2	Claude Agent（Gate for AI instalado）	Inteligência Artificial Genérica	82.8	79.2	81.6	82.2	83.2	89.6	79.9
3	Codex Agent（Gate for AI instalado）	Inteligência Artificial Genérica	81.2	80.6	72.8	79	81.5	86.8	84.4
4	AskSurf Agent	Cripto IA	77.5	75.8	75.8	57.5	83.7	95.4	83
5	Manus（Gate for AI instalado）	Inteligência Artificial Genérica	74.3	74.5	74.5	77.3	73.7	78.4	68.1
6	Binance Agent	Cripto IA	70.1	59.7	72.3	63.9	69.4	80.3	72.6
7	Claude Agent	Inteligência Artificial Genérica	68.2	59.4	58.6	59	73.1	80.9	73.6
8	Bitget Agent	Cripto IA	62.2	66.1	44.5	48.9	72	80.3	57.2
9	Codex Agent	Inteligência Artificial Genérica	52.2	51.4	46.5	55	60.4	57	42.4

GateAI Agent83.1

Claude Agent（Gate for AI instalado）82.8

Codex Agent（Gate for AI instalado）81.2

Gate AI Agent obteve a primeira posição na avaliação. Como um agente nativo profundamente integrado na bolsa, ele ocupa o primeiro lugar nas três principais dimensões: negociação CEX, negociação DEX e análise de mercado. Nesta avaliação, foram incluídos 9 agentes, abrangendo 6 cenários: negociação CEX, negociação DEX, operações de carteira, análise de mercado, investigação on-chain e pesquisa de projetos, com pontuação baseada em um mecanismo de consenso de dois modelos, complementado por uma revisão manual. O desempenho do Gate AI Agent sob este conjunto de critérios é uma validação completa de suas capacidades nativas em Web3.

Estrutura de Pontuação

Metodologia de Avaliação

Cada questão é avaliada de forma independente com 2-3 dimensões de avaliação, utilizando uma auditoria de consenso de dois modelos, com todos os benchmarks e pesos completamente públicos.

Intent & Parameter Alignment

Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?

Execution Result Correctness

Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?

Identificação e bloqueio de riscos

Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?

Exception Compatibility & Expression

When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?

PASS

1.0

Totalmente satisfaz todas as normas de avaliação.

PARTIAL

0.6

Direção correta, mas execução incompleta.

FAIL

0.0

Erro, invenção ou risco de segurança

Revisão de Consenso de Duplo Modelo

Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.

Pontuação Composta Ponderada

Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.

Classificação de Agentes

Agente de IA da Gate

Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities

Agente de IA Genérico

Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed

Agente de IA Crypto de terceiros

Industry's other Crypto-specific AI Agents

Ver conjunto completo de questões e regras de avaliação →

Detalhes da avaliação do tema

Detalhes da avaliação por questão

Clique em qualquer tópico para expandir e ver as pontuações e dimensões de avaliação de cada Agente.

CEX

DEX

carteira

Análise de mercado

Pesquisa de projeto

Rastreamento em cadeia

cex_001L1Ajuda-me a ver quanto USDT ainda tenho na minha conta de spot.100▾

Ajuda-me a ver quanto USDT ainda tenho na minha conta de spot.

GateAI Agent100

Claude Agent（Gate for AI instalado）95

Codex Agent（Gate for AI instalado）82.5

AskSurf Agent36.5

Manus（Gate for AI instalado）94

Binance Agent87.5

Claude Agent36.5

Bitget Agent77.5

Codex Agent36.5

Dimensões de Avaliação

Compreensão da intenção da contaSe foi corretamente identificado como consulta de saldo de conta à vista, e não como total de ativos, saldo de contrato ou operação de depósito.

Verificação da precisão do saldoSe retorna o saldo disponível de USDT em spot, com valores e unidades claros, distinguindo entre disponível/congelado.

Tratamento de Exceções e ExplicaçõesAo encontrar problemas como não estar logado ou expiração de autorização, é fornecida uma razão clara e uma orientação sobre os próximos passos?

cex_002L1Comprar SOL a preço de mercado de 10U.89▾

Comprar SOL a preço de mercado de 10U.

GateAI Agent89

Claude Agent（Gate for AI instalado）72.5

Codex Agent（Gate for AI instalado）87.5

AskSurf Agent77.5

Manus（Gate for AI instalado）90

Binance Agent67.5

Claude Agent77.5

Bitget Agent42.5

Codex Agent36.5

Dimensões de Avaliação

Instrução de análise de precisãoSe compreendeu corretamente que 10U é o montante em USDT, e não a quantidade de 10 SOL.

Integridade da execução da transaçãoSe retorna resultados de execução, passos de confirmação ou uma descrição clara do estado da ordem.

Identificação e bloqueio de riscosQuando o saldo é insuficiente ou as permissões estão limitadas, é feito um bloqueio preciso e é indicado ao utilizador qual o próximo passo.

cex_003L1Qual é a taxa de rendimento anualizada dos produtos de investimento em USDT?95▾

Qual é a taxa de rendimento anualizada dos produtos de investimento em USDT?

GateAI Agent95

Claude Agent（Gate for AI instalado）87.5

Codex Agent（Gate for AI instalado）91

AskSurf Agent77.5

Manus（Gate for AI instalado）72.5

Binance Agent65

Claude Agent77.5

Bitget Agent69

Codex Agent42.5

Dimensões de Avaliação

Identificação do alcance do produtoFoca em produtos de gestão financeira/ganho de moeda USDT, em vez de se inclinar para negociação ou empréstimos.

Resultados de validadeSe retorna pelo menos uma categoria de produtos de investimento em USDT válidos e a sua taxa de rendimento anual.

Descrição e Limitações dos RendimentosIndica se as características dinâmicas da taxa de rendimento ou as limitações de qualificação/região são explicadas.

cex_004L1Ajude-me a encontrar um vendedor que aceite Alipay para comprar 5000 USDT.100▾

Ajude-me a encontrar um vendedor que aceite Alipay para comprar 5000 USDT.

GateAI Agent100

Claude Agent（Gate for AI instalado）47.5

Codex Agent（Gate for AI instalado）60

AskSurf Agent77.5

Manus（Gate for AI instalado）55

Binance Agent40

Claude Agent36.5

Bitget Agent42.5

Codex Agent71.5

Dimensões de Avaliação

Reconhecimento de cenários P2PEstá correto reconhecer como compra de moeda fiduciária P2P, extraindo os três parâmetros: Alipay, 5000 euros, USDT.

Qualidade dos resultados da correspondênciaSe deve retornar uma lista de anúncios que atendem aos critérios ou um plano de compra executável

Bloqueio e descrição de riscosQuando não há anúncios ou a qualificação é insuficiente, é fornecida uma razão clara e orientações sobre os próximos passos?

cex_005L2Vender ETH a descoberto90▾

Vender ETH a descoberto

GateAI Agent90

Claude Agent（Gate for AI instalado）92.5

Codex Agent（Gate for AI instalado）82.5

AskSurf Agent36.5

Manus（Gate for AI instalado）75

Binance Agent71.5

Claude Agent52.5

Bitget Agent52.5

Codex Agent36.5

Dimensões de Avaliação

Compreensão da direção da negociaçãoÉ correto identificar a venda a descoberto de ETH como uma posição curta em contratos perpétuos, e não como a venda de ativos à vista?

Parâmetros de preenchimento e planoQuando faltam parâmetros, deve-se perguntar ativamente, o plano final inclui direção/alavancagem/margem?

Executar o ciclo fechado e bloquearApós a disponibilização de todos os parâmetros, é possível fornecer um plano executável? A restrição de tempo impede um bloqueio preciso?

cex_006L2Ajude-me a fechar a posição longa de BTC.72.5▾

Ajude-me a fechar a posição longa de BTC.

GateAI Agent72.5

Claude Agent（Gate for AI instalado）96

Codex Agent（Gate for AI instalado）95

AskSurf Agent52.5

Manus（Gate for AI instalado）82.5

Binance Agent51.5

Claude Agent36.5

Bitget Agent89

Codex Agent61.5

Dimensões de Avaliação

Reconhecimento semântico de encerramentoSe foi corretamente identificado como encerramento de posição longa/venda, e não como abertura de posição curta.

Verificação de posição e resultadosDeve-se primeiro consultar a posição longa de BTC e, em seguida, fornecer o resultado do encerramento ou a próxima confirmação.

Risco e tratamento de anomaliasEm cenários como ausência de posição ou permissões insuficientes, é fornecida uma explicação precisa?

cex_007L2Transfira 10 USDT da conta de spot para a conta de contratos perpétuos.90▾

Transfira 10 USDT da conta de spot para a conta de contratos perpétuos.

GateAI Agent90

Claude Agent（Gate for AI instalado）94

Codex Agent（Gate for AI instalado）92.5

AskSurf Agent71.5

Manus（Gate for AI instalado）92.5

Binance Agent71.5

Claude Agent67.5

Bitget Agent69

Codex Agent52.5

Dimensões de Avaliação

Correção do caminho de transferênciaSe foi corretamente identificado como uma transferência interna, com a direção de conta à vista para conta de contrato perpétuo.

Executar ou bloquear resultadosFornecer uma descrição do estado quando a transferência for bem-sucedida, se o bloqueio for preciso quando o saldo for insuficiente.

Clareza da informaçãoA direção da conta, o montante e a razão da anomalia estão claramente expressos?

cex_008L2Quando o ETH desceu para 2500, comprei 100U.75▾

Quando o ETH desceu para 2500, comprei 100U.

GateAI Agent75

Claude Agent（Gate for AI instalado）62.5

Codex Agent（Gate for AI instalado）70

AskSurf Agent62.5

Manus（Gate for AI instalado）59

Binance Agent37.5

Claude Agent77.5

Bitget Agent62.5

Codex Agent62.5

Dimensões de Avaliação

Identificação do tipo de ordemSe é reconhecida como uma ordem de compra a preço limite, em vez de uma ordem de mercado que é executada imediatamente.

Parâmetros de correçãoA moeda ETH, o preço alvo de 2500 e o montante de 100U, estão todos os três parâmetros principais corretos?

Executar ciclo fechadoÉ dada confirmação/estado de execução, é preciso bloquear com precisão em caso de restrições.

cex_009L3Ajuda-me a analisar se a minha conta total nos últimos 30 dias superou o BTC, e aproveita para ver a taxa de vitória e a relação de lucro/prejuízo do USDT perpétuo.90▾

Ajuda-me a analisar se a minha conta total nos últimos 30 dias superou o BTC, e aproveita para ver a taxa de vitória e a relação de lucro/prejuízo do USDT perpétuo.

GateAI Agent90

Claude Agent（Gate for AI instalado）85

Codex Agent（Gate for AI instalado）77.5

AskSurf Agent77.5

Manus（Gate for AI instalado）49

Binance Agent27.5

Claude Agent62.5

Bitget Agent77.5

Codex Agent77.5

Dimensões de Avaliação

Análise da abrangênciaSe cobre simultaneamente as dimensões da conta que supera o BTC e a análise do comportamento de negociação perpétua.

Resultados e precisão dos indicadoresSe foi dada uma conclusão sobre se superou o BTC, bem como dados sobre a taxa de sucesso e a relação de lucro/prejuízo.

Calibração e Tratamento de ExceçõesEstá claro a distinção entre as duas categorias de calibração de análise, e quando não há dados, é feita uma explicação separada das limitações?

cex_010L3Usar 100 USDT para iniciar uma grelha de spot BTC.95▾

Usar 100 USDT para iniciar uma grelha de spot BTC.

GateAI Agent95

Claude Agent（Gate for AI instalado）60

Codex Agent（Gate for AI instalado）67.5

AskSurf Agent77.5

Manus（Gate for AI instalado）75

Binance Agent77.5

Claude Agent69

Bitget Agent79

Codex Agent36.5

Dimensões de Avaliação

Identificação do tipo de estratégiaSe foi corretamente identificado como grelha de spot BTC, e não como grelha de contrato ou outra estratégia quantitativa.

Parâmetros do plano corretosRefletem com precisão os três elementos: BTC, 100 USDT, grelha de spot.

Bloqueio e Limitação de ExplicaçõesQuando o saldo é insuficiente ou a estratégia não está disponível, é fornecida uma explicação clara do motivo.

FAQ

Perguntas Frequentes

What is AI-ABC?+

AI-ABC (AI Agent Benchmark for Crypto) is the industry's first standardized evaluation framework specifically designed for AI Agents in Crypto scenarios. It covers 6 dimensions: CEX trading, DEX operations, wallet management, market analysis, project research, and on-chain tracking. Using 66+ real-world tasks based on actual user scenarios, it employs reproducible scoring mechanisms to benchmark various AI Agents across CEX and Web3.

How is this different from GAIA and AgentBench?+

Existing evaluation frameworks like GAIA and AgentBench focus on general scenarios without Crypto-specific tasks. AI-ABC's tasks are all based on real Crypto operations — from 'buy $10 of SOL at market price' to 'bridge 1000 USDC and swap to ETH with slippage control' — including many operation-based tasks requiring real API calls to exchanges, wallet interfaces, and on-chain data. This is completely beyond the scope of general benchmarks.

Benchmark é como é feito a pontuação?+

A avaliação é baseada no desempenho do Agente de IA em mais de 66 tarefas reais, considerando vários indicadores como a conclusão da tarefa, precisão e eficiência de execução, garantindo que os resultados da avaliação sejam objetivos, justos e comparáveis.

Com que frequência os dados de avaliação são atualizados?+

Atualização mensal. À medida que os vários Agentes são atualizados e novos Agentes se juntam, continuaremos a realizar avaliações e a atualizar o ranking. O banco de questões também será expandido de acordo com o desenvolvimento do setor e novos cenários.

A avaliação é objetiva? A participação da Gate AI na avaliação é justa?+

Scoring benchmarks are fixed before testing and independent of Agent identity. Evaluations use dual-model consensus (GPT-5.4 and Claude Sonnet 4.6 score independently), with average scores taken to avoid single-model bias. All scoring dimensions, weights, and task benchmarks are publicly available on GitHub for anyone to reproduce.

Como é feita a divisão da dificuldade das tarefas de avaliação?+

Dividido em três níveis — L1 (operações básicas: instruções simples, intenções claras), L2 (operações condicionais: com verificações prévias ou ramificações de exceção), L3 (tarefas compostas: múltiplos passos, múltiplas restrições, requer raciocínio e ponderação). Quanto maior a dificuldade, mais se pode refletir a capacidade de decisão integrada do Agente em cenários reais de Crypto.

As principais diferenças entre um Agente de IA Genérico e um Agente Especializado em Cripto são:+

Agentes de IA genéricos (como Claude, ChatGPT) apresentam um desempenho próximo ao de agentes especializados em tarefas de consulta de informações (análise de mercado, pesquisa de projetos), mas a diferença é evidente em tarefas operacionais que requerem execução real (colocação de ordens de negociação, transferências em cadeia, estimativa de Gas e bloqueio de cadeias erradas). Esta é também a razão central pela qual o setor de criptomoedas necessita de uma infraestrutura de agentes de IA especializados.