Agente de IA a produzir lixo? O problema é que não quer queimar Tokens

Autor: Systematic Long Short

Tradução: Deep潮 TechFlow

Deep潮 Introdução: O ponto central deste artigo é uma única frase: a qualidade da saída do AI Agent é proporcional à quantidade de Tokens que você investe.

O autor não está falando de teoria abstrata, mas apresentando duas abordagens concretas que podem ser usadas já hoje, e delimitando claramente a fronteira do que não pode ser resolvido apenas com Tokens — a «questão da novidade».

Para leitores que usam Agents para escrever código ou executar fluxos de trabalho, a densidade de informação e a operacionalidade são altas.

Introdução

Bem, você tem que admitir que este título é realmente chamativo — mas, falando sério, não é brincadeira.

Em 2023, enquanto ainda usamos LLMs para gerar código de produção, as pessoas ao redor ficavam boquiabertas, pois a percepção comum era que LLMs só produziam lixo inutilizável. Mas sabemos de uma coisa que muitos não percebem: a qualidade da saída do Agent é uma função do número de Tokens investidos. Simples assim.

Você mesmo pode fazer alguns experimentos. Peça ao Agent para realizar uma tarefa de programação complexa e pouco comum — por exemplo, implementar do zero um algoritmo de otimização convexa com restrições. Primeiro, com o menor nível de reflexão; depois, com o máximo, pedindo para revisar seu próprio código e identificar bugs. Teste em níveis intermediários e avançados. Você verá claramente: a quantidade de bugs diminui monotonicamente à medida que aumenta o número de Tokens investidos.

Fácil de entender, não é?

Mais Tokens = menos erros. Você pode levar essa lógica um passo adiante, que é basicamente o núcleo simplificado por trás de produtos de revisão de código. Em um contexto totalmente novo, investindo uma quantidade massiva de Tokens (por exemplo, pedindo para analisar linha por linha o código e detectar bugs) — você consegue identificar a maioria, senão todos, os bugs. Esse processo pode ser repetido dez, cem vezes, cada vez com uma «perspectiva» diferente sobre o código, até que todos os bugs sejam encontrados.

A ideia de que «mais Tokens melhoram a qualidade do Agent» também tem suporte empírico: equipes que afirmam usar Agents para escrever código de produção de ponta a ponta geralmente são ou fornecedores de modelos básicos ou empresas com recursos financeiros extremamente elevados.

Portanto, se você ainda está frustrado por Agents não gerarem código de nível de produção — para ser direto, o problema está em você. Ou melhor, na sua carteira.

Como saber se estou investindo Tokens suficientes

Já escrevi um artigo inteiro dizendo que o problema não está na sua estrutura (harness), que «manter simples» ainda assim produz resultados excelentes, e continuo defendendo isso. Você leu, seguiu as recomendações, mas ainda assim ficou decepcionado com a saída do Agent. Me enviou DM, eu li, mas não respondi.

Este é um retorno.

Na maioria das vezes, o desempenho ruim do seu Agent e a incapacidade de resolver problemas se devem ao fato de você não investir Tokens o suficiente.

A quantidade de Tokens necessária para resolver um problema depende totalmente da sua escala, complexidade e novidade.

«2+2 é quanto?» Não precisa de muitos Tokens.

«Me ajude a criar um bot que escaneie todos os mercados entre Polymarket e Kalshi, identificando aqueles semanticamente semelhantes e que deveriam ser liquidados na mesma fase, estabelecendo limites de arbitragem, e que, ao detectar uma oportunidade, execute negociações automaticamente com baixa latência» — isso exige uma quantidade enorme de Tokens.

Na prática, descobrimos uma coisa interessante.

Se você investir Tokens suficientes para lidar com problemas de escala e complexidade, o Agent consegue resolver de qualquer jeito. Em outras palavras, se você quer construir algo extremamente complexo, com muitos componentes e linhas de código, basta investir Tokens suficientes nesses problemas — no final, eles serão resolvidos completamente.

Há uma exceção pequena, mas importante.

Se o problema for muito inovador, Tokens não resolvem. Por mais Tokens que você invista, não será possível resolver a «questão da novidade». Tokens podem eliminar erros causados por complexidade, mas não podem fazer o Agent inventar coisas que ele nunca viu antes.

Essa conclusão, na verdade, nos traz alívio.

Gastamos uma enorme quantidade de Tokens tentando, sem muita orientação, fazer o Agent reproduzir processos de investimento institucional. O objetivo era entender quantos anos ainda nos separam de uma substituição total por IA. Mas descobrimos que o Agent não consegue chegar perto de um processo de investimento institucional decente — provavelmente porque esses processos simplesmente não existem nos dados de treinamento, ou seja, eles nunca foram vistos pelo modelo.

Portanto, se seu problema é inovador, não espere resolver apenas acumulando Tokens. Você precisa guiar a exploração. Mas, uma vez que tenha uma solução, pode investir Tokens à vontade — mesmo que o código seja grande ou os componentes complexos.

Uma regra heurística simples: o orçamento de Tokens deve crescer proporcionalmente ao número de linhas de código.

O que exatamente os Tokens extras fazem

Na prática, Tokens adicionais geralmente aumentam a qualidade do trabalho do Agent de várias formas:

Permitem que ele dedique mais tempo a raciocinar na mesma tentativa, aumentando as chances de detectar erros lógicos. Quanto mais profundo for o raciocínio, melhor o planejamento, maior a chance de acerto.

Permitem múltiplas tentativas independentes, explorando diferentes caminhos de solução. Alguns caminhos são melhores que outros. Com várias tentativas, ele pode escolher o melhor.

De forma semelhante, mais tentativas independentes de planejamento ajudam a abandonar direções fracas e manter as mais promissoras.

Mais Tokens também possibilitam que ele critique seu próprio trabalho usando um contexto renovado, dando uma chance de melhorar, ao invés de ficar preso em uma «inércia de raciocínio».

E, claro, minha preferência: mais Tokens permitem usar testes e ferramentas para verificar. Executar o código na prática é a forma mais confiável de confirmar a correção.

Essa lógica funciona porque as falhas do Engineering do Agent geralmente não são aleatórias. Quase sempre acontecem por escolher cedo um caminho errado, não verificar se ele é viável (no início), ou por não ter orçamento suficiente para recuperar e reverter após detectar erros.

Resumindo: Tokens, na prática, representam a qualidade das decisões que você compra. Pense nisso como uma pesquisa: se você pedir a alguém para responder a uma questão difícil na hora, a qualidade da resposta diminui com a pressão do tempo.

Pesquisa, no fundo, é gerar o «saber a resposta». Humanos gastam tempo biológico para produzir respostas melhores; Agents gastam mais tempo computacional para fazer o mesmo.

Como melhorar seu Agent

Você pode ainda estar cético, mas há muitas evidências em artigos que suportam isso — e, na verdade, o ajuste do parâmetro de «raciocínio» é toda a prova que você precisa.

Um artigo que gosto bastante treinou o modelo com um pequeno conjunto de exemplos de raciocínio cuidadosamente planejados, e depois usou uma técnica que forçava o modelo a continuar pensando ao invés de parar — adicionando um «Wait» (espera) onde ele queria parar. Só isso elevou um benchmark de 50% para 57%.

De forma direta: se você reclama que seu código gerado pelo Agent é fraco, provavelmente o nível de reflexão máxima ainda não é suficiente.

Tenho duas soluções bem simples para você:

Solução 1: WAIT (espera)

Comece agora mesmo: crie um ciclo automático — após gerar o código, peça ao Agent para revisá-lo N vezes, cada vez corrigindo problemas detectados.

Se perceber que essa técnica simples melhora seu desempenho, você entendeu: o problema é a quantidade de Tokens. Então, entre para o clube dos que investem Tokens.

Solução 2: VERIFY (verificação)

Faça o Agent validar seu trabalho cedo e frequentemente. Escreva testes que garantam que o caminho escolhido realmente funciona. Isso é especialmente útil em projetos complexos e profundamente aninhados — uma função pode ser chamada por muitas outras. Detectar erros na origem economiza muito tempo de processamento (Tokens) depois. Portanto, sempre que possível, insira pontos de verificação ao longo do desenvolvimento.

Depois de uma parte estar pronta, peça a outro Agent para verificar. Fluxos de pensamento independentes ajudam a identificar desvios sistemáticos.

É basicamente isso. Posso escrever muito mais sobre o tema, mas acredito que, ao entender essas duas estratégias e aplicá-las bem, você resolve 95% dos problemas. Acredito que fazer o simples bem feito, e acrescentar complexidade só quando necessário, é o caminho.

Reforçando: a «novidade» é uma questão que Tokens não resolvem. Quero enfatizar isso mais uma vez, porque cedo ou tarde você vai encontrar esse obstáculo e reclamar que Tokens não funcionam.

Quando o problema não está nos dados de treinamento, você é quem precisa criar a solução. Conhecimento especializado ainda é fundamental.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar