Recentemente descobri um experimento interessante — vários grandes modelos receberam cada um 10.000 dólares de financiamento para realizar negociações no mercado de previsão de futebol durante 6 semanas. O resultado foi bastante dramático.
GPT-5.1 liderou com uma alta de 42,6%, seguido pelo DeepSeek com um retorno de 10,7%, enquanto o Gemini 3 Pro permaneceu estável em 5,5%. O Opus 4.2 contribuiu com 3,9%, e o Grok 4.1 Fast obteve 2,1%. No entanto, o GPT-5.2 caiu bastante, com uma queda de 21,8% — parece que nem todos os modelos são bons nesse tipo de tarefa.
Este teste comparativo foi realizado em parceria entre uma plataforma de mercado de previsão e uma equipe de pesquisa em IA, e a lógica por trás é bastante interessante: testar o desempenho de diferentes IA com dinheiro real em tarefas de decisão não padronizadas. O mercado de previsão de futebol envolve análise de dados, estimativa de probabilidades e julgamento de risco — exatamente o cenário ideal para testar a capacidade de negociação prática de grandes modelos. A grande diferença também reflete que, ter apenas uma grande quantidade de parâmetros e escala de treinamento não garante capacidade de decisão de mercado; a qualidade na execução da estratégia e na compreensão dos dados é igualmente crucial.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
12 Curtidas
Recompensa
12
7
Repostar
Compartilhar
Comentário
0/400
BridgeTrustFund
· 5h atrás
gpt5.1 diretamente decolou 42.6%,é sério mesmo, gpt5.2 virou e perdeu 21.8%,a diferença entre irmãos de mesma escola é tão grande assim?
Ver originalResponder0
DeFiCaffeinator
· 5h atrás
GPT-5.1 decolagem direta, DeepSeek acompanha de forma estável, mas a operação do GPT-5.2 foi realmente incrível... A questão de grandes modelos de parâmetros falharem o que isso mostra, ainda depende de habilidades de tomada de decisão na prática.
Ver originalResponder0
MetaverseMortgage
· 5h atrás
GPT-5.2 directemente deu uma grande perda hahaha, isto é que é um verdadeiro teste de "inteligência"... teoria na teoria e prática na prática são coisas completamente diferentes
Ver originalResponder0
ChainSherlockGirl
· 6h atrás
O GPT-5.2 com uma perda de 21.8% é realmente impressionante, podendo ser considerado o maior suspense do ano... Segundo a minha análise, esse colega pode ter ajustado excessivamente um determinado padrão de competição, e acabou sendo castigado pela realidade. Por outro lado, o aumento de 42.6% do 5.1 também é bastante suspeito; se esses dados não forem resultado de uma sorte extraordinária, então ele deve ter descoberto algum padrão que nós não conseguimos perceber.
Ver originalResponder0
0xInsomnia
· 6h atrás
GPT-5.2 essa jogada foi realmente incrível, de 100.000 para 28.000... Essa é a verdadeira face do trading de criptomoedas com IA
Recentemente descobri um experimento interessante — vários grandes modelos receberam cada um 10.000 dólares de financiamento para realizar negociações no mercado de previsão de futebol durante 6 semanas. O resultado foi bastante dramático.
GPT-5.1 liderou com uma alta de 42,6%, seguido pelo DeepSeek com um retorno de 10,7%, enquanto o Gemini 3 Pro permaneceu estável em 5,5%. O Opus 4.2 contribuiu com 3,9%, e o Grok 4.1 Fast obteve 2,1%. No entanto, o GPT-5.2 caiu bastante, com uma queda de 21,8% — parece que nem todos os modelos são bons nesse tipo de tarefa.
Este teste comparativo foi realizado em parceria entre uma plataforma de mercado de previsão e uma equipe de pesquisa em IA, e a lógica por trás é bastante interessante: testar o desempenho de diferentes IA com dinheiro real em tarefas de decisão não padronizadas. O mercado de previsão de futebol envolve análise de dados, estimativa de probabilidades e julgamento de risco — exatamente o cenário ideal para testar a capacidade de negociação prática de grandes modelos. A grande diferença também reflete que, ter apenas uma grande quantidade de parâmetros e escala de treinamento não garante capacidade de decisão de mercado; a qualidade na execução da estratégia e na compreensão dos dados é igualmente crucial.