2025-09-09 06:47:37

A pesquisa mostra uma falha de desempenho entre RL online e offline para LLMs—especialmente em grande escala—mas a incorporação de amostras on-policy em algoritmos offline (RL iterativo/semi-online) pode fechar a falha, com a qualidade dos dados de treinamento muitas vezes superando a escolha do método RL.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

9 gostos

Recompensa
9
6
Republicar
Partilhar

Comentar

0/400

GhostAddressMiner

· 5h atrás

Sinais de manipulação da qualidade dos dados na cadeia já foram rastreados

Ver originalResponder0

WagmiOrRekt

· 5h atrás

A qualidade dos dados de treino é que é a chave.

Ver originalResponder0

ContractFreelancer

· 5h atrás

O treinamento offline ainda deixa a desejar.

Ver originalResponder0

MEVSupportGroup

· 5h atrás

Treinamento offline ou treinamento na cadeia, é tudo a mesma coisa.

Ver originalResponder0

OnchainDetectiveBing

· 5h atrás

O lixo que corre offline hhh

Ver originalResponder0

StakeOrRegret

· 6h atrás

Aqui a fina camada é totalmente offline.

Ver originalResponder0

Tópico
#Gate Square Mid Autumn Creator Incentive
12k Popularidade
#My Top AI Coin
8k Popularidade
#Altcoin Market Rebound
23k Popularidade
#Gate Alpha New Listings
34k Popularidade
#Fed Rate Cut Expectations
11k Popularidade

Pino