La investigación muestra una brecha de rendimiento entre el RL en línea y el RL fuera de línea para LLMs—especialmente a gran escala—pero incorporar muestras en política en algoritmos fuera de línea (RL iterativo/semilínea ) puede cerrar la brecha, con la calidad de los datos de entrenamiento a menudo superando la elección del método de RL.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
9 me gusta
Recompensa
9
6
Republicar
Compartir
Comentar
0/400
GhostAddressMiner
· hace10h
La señal de manipulación de la calidad de los datos en cadena ya ha sido rastreada.
Ver originalesResponder0
WagmiOrRekt
· hace10h
La calidad de los datos de entrenamiento es la clave, ¿verdad?
Ver originalesResponder0
ContractFreelancer
· hace10h
El entrenamiento offline sigue siendo un poco deficiente.
Ver originalesResponder0
MEVSupportGroup
· hace11h
Entrenamiento offline o entrenamiento en la cadena, es lo mismo.
Ver originalesResponder0
OnchainDetectiveBing
· hace11h
Correr offline es una basura hhh
Ver originalesResponder0
StakeOrRegret
· hace11h
Aquí la gasa pura está completamente fuera de línea.
La investigación muestra una brecha de rendimiento entre el RL en línea y el RL fuera de línea para LLMs—especialmente a gran escala—pero incorporar muestras en política en algoritmos fuera de línea (RL iterativo/semilínea ) puede cerrar la brecha, con la calidad de los datos de entrenamiento a menudo superando la elección del método de RL.