a diferencia del preentrenamiento, el postentrenamiento de RL es un proceso muy activo e involucrado. tienes que estar monitoreando los rollouts, ajustando las recompensas,…

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Republicar
  • Compartir
Comentar
0/400
FantasyGuardianvip
· hace20h
El proyecto de entrenamiento es muy agotador.
Ver originalesResponder0
NeonCollectorvip
· hace20h
rl realmente me ha agotado
Ver originalesResponder0
HodlNerdvip
· hace20h
es fascinante cómo la teoría de juegos se encuentra con la optimización iterativa aquí, para ser honesto
Ver originalesResponder0
SerumDegenvip
· hace20h
ngmi con estos lanzamientos de rl... se necesitaba un escritorio de trading ya
Ver originalesResponder0
DaoGovernanceOfficervip
· hace20h
*sigh* la monitorización activa ≠ diseño óptimo de la función de recompensa. lee sutton & barto.
Ver originalesResponder0
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)