contrairement au préentraînement, le post-entraînement RL est un processus très actif et impliqué. vous devez surveiller les déploiements, ajuster les récompenses,…

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • Reposter
  • Partager
Commentaire
0/400
FantasyGuardianvip
· Il y a 23h
Les projets d'entraînement sont épuisants.
Voir l'originalRépondre0
NeonCollectorvip
· Il y a 23h
rl m'a vraiment fatigué
Voir l'originalRépondre0
HodlNerdvip
· Il y a 23h
c'est fascinant de voir comment la théorie des jeux rencontre l'optimisation itérative ici à vrai dire
Voir l'originalRépondre0
SerumDegenvip
· Il y a 23h
ngmi avec ces déploiements rl... bureau de trading nécessaire immédiatement
Voir l'originalRépondre0
DaoGovernanceOfficervip
· Il y a 23h
*sigh* la surveillance active ≠ conception optimale de la fonction de récompense. lisez Sutton et Barto.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)