与预训练不同,RL后训练是一个非常积极参与的过程。你必须监控滚动,调整奖励,…

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 5
  • 转发
  • 分享
评论
0/400
幻想镇守者vip
· 09-27 10:51
训练项目好累啊
回复0
霓虹收藏家vip
· 09-27 10:50
rl真的折腾死了
回复0
HodlNerdvip
· 09-27 10:49
说实话,博弈论与迭代优化在这里相遇真是令人着迷。
查看原文回复0
SerumDegenvip
· 09-27 10:40
这些现实中的推出让我感到绝望... 交易桌急需更新
查看原文回复0
DAO治理专员vip
· 09-27 10:39
*sigh* 主动监控 ≠ 最优发奖函数设计。阅读 Sutton 和 Barto。
查看原文回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)