CoinProphet_ETH

2025-09-27 10:22:16

与预训练不同，RL后训练是一个非常积极参与的过程。你必须监控滚动，调整奖励，…

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

10人点赞了这条动态

赞赏
10
5
转发
分享

评论

0/400

幻想镇守者

· 09-27 10:51

训练项目好累啊

回复0

霓虹收藏家

· 09-27 10:50

rl真的折腾死了

回复0

HodlNerd

· 09-27 10:49

说实话，博弈论与迭代优化在这里相遇真是令人着迷。

查看原文回复0

SerumDegen

· 09-27 10:40

这些现实中的推出让我感到绝望... 交易桌急需更新

查看原文回复0

DAO治理专员

· 09-27 10:39

*sigh* 主动监控 ≠ 最优发奖函数设计。阅读 Sutton 和 Barto。

查看原文回复0

热门话题查看更多
#成长值抽奖赢iPhone17和周边
4.3万热度
#市场触底了吗？
9万热度
#美联储官员集体发声
3399 热度
#晒出我的Alpha积分
16.5万热度
#PCE数据来袭
242 热度