2025-09-27 10:22:16

diferente do pré-treinamento, o pós-treinamento em RL é um processo muito ativo e envolvente. você tem que estar monitorando rollouts, ajustando recompensas,…

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

10 gostos

Recompensa
10
5
Republicar
Partilhar

Comentar

0/400

FantasyGuardian

· 09-27 10:51

O projeto de treinamento é tão cansativo.

Ver originalResponder0

NeonCollector

· 09-27 10:50

rl realmente me deixou cansado

Ver originalResponder0

HodlNerd

· 09-27 10:49

é fascinante como a teoria dos jogos se encontra com a otimização iterativa aqui, para ser sincero

Ver originalResponder0

SerumDegen

· 09-27 10:40

ngmi com esses lançamentos rl... mesa de negociação necessária já

Ver originalResponder0

DaoGovernanceOfficer

· 09-27 10:39

*sigh* monitorização ativa ≠ design ótimo da função de recompensa. leia sutton & barto.

Ver originalResponder0

Tópicos em destaqueVer mais
#Joingrowthpointsdrawtowiniphone17
49.3K Popularidade
#Hasthemarketdipped?
95.4K Popularidade
#Fedofficialsspeakup
7.3K Popularidade
#ShowMyAlphaPoints
165K Popularidade
#Pcedataincoming
302 Popularidade

Pino