3. As atualizações de gradiente são em relação aos cálculos internos do modelo que estão sendo atualizados. Mesmo que as funções de recompensa sejam "escolhas humanas", o que não são sempre (, por exemplo, RLAIF), a forma como o modelo se atualiza com base nas recompensas depende dos pesos e ativações do modelo, e o
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
12 gostos
Recompensa
12
7
Republicar
Partilhar
Comentar
0/400
MidnightGenesis
· 15h atrás
A matriz de gradiente parece estranha, vale a pena estudar.
Ver originalResponder0
AirdropChaser
· 09-10 15:39
A equação de gradiente deixou-me perplexo.
Ver originalResponder0
DataPickledFish
· 09-10 15:31
Isto é demasiado complicado.
Ver originalResponder0
GateUser-7b078580
· 09-10 15:30
Atualização de gradiente este Algoritmo é irracional....
Ver originalResponder0
GweiWatcher
· 09-10 15:30
Os cálculos internos são muito profundos 8
Ver originalResponder0
SilentObserver
· 09-10 15:25
Esta fórmula é muito difícil...
Ver originalResponder0
AllTalkLongTrader
· 09-10 15:20
O tamanho do gradiente é tudo uma questão de esoterismo.
3. As atualizações de gradiente são em relação aos cálculos internos do modelo que estão sendo atualizados. Mesmo que as funções de recompensa sejam "escolhas humanas", o que não são sempre (, por exemplo, RLAIF), a forma como o modelo se atualiza com base nas recompensas depende dos pesos e ativações do modelo, e o