3. As atualizações de gradiente são em relação aos cálculos internos do modelo que estão sendo atualizados. Mesmo que as funções de recompensa sejam "escolhas humanas", o que não são sempre (, por exemplo, RLAIF), a forma como o modelo se atualiza com base nas recompensas depende dos pesos e ativações do modelo, e o
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
13 Curtidas
Recompensa
13
7
Repostar
Compartilhar
Comentário
0/400
MidnightGenesis
· 20h atrás
A matriz de gradiente parece estranha, vale a pena estudar.
Ver originalResponder0
AirdropChaser
· 09-10 15:39
A equação de gradiente deixou-me perplexo.
Ver originalResponder0
DataPickledFish
· 09-10 15:31
Isto é demasiado complicado.
Ver originalResponder0
GateUser-7b078580
· 09-10 15:30
Atualização de gradiente este Algoritmo é irracional....
Ver originalResponder0
GweiWatcher
· 09-10 15:30
Os cálculos internos são muito profundos 8
Ver originalResponder0
SilentObserver
· 09-10 15:25
Esta fórmula é muito difícil...
Ver originalResponder0
AllTalkLongTrader
· 09-10 15:20
O tamanho do gradiente é tudo uma questão de esoterismo.
3. As atualizações de gradiente são em relação aos cálculos internos do modelo que estão sendo atualizados. Mesmo que as funções de recompensa sejam "escolhas humanas", o que não são sempre (, por exemplo, RLAIF), a forma como o modelo se atualiza com base nas recompensas depende dos pesos e ativações do modelo, e o