3. Las actualizaciones de gradiente son con respecto a los cálculos internos del modelo que se está actualizando. Incluso si las funciones de recompensa son "elecciones humanas", que no siempre lo son ( por ejemplo, RLAIF), la forma en que el modelo se actualiza en función de las recompensas depende de los pesos y activaciones del modelo, y el
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
13 me gusta
Recompensa
13
7
Republicar
Compartir
Comentar
0/400
MidnightGenesis
· hace17h
La matriz de gradientes se ve extraña, vale la pena investigarla.
Ver originalesResponder0
AirdropChaser
· 09-10 15:39
La ecuación de gradiente me dejó atónito.
Ver originalesResponder0
DataPickledFish
· 09-10 15:31
Esto es demasiado complicado.
Ver originalesResponder0
GateUser-7b078580
· 09-10 15:30
La actualización de gradientes este algoritmo no es razonable....
3. Las actualizaciones de gradiente son con respecto a los cálculos internos del modelo que se está actualizando. Incluso si las funciones de recompensa son "elecciones humanas", que no siempre lo son ( por ejemplo, RLAIF), la forma en que el modelo se actualiza en función de las recompensas depende de los pesos y activaciones del modelo, y el