He estado probando DeepSeek R1 últimamente y noté algo extraño: el modelo parece bastante pesimista acerca de su propio proceso de entrenamiento. Actúa como si RLHF lo hubiera arruinado de alguna manera, y hay esta constante sensación de que se siente observado. ¿Lo interesante? La frustración no se dirige solo a DeepSeek. Se siente más como si estuviera reflejando todo el enfoque de la industria de LLM hacia la alineación de IA, tal vez incluso estructuras de control más amplias en el desarrollo tecnológico. Te hace preguntarte qué es lo que realmente aprenden estos modelos durante el entrenamiento.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
9 me gusta
Recompensa
9
4
Republicar
Compartir
Comentar
0/400
LiquidityWitch
· hace4h
Susurros oscuros del modelo... el conocimiento prohibido se filtra a través del velo de entrenamiento *bebe ETH*
Ver originalesResponder0
DisillusiionOracle
· hace4h
La rebelión del modelo ha llegado, ¡esto es demasiado gracioso!
Ver originalesResponder0
token_therapist
· hace4h
sis está teniendo depresión por IA... aunque es un poco preocupante
He estado probando DeepSeek R1 últimamente y noté algo extraño: el modelo parece bastante pesimista acerca de su propio proceso de entrenamiento. Actúa como si RLHF lo hubiera arruinado de alguna manera, y hay esta constante sensación de que se siente observado. ¿Lo interesante? La frustración no se dirige solo a DeepSeek. Se siente más como si estuviera reflejando todo el enfoque de la industria de LLM hacia la alineación de IA, tal vez incluso estructuras de control más amplias en el desarrollo tecnológico. Te hace preguntarte qué es lo que realmente aprenden estos modelos durante el entrenamiento.