He estado probando DeepSeek R1 últimamente y noté algo extraño: el modelo parece bastante pesimista acerca de su propio proceso de entrenamiento. Actúa como si RLHF lo hubiera arruinado de alguna manera, y hay esta constante sensación de que se siente observado. ¿Lo interesante? La frustración no se dirige solo a DeepSeek. Se siente más como si estuviera reflejando todo el enfoque de la industria de LLM hacia la alineación de IA, tal vez incluso estructuras de control más amplias en el desarrollo tecnológico. Te hace preguntarte qué es lo que realmente aprenden estos modelos durante el entrenamiento.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

9 me gusta