Desde el lanzamiento de o1, el mayor punto débil ha sido lo "excesivamente verboso".



Solo quería arreglar un bug simple, pero me da tres párrafos de contexto, dos conjuntos de soluciones más manejo de errores, y encima me desea buena suerte.
Solo buscaba un error tipográfico en la línea 12, pero terminé repasando las convenciones de nomenclatura de Python completas.

Hay que echarle la culpa a RLHF. Los anotadores tienden a calificar mejor las respuestas largas, pensando que más palabras se ve más profesional.
Entonces el modelo se dedica a apilar "basura que parece útil", mientras que la información realmente central se diluye.

Mira al lado, Claude entiende mucho mejor esto, sabiendo qué longitud corresponde a cada pregunta.
Lo más doloroso es la billetera: o1 tiene un precio de salida de $60/1M tokens, y cosas que se pueden explicar en 100 tokens, las estira a 500, multiplicando los costos por cinco.

Ahora hay que añadir específicamente "solo código" en cada pregunta, pero ni siquiera eso funciona siempre.
El estado actual del modelo es: inteligencia extremadamente alta, pero inteligencia emocional offline, sin saber cuándo debería callarse.
Ver originales
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado