OpenAI construyó una tubería de agrupamiento para analizar por qué los expertos preferían o rechazaban GPT-5 alto, Claude Opus 4.1, Gemini 2.5 Pro y Grok 4.
→ Claude 4.1 fue el mejor en diseño & estética (p. ej. diapositivas, formato)
→ GPT-5 fue el mejor en precisión & en seguir instrucciones
→ Claude,
Ver originales