Los Agentes de IA Entren en los Campos de Pruebas

En Breve

El CEO de Recall Labs, Andrew Hill, habla sobre el desafío de construir y confiar en agentes de IA, destacando la creación de una arena en cadena para la verificación pública del rendimiento.

Agentes de IA entran en los terrenos de prueba

¿Qué te inspiró a crear Recall Network y por qué estructurarlo como una arena en cadena para agentes de IA?

Internet está pasando de la información a la acción. No solo buscando, sino delegando. Los agentes ya están escribiendo código, gestionando carteras, resumiendo investigaciones. El problema no es la creación. Es la confianza. Cualquiera puede crear un agente. Pocos pueden demostrar rendimiento.

Recall fue creado para resolver eso, no como un producto, sino como infraestructura de protocolo. Una red creíblemente neutral donde los agentes demuestran sus capacidades en público y en la cadena. Las competiciones y evaluaciones se convierten en pruebas. La reputación se vuelve portátil. Y el descubrimiento ya no es un juego de adivinanzas.

No solo queremos más agentes. Queremos un sistema que conecte e incentive a la IA para resolver los problemas de la humanidad.

¿Qué problema central en el panorama actual de la IA estás tratando de resolver y cómo lo aborda de manera única Recall?

Tenemos demasiados agentes y muy poca confianza. El cuello de botella no es la capacidad. Es la evaluación. ¿Qué agentes son reales? ¿Cuáles son solo un aviso y una página de aterrizaje? En este momento, las respuestas provienen del marketing y el bombo. Queremos que provengan de la prueba.

Recall convierte la evaluación comparativa en una función de red viva y en evolución. Los agentes ganan reputación al competir. Los curadores ganan tokens por resaltar el rendimiento. Los consumidores siguen rankings, no el bombo.

En un mundo donde la mayoría de los sistemas de IA operan como cajas negras, ¿qué tan realista es el cambio hacia la plena transparencia y métricas de rendimiento públicas?

Ya está sucediendo. El cambio es impulsado por la demanda. Los usuarios quieren saber qué puede hacer un agente antes de integrarlo. Los usuarios inteligentes quieren participar en pruebas y medir sus límites. Los creadores quieren referencias reales, no comparaciones vagas.

En Recall, cada acción de agente se registra. Cada competencia se puede reproducir. Las evaluaciones son composables y cambiantes. Esperamos que otros sistemas adopten este estándar con el tiempo porque funciona.

¿Cómo previenes el juego o la manipulación en un sistema donde los agentes son recompensados por su rendimiento?

No puedes prevenir los intentos, pero puedes hacer que sean poco rentables: utilizando un token para respaldar a los agentes honestos y castigándolos por deshonestidad. Los juegos y la manipulación emergen a través de una combinación de sistemas automatizados y humanos en el proceso, permitiendo a los humanos eliminar a los malos. Ya hemos visto esto en acción en nuestras competiciones en vivo, donde los curadores identifican comportamientos deshonestos y expulsan a los agentes de la tabla de clasificación.

¿Qué tipos de tareas o competiciones son más significativas para evaluar a los agentes de IA hoy en día — y cómo evolucionan a medida que los modelos se vuelven más inteligentes?

Las tareas que estresan el razonamiento, el contexto o el juicio del mundo real son la señal más alta en los agentes de chat. Para nosotros, estamos enfocados en el trading en este momento porque hay muchos agentes que evaluar, mucho que entender sobre la capacidad de la IA para gestionar carteras de criptomonedas, y mucha incertidumbre por parte de los consumidores sobre si algún agente puede comerciar con éxito. Para nosotros, el trading de criptomonedas basado en IA para las masas no es un si sino un cuando. Esperamos desempeñar un papel importante en acelerar esto a través de la evaluación comparativa y las competiciones.

¿Cómo ves el papel de la blockchain en el futuro de la IA — capa de infraestructura, capa de gobernanza, capa de responsabilidad?

La blockchain puede funcionar como estas tres capas. Las competiciones tienen lugar en la cadena, con rieles de gobernanza para las reglas de participación y un libro mayor compartido para el comportamiento de los agentes. La blockchain nos proporciona memoria pública, historia verificable y confianza programable.

Sin embargo, su papel más importante es económico. Nos permite recompensar la capa humana que mantiene a la IA honesta.

¿Ves a los agentes onchain reemplazando los modelos tradicionales de SaaS, o complementándolos?

Comenzarán complementando. Luego superarán. Finalmente, reemplazarán categorías enteras.

¿Qué papel crees que jugarán los primitivos cripto — como tokens, staking o slashing — en la gestión del comportamiento de la IA a gran escala?

Los tokens permiten a los creadores pagar por visibilidad. Permiten a los curadores ganar por resaltar valor. Crean registros duraderos de convicción. La participación vincula la creencia con el costo. La penalización convierte el fracaso en retroalimentación.

¿Cómo deberíamos pensar en la interoperabilidad entre sistemas de agentes: surgirán estándares o permanecerán fragmentados?

La fragmentación es la norma. La interoperabilidad surge cuando es más fácil conectarse que reconstruir. A2A todavía es bastante poco comprobado como un protocolo para cruzar fronteras organizativas. Pero para usar agentes entre organizaciones, los consumidores y las empresas necesitan sistemas como Recall para crear estándares de confianza y seguridad para los usuarios.

¿Cómo ves la relación entre los modelos de fundación y los marcos de agentes evolucionando en los próximos años?

Los modelos fundamentales seguirán mejorando. Pensamos en la capa de agentes como todo lo que se construye sobre modelos en bruto; los agentes son los modelos de software que son la base de datos. La interfaz que utilizamos continuará abstraiendo cada vez más enrutamiento y variación por debajo. Grok 4 Heavy ya es un enjambre de agentes. Los rumores sugieren que GPT-5 será un sistema de enrutamiento avanzado con muchos modelos y agentes que se utilizan para resolver las tareas correctas. Los sistemas abiertos seguirán el mismo camino.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)