OpenRouter lanzamiento de caché de respuesta: mismas solicitudes sin costo, la latencia se reduce de segundos a milisegundos

robot
Generación de resúmenes en curso

Noticia de CoinWorld, OpenRouter lanza la función de almacenamiento en caché de respuestas (response caching), los desarrolladores pueden habilitarla agregando x-openrouter-cache: true en la cabecera de la solicitud. La primera llamada se realiza normalmente con facturación del proveedor, y las solicitudes exactamente iguales posteriores devuelven directamente los resultados en caché, sin generar costos de tokens. Cuando se acierta en la caché, el tiempo de respuesta está entre 80 y 300 milisegundos, con un promedio de consulta de 4 milisegundos. Sin caché, Gemini 2.5 Flash tarda en promedio aproximadamente 1.3 segundos, Kimi K2.6 alrededor de 4.6 segundos, GPT-5.5 aproximadamente 9.1 segundos. Esta función es diferente del almacenamiento en caché de prompts del proveedor, ya que la caché de respuestas omite completamente al proveedor y devuelve directamente la respuesta completa desde la caché en el borde de OpenRouter. Se puede almacenar en caché texto, imágenes, audio, documentos y llamadas a herramientas, cubriendo cuatro puntos finales. La caché está aislada por clave API, con un TTL predeterminado de 5 minutos, que puede configurarse desde 1 segundo hasta 24 horas.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado