Ramp Labs presenta una nueva solución para compartir la memoria entre múltiples agentes, con una reducción máxima del consumo de tokens del 65%
Los resultados de investigación “Latent Briefing” publicados por Ramp Labs logran, al comprimir la memoria caché KV de los modelos de gran escala, compartir de forma eficiente la memoria en sistemas de múltiples agentes, reduciendo el consumo de tokens y mejorando la precisión. En las pruebas de LongBench v2, este método redujo con éxito el consumo de tokens del modelo Worker en 65% y aumentó la precisión general en aproximadamente 3 puntos porcentuales; el tiempo de compresión fue de solo 1.7 segundos. Esta tecnología demuestra un rendimiento sobresaliente en distintos escenarios de documentos.
GateNews·hace3h

