Ramp Labs đề xuất một giải pháp mới để chia sẻ trí nhớ giữa nhiều tác nhân, mức tiêu thụ Token cao nhất giảm 65%
Kết quả nghiên cứu “Latent Briefing” do Ramp Labs công bố đã nén bộ nhớ đệm KV của mô hình ngôn ngữ lớn, để hệ thống đa tác nhân có thể chia sẻ trí nhớ hiệu quả, giảm mức tiêu thụ Token và tăng độ chính xác. Trong bài kiểm tra LongBench v2, phương pháp này đã giảm thành công mức tiêu thụ Token của mô hình Worker 65% và cải thiện độ chính xác tổng thể khoảng 3 điểm phần trăm; thời gian nén chỉ là 1,7 giây. Công nghệ này thể hiện rất xuất sắc trong nhiều bối cảnh tài liệu khác nhau.
GateNews·51phút trước

