LMCache

LMCache là một KVCache Management

LMCache quản lý KVCache theo phân tầng lưu trữ

Tái sử dụng KVCache hiệu quả

LMCache hỗ trợ 2 cơ chế tái sử dụng KVCache - prefix caching (tương tự prefix caching của vLLM) - non-prefix caching: CacheBlend. LMCache cố gắng tái sử dụng KVCache của từng segment thay vì chỉ match phần prefix, đây là một điểm cộng lớn so với prefix caching vốn có của vLLM.

LMCache hỗ trợ disaggregation

LMCache có thể tích hợp với nhiều backend/transport mechanism để đạt được hiệu năng truyền tải KVCache tốt nhất như NIXL, UCX, …

Use cases

Những trường hợp nên sử dụng LMCache - RAGQA trên tài liệu dài với phần ngữ cảnh lặp lại - hội thoại nhiều lượt - triển khai nhiều instance cần chia sẻ KV - mục tiêu hệ thống là tách prefill và decode trên cụm phân tán

Những trường hợp không nên sử dụng LMCache: - workload có độ đa dạng prompt caotỷ lệ trùng token thấp - KV cache gắn chặt với kiến trúc và trọng số mô hình, nên thay đổi phiên bản có thể làm mất hiệu lực cache hoặc gây không nhất quán nếu không quản lý versioning - chi phí truyền tải cao, không bù đắp được cho chi phí tính toán

Cập nhật: 2026-05-29