Ràng buộc hạ tầng khi triển khai LLM

Hạ tầng triển khai LLM hiện nay còn ràng buộc rất chặt giữa ba trục phần cứng, phần mềm và model: một thay đổi ở một trục thường làm vỡ hai trục còn lại, vì các trừu tượng giữa chúng chưa đủ tách bạch. Đây là nhận xét rút ra từ thực tế triển khai, được chứng minh bằng nhiều biểu hiện hội tụ chứ không phải cảm tính.

Ba trục ràng buộc

Trục phần cứng gồm HCA InfiniBand, NVLink, dung lượng /dev/shm và việc pod có được cấp thiết bị RDMA hay không. Trục phần mềm gồm phiên bản của vLLM, Dynamo, TensorRT-LLM và các KV connector phải khớp nhau. Trục model gồm kiến trúc model, mà kiến trúc lại quy định yêu cầu lên phần mềm. Ba trục này chưa được trừu tượng hóa độc lập, nên ràng buộc lan từ trục này sang trục khác.

flowchart TB
    HW["Phần cứng<br/>HCA, NVLink, /dev/shm, RDMA device"]
    SW["Phần mềm<br/>vLLM, Dynamo, TRT-LLM, connector"]
    MD["Model<br/>kiến trúc hybrid, kích thước, quantization"]
    HW <--> SW
    SW <--> MD
    MD <--> HW

Các biểu hiện hội tụ

Connector truyền KV chưa hỗ trợ interface HMA khiến model hybrid và disaggregated serving loại trừ lẫn nhau, tức kiến trúc model trực tiếp giới hạn lựa chọn triển khai. KVBM từng lỗi import vì TensorRT-LLM đổi cấu trúc connector API, bản vá có trên nhánh chính nhưng chưa vào tag release, tức phải khớp đúng phiên bản image mới chạy được. NIXL và UCX phụ thuộc UCX được build đúng chuẩn CUDA và /dev/shm đủ lớn mới khởi tạo được backend. Quantize đa GPU trong pod vỡ vì pod thiếu /dev/infiniband, phải ép Open MPI bỏ đường UCX. Đỉnh bộ nhớ khi quantize on-load buộc phần cứng phải đủ RAM cho bản precision gốc dù kết quả nhỏ hơn. Mỗi sự cố riêng lẻ đều quy về cùng một gốc: ranh giới giữa phần cứng, phần mềm và model còn rò rỉ.

Hệ quả cho cách làm

Vì ràng buộc còn lớn, hiểu công nghệ ở tầng dưới trước khi áp dụng là điều kiện để gỡ lỗi, bởi một lỗi ở tầng ứng dụng (ví dụ lỗi 404 hay timeout) thường có gốc ở tầng transport hoặc phần cứng. Mỗi lựa chọn cấu hình là một đánh đổi cụ thể giữa hiệu quả bộ nhớ, độ trễ và tính tương thích, chứ hiếm khi có cấu hình tối ưu phổ quát. Và nên ưu tiên các giải pháp đúng đắn dài hạn (khớp phiên bản, image chuẩn) thay vì vá tạm, vì coupling cao làm chi phí của một bản vá sai lan rộng.

Cập nhật: 2026-05-29