2026-03-17 07:47:27

Báo cáo nào khiến Musk cũng cảm thấy không thể tin nổi?

Moonshot AI (nhóm Kimi) gần đây đã phát hành một báo cáo kỹ thuật bùng nổ: "Attention Residuals", trực tiếp nâng cấp Residual Connections (kết nối phần dư) đã được sử dụng gần 10 năm trong Transformer. Kết quả là Elon Musk cũng không nhịn được để lại bình luận, cảm thấy không thể tin nổi (ở mức độ shock của "unbelievable").

Nội dung chính của báo cáo này có thể tóm tắt bằng một câu:
"Đừng để mỗi lớp mù quáng cộng thêm thông tin từ tất cả các lớp trước đó với trọng số bằng nhau nữa, hãy để mô hình tự học cách sử dụng sự chú ý để chọn tín hiệu từ những lớp đầu tiên nào thực sự hữu ích!"

Trong Transformer truyền thống (cấu trúc PreNorm), đầu ra của mỗi lớp là:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)

Đơn giản và tàn bạo: bất kể thông tin từ 100 lớp trước có hữu ích hay không, tất cả đều được cộng vào. Khi số lớp tăng sâu, tín hiệu quan trọng từ đầu sẽ bị pha loãng bởi vô số lớp phía sau (họ gọi hiện tượng này là PreNorm dilution hoặc representational dilution).

Nhóm Kimi trực tiếp thay thế dấu "+" này bằng một cơ chế chú ý xuyên lớp nhẹ (depth-wise attention):

Công thức mới có dạng xấp xỉ như thế này (phiên bản đơn giản):
x_l = Attention( Q=x_l^{pre}, K=tóm tắt tất cả các lớp trước, V=giá trị tương ứng ) + những thứ khác

Triển khai thực tế của họ gọi là Block AttnRes: cứ cách vài lớp (ví dụ 8-16 lớp) thực hiện một tóm tắt key/value, sau đó sử dụng sự chú ý để chọn những tóm tắt này, thay vì tính sự chú ý ở mỗi lớp. Cách này tăng bộ nhớ và lượng tính toán rất ít (độ trễ suy luận <2%), nhưng hiệu quả rất tốt.

Kết quả thử nghiệm của họ (sử dụng dòng mô hình Kimi Linear của họ, kiểu 48B total / 3B active):
• Với cùng FLOPs, cải thiện hiệu năng tương đương với lợi thế tính toán 1,25 lần
• Cải thiện rõ rệt trong suy luận trên chuỗi dài, các tác vụ suy luận đa bước phức tạp
• Độ lớn (chuẩn) của trạng thái ẩn ổn định hơn, không như phần dư truyền thống sẽ hoặc phát tán hoặc suy giảm khi càng sâu
• Truyền gradient đều hơn, các lớp sâu dễ huấn luyện hơn

⚠️⚠️

Câu hỏi đặt ra, tại sao Musk lại có phản ứng lớn như vậy?
"Kết nối phần dư từng nằm 8 năm, cuối cùng cũng có người dám chỉnh sửa nó, và còn chỉnh sửa một cách lịch lãm như vậy, hiệu quả còn tốt thế?"

Tại sao cái này lại phải được chú ý? Bởi vì kết nối phần dư gần như là dây cứu mệnh duy nhất để Transformer có thể huấn luyện tới 100+ lớp, thậm chí hàng nghìn lớp, mọi người đều nghĩ đã tối ưu rồi không thể đổi. Kết quả là Kimi sử dụng cơ chế chú ý quen thuộc nhất, ngược lại để giải quyết vấn đề của chính phần dư đó, cũng giống như lại chơi lên một tầm cao mới với câu nói "chú ý chính là tất cả những gì bạn cần".

Hiện đã có triển khai Rust (dựa trên framework burn), các biểu đồ giải thích trực quan trên X, và người nói đây là một đổi mới kiến trúc thực sự có thể bước vào thế hệ tiếp theo của mô hình lớn mã nguồn mở/đóng, sau DeepSeek mHC.

Nếu bạn làm mô hình lớn, huấn luyện LLM của riêng mình, báo cáo này xứng đáng đọc báo cáo gốc suốt đêm + code (GitHub đã mã nguồn mở).

Báo cáo:
Sẵn sàng bị sốc chưa 🚀

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

2 thích