Tôi đã nhận thấy điều gì đó thú vị đang xảy ra trên thị trường AI trong những tháng gần đây. Tiệc tàn rồi. Kỳ nghỉ mà các công ty lớn tài trợ mọi thứ và chúng ta có thể dùng token như thể đó là nước chảy xiết? Đã qua rồi.



Trong hai năm, chúng ta sống trong một ảo tưởng thoải mái. OpenAI, Anthropic và các ông lớn khác đã đốt tiền của nhà đầu tư để hỗ trợ việc sử dụng của chúng ta. Vậy chúng ta làm gì? Gửi các prompt khổng lồ, hàng nghìn từ trong một đoạn văn, yêu cầu GPT-4 thực hiện các nhiệm vụ lố bịch mà chỉ cần một quy tắc đơn giản là giải quyết được. Bởi vì nó rẻ. Bởi vì chúng ta không phải nghĩ đến chi phí.

Nhưng giờ đây thực tế đã gõ cửa. Token đã trở thành tiền tệ thực sự. Mỗi từ, mỗi khoảng trắng, mỗi dấu câu — tất cả đều có giá. Và khi bạn bắt đầu mở rộng quy mô, khi khối lượng hàng ngày của bạn tăng lên hàng triệu hoặc hàng tỷ lượt gọi, cái "1K token" nhỏ bé đó trở thành một vết máu chảy không ai có thể dừng lại.

Vấn đề là phần lớn các công ty không biết tiền đang bị lãng phí ở đâu. Mọi người nhìn vào hóa đơn hàng tháng tăng lên mà không biết phải làm gì.

Ví dụ: bạn có lịch sự khi nói chuyện với AI không? "Xin chào, bạn có thể giúp tôi không? Cảm ơn rất nhiều..." Đúng vậy. Mỗi "please" và "thank you" đều bị tính phí token. Các mô hình không có cảm xúc, không cần giáo dục. Càng đáng sợ hơn là các prompt hệ thống khổng lồ mà các nhà phát triển tạo ra để đảm bảo sự ổn định. Một nghìn token hướng dẫn được tính lại trong mỗi cuộc trò chuyện. Phí lãng phí thuần túy.

Tiếp theo là RAG (Retrieval-Augmented Generation) mất kiểm soát. Trong lý thuyết thì hoàn hảo: lấy ra ba tài liệu phù hợp nhất và xong. Thực tế? Cơ sở dữ liệu vectơ kéo ra mười PDF ngẫu nhiên, mỗi cái có mười nghìn từ, rồi đưa tất cả vào mô hình. "Bạn tự xử lý đi", nhà phát triển nghĩ vậy. Kết quả: mô hình cuối cùng đọc nửa thư viện và bạn phải trả tiền cho từng trang.

Và tôi còn chưa bắt đầu với các agent bị mắc kẹt trong vòng lặp vô hạn. Đó là một lỗ đen của token. Nếu API gặp sự cố hoặc logic rơi vào ngõ cụt, agent sẽ quay vòng liên tục tiêu thụ token đầu ra — vốn đắt gấp nhiều lần input. Thẻ tín dụng của bạn cạn kiệt trong khi bạn đang ngủ.

Nhưng điều hay ở đây là ngành công nghiệp đang thức tỉnh với các giải pháp. Cache ngữ nghĩa là cách đơn giản nhất. Các câu hỏi của người dùng vốn dĩ lặp đi lặp lại. "Làm thế nào để đặt lại mật khẩu của tôi?" được hỏi hàng nghìn lần. Tại sao phải gọi GPT-4 mỗi lần? Cache ngữ nghĩa chuyển câu hỏi thành vector, so khớp với các câu hỏi trước đó, và nếu tìm thấy điều gì đó tương tự, trả về trực tiếp từ cache. Không tiêu thụ token nào. Thời gian phản hồi giảm từ giây xuống mili giây. Đây không chỉ là tiết kiệm, mà còn là một bước thay đổi về quy mô trong trải nghiệm.

Tiếp theo là nén prompt. Không phải bạn tự tay loại bỏ từ ngữ. Các thuật toán dựa trên entropy của thông tin có thể xác định cái gì là thiết yếu và cái gì là nhiễu. Chúng có thể nén một đoạn văn dài nghìn token giữ nguyên ý nghĩa trung tâm trong vòng ba trăm token. Để máy móc nói chuyện với nhau theo kiểu "văn bản sao chép" mà chúng ta không hiểu nhưng mô hình hiểu rõ ràng. Bạn tiết kiệm tới 70% phí.

Nhưng bước ngoặt thực sự là định tuyến mô hình. Đừng đưa tất cả vào mô hình đắt nhất. Trích xuất đơn giản các thực thể, dịch thuật, chuyển đổi định dạng? Gửi sang Llama 3 8B chạy tại chỗ hoặc Claude 3 Haiku. Chi phí gần như không đáng kể. Suy luận sâu, lập trình phức tạp? Lúc đó mới gọi GPT-4 hoặc Claude 3.5 Sonnet. Nó giống như một doanh nghiệp hiệu quả: lễ tân xử lý các câu hỏi đơn giản, CEO chỉ tập trung vào chiến lược. Ai có thể thực hiện tốt điều này sẽ giảm tổng chi phí token xuống một phần mười so với đối thủ.

Điều tôi ấn tượng nhất là thấy các framework như OpenClaw và Hermes đã hoạt động trong thực tế này. OpenClaw cực kỳ chú trọng đến hiệu quả. Không dùng cách tiếp cận thô sơ là đưa toàn bộ ngữ cảnh vào. Ép mô hình tạo ra output có cấu trúc — JSON chính xác, định dạng nhị phân. Loại bỏ các ký tự thừa trong quá trình tạo. AI không "đàm thoại", nó "trình bày bảng dữ liệu". Có vẻ đơn giản nhưng là một thủ thuật tinh tế để tiết kiệm dữ liệu.

Hermes theo hướng khác. Bộ nhớ động. Chỉ giữ lại 3-5 vòng trò chuyện cuối cùng trong bộ nhớ làm việc. Khi vượt quá giới hạn, một mô hình nhẹ tóm tắt tất cả trong vài câu khóa và lưu vào cơ sở dữ liệu vectơ. Kiến thức còn đó, lịch sử bị loại bỏ. Giống như phẫu thuật bộ nhớ, không phải rác rưởi bị vứt bỏ.

Nhưng bạn biết điều thay đổi tư duy quan trọng nhất là gì không? Từ việc xem token như tiêu thụ sang xem nó như khoản đầu tư sinh lời. Mỗi token tiêu hao là một khoản đầu tư. Lợi nhuận là gì? Tỷ lệ giải quyết ticket tăng? Thời gian sửa lỗi giảm? Hay chỉ là một câu nói vô nghĩa?

Nếu một chức năng mất 0,1 nhân dân tệ theo quy tắc truyền thống nhưng mất 1 nhân dân tệ khi tích hợp một mô hình lớn với mức tăng chỉ 2% trong chuyển đổi, hãy cắt bỏ ngay. Bỏ qua lời kêu gọi AI "lớn và toàn diện" và chuyển sang AI "nhỏ gọn và tinh tế". Học cách nói "không" với các phòng ban kinh doanh.

Đây là điều gây thất vọng, tôi biết. Có vẻ rất cổ điển. Nhưng chính xác đó là cách ngành AI trưởng thành. Không phải cyberpunk, mà giống như quản lý một siêu thị truyền thống. Tính toán từng token như chủ cửa hàng tính từng sản phẩm.

Cuối cùng, khi làn sóng giảm xuống, họ sẽ phát hiện ai đang trần truồng. Và lần này, làn sóng giảm chính là làn sóng trợ cấp. Chỉ những ai biết biến từng giọt token thành vàng mới đủ trang bị cho những gì sắp tới.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim