Hết kỷ nguyên có thể tự do sử dụng tài nguyên tính toán mà không nghĩ đến chi phí. Tỷ lệ băm tăng giá, và điều này thay đổi tất cả.



Hai năm trước, chúng ta sống trong một thế giới khác. Mở API — và các mô hình lớn liên tục tạo ra mã, văn bản, câu trả lời cho mọi thứ. Không ai quan tâm rằng chúng ta gửi hàng nghìn từ trong Prompt, bắt GPT-4 làm những việc nhỏ như viết hoa văn bản. Tại sao? Bởi vì nó rẻ. Các nhà đầu tư trả tiền. Các công ty trợ cấp. Đó là thời kỳ sử dụng tài nguyên miễn phí.

Nhưng giấc mơ đã kết thúc. Công suất ngày càng đắt đỏ hơn — đây không phải dự đoán, mà là thực tế đang diễn ra ngay bây giờ. Cuộc chiến giành NVIDIA H100 trở thành một xung đột địa chính trị. Tiêu thụ năng lượng của các trung tâm dữ liệu gần đến giới hạn của mạng lưới điện. Các nhà chơi lớn không còn chơi thiện nguyện nữa.

Khi doanh nghiệp của bạn mở rộng và các yêu cầu hàng ngày vượt quá hàng triệu lượt truy vấn, khoản thanh toán nhỏ cho 1K token biến thành một cơn lũ chi phí. Đây là một cỗ máy rút tiền. Là cơn ác mộng khiến CFO các startup thức giấc giữa đêm. Token đã trở thành đơn vị tiền tệ thực sự.

Token của bạn bị mất ở đâu? Mọi người thường không hiểu. Họ nhìn vào các hóa đơn hàng tháng tăng lên như thể đó là một cuốn sách không rõ ràng. Mất mát xảy ra ở những nơi ít để ý nhất.

Thứ nhất: bạn lịch sự trò chuyện với AI. «Xin chào, bạn có thể giúp không? Cảm ơn rất nhiều, làm ơn...» Con người coi đó là bình thường, nhưng trong kinh tế token, đó là cướp bóc. Các mô hình lớn không cần «làm ơn» hay «cảm ơn» của bạn. Mỗi từ — đó là token, mỗi khoảng trắng — đó là tiền. Tệ hơn nữa — các hệ thống gợi ý dài vô tận, lặp lại trong mỗi phiên: «Tuân thủ mười nguyên tắc...» «Nếu không biết, hãy nói tôi không biết...» Có hữu ích không? Có. Nhưng nếu lặp lại hàng triệu lần, đó là tổn thất khổng lồ.

Thứ hai: RAG không kiểm soát. Lý tưởng: trích xuất ba câu phù hợp. Thực tế: người dùng hỏi một cái gì đó, hệ thống trích ra hàng chục nghìn tài liệu PDF dài hàng nghìn từ và đưa vào mô hình. Nhà phát triển nghĩ: «Hãy để nó tự tìm.» Đó không phải là lười biếng, đó là tội ác chống lại sức mạnh tính toán. Thông tin không liên quan không chỉ cản trở cơ chế chú ý, mà còn gây ra tiêu thụ token khổng lồ. Bạn nghĩ mình đặt câu hỏi đơn giản, nhưng thực ra khiến mô hình phải đọc nửa thư viện.

Thứ ba: đại lý không giới hạn. Chế độ ReAct khiến AI suy nghĩ và hành động như con người. Nhưng nếu API bị tắt hoặc logic rơi vào vòng lặp, đại lý sẽ quay vòng vô tận. Mỗi vòng suy nghĩ tiêu tốn token đắt đỏ — chúng gấp nhiều lần so với đầu vào. Một đại lý không có cơ chế dừng khẩn cấp đúng cách là một lỗ đen nuốt chửng ngân sách của bạn.

Làm thế nào để tiết kiệm? Thứ nhất: bộ nhớ đệm ngữ nghĩa. Các yêu cầu của người dùng thường giống nhau. «Làm thế nào để đặt lại mật khẩu?» xuất hiện hàng trăm lần mỗi ngày. Thay vì GPT-4 mỗi lần — bạn chuyển đổi yêu cầu thành vector, so sánh với bộ nhớ đệm. Nếu độ tương đồng cao, trả lời từ bộ nhớ đệm. Không dùng token. Độ trễ từ giây đến mili giây. Đây không chỉ là tiết kiệm, mà còn là bước nhảy trong trải nghiệm.

Thứ hai: nén gợi ý. Nội dung dài là tội lỗi. Các thuật toán dựa trên entropy thông tin phân tích xem từ nào quan trọng, từ nào thừa. Có thể nén văn bản từ 1000 token xuống còn 300, giữ nguyên ý chính. Cho phép máy móc giao tiếp bằng ngôn ngữ máy — con người có thể thấy không tự nhiên, nhưng AI hiểu. Bạn tiết kiệm được 70% chi phí.

Thứ ba: định tuyến mô hình. Đừng gửi mọi thứ đến mô hình đắt nhất. Đối với việc trích xuất thực thể hoặc dịch thuật đơn giản, hãy dùng các mô hình mở rẻ hơn như Llama 3 8B. Đối với các suy luận phức tạp, hãy dùng GPT-4o hoặc Claude 3.5 Sonnet. Như một công ty được tổ chức tốt: các yêu cầu mà lễ tân có thể xử lý không đi đến giám đốc. Người thiết lập chính xác nhất có thể giảm chi phí token xuống phần mười so với đối thủ.

Các hệ sinh thái agent hiện đại đã nhận ra điều này. Khi nhìn vào các hệ sinh thái agent tiên tiến — đặc biệt là những hệ hướng tới thiết bị di động — ta thấy cuộc chiến tối đa hóa tối ưu hóa token. Trên thiết bị di động, không có khả năng xử lý ngữ cảnh lớn. Băng thông hạn chế, bộ nhớ hạn chế, năng lượng hạn chế.

OpenClaw kiểm soát việc sử dụng token gần như điên cuồng. Thay vì đưa toàn bộ ngữ cảnh, nó dựa vào dữ liệu đầu ra có cấu trúc. Nó bắt buộc mô hình xuất ra theo định dạng JSON Schema nghiêm ngặt. Không cho AI «giao tiếp» — mà bắt nó «điền vào mẫu». Điều này giảm thiểu ký tự thừa, tiết kiệm băng thông.

Hermes Agent của Nous Research thể hiện điều khiển chính xác ngữ cảnh. Thay vì lưu toàn bộ lịch sử, họ dùng bộ nhớ động. Bộ nhớ làm việc: 3-5 cuộc trò chuyện gần nhất. Bộ nhớ dài hạn: khi ngữ cảnh đầy, mô hình nhẹ nhàng tóm tắt cuộc hội thoại trong vài câu, lưu trong cơ sở dữ liệu vector. Hội thoại cũ bị xóa, nhưng kiến thức vẫn còn. Đây không phải là rác thải, mà là loại bỏ chính xác. Quản lý ngữ cảnh như vậy không chỉ vượt qua giới hạn vật lý, mà còn giảm đáng kể chi phí.

Xu hướng chính rõ ràng: các agent tương lai sẽ cạnh tranh không phải dựa vào số lượng công cụ sử dụng, mà dựa vào khả năng thực hiện các nhiệm vụ phức tạp nhất với ngân sách token cực kỳ hạn chế. Nhảy múa trong chuỗi. Ai nhảy tốt nhất sẽ thắng.

Nhưng tất cả chỉ là chi tiết kỹ thuật. Về bản chất — đó là thay đổi tư duy của toàn ngành AI. Trước đây, chúng ta coi token như hàng tiêu dùng. Thấy giảm giá — bỏ vào giỏ hàng. Không quan tâm liệu mô hình lớn có thực sự cần thiết hay không, chỉ cần «trông có vẻ ngầu». Các công ty mù quáng tích hợp LLM vào mọi thứ, cấp tài khoản cho từng nhân viên, thậm chí cho thực đơn nhà ăn. Khi nhận hóa đơn — sốc.

Bây giờ, cần chuyển sang tư duy đầu tư. Mỗi lần tiêu thụ token là một khoản đầu tư. Với đầu tư, tính ROI. Token tiêu rồi — nó mang lại gì cho tôi? Tăng tỷ lệ đóng các yêu cầu? Rút ngắn thời gian sửa lỗi? Hay chỉ là «Ha ha, AI vui nhộn thế»?

Nếu một chức năng dùng machine learning truyền thống tốn 10 cent, còn mô hình lớn yêu cầu 1 đô la cho mỗi token, nhưng chỉ tăng tỷ lệ chuyển đổi 2% — hãy cắt bỏ không do dự. Chúng ta không còn hướng tới «AI lớn và toàn diện», mà là «AI nhỏ và chính xác, tinh tế hơn».

Phải học nói «không» với các phòng ban kinh doanh. Khi họ hỏi: «AI có thể đọc tất cả 100 nghìn báo cáo và đưa ra tóm tắt không?» — hãy hỏi lại: «Các khoản doanh thu của bạn có đủ để chi vài triệu token không?» Tính toán đi. Tiết kiệm đi. Đếm token như chủ cửa hàng truyền thống.

Nghe có vẻ không cyberpunk. Nghe có vẻ quê mùa. Nhưng đó là bước cần thiết trên con đường trưởng thành của AI.

Việc tăng giá băm toàn cầu không phải là khủng hoảng, mà là quá trình làm sạch muộn. Nó đã làm vỡ bong bóng trợ cấp vô hạn và đưa tất cả về thực tế lạnh lẽo. Nhưng điều đó tốt. Nó buộc chúng ta từ bỏ niềm tin mù quáng vào « sức mạnh vĩ đại — kỳ diệu » và tôn trọng hiệu quả kỹ thuật hơn.

Các công ty tồn tại và phát triển — không phải là những người có mô hình đắt nhất. Mà là những người, nhìn vào các con số token biến đổi nhanh chóng, vẫn bình tĩnh và tự tin rằng họ kiếm nhiều hơn họ tiêu. Khi dòng chảy rút đi, ai cũng thấy rõ ai đang bơi trần truồng. Lần này, dòng chảy lợi ích từ hash rate đang rút lui. Chỉ những ai khai thác từng giọt token như vàng mới có thể tự trang bị vũ khí thực sự.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim