Thứ thú vị đã xảy ra với thị trường suy luận AI, về điều đáng để nói chuyện. NVIDIA đã mua lại Groq, và khi Juan Renxun bắt đầu giải thích lý do của thương vụ này, rõ ràng rằng đây không chỉ là chuyện bình thường.



Trước đó, tất cả tập trung vào một điều: làm thế nào để truyền tải nhiều dữ liệu hơn cùng lúc, tức là về khả năng truyền tải. Nhưng hóa ra, thị trường đã chia thành hai phần. Một số người dùng sẵn sàng trả giá cao hơn để nhận phản hồi nhanh hơn. Token trở nên đắt hơn, và thời gian tạo ra chúng bắt đầu có giá trị thực. Điều này thay đổi toàn bộ trò chơi.

Vì vậy, Groq chuyên về điều này — về độ trễ thấp. Kiến trúc LPU của họ được xây dựng để đảm bảo độ trễ xác định, dự đoán được. Khi NVIDIA mua lại Groq, họ về cơ bản đã lấp đầy khoảng trống trong danh mục của mình. GPU của NVIDIA vẫn là vua về khả năng truyền tải, nhưng đối với phân khúc độ trễ thấp, cần một kiến trúc khác.

Chip mới Groq 3 LPU — là sản phẩm đầu tiên sau khi hợp nhất, được sản xuất theo công nghệ 4 nm. Theo tuyên bố của NVIDIA, hiệu suất của nó khi làm việc với các mô hình lớn vượt 35 lần so với flagship Blackwell NVL72 của họ. Đây không phải về tốc độ tuyệt đối, mà là về lượng năng lượng cần để đạt được tốc độ đó.

Thực tế, điều này có nghĩa là bây giờ có thể cung cấp các giải pháp khác nhau cho các nhu cầu khác nhau: muốn tối đa khả năng truyền tải — có GPU; cần phản hồi nhanh chóng bằng mọi giá — có Groq. Một mô hình có thể có giá khác nhau tùy thuộc vào tốc độ bạn muốn có kết quả. Đây là sự mở rộng giới hạn của những gì có thể tối ưu hóa trên thị trường suy luận.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim