Baru saja menangkap sesuatu yang menarik yang masih banyak orang abaikan. Semua orang telah terobsesi dengan pasokan GPU selama bertahun-tahun, tetapi diam-diam, CPU telah menjadi kendala nyata dalam infrastruktur AI. Dan pergeseran ini terjadi lebih cepat dari yang disadari kebanyakan orang.



Bulan lalu, Google dan Intel mengumumkan kesepakatan besar multi-tahun khusus untuk mengatasi bottleneck CPU ini. Pesan Intel jelas: AI tidak berjalan hanya dengan GPU—CPU dan orkestrasi sistem sekarang menjadi faktor pembatas. Sementara itu, harga CPU server melonjak sekitar 30% di kuartal keempat tahun lalu, yang luar biasa untuk pasar yang matang. Waktu pengiriman AMD membentang dari 8 minggu menjadi lebih dari 10 minggu, dengan beberapa bagian mengalami penundaan selama 6 bulan. Ini bukan hype—ini tekanan pasokan nyata.

Ironinya brutal: laboratorium AI memiliki banyak GPU yang tidak terpakai tetapi tidak bisa mendapatkan cukup CPU kelas atas untuk menjalankannya. Kapasitas 3nm TSMC semakin tersedot oleh pesanan GPU, sehingga alokasi wafer CPU terus dialihkan. Bahkan Elon Musk ikut bermain dalam game CPU, menugaskan Intel untuk merancang chip kustom untuk proyek Terafab-nya di Texas. Begitulah ketatnya situasi ini.

Mengapa pergeseran mendadak ini? Karena beban kerja agen sama sekali berbeda dari inferensi tradisional. Chatbot sebagian besar memindahkan komputasi ke GPU. Tapi agen? Mereka perlu mengorkestrasi API, mengelola basis data, mengeksekusi kode, dan mengoordinasikan hasil—semua tugas yang intensif CPU. Peneliti Georgia Tech menemukan bahwa pekerjaan di sisi CPU sekarang menyumbang 50-90% dari total latensi dalam sistem agen. GPU duduk di sana siap digunakan sementara CPU masih menangani panggilan alat.

Eksplosi jendela konteks juga tidak membantu. Model sekarang mendukung lebih dari 1 juta token, dan cache KV saja mencapai ~200GB—jauh di atas apa yang bisa ditampung oleh satu H100. CPU harus memindahkan dan mengelola memori ini, jadi sekarang mereka tidak hanya mengorkestrasi; mereka melakukan manajemen data yang serius.

Lihat bagaimana produsen merespons. CEO AMD Lisa Su cukup tegas tentang ini: beban kerja agen mendorong tugas kembali ke CPU tradisional, dan ini mendorong pertumbuhan mereka. Pendapatan pusat data AMD mencapai $5,4 miliar di kuartal keempat, naik 39% dari tahun ke tahun, dengan CPU EPYC melakukan pekerjaan berat. Pangsa pasar CPU server AMD melewati 40% untuk pertama kalinya. Tapi AMD masih kekurangan kemampuan interkoneksi CPU-GPU yang ketat seperti yang dibangun NVIDIA dengan NVLink.

NVIDIA mengambil sudut pandang berbeda. CPU Grace mereka hanya memiliki 72 inti dibandingkan AMD yang 128 atau konfigurasi tipikal Intel. Alih-alih mengejar jumlah inti, NVIDIA mengoptimalkan kolaborasi—NVLink C2C meningkatkan bandwidth hingga 1,8TB/detik, memungkinkan CPU mengakses memori GPU secara langsung. Mereka mulai menjual Grace sebagai produk mandiri, dan Meta baru saja melakukan "penyebaran Grace murni" tanpa dipasangkan dengan GPU. Itu sinyal.

Intel bermain di kedua sisi—mendorong prosesor Xeon ke dalam kemitraan hyperscaler sambil juga berkolaborasi dengan SambaNova pada solusi hibrida yang menjalankan inferensi agen tanpa GPU. Proses 18A dan roadmap Xeon 6 Granite Rapids akan menjadi kunci bagi mereka.

Inilah gambaran besar: kemitraan $38B OpenAI dengan Amazon secara eksplisit menyebutkan penempatan "puluhan juta CPU." Itu sebuah pergeseran dari buku permainan lama "ratusan ribu GPU." Bank of America memproyeksikan pasar CPU bisa berlipat ganda dari $27B ke $60B pada tahun 2030, hampir seluruhnya didorong oleh AI.

Apa yang benar-benar kita lihat adalah pembangunan ulang infrastruktur secara total. Perusahaan tidak hanya memperbesar GPU lagi—mereka secara bersamaan membangun seluruh lapisan infrastruktur orkestrasi CPU yang dirancang khusus untuk agen AI. Ketika komputasi menjadi melimpah, efisiensi tingkat sistem menjadi pembeda. Pemenang berikutnya dalam AI tidak akan ditentukan oleh jumlah GPU mentah; mereka akan ditentukan oleh siapa yang menyelesaikan bottleneck CPU terlebih dahulu.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan