Berakhir era di mana kita bisa menggunakan sumber daya komputasi secara bebas tanpa memikirkan biaya. Hashrate menjadi lebih mahal, dan ini mengubah segalanya.



Dua tahun lalu kita hidup di dunia yang berbeda. Membuka API — dan model besar terus-menerus menghasilkan kode, teks, jawaban untuk apa saja. Tidak ada yang peduli bahwa kita memasukkan ribuan kata dokumen ke Prompt, memaksa GPT-4 melakukan hal-hal kecil seperti kapitalisasi teks. Kenapa? Karena itu murah. Investor membayar. Perusahaan mensubsidi. Itu adalah periode penggunaan sumber daya gratis.

Tapi mimpi itu berakhir. Kekuatan di mana-mana menjadi lebih mahal — ini bukan ramalan, tetapi kenyataan yang sedang terjadi saat ini. Perang untuk NVIDIA H100 menjadi konflik geopolitik. Konsumsi energi pusat data mendekati batas kemampuan jaringan listrik. Pemain besar tidak lagi bermain amal.

Ketika bisnis Anda berkembang dan permintaan harian melebihi jutaan panggilan, biaya kecil per 1K token berubah menjadi banjir biaya. Ini mesin penyedot uang. Ini mimpi buruk yang membangunkan CFO startup di tengah malam. Token menjadi satuan uang nyata.

Di mana token Anda hilang? Orang sering tidak mengerti. Mereka melihat tagihan bulanan yang meningkat seperti membaca buku yang tidak dimengerti. Kehilangan terjadi di tempat yang paling tidak mencolok.

Pertama: Anda berbicara sopan dengan AI. "Halo, bisakah Anda membantu? Terima kasih banyak, tolong..." Ini normal bagi manusia, tetapi dalam ekonomi token ini adalah perampokan. Model besar tidak membutuhkan "tolong" dan "terima kasih" Anda. Setiap kata — itu token, setiap spasi — itu uang. Lebih buruk lagi — petunjuk sistem yang sangat panjang, yang diulang di setiap sesi: "Ikuti sepuluh prinsip..." "Jika tidak tahu, katakan tidak tahu..." Berguna? Ya. Tapi jika ini diulang jutaan kali, itu kerugian astronomis.

Kedua: RAG yang tidak terkendali. Idealnya: tarik tiga kalimat relevan. Praktiknya: pengguna bertanya sesuatu, sistem menarik sepuluh dokumen PDF berisi puluhan ribu kata dan memasukkannya ke model. Pengembang berpikir: "Biarkan saja model yang mencari." Ini bukan malas, ini kejahatan terhadap kekuatan komputasi. Informasi yang tidak relevan tidak hanya mengganggu mekanisme perhatian, tetapi juga menyebabkan konsumsi token yang astronomis. Anda pikir Anda mengajukan pertanyaan sederhana, tetapi sebenarnya memaksa model membaca setengah perpustakaan.

Ketiga: agen tanpa batasan. Mode ReAct membuat AI berpikir dan bertindak seperti manusia. Tapi jika API dimatikan atau logika masuk ke siklus, agen akan berputar tanpa akhir. Setiap siklus berpikir mengonsumsi token keluaran yang mahal — harganya beberapa kali lipat dari token masukan. Agen tanpa mekanisme penghentian darurat yang tepat adalah lubang hitam yang menyedot anggaran Anda.

Bagaimana menghemat? Pertama: caching semantik. Permintaan pengguna sering serupa. "Bagaimana cara mereset password?" muncul ratusan kali sehari. Alih-alih GPT-4 setiap saat — ubah permintaan menjadi vektor, bandingkan dengan cache. Jika kemiripan tinggi, kembalikan jawaban dari cache. Tanpa token. Delay dari detik ke milidetik. Ini bukan sekadar penghematan, tetapi loncatan dalam pengalaman.

Kedua: kompresi petunjuk. Konteks panjang — ini dosa. Algoritma berbasis entropi informasi menganalisis kata-kata yang kritis dan yang tidak perlu. Anda bisa mengompres teks dari 1000 token menjadi 300, sambil mempertahankan inti. Membiarkan mesin berkomunikasi dalam bahasa mesin — tampak canggung bagi manusia, tetapi AI memahaminya. Anda menghemat 70% biaya.

Ketiga: routing model. Jangan kirim semuanya ke model paling mahal. Untuk ekstraksi entitas sederhana atau terjemahan, rute ke model terbuka yang murah seperti Llama 3 8B. Untuk pemikiran logis yang kompleks — gunakan GPT-4o atau Claude 3.5 Sonnet. Seperti perusahaan yang terorganisasi dengan baik: permintaan yang bisa diselesaikan resepsionis tidak sampai ke CEO. Yang mengatur ini paling akurat dapat mengurangi biaya token secara signifikan, hingga sepersepuluh dari pesaing.

Front terdepan sudah menyadari ini. Ketika melihat ekosistem agen paling mutakhir — terutama yang bergerak ke perangkat mobile — terlihat pertarungan untuk mengoptimalkan token secara maksimal. Di perangkat mobile tidak ada ruang untuk konteks besar. Kapasitas terbatas, memori terbatas, energi terbatas.

OpenClaw mengendalikan penggunaan token hampir secara obsesif. Alih-alih menerapkan konteks lengkap secara kasar, ia bergantung pada data keluaran yang terstruktur. Ia memaksa model mengeluarkan hasil dalam skema JSON yang ketat. Tidak membiarkan AI "berkomunikasi" — melainkan "mengisi formulir". Ini mengurangi simbol yang tidak perlu, menghemat trafik.

Hermes Agent dari Nous Research menunjukkan pengelolaan konteks secara bedah. Alih-alih menyimpan seluruh riwayat, mereka memperkenalkan memori dinamis. Memori kerja: 3-5 percakapan terakhir. Memori jangka panjang: saat konteks penuh, model ringan merangkum dialog dalam beberapa kalimat, menyimpannya dalam basis data vektor. Percakapan lama dihapus, tetapi pengetahuan disimpan. Ini bukan limbah, tetapi penghapusan secara bedah. Pengelolaan konteks seperti ini tidak hanya mengatasi batasan fisik, tetapi juga secara makro secara drastis menurunkan biaya.

Garis besar tren sudah jelas: agen masa depan tidak akan bersaing dalam penggunaan lebih banyak alat, tetapi dalam menyelesaikan tugas paling kompleks dengan anggaran token yang ekstrem terbatas. Menari dalam rantai. Yang menari terbaik akan menang.

Tapi semua ini adalah detail teknis. Pada intinya — ini adalah perubahan pola pikir seluruh industri AI. Dulu kita memperlakukan token sebagai barang konsumsi. Melihat diskon — langsung dimasukkan ke keranjang. Tidak peduli apakah model besar benar-benar diperlukan, yang penting tampak keren. Perusahaan secara buta menghubungkan LLM ke segala hal, memberi akun kepada setiap karyawan, bahkan untuk menu makan siang. Ketika tagihan datang — terkejut.

Sekarang kita harus beralih ke pola pikir investasi. Setiap konsumsi token adalah investasi. Dengan investasi, kita menghitung ROI. Token yang dibelanjakan — apa yang saya peroleh? Tingkat penyelesaian tiket meningkat? Waktu perbaikan bug berkurang? Atau hanya "Haha, AI lucu ini"?

Jika fungsi yang menggunakan machine learning tradisional biaya 10 sen, dan model besar membutuhkan 1 dolar per token, tetapi meningkatkan konversi hanya 2% — potong tanpa ragu. Kita tidak lagi mengejar AI "besar dan serba bisa", tetapi "kecil dan terampil" dalam tembakan yang tepat.

Perlu belajar berkata "tidak" kepada departemen bisnis. Ketika mereka bertanya: "Bisakah AI membaca semua 100 ribu laporan dan memberi ringkasan?" — tanyakan kembali: "Apakah pendapatan Anda akan menutupi biaya beberapa juta token?" Hitung. Hemat. Hitung token seperti pemilik toko tradisional.

Ini tidak terdengar cyberpunk. Ini terdengar desa. Tapi ini adalah tahap penting menuju kedewasaan AI.

Kenaikan hash rate secara umum bukanlah krisis, tetapi pembersihan yang terlambat. Ini telah memecahkan gelembung subsidi tak terbatas dan mengembalikan semua ke kenyataan dingin. Tapi itu baik. Ini memaksa kita meninggalkan kepercayaan buta pada "kekuatan besar — keajaiban" dan kembali menghormati efisiensi rekayasa.

Perusahaan yang bertahan dan berkembang bukan yang memiliki model paling mahal. Tapi yang, melihat angka token yang cepat berubah, tetap tenang dan yakin bahwa mereka menghasilkan lebih banyak daripada yang mereka keluarkan. Ketika arus surut, terlihat siapa yang berenang telanjang. Kali ini arus surut dari manfaat hash rate. Hanya mereka yang mengasah setiap tetes token seperti emas yang bisa mengambil perisai sejati.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan