2年前、私たちは別の世界に生きていた。APIを開き、大規模モデルが絶え間なくコードやテキスト、あらゆる質問に答えていた。誰も気にしなかった、Promptに何千語もの文書を投げ込み、GPT-4にテキストの大文字化などの小さな作業をさせることを。なぜ？安かったからだ。投資家が支払い、企業が補助していた。これは無料リソースの時代だった。

しかし、夢は終わった。パワーはあらゆる場所で高騰している — これは予測ではなく、今まさに起こっている現実だ。NVIDIA H100を巡る争いは地政学的な対立になりつつある。データセンターのエネルギー消費は電力網の限界に近づいている。大手プレイヤーはもはや慈善事業をしなくなった。

ビジネスが拡大し、毎日のリクエストが何百万回も超えると、1Kトークンあたりのわずかな料金も費用の洪水に変わる。これは資金を吸い上げるマシンだ。夜中にCFOを目覚めさせる悪夢だ。トークンは実質的な通貨になった。

あなたのトークンはどこで失われているのか？人々はしばしば理解していない。増え続ける月次請求書を見て、まるで理解不能な書物を読むようだ。損失は最も目立たない場所で起きている。

第一：あなたは丁寧にAIと会話している。「こんにちは、お手伝いいただけますか？どうもありがとうございます、お願いします…」人間にとっては普通だが、トークン経済ではこれは略奪だ。大規模モデルには「どうぞ」や「ありがとう」は必要ない。各言葉はトークンであり、空白もお金だ。さらに悪いことに、繰り返される長いシステムプロンプト：「10の原則を守れ…」「知らない場合は知らないと言え…」役立つ？もちろんだ。でも、これが何百万回も繰り返されると、天文学的な損失になる。

第二：制御不能なRAG（Retrieval-Augmented Generation）。理想は、3つの関連する文を抽出することだ。実際には、ユーザーが何かを尋ねると、システムは何万語もあるPDFドキュメントを10個も引き出し、モデルに投げ込む。開発者は「自動で探させればいい」と考える。これは怠惰ではなく、計算能力への犯罪だ。無関係な情報は注意メカニズムを妨げるだけでなく、天文学的なトークン消費を引き起こす。あなたは簡単な質問をしたと思ったが、実はモデルに図書館の半分を読ませたことになる。

第三：制限のないエージェント。ReActモードはAIを人間のように考え、行動させる。しかし、APIが停止したり、ロジックがループに入ったりすると、エージェントは無限に回り続ける。各思考サイクルは高価な出力トークンを消費し、入力より何倍も高いコストになる。適切な緊急停止機構のないエージェントは、予算を飲み込むブラックホールだ。

どう節約するか？第一：セマンティックキャッシング。ユーザのリクエストはしばしば類似している。「パスワードをリセットするには？」は一日に何百回も来る。GPT-4を毎回使う代わりに、リクエストをベクトルに変換し、キャッシュと比較する。類似性が高ければ、キャッシュから回答を返す。トークン不要。遅延は秒からミリ秒。これは単なる節約ではなく、体験の向上だ。

第二：プロンプトの圧縮。長いコンテキストは罪だ。情報エントロピーに基づくアルゴリズムは、重要な言葉と不要な言葉を分析する。テキストを1000トークンから300に圧縮し、要点を保持できる。機械同士の会話を許す—人間にはぎこちなく見えるかもしれないが、AIは理解する。これでコストの70%を節約できる。

第三：モデルのルーティング。すべてを最も高価なモデルに投げ込まない。エンティティ抽出や翻訳など簡単なタスクは、Llama 3 8Bのような安価なオープンモデルに振り分ける。複雑な推論にはGPT-4oやClaude 3.5 Sonnetを使う。よく整備された会社のように、受付で解決できるリクエストはCEOに回さない。最適に設定すれば、トークンコストを競合の10分の1にまで削減できる。

最先端はすでにこれを理解している。最新のエージェントエコシステムを見ると、特にモバイルデバイスに向かうものは、トークン最適化の戦いが見える。モバイルには大きなコンテキストの余裕はない。スループットは制限され、メモリも制限され、エネルギーも制限されている。

OpenClawはトークン使用をほぼ徹底的に管理している。完全なコンテキストを貼り付ける代わりに、構造化された出力データに頼る。モデルに結果を厳格なJSONスキーマで出力させる。AIに「会話させる」のではなく、「フォームを埋めさせる」。これにより不要な文字を減らし、トラフィックを節約する。

Nous ResearchのHermes Agentは、コンテキスト管理の外科手術的制御を示す。全履歴を保存せず、動的メモリを導入。作業メモリは最新の3〜5会話。長期記憶は、コンテキストが溢れたときに、軽量モデルが対話を数文に要約し、ベクトルデータベースに保存。古い対話は削除されるが、知識は保持される。これは廃棄ではなく、外科的な除去だ。こうしたコンテキスト管理は、物理的制約を超えるだけでなく、マクロレベルでコストを急激に削減する。

明らかな主要トレンドは、将来のエージェントは、より多くのツールを使うことではなく、極端に制限された予算内で最も複雑なタスクをこなすことに競争することだ。鎖の中で踊る。最も巧みに踊る者が勝つ。

しかし、これらはすべて技術的な詳細だ。根本的には、AI産業全体の思考様式の変化だ。以前はトークンを消費財とみなしていた。割引を見つけたらカゴに入れる。大きなモデルが本当に必要かどうかは重要でなく、「かっこいい」見た目が重要だった。企業は盲目的にLLMをあらゆるものに接続し、社員全員にアカウントを配り、食堂のメニューさえも。請求書が来たときの衝撃は計り知れなかった。

今や、投資的な思考に切り替える必要がある。トークンの消費はすべて投資だ。ROIを計算する。トークンを使ったら何を得たか？チケット解決率は上がったか？バグ修正時間は短縮されたか？それともただ、「ハハ、面白いAIだな」だけか？

従来の機械学習を使った機能が10セントかかるなら、大規模モデルは1ドルのコストがかかるが、コンバージョンはわずか2%しか向上しないなら、躊躇なく削除すべきだ。より「大きくて万能」なAIから、「小さくて洗練された」正確なAIへとシフトする。

ビジネス部門に「ノー」と言う訓練も必要だ。「AIは全100,000のレポートを読んで要約できるか？」と聞かれたら、「あなたの収益は何百万トークンのコストをカバーできるか？」と逆に尋ねる。計算し、節約し、トークンを伝統的な店主のように管理せよ。

これはサイバーパンク的ではない。田舎風だ。でも、それがAI成熟への必要なステップだ。

ハッシュレートの全般的な上昇は危機ではなく、遅れてきた浄化だ。無制限の補助金バブルを破裂させ、皆を冷徹な現実に引き戻した。だが、それは良いことだ。盲目的な「大きな力は奇跡だ」という信仰を捨て、エンジニアリングの効率性への敬意を取り戻すきっかけとなった。

生き残り、成長する企業は、最も高価なモデルを持つ企業ではない。トークンの数字の変動を見つめながら、冷静に、使うより稼ぐ方に集中している企業だ。潮が引くとき、誰が裸で泳いでいるかが見える。今回はハッシュレートの恩恵が引いているだけだ。トークンの一滴一滴を金のように磨き上げる者だけが、真の防御を手にできる。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。