2026-03-10 04:14:23

誰かがApple Watchで動作する音声モデルを作った。

おもちゃのデモではない。granite 4.0 1Bの音声モデルは、OpenASRのリーダーボードで見事に1位にランクインした。
これのすごいところは：
• 1Bパラメータ - granite 3.3 2Bの半分のサイズ
• より大きなモデルよりも高い英語の文字起こし精度
• 小型ハードウェア上での高速推論のための推測デコード
• 6言語 - 英語、フランス語、ドイツ語、スペイン語、ポルトガル語、日本語
• キーワードリストのバイアス調整により、名前や頭字語も正確に認識
誰も話していない部分：
あなたは毎月Whisper API呼び出しにお金を払っている一方で、前モデルの半分のサイズのモデルが、あなたの手首に装着されたデバイス上でそれを上回る性能を発揮している。
それは小さな最適化ではない。エッジ音声アプリのコスト構造全体が崩壊しているのだ。
小型モデル。より高い精度。クラウド依存ゼロ。

原文表示