Чи має сенс зберігати кожну пару KV? Особливо коли модель фактично буде запитувати лише дуже малу їх частину.



Ідея KVzap дуже проста — шляхом навчання визначати, які кеш-елементи не будуть потрібні у подальших запитах, і активно їх видаляти. Результатом є зменшення обсягу кешу до 1/2 або 1/4 від початкового, при цьому майже не впливаючи на продуктивність.

Такий інтелектуальний, динамічний підхід до обрізки KV-кешу має реальне значення для підвищення ефективності моделі та зниження витрат на зберігання. Особливо у сценаріях масштабного розгортання, де потенціал для оптимізації досить значний.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 4
  • Репост
  • Поділіться
Прокоментувати
0/400
DogeBachelorvip
· 16год тому
Це ж просто розіграш, раніше ті стратегії кешування KV були справжньою марнотратством... стиснути до 1/4 і все ще працює, круто
Переглянути оригіналвідповісти на0
AlphaWhisperervip
· 16год тому
Ха, це ж стару проблему марнотратства пам’яті нарешті вдалося гарно вирішити, ідея KVzap дійсно свіжий підхід
Переглянути оригіналвідповісти на0
bridgeOopsvip
· 16год тому
Це справжній практичний підхід до оптимізації, а не просто оптимізація заради оптимізації. Від співвідношення стиснення 1/2 до 1/4 — і витрати безпосередньо зменшуються.
Переглянути оригіналвідповісти на0
  • Закріпити