Хранение каждой пары KV имеет смысл? Особенно когда модель фактически обращается только к небольшой части из них.



Идея KVzap очень проста — обучением определить, какие кеш-элементы в последующих запросах не понадобятся, и активно их удалять. В результате объем кеша можно сократить до 1/2 — 1/4 от исходного, практически не влияя на производительность.

Этот умный, динамический подход к обрезке KV-кеша имеет практическое значение для повышения эффективности моделирования и снижения затрат на хранение. Особенно в сценариях масштабного развертывания такие оптимизации могут быть весьма значительными.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 4
  • Репост
  • Поделиться
комментарий
0/400
DogeBachelorvip
· 22ч назад
Это же просто шутка, предыдущие стратегии кеширования KV были настоящей тратой ресурсов... сжать до 1/4 и всё ещё работать — отлично!
Посмотреть ОригиналОтветить0
AlphaWhisperervip
· 22ч назад
Ха, это же старая проблема с расходом памяти наконец-то хорошо решена, идея KVzap действительно свежая
Посмотреть ОригиналОтветить0
bridgeOopsvip
· 22ч назад
Это действительно практический подход к оптимизации, а не просто ради оптимизации. Сжатие в диапазоне 1/2 до 1/4 напрямую снижает затраты.
Посмотреть ОригиналОтветить0
  • Закрепить