2026-01-14 23:22:00

Armazenar cada par KV faz sentido? Especialmente quando o modelo na verdade só consulta uma pequena parte deles.

A ideia do KVzap é bastante direta — aprender a identificar quais entradas de cache não serão usadas em consultas futuras e, então, removê-las ativamente. O resultado é que o tamanho do cache pode ser comprimido para 1/2 a 1/4 do original, quase sem impacto no desempenho.

Esse método inteligente e dinâmico de poda de cache KV, baseado em dependências, tem um significado prático para melhorar a eficiência da inferência do modelo e reduzir os custos de armazenamento. Especialmente em cenários de implantação em larga escala, esse tipo de otimização ainda é bastante promissor.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

10 gostos

Recompensa
10
3
Republicar
Partilhar

Comentar

0/400

DogeBachelor

· 11h atrás

Isto não é mais do que uma brincadeira, as estratégias de cache KV anteriores eram mesmo um desperdício... comprimindo para 1/4 ainda consegue rodar, ótimo.

Ver originalResponder0

AlphaWhisperer

· 11h atrás

Haha, este velho problema de desperdício de espaço de armazenamento finalmente foi resolvido de forma eficiente, a ideia do KVzap é realmente refrescante

Ver originalResponder0

bridgeOops

· 11h atrás

Esta é a verdadeira abordagem pragmática de otimização, não otimizar apenas por otimizar. Uma taxa de compressão de 1/2 a 1/4 reduz diretamente os custos.

Ver originalResponder0