Armazenar cada par KV faz sentido? Especialmente quando o modelo na verdade só consulta uma pequena parte deles.
A ideia do KVzap é bastante direta — aprender a identificar quais entradas de cache não serão usadas em consultas futuras e, então, removê-las ativamente. O resultado é que o tamanho do cache pode ser comprimido para 1/2 a 1/4 do original, quase sem impacto no desempenho.
Esse método inteligente e dinâmico de poda de cache KV, baseado em dependências, tem um significado prático para melhorar a eficiência da inferência do modelo e reduzir os custos de armazenamento. Especialmente em cenários de implantação em larga escala, esse tipo de otimização ainda é bastante promissor.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
10 gostos
Recompensa
10
3
Republicar
Partilhar
Comentar
0/400
DogeBachelor
· 11h atrás
Isto não é mais do que uma brincadeira, as estratégias de cache KV anteriores eram mesmo um desperdício... comprimindo para 1/4 ainda consegue rodar, ótimo.
Ver originalResponder0
AlphaWhisperer
· 11h atrás
Haha, este velho problema de desperdício de espaço de armazenamento finalmente foi resolvido de forma eficiente, a ideia do KVzap é realmente refrescante
Ver originalResponder0
bridgeOops
· 11h atrás
Esta é a verdadeira abordagem pragmática de otimização, não otimizar apenas por otimizar. Uma taxa de compressão de 1/2 a 1/4 reduz diretamente os custos.
Armazenar cada par KV faz sentido? Especialmente quando o modelo na verdade só consulta uma pequena parte deles.
A ideia do KVzap é bastante direta — aprender a identificar quais entradas de cache não serão usadas em consultas futuras e, então, removê-las ativamente. O resultado é que o tamanho do cache pode ser comprimido para 1/2 a 1/4 do original, quase sem impacto no desempenho.
Esse método inteligente e dinâmico de poda de cache KV, baseado em dependências, tem um significado prático para melhorar a eficiência da inferência do modelo e reduzir os custos de armazenamento. Especialmente em cenários de implantação em larga escala, esse tipo de otimização ainda é bastante promissor.