Basicamente, a Intel conseguiu reduzir o tamanho dos pesos de cada modelo de forma significativa. Cada peso que ocupava 2 bytes em BF16 agora ocupa apenas 0,5 bytes depois da quantização INT4. Isso significa que o tamanho total cai para aproximadamente um quarto do original. A ferramenta usada foi a AutoRound.

Os três modelos liberados são o T2V-A14B (texto para vídeo), I2V-A14B (imagem para vídeo) e TI2V-5B (entrada híbrida de texto e imagem). Os modelos A14B originais rodam em arquitetura MoE com 27 bilhões de parâmetros totais, sendo 14 bilhões ativados por etapa. Sem a quantização INT4, exigem pelo menos 80GB de VRAM por GPU só para trabalhar com resolução 720p.

O mais prático é o TI2V-5B, um modelo denso que consegue rodar 720p a 24fps em uma GPU 4090 mesmo na forma original. Imagina com a otimização INT4 aplicada.

O detalhe importante é que a Intel ainda não divulgou benchmarks completos sobre consumo de VRAM ou qualidade visual após a quantização INT4. Vai depender de verificação por terceiros mesmo. Pra quem quiser testar, a Intel aponta o branch vllm-omni como a opção de implantação, já que esses modelos não rodam no pipeline principal do vLLM.

É o tipo de otimização que torna esses modelos de vídeo muito mais acessíveis pra quem não tem hardware de ponta.

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
Gate13thAnniversaryLive
1.05M Popularidade
#
WCTCTradingChallengeShare8MUSDT
791.94K Popularidade
#
BitcoinBouncesBack
205.54K Popularidade
#
IsraelStrikesIranBTCPlunges
30.66K Popularidade
#
EthereumMemeSeasonReturns
1.99M Popularidade

Fixar

Acabei de ver que a Intel disponibilizou no Hugging Face as versões quantizadas em INT4 dos modelos de vídeo Wan 2.2 da Alibaba. Isso é bastante interessante do ponto de vista de otimização de modelos.

Tópicos em destaque

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Fixar