De acordo com um tweet oficial da Ollama de 27 de abril, o modelo de ponta DeepSeek V4 Pro, lançado a 24 de abril pela empresa chinesa de IA DeepSeek, chega oficialmente ao catálogo da Ollama em modo cloud. Os utilizadores apenas precisam de um único comando para chamar este modelo a partir de ferramentas de agentes populares, como Claude Code, Hermes Agent, OpenClaw, Codex, OpenCode, etc. Esta é uma sincronização particularmente rápida da Ollama ao integrar modelos de larga escala de forma abrangente — desde a disponibilização dos pesos pela DeepSeek até ao lançamento no Ollama Cloud, passaram apenas três dias.
DeepSeek V4 Pro: 1,6T parâmetros, 1M context
O V4 Pro utiliza uma arquitetura Mixture-of-Experts; o volume total de parâmetros é de 1,6 triliões (4,9 mil milhões de parâmetros ativos) e a janela de contexto é de 1M tokens. Em testes de terceiros, Artificial Analysis indicou que, em benchmarks de programação como SWE-bench (80,6%), LiveCodeBench (93,5%) e Terminal-Bench (67,9%), o V4 Pro se encontra no mesmo nível da Kimi K2.6, entre os modelos open-source da primeira linha; no entanto, o Intelligence Index geral fica a um lugar atrás da Kimi K2.6.
Em simultâneo, a DeepSeek também lançou o modelo mais leve V4 Flash; ambos têm licença MIT para código aberto e os pesos podem ser descarregados a partir do Hugging Face.
Inferência na cloud do Ollama Cloud; os pesos não são descarregados localmente
deepseek-v4-pro:cloud é o modelo no Ollama Cloud — a inferência é feita na cloud da Ollama e os pesos não são descarregados para a máquina do utilizador. Este é o método padrão da Ollama para lidar com modelos extremamente grandes; anteriormente, a Kimi K2.6 também foi incluída com a mesma abordagem. Para os utilizadores, a maior vantagem é não precisar de possuir dezenas de GPUs para chamar um modelo de nível topo; a desvantagem é que ainda é necessário estar ligado à rede e que os recursos computacionais são atribuídos de acordo com a carga no Ollama Cloud.
Para executar totalmente localmente, é necessário obter os pesos deepseek-ai/DeepSeek-V4-Pro no Hugging Face, em conjunto com uma versão quantificada INT4 (como o GGUF lançado pela Unsloth) e uma configuração com várias GPUs; caso contrário, não é viável. Em geral, o hardware de consumo não é suficiente para suportar o modelo completo.
Um único comando para encadear Claude Code, Hermes Agent, OpenClaw
A Ollama sincronizou também o lançamento de instruções de integração para ferramentas de agentes populares:
O que isto significa é: no passado, para um programador que usasse fortemente o Claude Code e quisesse trocar por DeepSeek, seria necessário fazer a integração manual via uma API compatível com OpenAI, tratando por conta própria o endpoint e a autenticação; agora, através do Ollama, tudo pode ser feito com um único comando. Para utilizadores intensivos do Claude Code, isto oferece uma via rápida para substituir modelos da Anthropic por DeepSeek (ou, de forma análoga, trocar por Kimi) e reduzir custos.
Reações dos primeiros testadores: a velocidade passa de 30 tok/s para um pico de 1,1 tok/s
As discussões na secção de comentários mostram que a velocidade da inferência em cloud depende da carga do Ollama Cloud. Vários testadores precoces relataram que, em períodos de pico, a velocidade é mais lenta: de 30 tokens/s no cenário normal para valores na ordem de 1,1 tokens/s; o utilizador @benvargas chegou a colocar um screenshot a reclamar “Need More Compute”. Numa outra resposta, a Ollama admitiu que a equipa oficial “também está a brincar com este modelo”, o que sugere que o tráfego ainda está na fase de exploração e que não foi feito um planeamento completo de capacidade.
Para programadores que procuram uma velocidade estável na linha de produção, a recomendação atual é: usar o modo cloud como protótipo para testes e avaliação de custos; para produtos oficiais, é necessário construir infraestruturas de inferência com GPU própria ou escolher uma API comercial. O tutorial completo da Ollama já foi atualizado para incluir a secção do V4 Pro e uma explicação das compensações entre cloud e local.
Este artigo DeepSeek V4 Pro no Ollama Cloud: Claude Code com um clique aparece pela primeira vez em Cadeia de Notícias ABMedia.
Related Articles
Gate irá acolher a Roundtable no Space de AI Trading a 28 de abril: explorando a IA como o motor do próximo ciclo Web3
A Ant Group lança o Ling-2.6-1T: modelo com um trilião de parâmetros otimizado para execução de tarefas eficiente em tokens
A API da Nansen Agora Suporta o Protocolo MPP da Tempo, Permitindo que Agentes de IA Paguem por Chamada
Greg Brockman da OpenAI: A IA a mudar de chat para execução autónoma de tarefas
Grande CEX Lança Smart Money Signal Suite com 1.000+ Dados de Traders
A B.AI melhora a infraestrutura e lança grandes funcionalidades de Skills