DeepSeek V4 Pro no Ollama Cloud: ligação num só clique do Claude Code

De acordo com um tweet oficial da Ollama de 27 de abril, o modelo de ponta DeepSeek V4 Pro, lançado a 24 de abril pela empresa chinesa de IA DeepSeek, chega oficialmente ao catálogo da Ollama em modo cloud. Os utilizadores apenas precisam de um único comando para chamar este modelo a partir de ferramentas de agentes populares, como Claude Code, Hermes Agent, OpenClaw, Codex, OpenCode, etc. Esta é uma sincronização particularmente rápida da Ollama ao integrar modelos de larga escala de forma abrangente — desde a disponibilização dos pesos pela DeepSeek até ao lançamento no Ollama Cloud, passaram apenas três dias.

DeepSeek V4 Pro: 1,6T parâmetros, 1M context

O V4 Pro utiliza uma arquitetura Mixture-of-Experts; o volume total de parâmetros é de 1,6 triliões (4,9 mil milhões de parâmetros ativos) e a janela de contexto é de 1M tokens. Em testes de terceiros, Artificial Analysis indicou que, em benchmarks de programação como SWE-bench (80,6%), LiveCodeBench (93,5%) e Terminal-Bench (67,9%), o V4 Pro se encontra no mesmo nível da Kimi K2.6, entre os modelos open-source da primeira linha; no entanto, o Intelligence Index geral fica a um lugar atrás da Kimi K2.6.

Em simultâneo, a DeepSeek também lançou o modelo mais leve V4 Flash; ambos têm licença MIT para código aberto e os pesos podem ser descarregados a partir do Hugging Face.

Inferência na cloud do Ollama Cloud; os pesos não são descarregados localmente

deepseek-v4-pro:cloud é o modelo no Ollama Cloud — a inferência é feita na cloud da Ollama e os pesos não são descarregados para a máquina do utilizador. Este é o método padrão da Ollama para lidar com modelos extremamente grandes; anteriormente, a Kimi K2.6 também foi incluída com a mesma abordagem. Para os utilizadores, a maior vantagem é não precisar de possuir dezenas de GPUs para chamar um modelo de nível topo; a desvantagem é que ainda é necessário estar ligado à rede e que os recursos computacionais são atribuídos de acordo com a carga no Ollama Cloud.

Para executar totalmente localmente, é necessário obter os pesos deepseek-ai/DeepSeek-V4-Pro no Hugging Face, em conjunto com uma versão quantificada INT4 (como o GGUF lançado pela Unsloth) e uma configuração com várias GPUs; caso contrário, não é viável. Em geral, o hardware de consumo não é suficiente para suportar o modelo completo.

Um único comando para encadear Claude Code, Hermes Agent, OpenClaw

A Ollama sincronizou também o lançamento de instruções de integração para ferramentas de agentes populares:

直接對話 ollama run deepseek-v4-pro:cloud # encadear Claude Code ollama launch claude --model deepseek-v4-pro:cloud # 串接 Hermes Agent ollama launch hermes --model deepseek-v4-pro:cloud # encadear OpenClaw / OpenCode / Codex ollama launch openclaw --model deepseek-v4-pro:cloud ollama launch opencode --model deepseek-v4-pro:cloud ollama launch codex --model deepseek-v4-pro:cloud

O que isto significa é: no passado, para um programador que usasse fortemente o Claude Code e quisesse trocar por DeepSeek, seria necessário fazer a integração manual via uma API compatível com OpenAI, tratando por conta própria o endpoint e a autenticação; agora, através do Ollama, tudo pode ser feito com um único comando. Para utilizadores intensivos do Claude Code, isto oferece uma via rápida para substituir modelos da Anthropic por DeepSeek (ou, de forma análoga, trocar por Kimi) e reduzir custos.

Reações dos primeiros testadores: a velocidade passa de 30 tok/s para um pico de 1,1 tok/s

As discussões na secção de comentários mostram que a velocidade da inferência em cloud depende da carga do Ollama Cloud. Vários testadores precoces relataram que, em períodos de pico, a velocidade é mais lenta: de 30 tokens/s no cenário normal para valores na ordem de 1,1 tokens/s; o utilizador @benvargas chegou a colocar um screenshot a reclamar “Need More Compute”. Numa outra resposta, a Ollama admitiu que a equipa oficial “também está a brincar com este modelo”, o que sugere que o tráfego ainda está na fase de exploração e que não foi feito um planeamento completo de capacidade.

Para programadores que procuram uma velocidade estável na linha de produção, a recomendação atual é: usar o modo cloud como protótipo para testes e avaliação de custos; para produtos oficiais, é necessário construir infraestruturas de inferência com GPU própria ou escolher uma API comercial. O tutorial completo da Ollama já foi atualizado para incluir a secção do V4 Pro e uma explicação das compensações entre cloud e local.

Este artigo DeepSeek V4 Pro no Ollama Cloud: Claude Code com um clique aparece pela primeira vez em Cadeia de Notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Gate irá acolher a Roundtable no Space de AI Trading a 28 de abril: explorando a IA como o motor do próximo ciclo Web3

Notícia da Gate, 27 de abril — A Gate irá organizar uma discussão em direto no Space sobre AI Trading a 28 de abril, às 20:00, reunindo especialistas da indústria para explorar se a integração profunda da IA nos fluxos de trabalho de negociação marca o verdadeiro início do próximo ciclo Web3. A discussão irá examinar A

GateNews51m atrás

A Ant Group lança o Ling-2.6-1T: modelo com um trilião de parâmetros otimizado para execução de tarefas eficiente em tokens

Mensagem do Gate News, 27 de abril — A inclusãoAI da Ant Group lançou o Ling-2.6-1T, um novo modelo de instruções de referência na série Ling com um trilião de parâmetros. Ao contrário dos modelos de raciocínio de cadeia longa, o Ling-2.6-1T utiliza um mecanismo de "Pensamento Rápido" concebido para executar tarefas com precisão usando o mínimo de tokens

GateNews1h atrás

A API da Nansen Agora Suporta o Protocolo MPP da Tempo, Permitindo que Agentes de IA Paguem por Chamada

Gate News mensagem, 27 de Abril — A API da Nansen já suporta o protocolo Machine Payments Protocol (MPP), um standard para pagamentos autónomos de máquina para máquina suportado pela Tempo e pela Stripe. A integração permite que os agentes de IA paguem diretamente a partir das suas carteiras, numa base por chamada. A funcionalidade opera em conjunto com

GateNews1h atrás

Greg Brockman da OpenAI: A IA a mudar de chat para execução autónoma de tarefas

Mensagem da Gate News, 27 de abril — Greg Brockman, presidente e cofundador da OpenAI, diz que a próxima vaga de inteligência artificial irá levar os utilizadores a passarem de conversar com bots de IA para atribuírem tarefas do mundo real. Esta mudança exige que as empresas repensem os fluxos de trabalho operacionais e estabeleçam novos protocolos para se

GateNews2h atrás

Grande CEX Lança Smart Money Signal Suite com 1.000+ Dados de Traders

Gate News mensagem, 27 de abril — Uma grande exchange centralizada lançou um "Smart Money Signal Suite" que integra posições em tempo real, taxas de acerto e dados de lucro/prejuízo de mais de 1.000 traders populares. O toolkit, acessível através do Agent Trade Kit da plataforma, encapsula sinais de traders como

GateNews3h atrás

A B.AI melhora a infraestrutura e lança grandes funcionalidades de Skills

Notícia da Gate, 27 de abril — A B.AI anunciou esta semana vários avanços de produtos e do ecossistema. A página de destino do BAIclaw recebeu uma reformulação completa a nível visual e de interações, com suporte multilingue do website alargado para 10 idiomas, reforçando a sua usabilidade global. Na área da infraestrutura

GateNews3h atrás
Comentar
0/400
Nenhum comentário