DeepSeek V4 Estreia Impactante: Dez Princípios Fundamentais na Competição com os Oponentes

Às três e meia da tarde, o sol na California Avenue já começava a inclinar-se em direção a Stanford. O cachorro na porta do Zombie Café estava deitado sob a cadeira branca ali na entrada. Na mesa, espalhavam-se três cópias impressas: o comunicado de lançamento do Opus 4.7 da Anthropic de 16 de abril, a transcrição palavra por palavra da apresentação do GPT-5.5 de 23 de abril por Greg Brockman, e o relatório técnico do DeepSeek V4, publicado na madrugada, ainda com a tinta fresca.

Em oito dias, as três empresas colocaram na mesa todas as suas apostas para o segundo trimestre de 2026.

Antes de terminar o café, Alan Walker do Vale do Silício explicou tudo claramente. Sem exagerar nos benchmarks, sem falar qual modelo “parece melhor”, sem escrever comunicados de imprensa. Apenas partindo dos princípios fundamentais — tecnologia, chips, preço, público, estratégia, ecossistema — onde cada uma delas realmente se posiciona em 2026, quem está na liderança, quem está na defensiva, quem está sacudindo a mesa.

01 Código aberto vs Código fechado — a verdadeira disputa de rota nesta guerra

Desta vez, DeepSeek sincronizou a abertura dos modelos V4-Pro e V4-Flash, com licença MIT padrão, pesos disponíveis diretamente no Hugging Face, acessíveis a todos para download, ajuste fino e uso comercial. Claude Opus 4.7 e GPT-5.5 são totalmente fechados — apenas uma API, os pesos do modelo você nunca vai tocar na vida.

Muita gente pensa que essa é uma disputa de modelos de negócio. Errado. É uma disputa de estruturas de confiança.

A barreira de proteção do código fechado chama-se “você só pode vir até aqui” — prende o usuário na porta da minha casa, na fila. A barreira do código aberto chama-se “você não consegue ficar sem o meu ecossistema” — constrói uma infraestrutura de IA para desenvolvedores, empresas e até países inteiros, baseada na minha arquitetura. Um é uma praça de pedágio, o outro é uma rodovia de alta velocidade.

DeepSeek consolidou essa estratégia com quatro gerações consecutivas de código aberto: V3, R1, V3.2, V4. Hoje, qualquer empresa no mundo que queira fazer implantação local, rodar grandes modelos em finanças, saúde, governo ou defesa, pensa primeiro na DeepSeek — de olhos fechados. Empresas estatais chinesas, fundos soberanos do Oriente Médio, bancos europeus que não querem entregar seus dados à nuvem americana — esses nunca usarão API fechada, nunca. A aposta da Anthropic e da OpenAI é o oposto: a lacuna de inteligência de ponta sempre existirá, e os clientes mais inteligentes estão dispostos a pagar mais.

Porém, essa aposta tem uma janela de tempo. Desde o dia em que o R1 foi lançado até hoje, a diferença de capacidade entre código aberto e fechado encolheu de um ano para três meses. Se esse prazo cair para um mês, a linha do código fechado começará a rachar.

02 Arquitetura do modelo — as três empresas trilham caminhos fundamentalmente diferentes

V4-Pro com 1,6T de parâmetros / 49B de ativação; V4-Flash com 284B de parâmetros / 13B de ativação. Contexto de 1 milhão de tokens é padrão de fábrica. A arquitetura central combina atenção híbrida (CSA + HCA intercalados) + Hyper-Conexões Restringidas por Manifold + Otimizador Muon + Treinamento FP4. Em cenário de 1 milhão de tokens, a inferência de um token do V4-Pro usa apenas 27% dos FLOPs do V3.2, e o cache KV apenas 10%. O V4-Flash é ainda mais eficiente — FLOPs caíram para 10%, cache KV para 7%.

A essência dessa arquitetura é uma aposta: contexto longo não é uma questão de capacidade, mas de eficiência. A geração V3 reduziu custos de treinamento com MoE, a geração V4 busca reduzir custos de inferência com atenção híbrida. Cada passo corta o que é mais caro.

O GPT-5.5 é diferente. A OpenAI afirma claramente — é o primeiro modelo treinado do zero após o GPT-4.5. As versões 5.1, 5.2, 5.3 e 5.4 foram apenas iterações de pós-treinamento sobre a mesma base. O 5.5 reformulou arquitetura, dados de pré-treinamento e objetivos de treinamento orientados por agentes. Pachocki, na apresentação, disse — “o progresso dos modelos nos últimos dois anos foi surpreendentemente lento” — na verdade, quer dizer que a base anterior não consegue mais acompanhar a curva de escalabilidade, é preciso trocar de motor.

Claude Opus 4.7 é uma melhoria precisa em relação ao 4.6. A Anthropic tem uma definição clara: melhoria notável, não uma mudança de paradigma. O teste SWE-bench aumentou de 80.8 para 87.6, a resolução visual de 1568px para 2576px, a taxa de throughput geral é 3,3 vezes maior, trocaram o tokenizer — textos iguais usam de 1 a 1,35 vezes mais tokens. Mythos Preview é seu verdadeiro próximo passo, um monstro de próxima geração, mas ainda guardado a sete chaves, disponível apenas para 12 parceiros, e o público civil terá que esperar.

03 Chips de base — a notícia mais subestimada de hoje

As manchetes da mídia internacional focam nos benchmarks do V4. Errado. A verdadeira mudança de jogo hoje é que parte do treinamento do V4 foi realizado em chips chineses Huawei Ascend.

No mesmo dia, a Huawei anunciou suporte completo para toda a linha Ascend SuperPoD, compatível com V4-Pro e V4-Flash. Cambricon também anunciou compatibilidade. As ações da SMIC na bolsa de Hong Kong saltaram 10% naquele dia. Lendo essas três notícias juntas, a verdadeira notícia é: a primeira vez na história da IA chinesa que toda a pilha de treinamento e inferência roda em hardware nacional, sem uma única GPU Nvidia na cadeia crítica.

Esse feito é maior do que todos os benchmarks somados.

Nos últimos três anos, a maior alavanca dos EUA contra a China foi a restrição à exportação de GPUs avançadas. A lógica é simples: você não consegue treinar o melhor modelo, porque não consegue comprar H100 ou B200. O lançamento do V4 cortou pela metade essa alavanca. Os principais modelos de código aberto podem ser treinados e implantados em hardware que não seja Nvidia. Se essa tendência for amplamente validada pelo mercado, as sanções na área de IA perdem sentido.

Claude e GPT-5.5 rodam em stacks de Nvidia H100/H200/B200 + Google TPU + Trainium2 da Anthropic. Não há outra alternativa, nem outro fornecedor. Essa é uma barreira, um ponto único de falha: se a Nvidia aumentar preços ou não conseguir atender à demanda, essas duas empresas sofrerão. A DeepSeek agora tem uma cadeia de suprimentos independente — uma carta na manga.

04 Estrutura de custos de treinamento — como Muon, FP4 e 32T tokens explicam o preço de hoje

O relatório técnico do V4 explica claramente: usa o otimizador Muon (mais rápido na convergência, treinamento mais estável), precisão FP4 (que reduz pela metade o uso de memória), pós-treinamento em duas fases (especialistas de diferentes áreas fazem SFT + RL independentes, depois usam destilação por política para unificar o modelo), e um corpus de 32 trilhões de tokens. Essas não são apenas estratégias, são as máquinas que realmente reduzem o custo de treinamento.

Resultado: o preço da API do V4-Pro pode ficar abaixo do V3.2, e o do V4-Flash já está na faixa mais baixa de modelos open source.

A estratégia do GPT-5.5 é aumentar os preços. Cada milhão de tokens de entrada custa 5 dólares, de saída 30 dólares — o dobro do GPT-5.4. A justificativa oficial é que a eficiência de tokens aumentou 40%, e o custo total só aumentou 20%. Uma bela narrativa. Mas, na prática, ao rodar prompts reais de produção, fica claro: workflows de prompts longos e saídas curtas dobram a conta. A OpenAI aposta que a escassez de inteligência de ponta ainda sustentará esse ciclo, por isso pode cobrar o dobro.

Claude Opus 4.7 faz o contrário: aumenta os preços de forma dissimulada. O preço permanece o mesmo — 5/25 dólares, igual ao Opus 4.6. Mas a própria documentação da Anthropic diz que o novo tokenizer usa até 1,35 vezes mais tokens para o mesmo texto. Ou seja, o preço não mudou, mas a conta pode subir até 35%. Uma estratégia de aumento de preço inteligente, mas equipes de engenharia com alto volume logo perceberão na demonstração mensal.

A DeepSeek faz o oposto — reduz preços. O V3.2 já é barato, o V4-Pro fica ainda mais. E, quando a Huawei lançar o Ascend 950 em produção, a tendência é de mais queda. Essa é a tática tradicional das empresas chinesas de internet: usar escala e eficiência para esmagar os preços dos concorrentes, e depois consolidar o ecossistema para reter usuários.

05 Precificação de API — quanto se consegue comprar com um dólar de inteligência

Vamos abrir a tabela de preços.

A avaliação de terceiros, da Artificial Analysis, fez uma comparação: na mesma pontuação do Índice de Inteligência, GPT-5.5 (médio) ≈ Claude Opus 4.7 (máximo). O primeiro faz todos os testes por cerca de $1.200, o segundo por cerca de $4.800. O V4-Pro, na mesma escala de inteligência, custa entre um terço e um décimo do valor dos dois.

Isso não é “mais barato”. É uma redução de uma ordem de grandeza no custo unitário de inteligência de ponta.

Para uma empresa que gasta um milhão de dólares por mês em tokens, o que isso significa? Antes, com o mesmo orçamento, rodava 10 agentes. Agora, pode rodar 80. Antes, experimentos caros demais, agora a preços acessíveis. Se essa vantagem for confirmada por três ou quatro grandes players do mercado (por exemplo, uma que reduziu 70% do custo de um agente de atendimento trocando Opus por V4-Pro, sem perder qualidade), os demais seguirão. É um efeito reflexo — quanto mais empresas migram, menor fica a barreira psicológica para as próximas.

A OpenAI e a Anthropic só podem reagir de duas formas: ou aumentam ainda mais a lacuna entre código fechado de ponta (lançar rapidamente o Mythos), ou elevam os custos de transição em relação a clientes, regulamentos e confiabilidade. A primeira leva tempo e dinheiro, a segunda exige paciência dos clientes.

06 Economia real de um contexto de um milhão de tokens

As três empresas adotaram o contexto de 1 milhão de tokens. Parece uma corrida igualitária.

Porém — fazer é uma coisa, fazer barato é outra.

O V4-Pro obteve 83,5 pontos no benchmark de recuperação de textos longos MRCR, superando o Gemini-3.1-Pro com 76,3, mas ficando atrás do Claude Opus 4.6 com 92,9. No CorpusQA, com 1 milhão de tokens, atingiu 62%, contra 53,8% do Gemini 3.1 Pro. A precisão na recuperação de informações é de 94% em 128K, 82% em 512K e 66% em 1 milhão. Números absolutos não são os melhores, mas é o melhor entre os modelos open source, e o primeiro a fazer do 1 milhão de tokens o padrão.

Claude Opus 4.7 não cobra mais pelo contexto de 1 milhão — é uma habilidade forte da Anthropic. GPT-5.5 também. Mas o problema é: os custos de inferência por unidade variam em uma ordem de dez, e essa diferença se amplia na escala de contexto longo.

Fazendo uma conta rápida: um documento jurídico de 500 mil tokens analisado pelo modelo custa cerca de $2,50 só de entrada, mais $1 a $2 de saída — aproximadamente o mesmo que o GPT-5.5. O V4-Pro fica em torno de $1. Se esse workflow rodar 10 mil vezes por dia, o custo anual pode chegar a milhões ou mais de dez milhões de dólares. Para uma empresa de médio porte, o maior gargalo na análise de agentes com contexto longo é o custo de inferência — o V4-Pro elimina esse gargalo.

07 Capacidade de codificação e agentes — as três empresas defendem suas áreas

Abra o benchmark, essa disputa fica bem clara.

E esses dados mostram não quem é mais forte, mas que as três empresas apostam em diferentes formas de agentes.

A Anthropic foca em “resolver problemas reais dentro de códigos existentes”. Cursor, Devin, Factory, Ramp — clientes usam Opus para tarefas que não são brincadeiras como “escrever um app de tarefas”, mas “consertar uma condição de corrida enterrada há três semanas em um código de 2 milhões de linhas”. Depois que a Nvidia implantou Codex para 10 mil funcionários, o ciclo de debug caiu de dias para horas — esse número a Anthropic também consegue mostrar. Opus 4.7 consegue alcançar 64,3% no SWE-Bench Pro — realmente testado na linha de produção.

A OpenAI foca em “controle de toda a máquina por agentes”. Terminal-Bench 2.0, OSWorld, Codex rodando shell — tudo aponta para um futuro: IA não só escreve código, ela abre o terminal, digita comandos e opera seu Mac. A frase de Brockman na apresentação, “computação agentic em escala”, não é um slogan vazio — é o próximo grande objetivo da OpenAI para a próxima década.

A DeepSeek aposta em “ativos inteligentes públicos de desenvolvedores open source”. Pode não vencer o SWE-Bench Pro, mas elevou o teto do open source a uma pontuação de 3206 no Codeforces. Isso significa que qualquer startup pode rodar um modelo de código quase de nível de competição, sem pagar nada à Anthropic ou à OpenAI.

08 Público-alvo — as três empresas miram em carteiras completamente diferentes

A lista de clientes da Anthropic revela sua direção: PayPal, Hex, Devin, Factory, Ramp, Notion, GitHub Copilot, Stripe, Block — todos fintechs e SaaS corporativo. Essas empresas têm duas características comuns: muito dinheiro, zero tolerância a erros. Opus 4.7, com preço de 5/25 dólares, auditorias de segurança, narrativa de conformidade, implantação multi-nuvem com Bedrock/Vertex AI/Foundry — tudo voltado a clientes que fecham contratos de seis meses a três anos, pagando milhões por ano. A avaliação da Anthropic na Forge Global ultrapassa 1 trilhão de dólares, maior que os 880 bilhões da OpenAI — o capital investe nessa história de “alta densidade de clientes corporativos”.

A base da OpenAI é uma combinação de consumidores + desenvolvedores + empresas. ChatGPT com quase 1 bilhão de usuários semanais é sua verdadeira barreira. GPT-5.5, com versões Plus, Pro, Business e Enterprise, tem preços dobrados, mas o fluxo de usuários finais cobre essa diferença. O grupo de desenvolvedores do Codex cresceu de dezenas de milhares para milhões nos últimos seis meses, com empresas como Nvidia, Stripe e Shopify implantando em larga escala. A estratégia é de escala — cada unidade de custo é diluída por um denominador gigante.

A DeepSeek mira em um público totalmente diferente. Empresas estatais chinesas, bancos, hospitais, órgãos governamentais; fundos soberanos do Oriente Médio que não querem entregar dados à nuvem americana; farmacêuticas europeias com forte conformidade GDPR; governos de países em desenvolvimento na Ásia e América Latina que querem desenvolver IA soberana. E também um grupo de desenvolvedores hardcore e startups de Silicon Valley que só querem rodar seus modelos sem pagar API. Essa soma não chega a 1 bilhão de usuários, mas representa uma escala diferente — de geopolítica e soberania.

Três carteiras completamente distintas, três estratégias de vendas diferentes.

09 Segurança e postura de defesa cibernética — as três empresas têm atitudes diametralmente opostas quanto ao uso de modelos como armas

Antropic lançou o Project Glasswing no começo de abril. Opus 4.7 foi o primeiro modelo de produção a incorporar “detecção automática e rejeição de solicitações de alta risco cibernético”. No relatório técnico, eles explicam claramente — durante o treinamento, reduziram propositalmente a capacidade de ataque cibernético. CyberGym pontuou 73,1, quase igual ao Opus 4.6 com 73,8 — é uma questão de política, não de capacidade. Mythos Preview atingiu 83,1 no mesmo benchmark, mas só para 12 parceiros, e essa lista é confidencial — vazou recentemente (um grupo no Discord adivinhou a URL), e a Anthropic publicou um relatório de incidentes.

A OpenAI segue outro caminho. O sistema do GPT-5.5 afirma: o risco cibernético no nível “High” do Preparedness Framework ainda não é Critical. A estratégia deles não é reduzir a capacidade do modelo, mas implementar classificadores mais rigorosos, autenticação de identidade e um programa de acesso permissivo a cibersegurança — se você quer usar capacidades ofensivas, primeiro precisa verificar sua identidade. Mia Glaese, na apresentação, falou em “lançamento com verificação de identidade”, uma forma de dizer: — “a capacidade eu dou, a responsabilidade é sua”.

O relatório do DeepSeek V4 não aborda esse tema. Na comunidade open source, a postura é: “o código é aberto, você usa, você responde”. Para reguladores, é um pesadelo; para desenvolvedores independentes, é um paraíso. Mas o risco real é: qualquer um pode rodar na sua GPU um modelo quase tão capaz quanto o Opus 4.7, sem qualquer camada de interceptação. Como a regulação vai evoluir, esse é o grande ponto de atenção entre o final de 2026 e 2027.

10 Estratégia de mercado — três apostas diferentes, mas só uma será a maior

DeepSeek quer ser o Linux da IA.

Usando código aberto, custos extremos e chips nacionais, democratizar a infraestrutura de IA globalmente. Quando cada país, cada empresa, cada desenvolvedor rodar na sua arquitetura — você não lucra com licenças, mas com o valor do ecossistema. Hoje, a Hugging Face tem milhões de downloads, amanhã cada fabricante de chips nacional terá SDKs compatíveis, e na semana seguinte, cada novo desenvolvedor começará com “from deepseek import…”. Essa estratégia foi usada por Linus Torvalds há vinte anos, e hoje é adotada por Liang Wenfeng. A diferença é que LLMs custam 10 mil vezes mais que sistemas operacionais, há mil vezes mais dinheiro de especulação, e o valor geopolítico é cem vezes maior.

A Anthropic aposta em ser o motor de IA das maiores empresas do mundo.

Seus clientes não são os bilhões de consumidores, mas as primeiras 10 mil empresas globais, com orçamentos de TI e conformidade. Opus 4.7, com seu foco “estreito mas profundo”, Mythos Preview, distribuição multi-nuvem com Bedrock/Vertex/Foundry, e uma avaliação de 1 trilhão de dólares na Forge — tudo isso conta uma história: seus times jurídicos, financeiros, de P&D e suporte usam seus modelos, e eles nunca podem parar. É uma lógica de escritórios de advocacia e bancos de investimento, não de Facebook. Clientes poucos, preços altos, custos de transição quase infinitos.

A estratégia da OpenAI é criar o próximo Windows + Office + Google em uma única superaplicação.

ChatGPT é seu canal de distribuição (quase 1 bilhão de usuários semanais), Codex é seu lock-in de desenvolvedores, Operator é sua porta de entrada para operações de computador, o novo Mac App é seu espaço na área de trabalho. A frase de Brockman na apresentação, “computação agentic em escala”, não é um slogan vazio — é o que eles querem fazer na próxima década. Não é só um chatbot inteligente, é a forma como os humanos usarão computadores no futuro. Você abre o computador e vê isso, trabalha com isso, gera documentos com isso, responde e-mails com isso, faz reuniões resumidas com isso. É o que Bill Gates tentou em 1990, Steve Jobs em 2007, e que a OpenAI pode realizar entre 2027 e 2030. O aumento de preço do GPT-5.5 é uma garantia dessa aposta.

Três caminhos levam a Roma. Mas só um será o maior — e esse determinará a distribuição de riqueza na indústria de IA na próxima década.

As três empresas anunciaram suas apostas na mesma semana.

Claude Opus 4.7 é o caminho seguro — estreito, profundo, com contratos de três anos e pagamentos de milhões. Sua vantagem é: qualquer empresa que queira usar IA como ferramenta de produtividade, mas tem medo de erros, não encontra opção mais confiável.

GPT-5.5 é o caminho caro — preços dobrados, ambição de superaplicação, liderança em capacidades agentic de comando e operação de computadores. Sua vantagem é: se “IA que controla toda a sua máquina” se concretizar em 2027, a OpenAI será a Microsoft dessa revolução, em 1995. Caso contrário, o preço de 5/30 dólares será apenas uma nota de rodapé cara.

DeepSeek é o caminho agressivo — código aberto, preço baixo, chips nacionais, abrindo brechas na barreira de proteção das outras duas. Sua vantagem é: se a fragmentação geopolítica continuar, e a IA se dividir em ecossistemas China e EUA, a DeepSeek será o Linux do ecossistema chinês. A probabilidade não é 50%, mas já é muito maior do que há um ano, quando era 5%.

Em janeiro de 2025, quando o R1 foi lançado, o mercado reagiu: “A IA chinesa chegou”. Agora, com o V4, a palavra que o mercado precisa aprender é — “A IA chinesa começou a mudar as regras”.

Uma vez mudadas as regras, elas não voltam atrás.

Às quatro e meia da tarde, o vento na California Avenue começou a esfriar. O copo do Zombie Café estava vazio. Alan dobrou os três papéis impressos, guardou na mochila. Ao sair, o cachorro levantou a cabeça, olhou ao redor, e voltou a deitar-se.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar