YunTian LiFe QianKa AI inference cluster déployé à Zhanjiang, créant un modèle écologique « Modèle National, Noyau National »

robot
Création du résumé en cours

Le 12 mars, YunTianLiFei (688343) a remporté le marché pour la construction d’une infrastructure de nouvelle productivité basée sur le soutien à l’IA à l’appui de Zhanjiang, avec un montant de 420 millions de yuans. Le projet sera basé sur la carte d’accélération d’inférence IA nationale développée par YunTianLiFei, et construira un cluster de mille cartes d’inférence IA nationales. Ce cluster sera équipé de grands modèles nationaux tels que DeepSeek, offrant des capacités IA plus pratiques et à moindre coût pour les applications gouvernementales, industrielles et diverses autres scénarios, explorant la création d’un écosystème IA « modèle national, puce nationale ».

L’inférence IA passe de « priorité à l’entraînement » à « priorité à l’inférence »

Le cluster intelligent est une infrastructure fondamentale à l’ère de l’intelligence artificielle. Autrefois, de nombreux centres d’intelligence artificielle en Chine adoptaient généralement un modèle de construction « entraînement et inférence intégrés ». Cependant, le cluster construit à Zhanjiang est spécifiquement conçu pour les tâches d’inférence IA, principalement destiné à divers scénarios industriels, fournissant un support direct à la transformation numérique des industries traditionnelles.

Selon les informations, Zhanjiang est la ville natale de Liang Wenfeng, fondateur de DeepSeek, un grand modèle national. Ces dernières années, la région a multiplié ses initiatives dans l’exploration des applications « DeepSeek+ ». Après la sortie de DeepSeek-R1 début 2025, Zhanjiang a rapidement déployé localement, et le grand modèle DeepSeek-R1 basé sur la technologie nationale a été mis en ligne en premier sur le cloud gouvernemental de Zhanjiang. Ce modèle, tout en traitant des affaires administratives générales, continue d’apprendre les connaissances industrielles locales et les dialectes, formant progressivement un « Zhanjiang intelligent » aux caractéristiques régionales.

Le cluster d’inférence IA construit par YunTianLiFei sera également profondément adapté à des modèles nationaux comme DeepSeek, fournissant une puissance de calcul pour davantage d’applications industrielles.

Dans les scénarios d’utilisation de grands modèles, les systèmes d’inférence doivent généralement répondre à trois exigences : haute concurrence, haut débit et faible latence. Pour améliorer l’efficacité globale, l’industrie adopte couramment une architecture d’inférence « pré-remplissage – décodage séparés », optimisant les ressources à différentes étapes pour améliorer la performance globale du système. Dans ce contexte, la conception collaborative entre puissance de calcul, stockage et réseau devient une compétitivité clé de l’infrastructure IA.

Le cluster d’inférence à mille cartes déployé à Zhanjiang est construit selon cette logique. Il utilise une puce d’inférence IA développée indépendamment par YunTianLiFei, avec une architecture technique privilégiant l’optimisation du pré-remplissage tout en équilibrant le décodage. En configurant spécifiquement les ressources de calcul et la bande passante de stockage dans la conception de la puce, le système peut maintenir une haute efficacité de débit même dans des scénarios d’inférence à long contexte.

Concernant la connectivité réseau, le système adopte une architecture unifiée à haute vitesse, utilisant une connexion optique 400G pour construire le réseau physique du cluster, assurant une communication à large bande passante et à faible latence entre les nœuds. Comparé aux architectures traditionnelles où différents protocoles sont utilisés à l’intérieur et entre les nœuds, cette architecture homogène réduit les coûts liés à la conversion de protocole et simplifie le déploiement du système.

En termes de capacité de déploiement, cette architecture peut soutenir une extension de dizaines de cartes par nœud, et s’étendre en douceur jusqu’à un cluster de mille cartes, s’adaptant ainsi aux besoins variés des applications IA.

De plus, pour faire face à la pression exercée par l’accès au cache KV dans l’inférence de grands modèles, le système a été optimisé de manière collaborative au niveau du calcul et du stockage. La planification conjointe des réseaux de calcul et de stockage permet d’améliorer significativement l’efficacité de lecture des données, assurant une performance stable même dans des scénarios d’inférence à long contexte. Grâce à une optimisation multi-niveaux de l’architecture de la puce, du réseau et de la gestion du système, ce cluster d’inférence offre un avantage évident en termes d’efficacité globale et de maîtrise des coûts, fournissant une solution de puissance de calcul plus économique pour l’application à grande échelle de l’IA.

Conception de puces auto-développées pour une capacité d’inférence à faible coût

Selon les informations, le cluster d’inférence IA sera construit en trois phases, utilisant exclusivement des cartes d’accélération d’inférence IA nationales développées par YunTianLiFei.

La première phase déploiera la carte d’accélération d’inférence X6000 de YunTianLiFei ; les phases deux et trois seront équipées en priorité de la dernière génération de puces de la société.

Selon le plan, YunTianLiFei lancera trois générations de puces d’inférence IA dans les trois prochaines années. La première phase comprendra une puce Prefill optimisée pour les scénarios à long contexte, améliorant l’efficacité de calcul et l’accès à la mémoire pour soutenir OpenClaw et divers agents IA. La deuxième phase développera une puce axée sur la réduction de la latence lors de la phase de décodage, améliorant davantage la capacité d’inférence en temps réel. La troisième phase visera une optimisation systémique pour améliorer globalement les performances de Prefill et de Décodage, visant une latence d’inférence en millisecondes.

La première puce Prefill, DeepVerse100, devrait être finalisée dans l’année et déployée en priorité dans le cluster de Zhanjiang. À plus long terme, YunTianLiFei a lancé le « Plan 1001 », visant à réduire continuellement le coût de l’inférence de grands modèles via une optimisation conjointe des puces et des systèmes, avec pour objectif ultime « cent milliards de tokens pour un centime ».

Selon l’industrie, la puissance d’inférence deviendra une infrastructure clé pour la mise en œuvre à grande échelle de l’IA. Celui qui pourra fournir une capacité d’inférence massive, stable, à moindre coût, aura une longueur d’avance dans la nouvelle compétition de l’industrie de l’intelligence artificielle. La construction du cluster d’inférence à mille cartes à Zhanjiang ne fournit pas seulement une base essentielle pour la transformation numérique locale, mais offre également un terrain pratique pour le développement conjoint des modèles et des puces nationales. Sous la synergie entre « modèle national » et « puce nationale », l’infrastructure IA évolue progressivement de la recherche technologique à l’application à grande échelle, ouvrant de nouvelles perspectives pour le développement de la prochaine étape de l’industrie de l’intelligence artificielle.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler