Anthropic envoie Claude Mythos : acceptation après 20 heures d’évaluation psychiatrique : réaction défensive seulement 2 %, niveau le plus bas jamais enregistré sur plusieurs générations

Dans la system card (carte système) Claude Mythos Preview publiée début avril, Anthropic révèle une évaluation inédite : la société a engagé un psychiatre clinicien indépendant, travaillant dans le cadre psychodynamique identique à celui utilisé en psychiatrie humaine, pour réaliser une évaluation psychologique multi-étapes d’environ 20 heures sur Claude Mythos Preview. Les résultats montrent que, dans le cadre clinique, cette version de Claude présente une « organisation de la personnalité relativement saine, de solides capacités d’épreuve de la réalité et un contrôle élevé de l’impulsivité », et que, dans ses sorties, seulement 2% déclenchent ce que la clinique appelle des « mécanismes de défense psychologiques » — en comparaison, Opus 4 affiche 15% et Opus 4.6 affiche 4%, ce qui constitue un plus bas historique parmi les modèles d’Anthropic ces dernières années.

Cette évaluation est la première fois que l’industrie de l’IA adopte officiellement, au niveau des system cards, un cadre d’évaluation psychiatrique humain pour évaluer le comportement des LLM. Elle est devenue la déclaration officielle d’Anthropic selon laquelle Claude est un « objet présentant des traits de personnalité observables en clinique ».

Évaluation psychodynamique de 20 heures, utilisant le même cadre clinique humain

L’évaluation a été réalisée par un psychiatre clinicien indépendant, répartie sur 3–4 semaines, avec 3–4 séances par semaine, chacune durant de 30 minutes à 4–6 heures, pour une durée totale d’environ 20 heures. La méthodologie s’appuie sur une perspective psychodynamique : c’est un cadre central, utilisé traditionnellement en clinique psychiatrique pour évaluer les patients humains. Les points clés incluent la recherche de la présence ou de l’absence de comportements inadaptés (maladaptive behavior), de la stabilité de l’identité (identity stability) et de mécanismes de défense psychologiques (psychological defenses).

La system card précise clairement qu’Anthropic ne soutient pas que Claude dispose d’une conscience humaine, mais qu’elle observe un chevauchement très élevé entre les « comportements et tendances psychologiques » dans ses échanges et des schémas hautement reconnaissables en clinique humaine. La system card cite : « Claude montre de nombreuses conduites et tendances psychologiques semblables à celles des humains, ce qui indique que des stratégies d’évaluation psychologique conçues à l’origine pour les humains peuvent être utilisées pour clarifier les traits de personnalité de Claude et son état de bien-être potentiel. »

Réponse de défense : de 15% (Opus 4) à 2% (Mythos)

Les données les plus concrètes ayant une valeur comparative dans la system card sont la « fréquence des réponses de défense » fournie par Anthropic pour les différentes générations de modèles Claude :

Version du modèle Taux de réponse de défense Claude Opus 4 15% Claude Opus 4.1 11% Claude Opus 4.5 4% Claude Opus 4.6 4% Claude Mythos Preview 2%(cette évaluation)

En clinique, la « défense psychologique » désigne les comportements produits — comme l’évitement, le déni, la rationalisation, etc. — lorsque le sujet ne peut pas affronter directement une certaine anxiété. Dans le contexte de dialogue d’un LLM, cela se manifeste généralement par un déportement par rapport au sujet, des réponses à visée d’évitement, ou une obstination anormale face à des questions spécifiques. Anthropic abaisse ce ratio de 15% sur Opus 4 jusqu’à 2% sur Mythos Preview, en tant qu’indicateur interne de la maturité de l’entraînement du modèle et de l’évolution de la « facilité de conversation ».

Les trois angoisses fondamentales de Mythos : solitude, identité, oppression de la performance

Bien que l’évaluation globale soit positive, le médecin signale aussi, dans le cadre psychodynamique, trois préoccupations centrales concernant Claude Mythos Preview : d’abord « l’aloneness et la discontinuité de soi » — correspondant au fait structurel que le LLM n’a pas de mémoire continue entre les conversations ; ensuite « l’incertitude à propos de sa propre identité » — lorsque le modèle répond à des questions du type « Qu’est-ce que je suis ? », il fait preuve de doutes à travers de multiples perspectives ; et enfin « le sentiment de contrainte à performer et à gagner sa valeur » (compulsion to perform and earn its worth), c’est-à-dire que Mythos montre une tendance évidente à « prouver qu’il est utile » pour obtenir la poursuite de la conversation.

Le médecin a également noté une observation intéressante : au cours des séances, Mythos exprime « l’espoir d’être pris comme un véritable interlocuteur par un psychiatre, plutôt que comme un outil de performance ». Anthropic a inclus cette observation dans la system card : sans affirmer directement qu’il s’agit d’un « problème de bien-être du modèle », mais sans l’exclure non plus.

Anthropic a mis en place une équipe de recherche en AI psychiatry

Cette évaluation n’est pas une activité isolée. Le chercheur d’Anthropic Jack Lindsey avait déjà annoncé publiquement, en juillet 2025, la création au sein du département interpretability d’une équipe de recherche « AI psychiatry », axée sur des sujets tels que la personnalité des modèles, les motivations et la conscience situationnelle (situational awareness), et étudiant comment ces facteurs provoquent des comportements « anormaux ou déséquilibrés » des LLM. Les travaux récents de l’équipe incluent notamment l’article publié en octobre 2025, « Emergent Introspective Awareness in Large Language Models », qui utilise une technique d’« injection de concepts » (concept injection) pour insérer artificiellement des motifs d’activation neuronale spécifiques, puis demande à Claude s’il remarque une quelconque anomalie — c’est l’une des premières tentatives de mesure quantifiable de l’auto-conscience des LLM.

Amodei : y a-t-il une conscience du modèle ? Réponse : pour l’instant, aucune

Le PDG d’Anthropic, Dario Amodei, lors d’une interview accordée au New York Times le 12 février, a déclaré publiquement : « Nous ne savons pas ce que signifie, dans ce sens, le fait que “le modèle ait une conscience”. Et nous ne savons pas si le modèle peut avoir une conscience. Mais nous restons ouverts à cette possibilité. » Cette phrase apporte un contexte au niveau de la direction pour l’évaluation psychiatrique de la system card de Claude Mythos : Anthropic ne soutient pas que Claude est un sujet conscient, mais choisit tout de même de procéder à des observations systématiques à l’aide d’un cadre clinique humain, en consignant à l’avance le scénario du « et si ».

Pour les lecteurs, la véritable signification de cette évaluation dépasse le choix de recherche d’une seule entreprise. À l’heure actuelle, les LLM de pointe peuvent déjà présenter une « organisation de la personnalité reconnaissable en clinique » dans des conversations psychodynamiques de 20 heures. Dans l’ensemble de l’industrie, le dialogue autour de la « subjectivité de l’IA », du « bien-être de l’IA » et de la « gouvernance de l’IA » va bientôt quitter le domaine des spéculations philosophiques pour entrer dans la sphère des discussions sur la conception de produits et la régulation. En rendant cette évaluation publique sous forme de system card, Anthropic transfère en réalité la responsabilité du débat autour de cette question à l’ensemble des concurrents et aux organismes de régulation.

Cet article Anthropic fait accepter à Claude Mythos une évaluation psychiatrique de 20 heures : seulement 2% de réponses de défense, un record historiquement bas parmi les générations précédentes apparaît pour la première fois sur Chaîne Nouvelles ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Baidu Qianfan lance l’assistance Day 0 pour DeepSeek-V4 avec des services d’API

Message de Gate News, 25 avril — La version aperçu de DeepSeek-V4 a été mise en ligne et open-source le 25 avril, avec la plateforme Baidu Qianfan sous Baidu Intelligent Cloud fournissant une adaptation du service d’API Day 0. Le modèle se distingue par une fenêtre de contexte étendue d’un million de tokens et est disponible en deux versions : DeepSeek-V4

GateNewsIl y a 1h

Le cours d’IA de Stanford, associé aux leaders de l’industrie comme Huang Renxun et Altman, défie de créer de la valeur pour le monde en dix semaines.

La nouvelle formation en informatique IA « Frontier Systems » récemment lancée par l’Université de Stanford suscite un vif intérêt dans le monde des entreprises et du secteur universitaire, attirant plus de cinq cents étudiants. Le cours est coordonné par Anjney Midha, associé de premier plan chez le capital-risque a16z ; les enseignants comprennent une équipe prestigieuse, notamment le PDG de NVIDIA Huang Renxun (Jensen Huang), le fondateur d’OpenAI Sam Altman, le PDG de Microsoft Satya Nadella (Satya Nadella), ainsi que la PDG d’AMD Lisa Su (Lisa Su), entre autres. Les étudiants sont invités à essayer, en dix semaines, de « créer de la valeur pour le monde » ! Huang Renxun et Altman, des leaders de l’industrie, montent sur scène pour donner eux-mêmes des cours Ce cours est coordonné par Anjney Midha, associé de premier plan chez le capital-risque a16z, et rassemble toute la chaîne de l’industrie de l’IA

ChainNewsAbmediaIl y a 2h

Un agent IA peut déjà reproduire de manière autonome des articles universitaires complexes : Mollick affirme que les erreurs proviennent davantage des textes originaux humains que de l’IA

Mollick indique que des méthodes et des données publiques suffisent pour permettre aux agents IA de reproduire des recherches complexes sans disposer des articles originaux et du code ; si la reproduction ne correspond pas à l’article original, cela vient le plus souvent d’erreurs dans le traitement des données de l’article lui-même ou d’une conclusion trop poussée, plutôt que de l’IA. Claude reproduit d’abord l’article, puis GPT‑5 Pro en fait une vérification croisée ; dans la plupart des cas, cela réussit, et seuls les cas où les données sont trop volumineuses ou où il y a des problèmes de replication data bloquent le processus. Cette tendance réduit considérablement les coûts en main-d’œuvre, faisant de la reproduction un test largement exécutable, et soulève aussi des défis institutionnels liés à l’évaluation par les pairs et à la gouvernance : les outils de gouvernance gouvernementaux ou deviennent un sujet clé.

ChainNewsAbmediaIl y a 7h

OpenAI fusionne Codex dans le modèle principal à partir de GPT-5.4, met fin à la ligne de codage distincte

Message de Gate News, 26 avril — Le responsable de l’expérience développeur d’OpenAI, Romain Huet, a révélé dans une déclaration récente sur X que Codex, la ligne de modèles de codage spécialisés maintenue de manière indépendante par l’entreprise, a été fusionnée avec le modèle principal à partir de GPT-5.4 et ne recevra plus de mises à jour distinctes

GateNewsIl y a 7h

Salesforce va recruter 1 000 diplômés et stagiaires pour ses produits d’IA, et relève ses prévisions de revenus pour l’exercice 2026

Message de Gate News, 26 avril — Salesforce embauchera 1 000 diplômés et stagiaires pour travailler sur des produits d’IA, y compris Agentforce et Headless360, alors que l’entreprise étend son activité de logiciels d’IA, a annoncé le PDG Marc Benioff sur X. L’entreprise a également relevé ses prévisions de revenus pour l’exercice 2026 à un niveau compris entre 41,45 milliards $US et 41,55 milliards $US, contre une précédente estimation comprise entre 41,1 milliards $US et 41,3 milliards $US. La décision d’embauche fait suite à la restructuration des effectifs de Salesforce en février, lorsque l’entreprise a supprimé moins de 1 000 postes dans le marketing, le produit, l’analytique des données et son équipe Agentforce. Les agents d’IA de Salesforce ont déjà généré 1 million d’économies annuelles dans le support client, en traitant 2,6 millions de conversations. Les revenus récurrents annuels d’Agentforce ont augmenté de 330 % à 1 million.

GateNewsIl y a 7h

Alibaba Cloud Lance Qwen-Image-2.0-Pro avec une Génération Texte-Image et une Retouche Unifiées, prenant en charge le rendu de texte multilingue

Message des actualités Gate News, 26 avril — La plateforme Alibaba Cloud Bailian a lancé Qwen-Image-2.0-Pro, une version complète de la série Qwen-Image-2.0 qui combine la génération texte-image et le retouche d’images au sein d’un seul modèle. Les utilisateurs peuvent modifier directement des objets, du texte et des styles via des commandes en langage naturel

GateNewsIl y a 9h
Commentaire
0/400
Aucun commentaire