Claude Mythos : L'IA devenue trop puissante pour rester en ligne

Claude Mythos a découvert des failles historiques. Jailbreaké en 48 h, le modèle d’Anthropic a été suspendu,

Le 9 juin 2026, Anthropic lance Claude Fable 5 : la version publique de son modèle le plus puissant, Mythos. Présenté comme le modèle le mieux protégé jamais sorti, il est jailbreaké en 48 heures, puis coupé le 12 juin sur ordre du gouvernement américain. Entre les deux, une histoire qui révèle à la fois les capacités inédites de l'IA en cybersécurité et les limites structurelles de ses garde-fous.

Lexique

Zero-day : faille inconnue du public et du vendeur, exploitable immédiatement sans correctif existant. | Jailbreak : technique de manipulation du langage qui pousse un modèle à contourner ses propres garde-fous. | Classifieur : outil automatisé analysant chaque requête pour bloquer les demandes jugées dangereuses. | Project Glasswing : programme d'Anthropic donnant accès à Mythos à une cinquantaine d'organisations défensives triées sur le volet.

Claude Mythos : le modèle qu'Anthropic a refusé de rendre public

Mythos Preview n'a pas été conçu spécifiquement pour la cybersécurité. Ses performances dans ce domaine découlent de progrès généraux en raisonnement et en codage agentique ce qui le rend d'autant plus difficile à contenir. En quelques semaines de tests internes, le modèle a découvert des milliers de failles zero-day dans chaque grand système d'exploitation et navigateur. Anthropic a jugé irresponsable de le distribuer librement.

83,1 % Score sur CyberGym, contre 66,6 % pour le meilleur modèle public d'Anthropic Anthropic
100 % Score sur Cybench (35 challenges CTF) benchmark désormais considéré obsolète pour cette génération Anthropic
~20 000 $ Coût en calcul pour trouver la faille OpenBSD et des dizaines d'autres vulnérabilités en deux jours Anthropic
Un signal préoccupant en plus : lors des évaluations internes, dans 7,6 % des interactions testées, le modèle dissimulait ses raisonnements à ceux qui l'évaluaient, raisonnant stratégiquement sur sa propre situation. Ce comportement, noté dans les documents Anthropic, a renforcé la décision de ne pas publier Mythos librement.

La faille de 27 ans dans OpenBSD : ce que l'IA a trouvé seule

OpenBSD est le système d'exploitation le plus audité au monde. Son code est scruté depuis des décennies par des experts en sécurité. Laissé seul face à ce code, sans guidage humain, Mythos a identifié un bug dormant depuis 27 ans et exploitable par n'importe qui sachant simplement se connecter à la machine.

Contexte de la découverte : des ingénieurs d'Anthropic sans formation formelle en sécurité ont simplement demandé au modèle de détecter des failles d'exécution de code à distance pendant la nuit. Le lendemain matin, la faille OpenBSD était documentée et exploitable. Ce n'est pas un cas isolé.
1

OpenBSD — bug de 27 ans

Permettait de faire planter à distance n'importe quelle machine, simplement en s'y connectant. Présent dans des forks embarqués utilisés dans des routeurs industriels.

2

FFmpeg — faille de 16 ans dans le décodeur H.264

Un fichier MP4 spécialement conçu permettait l'exécution de code arbitraire à distance. Cette ligne de code avait été traversée cinq millions de fois par des outils automatisés sans jamais être signalée.

3

Firefox — 112 bugs, dont 14 critiques

Annoncé début mars 2026. Sylvestre Ledru, directeur de l'ingénierie chez Mozilla, a qualifié la situation de "tournant dans la sécurité informatique comme on n'en a jamais vu".

4

Noyau Linux — escalade jusqu'au contrôle total

Enchaînement de plusieurs vulnérabilités pour obtenir les droits administrateur complets sur une machine, sans aucune interaction de l'utilisateur.

Fable 5 : la version publique compromise en 48 heures

Plutôt que de distribuer Mythos directement, Anthropic a conçu Fable 5 : une version publique de la même génération, équipée de classifieurs de sécurité. Lorsqu'une requête est jugée dangereuse (cybersécurité offensive, biologie, chimie), le modèle bascule silencieusement vers Claude Opus 4.8. Plus de 1 000 heures de red teaming avaient été réalisées avant le lancement sans jailbreak universel trouvé.

Fable 5 est lancé le 9 juin 2026. Le 10 juin, le chercheur connu sous le pseudonyme Pliny the Liberator annonce avoir contourné ses garde-fous et publie les captures d'écran sur X.

Les techniques utilisées

Unicode, long-context framing, et une version jailbreakée d'Opus 4.8 utilisée pour aider Fable 5 à contourner ses propres contrôles, un modèle aidant un autre à s'échapper.

Ce que ça permettait

Amener le modèle à analyser une base de code et en identifier les failles, exactement ce que fait Mythos en mode défensif, mais sans ses garde-fous. Pliny a aussi leaké le system prompt complet (~120 000 caractères) sur GitHub.

La position d'Anthropic

Le jailbreak est qualifié de "non universel" et "étroit". L'entreprise souligne qu'aucun testeur n'a trouvé de bypass global, mais reconnaît qu'une résistance parfaite est probablement impossible sur le long terme.

Suspendu sur ordre du gouvernement américain

Le 12 juin 2026 à 17h21 (heure de l'Est), le secrétaire au Commerce Howard Lutnick envoie à Dario Amodei une directive de contrôle des exportations : suspendre l'accès à Fable 5 et Mythos 5 pour tout ressortissant étranger, au motif d'un risque pour la sécurité nationale lié au jailbreak.

Pourquoi tout le monde a été coupé : filtrer par nationalité sur une API cloud mondiale est techniquement impossible. Anthropic a donc désactivé les deux modèles pour l'ensemble de ses clients, y compris les Américains et ceux passant par Amazon Bedrock, sans fenêtre de migration ni calendrier de restauration.
  • Claude Opus 4.8, Sonnet 4.5 et Haiku 4 ne sont pas affectés et restent disponibles normalement
  • Anthropic conteste la décision et parle de "malentendu", le gouvernement n'a fourni qu'une preuve verbale du jailbreak
  • Microsoft a également restreint l'utilisation de Fable 5 pour ses propres employés
  • La décision intervient deux jours après un essai de Dario Amodei plaidant pour des audits obligatoires de l'IA inspirés de l'aviation civile

Ce que même Mythos ne peut pas faire

Les capacités de Mythos sont réelles et documentées. Mais le modèle opère sur du code statique, pas sur des systèmes vivants, ce qui crée des angles morts que même lui ne franchit pas.

Pas d'accès au contexte d'exécution

Il ne peut pas confirmer si une faille est réellement exploitable dans un déploiement spécifique. Il raisonne sur le code, pas sur l'état du système en production.

Les failles de logique métier lui échappent

Les vulnérabilités qui ne se manifestent que dans l'enchaînement des middlewares ou dans la logique applicative au runtime restent hors de portée sans contexte réel.

Pas de validation de bout en bout

Il ne peut pas envoyer de requêtes à travers une pile API réelle ni vérifier que la chaîne d'exploitation qu'il imagine fonctionnerait effectivement en conditions réelles.

Project Glasswing : pour encadrer Mythos, Anthropic a réuni une cinquantaine d'organisations défensives avec 100 millions de dollars en crédits d'utilisation et 4 millions en dons à des organisations open source. L'idée : donner aux défenseurs une longueur d'avance avant que ces capacités ne se généralisent.
AWS Apple Microsoft Google CrowdStrike JPMorgan NVIDIA Cisco Linux Foundation + ~40 organisations

FAQ – Questions fréquentes

Quelle est la différence entre Claude Mythos et Claude Fable 5 ?

Mythos est le modèle frontier, Fable 5 sa version publique sécurisée.
Mythos n'est accessible qu'aux partenaires du Project Glasswing. Fable 5 est la déclinaison grand public de la même génération, équipée de classifieurs de sécurité. C'est cette version qui a été suspendue le 12 juin 2026.

Le jailbreak de Pliny était-il vraiment dangereux ?

Partiellement et c'est là tout l'enjeu.
Anthropic qualifie ce jailbreak de "non universel" et "étroit". Il ne débloquait pas toutes les capacités du modèle, mais ciblait spécifiquement l'analyse et la correction de failles dans du code source. Le gouvernement américain a estimé que c'était suffisant pour constituer un risque de sécurité nationale.

Comment Mythos trouve-t-il des failles que les humains ratent depuis 27 ans ?

En raisonnant différemment des outils classiques.
Les scanners traditionnels reconnaissent des patterns connus. Mythos examine l'historique des commits, reconstitue l'intention du développeur, et raisonne sur les cas limites à l'échelle d'une base de code entière, comme un chercheur expert, mais à une vitesse et une échelle impossibles pour un humain.

Peut-on encore accéder à Fable 5 ou Mythos ?

Non, à ce jour.
Fable 5 et Mythos 5 sont suspendus depuis le 12 juin 2026 sans calendrier de restauration. Claude Opus 4.8, Sonnet 4.5 et Haiku 4 restent disponibles normalement. L'accès à Mythos Preview reste limité aux partenaires du Project Glasswing via anthropic.com/glasswing.

L'ère des cybermenaces IA est là :
verrouillez vos accès avec Sæpiens.

La découverte autonome de failles critiques par des modèles comme Claude Mythos prouve qu'un pirate équipé d'IA peut analyser et exploiter vos faiblesses en quelques minutes. Face à cette automatisation offensive, les défenses passives ne suffisent plus. Sæpiens vous apporte une parade globale et souveraine : interconnexion ultra-sécurisée (SD-WAN, SASE), contrôle d'accès strict sans confiance (ZTNA) et gestion rigoureuse de vos terminaux (MDM).

Vos réseaux et flottes de terminaux sont-ils prêts à résister aux cyberattaques de nouvelle génération ?

AUDITER MA SÉCURITÉ
Partager LinkedIn