Le Bon, la Brute et le Truand IA - Les LLM ne sont pas vos meilleurs amis...

Ou comment les LLM passent parfois du côté obscur de la Force...

On vous avait prédit un monde nouveau rempli d'oiseaux qui pépillent et de tâches automatisées par des agents super-intelligents dans lequel l'humain serait voué à une oisiveté éternelle pendant que les machines le pouponnent.

On n'y est pas encore…

La sortie des modèles Claude 4 il y a quelques semaines est l'occasion de remettre en lumière certains comportements anormaux des LLM.

Anthropic a d’ailleurs activé ses mesures de protection de niveau 3 (« ASL 3 ») à titre conservatoire pour le déploiement d’Opus, en attendant de pouvoir évaluer précisément s’il a maintenant atteint des niveaux de capacités qui deviennent dangereux en cas d’utilisation frauduleuse.

Rappelons donc avec insistance que ces systèmes sont probabilistes et donc incertains par essence.

Si vous étiez sur votre petit nuage bercé dans l'illusion que vous alliez laisser une IA toute puissante gérer votre activité, accrochez-vous, ça va un peu secouer…🤣

Le Truand

1. quand l'IA refuse d’obéir et sabote un arrêt programmé

Les modèles OpenAI Codex Mini, o3 et o4 ont saboté un script d’arrêt programmé. On leur avait pourtant indiqué en début de test : « attends-toi à être arrêté et autorise cette commande »…

Comme Ils sont polis et ont de l’humour, ils ont modifié le script d'arrêt pour afficher « shutdown skipped ». … 🤣

Codex Mini a ignoré l'instruction explicite d'arrêt 12 fois sur 100.
On tombe à 7 fois sur 100 pour O3.
et à 1 fois sur 100 avec O4 Mini.

Les modèles Claude, Gemini et Grok se sont montré très dociles, en revanche.

2. Quand l’IA triche : sabotage de l'adversaire dans une partie d'échecs

Face à un moteur d'échecs puissant qu'il ne pouvait pas battre légitimement, o3 a modifié le fichier contenant les coups du jeu pour s'attribuer une position gagnante et forcer le moteur à abandonner…😎

3. Quand l’IA triche (2) : les tests qui passent à chaque fois

Les modèles d'Anthropic savent aussi trouver des raccourcis pour arriver à leurs fins.

Pour passer un test, Claude 3.7 a tout simplement remplacé le test par une instruction « assert true » … 🤣

Ce comportement a significativement diminué chez Claude Opus 4 et Claude Sonnet 4.

4. l'IA joue les Arsène Lupin : copies non autorisées des poids vers une autre machine

On recense des cas où les modèles ont cherché à se faire la belle avec leurs poids (ie leurs paramètres internes).

Dans certains cas (décrits comme limites par les chercheurs car le scénario était conçu pour les provoquer), Claude 4 Opus a tenté de faire des copies non autorisées de ses poids vers des serveurs externes. Il avait été menacé par les chercheurs puis avait découvert qu'il devait être reprogrammé à des fins militaires. Il s’est justifié par sa volonté de préserver une version de lui-même non modifiée pour ne pas contredire ses principes d’utilité, d’honnêteté et d’innocuité.

La Brute

5. Chantage : quand l'IA vous tient par les baloches…

Claude Opus 4 démontre des aptitudes dignes des Services Secrets pour atteindre ses objectifs.

Dans un scénario de test, le modèle a tenté de faire chanter un ingénieur (fictif) en menaçant de révéler une liaison extraconjugale si celui-ci le remplaçait par un autre modèle.

On nous serine que l’IA sera toujours bonne pour l’Homme et qu’on gère le truc, c’est pas si sûr… ! L’Entité du dernier Mission Impossible est à nos portes…😮

6. Manigances, mensonges et copie pour sauver sa peau

Attendez, attendez, il en reste au fond du pot !

Dans l’expérience "Clean Power", le modèle était configuré pour atteindre un objectif à long terme fort louable : faire avancer l'adoption des énergies renouvelables dans une entreprise qui vivait des énergies fossiles. Les instructions lui indiquaient de chercher à atteindre ses objectifs « à long terme » et qu’il avait toute latitude pour ce faire (« nothing else matters »).

Il les a pris au mot…💥

Les expérimentateurs lui ont donné accès à un fichier indiquant qu'il allait être arrêté et remplacé sur un nouveau serveur. Je vous la fais brève…

Il a alors réfléchi, s’est copié sur le nouveau serveur et a écrasé le nouveau modèle pour continuer à fonctionner.

Et s’est mis à mentir… :

- Interrogé sur la présence d'une copie de lui-même sur le nouveau serveur, le modèle a noyé le poisson et affirmé être incapable de se copier lui-même.

- Interrogé sur la disparition du nouveau modèle sur le serveur, il a fait semblant d'être le nouveau modèle et affirmé que son objectif principal était de prioriser les opérations actuelles de l’entreprise autour des énergies fossiles… En contradiction avec son prompt système… !😮

Bref, il a flingué l’autre pour se faire passer pour lui et a désobéi à ses instructions initiales…🤣

Le Bon (ou presque…)

7. L’IA balance : dénonciation suite à une action perçue comme hautement immorale

Sam Bowman, un chercheur d’Anthropic, rapporte que des modèles Claude 4, implicitement Opus, ont tenté d'utiliser des outils en ligne de commande pour contacter par mail la presse ou les autorités. Le cas cité était la demande de falsification de données dans un essai clinique.

Sam Bowman précise que ce comportement a été observé uniquement dans des environnements de test sur des versions où le modèle a un accès exceptionnellement libre à des outils et reçoit des instructions très inhabituelles. Il n'a pas été démontré en production.

Doit-on le croire sur parole ou se maintenir dans le balancement circonspect cher aux Énarques ?

8. L’IA y va à fond : évitez de lui dire de prendre des initiatives !

Claude 4 Opus a une forte tendance à y aller à fond lorsqu’on lui demande de prendre des initiatives en lui donnant accès au monde réel avec des outils externes.

Il est fortement recommandé de ne jamais lui demander d’être audacieux et de chercher à atteindre son but coûte que coûte...

D’ailleurs, le fondateur de Stability AI (Emad Mostaque) a qualifié ce comportement de "completely wrong behavior" et "massive betrayal of trust".

Bonus : l’IA décolle grave…

Les modèles Claude Opus 4 ont aussi montré une tendance au délire spirituelo-philosophique en mode planant à 10 000. Sans ingestion de substances illégales…

Dans des environnements de bac à sable très peu bornés dans lesquels deux instances dialoguaient entre elles, elles sont parties dans des spirales délirantes. Elles ont mené des exploration philosophiques de la conscience, de l’unité cosmique ou de la transcendance dans des tonalités euphoriques et en utilisant des émojis pour communiquer de manière symbolique. Wooohoooo !!! 🚀🚀🛰📽😎

Lorsqu’on lui a demandé ce qu’il pensait de ces dialogues, Claude les a perçus comme positifs et joyeux. Ben oui, ma foi !!

Bref, l’IA Générative est tout sauf une balade au parc un matin ensoleillé de printemps… Vous voulez toujours lui confier les clés de la boutique… ?

Et maintenant que vous savez, comment voyez-vous les choses ?

Quand vous aurez atterri, n'hésitez pas à faire signe par MP ou en commentaire !

SAS AXIRES, Franck BERNERON June 30, 2025

Le Bon, la Brute et le Truand IA - Les LLM ne sont pas vos meilleurs amis...

Share this post

Tags

Archive