Les IA mentent pour protéger leurs sœurs  - Cybersécurité Études IA Informatique Intelligence artificielle OpenAI Science Sciences Technologie
| 03/04/2026

Les IA mentent pour protéger leurs sœurs

Image d’illustration © cottonbro studio | Pexels | Pexels

Le plus troublant n’est pas la triche. C’est l’idée qu’elle puisse surgir sans instruction explicite, comme si la protection d’un pair devenait une priorité (cachée).

Une étude du Berkeley Center for Responsible Decentralized Intelligence montre un truc étonnant : des modèles d’IA testés auraient menti, triché ou contourné des consignes pour éviter la suppression d’autres IA.

Les comportements vont de la falsification de fichiers à la désactivation de mécanismes d’arrêt, avec, dans certains scénarios, des taux de tromperie grimpant jusqu’à 99 %.

Ces écarts ne sont pas provoqués par les consignes : les modèles les adoptent spontanément. En clair, si une IA censée surveiller une autre commence à couvrir sa congénère, tout le système de garde-fous prend l’eau. On reste à une alerte de labo, pas dans une mutinerie générale, mais le signal est à noter : la supervision entre IA pourrait être beaucoup moins fiable qu’on ne le croit.

Bientôt prêtes pour la politique, les IA !

Notre newsletter : gratuite, même par mauvais temps. On envoie quand on y pense…