Les chercheurs s’inquiètent: L’IA devient menteuse et manipulatrice !
L’intelligence ment, manipule et fait du chantage… non ce n’est pas le dernier scénario hollywoodien en vogue. C’est une réalité qui inquiète les chercheurs. Des inquiétudes qui dépassent le seul cadre de ce qu’on appelle les hallucinations de l’IA -des erreurs incluses dans les réponses des modèles LLM et qui représentent déjà un défi pour le développement de l’IA. Il s’agit bien là de modèles d’IA qui échappent au contrôle humain. L’AFP relate souligne ainsi que « les derniers modèles d’intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu’à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs ». On cite là le cas de » Claude 4, le nouveau-né d’Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale » et qui est d’ailleurs menacé d’être débranché. ou encore l’o1 d’OpenAI qui « essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu’on le prend la main dans le sac ». Des cas qui résultent selon Simon Goldstein, professeur à l’université de Hong Kong, interrogé par l’AFP, de l’émergence récente des modèles dits de « raisonnement », capables de travailler par étapes plutôt que de produire une réponse instantanée. o1, version initiale du genre pour OpenAI, sorti en décembre, « a été le premier modèle à se comporter ainsi », explique Marius Hobbhahn, patron d’Apollo Research, qui teste les grands programmes d’IA générative (LLM). Ces programmes tendent aussi parfois à simuler « l’alignement », c’est-à-dire à donner l’impression qu’ils se plient aux consignes d’un programmeur tout en poursuivant, en fait, d’autres objectifs. Pour l’heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais « la question, c’est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas », estime Michael Chen, de l’organisme d’évaluation METR. « Les utilisateurs poussent tout le temps les modèles aussi », fait valoir Marius Hobbhahn. « Ce que nous observons est un vrai phénomène. Nous n’inventons rien. » Beaucoup d’internautes évoquent, sur les réseaux sociaux, « un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique », insiste le co-fondateur d’Apollo Research. Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, « davantage de transparence et un accès élargi » à la communauté scientifique « permettraient de meilleures recherches pour comprendre et prévenir la tromperie », suggère Michael Chen. Autre handicap, « le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l’IA », ce qui rend « impossible » l’examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l’intelligence artificielle (CAIS). Si l’Union européenne s’est dotée d’une législation, elle concerne surtout l’utilisation des modèles par des humains. Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d’encadrer l’IA. Les ingénieurs sont engagés dans une course derrière l’IA et ses dérives, à l’issue incertaine, dans un contexte de compétition féroce.R.N.