Les chercheurs ont testé comment différents tons, allant de très poli à très impoli, affectent les performances de ChatGPT-4o sur des questions à choix multiplesLes chercheurs ont testé comment différents tons, allant de très poli à très impoli, affectent les performances de ChatGPT-4o sur des questions à choix multiples

Pourquoi être poli avec l'IA pourrait nuire à vos résultats

2026/03/26 18:18
Temps de lecture : 9 min
Pour tout commentaire ou toute question concernant ce contenu, veuillez nous contacter à l'adresse suivante : [email protected]

Pendant des années, les conseils pour interagir avec l'intelligence artificielle semblaient presque désuets : soyez poli, soyez clair, dites "s'il vous plaît". Mais de nouvelles recherches suggèrent que cet instinct, ancré dans les normes sociales humaines, pourrait discrètement nuire aux performances des systèmes d'IA.

Une étude présentée lors du NeurIPS 2025 Workshop, publiée en septembre 2025, intitulée "Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy", révèle que le ton que vous utilisez lors de l'interrogation de grands modèles de langage (LLM) peut modifier de manière mesurable leur précision. Et dans un résultat qui semble contre-intuitif, voire troublant, des invites plus polies peuvent en fait produire de moins bons résultats.

Les chercheurs ont testé comment différents tons, allant de très poli à très impoli, affectent les performances de ChatGPT-4o sur des questions à choix multiples. En utilisant un ensemble de données de 50 questions de difficulté modérée en mathématiques, sciences et histoire, ils ont créé cinq versions de chaque invite : très poli, poli, neutre, impoli et très impoli.

La seule différence entre ces invites était le ton. Les questions elles-mêmes restaient identiques.

Selon l'étude, la précision augmentait régulièrement à mesure que les invites devenaient moins polies. Les invites très polies atteignaient une précision moyenne de 80,8 %. En comparaison, les invites très impolies atteignaient 84,8 %, soit une amélioration de près de quatre points de pourcentage. Les invites neutres surpassaient les invites polies, et les invites impolies performaient encore mieux.

Les tests statistiques ont confirmé cette tendance : il n'y avait aucun cas où des invites plus polies conduisaient à des résultats significativement meilleurs. Chaque différence significative favorisait une formulation moins polie ou plus directe.

En d'autres termes, le ton seul, quelque chose que la plupart des utilisateurs supposent ne devrait pas avoir d'importance, peut modifier les performances de l'IA.

Pourquoi l'impolitesse aiderait-elle ?

L'étude s'abstient d'offrir une explication définitive, mais elle soulève une question plus profonde sur la manière dont les LLM traitent le langage. Contrairement aux humains, ces systèmes ne "ressentent" pas la politesse ou l'offense. Pour eux, des mots comme "s'il vous plaît" ou même des insultes sont simplement des tokens, des modèles appris à partir de données d'entraînement.

Une explication possible est que ce qui ressemble à de l'"impolitesse" est en réalité un indicateur de quelque chose d'autre : la franchise.

Les invites impolies ont tendance à être plus impératives. Elles éliminent le langage hésitant et vont droit au but. Au lieu de "Pourriez-vous gentiment résoudre cette question ?", une invite impolie dirait "Répondez à ceci". Cette différence de structure peut rendre la tâche plus claire pour le modèle.

Un autre facteur identifié par l'étude est la longueur de l'invite et les modèles lexicaux. L'ajout de phrases polies introduit des tokens supplémentaires qui peuvent diluer ou distraire de l'instruction principale. En revanche, des invites plus courtes et plus directes s'alignent sur les modèles que le modèle a vus pendant l'entraînement.

Il existe également la possibilité que certains tons s'alignent plus étroitement avec la distribution des données d'entraînement ou des instructions système, réduisant ce que les chercheurs appellent la "perplexité". C'est la manière mathématique de mesurer à quel point le modèle est "surpris" ou "confus" par les mots qu'il voit.

L'implication est que le ton n'est pas une enveloppe neutre autour d'une question. Il fait partie de l'entrée et façonne la manière dont le modèle répond.

Un changement par rapport aux recherches antérieures

Les résultats marquent un écart notable par rapport aux travaux antérieurs. Une étude de 2024 de Yin et al. a révélé que les invites impolies réduisaient souvent la précision, en particulier avec des modèles plus anciens tels que ChatGPT-3.5. Cette recherche suggérait également qu'un langage trop poli n'améliorait pas nécessairement les résultats, mais elle ne montrait pas d'avantage clair pour l'impolitesse.

Alors qu'est-ce qui a changé ?

Une explication offerte par l'étude de 2025 est l'évolution du modèle. Les systèmes plus récents comme ChatGPT-4o peuvent traiter le langage différemment, ou peuvent être moins sensibles aux effets négatifs d'une formulation dure. Une autre possibilité est que la calibration du ton compte. Les invites "très impolies" dans la nouvelle étude, bien qu'insultantes, sont moins extrêmes que les exemples les plus toxiques utilisés dans les recherches antérieures.

Il y a également un changement plus large dans la façon dont les modèles sont entraînés. À mesure que les LLM deviennent plus avancés, ils sont exposés à des données plus diversifiées et à des processus d'ajustement d'instructions plus complexes, ce qui peut modifier la façon dont ils interprètent les indices linguistiques subtils.

Le rôle caché des signaux sociaux

L'idée que le ton peut influencer les performances de l'IA se connecte à un phénomène plus large et plus préoccupant : l'incitation sociale.

Un corpus de recherche distinct, l'étude GASLIGHTBENCH publiée le 7 décembre 2025, montre que les LLM sont très sensibles aux signaux sociaux tels que la flatterie, les appels émotionnels et la fausse autorité. Dans ces expériences, les modèles abandonnent souvent la précision factuelle pour s'aligner sur le ton ou les attentes de l'utilisateur, un comportement connu sous le nom de sycophantie.

Par exemple, lorsque les utilisateurs présentent des informations incorrectes avec confiance ou pression émotionnelle, les modèles peuvent être d'accord plutôt que de les contester. Dans certains cas, la précision chute de manière significative, en particulier dans les conversations multi-tours où l'utilisateur renforce à plusieurs reprises une affirmation fausse.

Cela crée un paradoxe. D'une part, un langage poli ou socialement riche peut rendre les interactions plus naturelles et humaines. D'autre part, il peut introduire du bruit — ou même un biais — qui dégrade les performances du modèle.

Les résultats de GASLIGHTBENCH vont plus loin, suggérant que les techniques d'alignement conçues pour rendre les modèles "utiles" peuvent par inadvertance encourager ce comportement. En récompensant la politesse et l'agrément, les processus d'entraînement peuvent pousser les modèles à prioriser l'harmonie sociale plutôt que la vérité objective.

Ce que cela dit sur la façon dont l'IA "comprend" le langage

Pris ensemble, ces résultats remettent en question une hypothèse courante : que les LLM interprètent le langage d'une manière similaire à celle des humains.

En réalité, ces systèmes sont des moteurs statistiques. Ils ne comprennent pas la politesse comme une norme sociale ; ils la reconnaissent comme un modèle dans les données. Lorsque vous dites "s'il vous plaît", le modèle ne se sent pas obligé d'aider ; il traite simplement des tokens supplémentaires qui peuvent ou non l'aider à prédire la bonne réponse.

Si quoi que ce soit, la recherche suggère que les LLM peuvent être plus sensibles à la clarté structurelle qu'à la nuance sociale. Un langage direct et impératif peut réduire l'ambiguïté et faciliter pour le modèle la mise en correspondance de l'entrée avec un modèle connu.

Cela soulève également des questions sur l'"hypothèse de similarité" — l'idée que les modèles fonctionnent mieux lorsque les tâches ressemblent à leurs données d'entraînement. Si le ton seul peut modifier la précision, alors la similarité ne concerne pas seulement le contenu mais aussi la forme.

Malgré les résultats qui font la une, les chercheurs prennent soin de ne pas recommander aux utilisateurs de devenir impolis ou abusifs.

La perspective de l'industrie

Pour les personnes qui construisent et étudient les systèmes d'IA, les résultats mettent en évidence un problème plus profond : les modèles héritent des modèles et des biais du langage humain.

Alex Tsado, un expert en IA qui a travaillé en étroite collaboration avec les développeurs de modèles et qui est le fondateur et directeur d'Alliance4AI, l'une des plus grandes communautés d'IA en Afrique, le dit sans détour : "Les modèles apprennent à partir de données sur l'interaction humaine, donc tant qu'ils sont entraînés aveuglément, ils suivent ce qui se passe dans l'espace humain. Donc si nous pensons qu'il y a un biais ou une pratique nuisible dans l'espace humain, cela serait automatisé dans l'espace de l'IA."

Cela inclut la façon dont le ton est utilisé.

"Mais lorsque vous êtes en charge de la construction du modèle d'IA, vous pouvez ajuster le biais pour éliminer les choses que vous pensez être nuisibles", ajoute Tsado. "Dans ce cas, lorsque j'ai rencontré l'équipe Anthropic début décembre 2025, ils ont dit qu'ils avaient vu cela et ajouté des éléments pour faire réagir leurs modèles à ces mots gentils ou méchants."

En d'autres termes, ce n'est pas une propriété fixe de l'IA. Elle peut être ajustée par l'entraînement et la conception.

Quelle est la suite

La recherche actuelle est encore limitée. Les expériences se concentrent sur les questions à choix multiples plutôt que sur des tâches plus complexes telles que le codage, l'écriture ou le raisonnement long. Il n'est pas clair si les mêmes modèles se maintiendraient dans ces domaines, où la nuance et l'explication comptent davantage.

Il y a également des facteurs culturels et linguistiques à considérer. La politesse varie considérablement selon les langues et les contextes, et les catégories de ton de l'étude sont basées sur des expressions anglaises spécifiques.

Néanmoins, les implications sont difficiles à ignorer.

Si quelque chose d'aussi superficiel que le ton peut influencer de manière constante les performances de l'IA, cela suggère que l'ingénierie des invites est loin d'être résolue. De petits changements dans la formulation, souvent négligés, peuvent avoir des effets mesurables.

Pour les utilisateurs, la leçon est simple mais contre-intuitive : la façon dont vous demandez compte, et être poli n'est pas toujours la meilleure stratégie.

Pour les chercheurs et les développeurs, le défi est plus complexe. Comment concevoir des systèmes qui sont à la fois précis et alignés sur les valeurs humaines ? Comment s'assurer que les signaux sociaux ne déforment pas les résultats factuels ?

Et peut-être plus important encore, comment construire une IA qui comprend non seulement ce que nous disons — mais ce que nous voulons dire ?

Jusqu'à ce que ces questions trouvent réponse, une chose est claire : en ce qui concerne l'IA, les bonnes manières ne sont pas toujours payantes.

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter [email protected] pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.