86 % des étudiants utilisent l'IA générative. Les outils de détection ne fonctionnent pas. Et si le vrai problème n'était pas la triche, mais ce que nos évaluations mesurent réellement ? Recherche, données et pistes concrètes.

En 2024, une enquête mondiale révèle que 86 % des étudiants utilisent l'IA générative dans leurs études. En France, 85 % des 18-24 ans l'utilisent, contre 68 % un an plus tôt. Et chez les lycéens américains, le chiffre atteint 84 %, dont 69 % utilisent spécifiquement ChatGPT. Pendant ce temps, les outils de détection censés identifier ces usages classent à tort plus de 61 % des textes d'étudiants non-anglophones comme « générés par IA ».

Face à cette vague, la réaction instinctive est la surveillance : détecter, sanctionner, interdire. Mais un siècle de recherche en sciences de l'éducation suggère une autre lecture. Et si le problème n'était pas que les élèves utilisent l'IA, mais que nos évaluations mesurent exactement ce que l'IA sait faire, et passent à côté de ce qu'elle ne sait pas faire ?

L'ampleur du phénomène : des chiffres qui donnent le vertige

Commençons par mesurer. L'usage de l'IA générative par les élèves n'est pas un phénomène marginal. Il est massif, en croissance rapide, et concerne tous les niveaux.

Source	Population	Usage IA
Digital Education Council (2024)	3 839 étudiants, 16 pays	86 % utilisent l'IA dans leurs études
College Board (mai 2025)	Lycéens américains	84 % pour le travail scolaire
Pew Research (janv. 2025)	1 391 ados américains (13-17 ans)	26 % utilisent ChatGPT pour les devoirs (×2 en un an)
Baromètre IFOP/Talan (mars 2025)	1 100 Français	85 % des 18-24 ans (contre 68 % en 2024)
Diplomeo / Univ. de Caen	Étudiants français en licence	70 % utilisent ChatGPT comme soutien scolaire

Sources : Digital Education Council, Global AI Student Survey 2024 ; College Board, mai 2025 ; Pew Research Center, janv. 2025 ; IFOP/Talan, mars 2025 ; Diplomeo.

Deux chiffres frappent. D'abord, la vitesse : l'usage a doublé en un an chez les adolescents américains (Pew Research). Ensuite, le décalage générationnel : 85 % des 18-24 ans français utilisent l'IA, contre 31 % des plus de 35 ans (IFOP/Talan). Les élèves vivent déjà dans un monde où l'IA est un outil quotidien. Leurs enseignants, pour la plupart, n'y sont pas encore.

Une étude de l'INSERM et de l'Université Côte d'Azur (2025) identifie trois profils d'élèves face à l'IA : les « engagés et réfléchis » qui l'intègrent dans un processus d'apprentissage, les « occasionnels et respectueux des règles », et les « opportunistes » qui l'utilisent pour obtenir des réponses immédiates. Le risque documenté : le cognitive offloading, la délégation cognitive à la machine.

Source : INSERM, Quel est l'impact de l'IA sur l'éducation ?, 2025.

Détecter la triche : la fausse bonne idée

Face à cette réalité, la première réponse a été de développer des outils de détection. Turnitin, GPTZero, Compilatio ont proposé des solutions. Mais la recherche est catégorique : ces outils ne fonctionnent pas.

En 2023, Weber-Wulff et ses collègues ont testé 14 détecteurs d'IA dans une étude publiée dans l'International Journal for Educational Integrity. Résultat : aucun n'a atteint 80 % de précision, et seulement 5 dépassaient 70 %. Pire, les outils présentent un biais systématique : ils tendent à classer les textes IA comme humains, et les techniques d'obfuscation les plus simples (reformulation, enrichissement lexical) suffisent à les tromper.

Source : Weber-Wulff, D., et al. (2023). "Testing of detection tools for AI-generated text." Int. Journal for Educational Integrity.

Mais le problème le plus grave n'est pas le taux de détection. C'est le taux de faux positifs. En 2023, une étude de Stanford publiée dans Patterns (Cell Press) a soumis des essais TOEFL à plusieurs détecteurs. Résultat : plus de 61 % des textes écrits par des auteurs non-anglophones étaient faussement classifiés comme « générés par IA ». Un détecteur en a signalé 98 %.

La cause est structurelle : les étudiants non-natifs utilisent des structures grammaticales plus simples et un vocabulaire plus restreint, exactement les mêmes caractéristiques que les modèles de langage. En enrichissant simplement le vocabulaire des essais, le taux de faux positifs chutait de 61,3 % à 11,6 %.

Source : Liang, W., et al. (2023). "GPT detectors are biased against non-native English writers." Patterns (Cell Press).

Les conséquences ne sont pas abstraites. The Markup a documenté des cas d'étudiants internationaux faussement accusés de triche sur la base de ces outils. L'Université de Brandeis a publié une analyse montrant que les étudiants neurodivergents et les locuteurs non-natifs sont signalés plus souvent. L'UC Berkeley D-Lab estime que les taux de faux positifs sont 3 fois plus élevés pour les écrivains non-natifs.

Sciences Po, parmi les premières institutions françaises à prendre position, a officiellement reconnu que les plateformes de détection sont « inefficaces » en raison des faux positifs et des faux négatifs, tout en interdisant l'usage de l'IA pour les productions évaluées.

Sources : The Markup, 2023 ; UC Berkeley D-Lab ; Sciences Po, Doctrine IA.

La détection est une impasse. Non seulement elle ne fonctionne pas sur le plan technique, mais elle introduit des injustices nouvelles qui frappent précisément les élèves les plus vulnérables.

Le vrai problème : nos évaluations mesurent ce que l'IA sait faire

Si ChatGPT peut répondre à un devoir, ce n'est pas (seulement) parce que ChatGPT est puissant. C'est aussi parce que le devoir ne demandait que ce qu'une machine peut produire : restituer des connaissances, résumer un texte, structurer une argumentation standard.

La taxonomie de Bloom, cadre de référence depuis 1956, hiérarchise les compétences cognitives en six niveaux : mémoriser, comprendre, appliquer, analyser, évaluer, créer. Une étude publiée dans PMC (2022) a analysé des examens de fin de primaire : 98,8 % des questions testaient les niveaux bas (mémorisation et compréhension). Seulement 1,2 % ciblaient l'analyse, l'évaluation ou la création.

Source : PMC, Using Bloom's taxonomy to evaluate cognitive levels of exam questions, 2022.

En 2024, Gonsalves (King's College London) a formalisé cette intuition dans le Journal of Marketing Education : l'IA générative produit facilement du contenu pour les niveaux bas de Bloom (mémoriser, comprendre, appliquer), mais les tâches de haut niveau (analyser, évaluer, créer) lui résistent significativement. En d'autres termes, les exercices que l'IA réussit le mieux sont ceux qui testent le moins la pensée réelle de l'élève.

Source : Gonsalves (2024). "Generative AI's Impact on Critical Thinking: Revisiting Bloom's Taxonomy." Journal of Marketing Education (SAGE).

C'est ce que Marton et Säljö avaient déjà mis en évidence en 1976 dans leurs travaux fondateurs sur l'apprentissage en surface (surface learning) versus en profondeur (deep learning) : les examens qui récompensent la restitution fidèle encouragent une approche superficielle, les étudiants n'apprenant que ce qui est nécessaire pour passer le test, sans compréhension réelle. ChatGPT est, en quelque sorte, l'incarnation parfaite du surface learning : il produit des réponses plausibles sans rien comprendre.

En France, les données PISA 2022 montrent que les élèves français sont dans la moyenne de l'OCDE en pensée créative, avec des scores en mathématiques et en compréhension de l'écrit en baisse continue depuis 2000 (-21 et -19 points respectivement par rapport à 2018). Un système qui teste principalement la restitution produit des élèves qui restituent, mais qui peinent à transférer, contextualiser ou créer.

Source : Ministère de l'Éducation nationale, PISA 2022 en pensée créative.

L'Université d'Édimbourg a poussé le raisonnement jusqu'au bout. À l'été 2024, elle a fait analyser 380 évaluations de licence : 42 % étaient très vulnérables à la complétion par IA et nécessitaient un redesign immédiat. Seulement 21 % démontraient une résilience face à l'IA. Leur conclusion n'a pas été de renforcer la surveillance, mais de repenser les évaluations.

Source citée dans : Frontiers in Education, AI-resistant assessments in higher education, 2024.

Ce que la recherche dit depuis 40 ans : c'est le feedback qui compte

Si les notes ne mesurent pas ce qu'on croit (comme la docimologie le démontre depuis un siècle) et si les évaluations testent principalement ce que l'IA sait faire, alors que faudrait-il mesurer ?

La réponse de la recherche est convergente : ce qui fait progresser un élève, ce n'est pas la note. C'est le feedback.

En 1988, Ruth Butler publie une étude devenue classique. Douze classes de CM2-6e sont réparties en trois groupes : le premier reçoit uniquement des notes chiffrées, le deuxième uniquement des commentaires personnalisés, le troisième reçoit les deux. Résultat : l'intérêt et la performance sont les plus élevés dans le groupe « commentaires seuls ». Et le résultat le plus contre-intuitif : le groupe « notes + commentaires » ne fait pas mieux que le groupe « notes seules ». Quand une note accompagne un commentaire, l'élève ne lit que la note.

Source : Butler, R. (1988). "Enhancing and Undermining Intrinsic Motivation." British Journal of Educational Psychology.

Dix ans plus tard, Black et Wiliam (1998) agrègent plus de 250 études sur l'évaluation formative dans leur article de référence Inside the Black Box. Leur conclusion : l'évaluation formative produit des tailles d'effet de 0,4 à 0,7, parmi les plus grands effets jamais mesurés en éducation. Et elle est particulièrement efficace pour les élèves en difficulté : elle réduit l'écart entre les plus faibles et les plus forts.

Source : Black, P., & Wiliam, D. (1998). "Inside the Black Box." Phi Delta Kappan.

John Hattie, dans Visible Learning (2008), synthétise 800+ méta-analyses couvrant des millions d'élèves. Le feedback obtient une taille d'effet de 0,73, soit le top 10 des facteurs influençant la réussite scolaire, bien au-dessus de la moyenne de 0,40.

Mais attention : tout feedback n'est pas efficace. Kluger et DeNisi (1996) ont agrégé 607 tailles d'effet et découvert que 38 % des interventions de feedback diminuent la performance. La clé : le feedback centré sur la personne (« Tu es bon/mauvais ») produit des effets négatifs. Le feedback centré sur la tâche (« Ton raisonnement est juste jusqu'à l'étape 3, mais tu confonds ensuite force et énergie ») produit des effets positifs.

Sources : Hattie, J. (2008). Visible Learning ; Kluger, A., & DeNisi, A. (1996). "The effects of feedback interventions on performance." Psychological Bulletin.

Wisniewski, Zierer et Hattie (2020) confirment dans une méta-analyse de 435 études (N > 61 000) : l'effet moyen du feedback est de d = 0,48, mais avec une hétérogénéité massive. L'éloge, la punition et les récompenses ont des effets faibles. Le feedback correctif spécifique a les effets les plus forts.

Source : Wisniewski, B., Zierer, K., & Hattie, J. (2020). "The Power of Feedback Revisited." Frontiers in Psychology.

La conclusion est limpide. Ce qui aide un élève à progresser, ce n'est pas un chiffre sur 20. C'est un commentaire précis, centré sur la tâche, qui lui dit où il en est et comment avancer. C'est pourquoi le barème explicite est le prérequis d'un bon feedback : sans critères clairs, impossible de formuler un retour actionnable. Et c'est exactement ce que la plupart des enseignants n'ont pas le temps de faire sur 35 copies.

Le vrai défi : du feedback de qualité, à l'échelle

Voici le paradoxe. La recherche dit : donnez du feedback individualisé, précis, centré sur la tâche. La réalité dit : vous avez 35 copies, 16 heures par semaine de correction, et 4 autres classes qui attendent. Rédiger 10 lignes de commentaire personnalisé par copie, c'est plusieurs heures de travail supplémentaire sur un paquet déjà chronophage.

C'est là que l'IA peut changer la donne, non pas en détectant la triche, mais en aidant à produire ce que la recherche recommande depuis 40 ans.

Wang et al. (2026) ont publié dans le Journal of Educational Computing Research une méta-analyse sur le feedback personnalisé par IA. Résultat : un effet modéré sur les résultats d'apprentissage (g = 0,58) et un effet fort sur la motivation (g = 0,82). Quand les élèves reçoivent un retour détaillé et rapide, ils s'engagent davantage.

Source : Wang, et al. (2026). "The Effectiveness of AI-Supported Personalized Feedback." Journal of Educational Computing Research (SAGE).

Un outil d'assistance à la correction ne remplace pas le jugement de l'enseignant. Il produit une première lecture structurée : critère par critère, le barème est appliqué, les points forts et les lacunes sont identifiés, un commentaire de retour est ébauché. L'enseignant reprend ensuite la main pour valider, nuancer, contextualiser. Le résultat : un feedback plus riche, produit en moins de temps, que ni l'enseignant ni l'outil n'aurait pu fournir seul.

C'est aussi, incidemment, la meilleure réponse à la triche. Un élève qui reçoit un retour précis de type « Ton explication du cycle cellulaire est correcte mais tu confonds la méiose I et la méiose II au niveau de la séparation des chromatides » ne peut pas tricher par IA pour la prochaine évaluation : il sait exactement ce qu'on attend de lui, pas d'une machine.

Ce que disent les institutions

Le cadre d'usage de l'IA en éducation publié par le ministère de l'Éducation nationale en juin 2025 est explicite : les enseignants peuvent utiliser l'IA pour « concevoir des évaluations, adapter les contenus, corriger et donner du feedback personnalisé ». L'utilisation par les élèves sans autorisation explicite constitue une fraude. Mais la direction est claire : l'IA est un outil pour l'enseignant, pas contre l'élève.

Source : Ministère de l'Éducation nationale, Cadre d'usage de l'IA en éducation, juin 2025.

Le rapport du Sénat sur l'IA et l'éducation (octobre 2024) recommande trois axes : accompagner les enseignants avec un cadre d'usage et un accès facilité aux outils, former massivement à une culture citoyenne de l'IA, et évaluer indépendamment les technologies déployées en milieu scolaire.

Source : Sénat, Rapport IA et éducation, oct. 2024.

À l'échelle internationale, l'UNESCO a publié en 2023 le premier cadre mondial sur l'IA générative en éducation, appelant à « réfléchir aux implications à long terme sur l'enseignement, l'apprentissage et l'évaluation ». L'OCDE, en mai 2025, pose directement la question : « Que devraient enseigner les enseignants et apprendre les élèves dans un futur d'IA puissante ? »

Sources : UNESCO, Guidance for generative AI in education, 2023 ; OCDE, mai 2025.

La question n'est plus de savoir si l'IA va transformer l'évaluation. Elle l'a déjà fait, par l'usage massif qu'en font les élèves. La question est : les enseignants auront-ils les outils pour répondre ?

Le fond du problème : évaluer ce qui compte

Revenons à la question initiale. Vos élèves utilisent ChatGPT. Que faire ?

La mauvaise réponse : installer un détecteur, sanctionner, interdire. Les outils ne fonctionnent pas (Weber-Wulff, 2023), ils discriminent les plus vulnérables (Liang, 2023), et même s'ils fonctionnaient, ils ne feraient que déplacer le problème vers des techniques d'obfuscation plus sophistiquées.

La bonne réponse est plus ambitieuse. Elle consiste à repenser ce qu'on évalue pour cibler ce que l'IA ne sait pas faire : analyser un contexte réel, évaluer la pertinence d'une source, créer un raisonnement original, défendre une position face à un contradicteur. Et surtout, remplacer la note brute par un feedback formatif qui dit à chaque élève ce qu'il sait, ce qu'il ne sait pas encore, et comment progresser.

C'est un changement de paradigme. Mais ce n'est pas un changement utopique : c'est ce que la recherche en éducation recommande depuis Butler (1988), Black et Wiliam (1998) et Hattie (2008). L'IA n'a pas créé ce besoin. Elle l'a rendu urgent.

Pour aller plus loin

Weber-Wulff, D., et al. (2023). Testing of detection tools for AI-generated text, Int. Journal for Educational Integrity
Liang, W., et al. (2023). GPT detectors are biased against non-native English writers, Patterns (Cell Press)
Butler, R. (1988). Enhancing and Undermining Intrinsic Motivation, BJEP
Black, P., & Wiliam, D. (1998). Inside the Black Box, Phi Delta Kappan
Hattie, J. (2008). Visible Learning, Routledge
Wisniewski, B., Zierer, K., & Hattie, J. (2020). The Power of Feedback Revisited, Frontiers in Psychology
Kluger, A., & DeNisi, A. (1996). The effects of feedback interventions on performance, Psychological Bulletin
Gonsalves (2024). Generative AI's Impact on Critical Thinking: Revisiting Bloom's Taxonomy, SAGE
Wang, et al. (2026). AI-Supported Personalized Feedback, J. of Educational Computing Research
INSERM, Impact de l'IA sur l'éducation, 2025
Ministère de l'Éducation nationale, Cadre d'usage de l'IA, 2025
Sénat, Rapport IA et éducation, 2024
UNESCO, Guidance for generative AI in education, 2023
OCDE, What should teachers teach in a future of powerful AI, 2025
Sciences Po, Doctrine IA

Pour aller plus loin, découvrez comment l'évaluation par compétences transforme la note en véritable levier d'apprentissage, et comment les parcours de remédiation prolongent la correction en progression individuelle.

Vous utilisez déjà EvalIA ? Testez la correction assistée : uploadez un sujet, générez un barème critérié et comparez l'analyse IA avec votre propre évaluation. Le feedback détaillé par compétence est ce que vos élèves lisent vraiment.

Vos élèves utilisent ChatGPT. Voici pourquoi ce n'est pas le vrai problème.