Ce que la recherche dit de l'IA en éducation, et ce que cela implique pour EvalIA
La conférence du CSEN « Quels usages de l'IA en éducation ? » a réuni chercheurs et praticiens autour de questions fondamentales. Nous avons croisé leurs recommandations avec les études récentes et notre propre pratique. Voici une analyse honnête : ce qui s'aligne, ce qui manque, et ce que nous devons améliorer.
Le 27 mars 2026, le Conseil Scientifique de l'Éducation Nationale (CSEN) a organisé une conférence internationale intitulée « Quels usages de l'IA en éducation ? ». Huit interventions, des chercheurs de premier plan (Stanislas Dehaene, Pierre-Yves Oudeyer, Roger Azevedo, Amel Yessad, Stéphane Mallat, Jean-Gabriel Ganascia), des praticiens, la Direction du Numérique pour l'Éducation et l'Inspection générale. Nous avons regardé et transcrit l'intégralité.
Ce qui suit n'est pas un résumé de la conférence, ni un exercice d'auto-promotion. C'est une mise en regard honnête entre ce que disent les chercheurs, ce que montrent les études récentes, et ce que nous faisons concrètement avec EvalIA, dans toutes ses dimensions : correction, création de ressources, exercices interactifs, plans de travail, remédiation, portfolio élève, chatbots, adaptation inclusive. Avec les alignements et les écarts.
Première partie : ce que dit la recherche
L'effort cognitif de l'élève ne se délègue pas
C'est le fil rouge de la conférence. Stanislas Dehaene ouvre en avertissant que l'IA risque d'abolir « l'effort, l'incertitude féconde, le temps long de la compréhension ». Roger Azevedo (Université de Floride Centrale) détaille ce qu'il appelle les « illusions d'apprentissage » : illusion de confiance, illusion d'effort, illusion de compréhension. L'élève qui utilise ChatGPT pour rédiger un travail ne lutte plus, ne surveille plus sa propre compréhension, ne s'évalue plus. Il croit savoir parce que l'IA a produit quelque chose de correct.
Les données récentes confirment cette inquiétude. Une revue systématique publiée dans npj Science of Learning (2025) montre que l'utilisation régulière de systèmes de dialogue IA est associée à un déclin des capacités cognitives, une rétention d'information diminuée et une tendance accrue au « cognitive offloading ».
La métacognition est le vrai levier
Si un mot revient dans les huit interventions, c'est celui-ci. La métacognition, la capacité de l'élève à savoir ce qu'il sait et ce qu'il ne sait pas, à surveiller sa propre compréhension. Pierre-Yves Oudeyer (INRIA) montre que le progrès en apprentissage, mesuré par l'élève lui-même, active les circuits de la récompense dans le cerveau. Amel Yessad (Sorbonne Université) la place parmi les « variables latentes » que les systèmes doivent inférer pour adapter le parcours.
Azevedo va plus loin. Il identifie six processus métacognitifs (prise de conscience, monitoring, régulation, évaluation, réflexion, adaptativité) et constate que la formation des enseignants ne les aborde quasiment pas. Une étude publiée dans Frontiers in Education (2025) propose le concept de « miroir cognitif » : l'IA comme outil qui renvoie à l'apprenant une image de ses propres processus de pensée. Et une recherche récente montre que l'ajout d'exigences métacognitives au feedback IA a plus d'impact sur l'apprentissage que le contenu même du feedback.
Le tutorat hybride surpasse les deux approches isolées
Yessad présente des résultats sur trois collèges défavorisés : le tutorat hybride (IA qui personnalise le parcours + intervention ponctuelle d'un tuteur humain) améliore considérablement les performances, surtout des élèves fragiles. Oudeyer confirme avec ses propres données. Un essai randomisé contrôlé publié dans Scientific Reports (2025) montre que les étudiants apprennent significativement plus en moins de temps avec un tuteur IA qu'avec un apprentissage actif traditionnel, tout en se sentant plus engagés et motivés.
Mais Oudeyer nuance immédiatement : « les outils IA doivent être utilisés pour de la remédiation et du complément, pas comme le cœur de l'enseignement ». Et une méta-analyse compilant 51 études rappelle que seuls 20 % des effets mesurés proviennent d'implémentations de plus de six mois.
L'évaluation doit être repensée
Margarida Romero (INRIA) explique que les temps de recrutement de son master ont été multipliés par sept pour garantir une évaluation juste à l'ère de l'IA. Pas grâce à l'IA : par davantage d'investissement humain.
Franck Sylvestre (Université Toulouse 3) apporte la donnée la plus directement pertinente : dans son projet, les enseignants utilisent environ 60 % des suggestions de feedback IA, mais en retouchent 80 %. Les 20 % restants, validés sans modification, constituent ce qu'il appelle une « ligne rouge ».
La charge de travail enseignante : un sujet qui fâche
La conférence est honnête. Romero : « ça exige encore plus de temps ». Sylvestre : « pas de données sourcées pour dire qu'on gagne du temps ». Et pourtant, une étude Gallup/Walton Family Foundation (2025) montre que les enseignants utilisant l'IA chaque semaine économisent en moyenne 5,9 heures hebdomadaires. Et une revue systématique montre que 89,7 % des étudiants déclarent que le feedback immédiat améliore leur performance. Le paradoxe se résout peut-être ainsi : l'IA ne fait pas gagner du temps sur les mêmes tâches. Elle libère du temps sur le fastidieux (correction, mise en page) pour en investir davantage dans le pédagogique (différenciation, relation).
La protection des données : le point aveugle de la conférence
Florence Biot (DNE) recommande de « ne jamais saisir de copies d'élèves dans les outils IA grand public ». Mais la conférence dit étonnamment peu de choses en pratique sur le RGPD, le chiffrement ou l'anonymisation. C'est un point aveugle notable, alors que l'EU AI Act (2024) classe l'IA éducative comme « à haut risque » et que le CEPD (2025) a publié de nouvelles orientations sur la conformité RGPD des systèmes d'IA.
Deuxième partie : EvalIA face à ces recommandations
EvalIA n'est pas un outil de correction. C'est un écosystème pédagogique qui couvre sept dimensions du métier d'enseignant. Chacune doit être évaluée séparément au regard des recommandations.
1. Créer des ressources : l'Atelier et le Studio
Ce que dit la recherche. Mallat (Collège de France) montre que les TP de mathématiques concrets, construits autour de défis IA, remotiment les élèves en décrochage, notamment en lycée professionnel. La table ronde insiste sur la nécessité de « concevoir des situations d'apprentissage spécifiquement construites pour développer la compréhension ».
Ce que fait EvalIA. L'Atelier est un espace conversationnel où l'enseignant construit des fiches de cours, des exercices et des séquences pédagogiques par le dialogue. L'IA ne produit pas un document fini : elle propose une première version que l'enseignant façonne échange après échange. « Rends la question 2 plus difficile. » « Reformule la consigne pour des élèves de 3e. » Le Studio donne accès à un système RAG (Retrieval-Augmented Generation) ancré sur les sources personnelles de l'enseignant et les programmes officiels, pour que les contenus générés soient disciplinairement justes.
L'alignement. L'Atelier incarne exactement ce que la synthèse CSEN recommande : « utiliser les IA comme des assistants pour concevoir des situations d'apprentissage ». L'enseignant reste le concepteur, l'IA est l'outil de production. La différence avec un générateur classique (formulaire → résultat) est que le dialogue permet l'itération fine, ce que Guilleray appelle « ne pas repartir de zéro ».
La limite honnête. L'Atelier ne vérifie pas que le scénario pédagogique produit est cognitivement efficace. Il produit ce que l'enseignant demande, pas ce que la recherche recommande. Si l'enseignant demande un exercice de pure restitution (ce que la conférence critique), l'IA le produira.
2. Corriger des copies : l'évaluation assistée
Ce que dit la recherche. Yessad montre que quand les enseignants disposent d'un tableau de bord enrichi d'explications IA, leurs feedbacks deviennent plus diversifiés : ils passent du feedback « sur l'erreur » au feedback « sur le processus et la compétence ».
Ce que fait EvalIA. L'enseignant charge un barème, uploade les copies (ou les reçoit via un dépôt numérique). L'IA propose une note par critère avec niveau de maîtrise, un commentaire par critère, un bilan de compétences, des points forts et axes d'amélioration. L'enseignant peut tout modifier avant partage. Le mode hybride (IA + annotations manuelles) est le mode par défaut. Les profils d'évaluation permettent de calibrer le ton (strict, équilibré, bienveillant) et les pondérations.
L'alignement. Le feedback structuré par compétences correspond à ce que Yessad et la synthèse CSEN recommandent. L'architecture « l'élève compose sur papier, l'IA évalue après » préserve l'effort cognitif : il n'y a pas de délégation possible puisque l'IA ne voit la copie qu'une fois écrite. C'est la distinction fondamentale qu'Oudeyer fait entre les IA « qui font à la place » et celles « qui analysent ce qui a été fait ».
La limite honnête. Le risque du biais d'ancrage est réel. Quand l'IA propose 14/20, l'enseignant est ancré sur cette proposition. La donnée de Sylvestre (20 % de feedbacks validés sans modification) nous concerne. Nous n'avons pas encore de mécanisme pour mesurer si nos enseignants exercent réellement leur jugement ou s'ils délèguent silencieusement.
3. Différencier : profils d'adaptation et plans de travail
Ce que dit la recherche. Une revue de cadrage publiée dans Heliyon (2024) montre que la personnalisation adaptative a un effet positif modéré à grand (g = 0.70) sur les résultats cognitifs. La conférence CSEN insiste : les modèles individualisés de l'apprenant doivent avoir « une place centrale ».
Ce que fait EvalIA. Trois mécanismes de différenciation coexistent. Les profils d'adaptation (PAP/PPS) modifient la forme des évaluations pour les 496 800 élèves en situation de handicap scolarisés en milieu ordinaire. Les Plans de Travail (pédagogie Freinet) proposent trois parcours différenciés (guidé, autonome, expert) par élève. Et les parcours de remédiation ciblent les lacunes identifiées lors de la correction.
L'alignement. L'adaptation inclusive va au-delà de ce que la conférence aborde (le handicap est un point aveugle assumé par Mallat : « on ne s'est pas posé cette problématique »). Les Plans de Travail avec parcours différenciés correspondent au modèle hybride de Yessad. Le bilan de fin de Plan de Travail, où l'élève verbalise ce qu'il a appris et ses difficultés, est un geste métacognitif authentique.
La limite honnête. Les parcours de remédiation sont linéaires : tous les élèves assignés au même parcours suivent le même chemin. Il n'y a pas d'adaptation en temps réel en fonction des réponses (ce que Oudeyer et Yessad appellent « adaptive learning »). Les plans de travail sont attribués manuellement par l'enseignant, pas dynamiquement.
4. Faire pratiquer : exercices interactifs et quiz live
Ce que dit la recherche. Mallat montre que les TP interactifs (où l'élève manipule des curseurs, observe les résultats, ajuste) sont difficiles à déléguer à ChatGPT, contrairement aux exercices théoriques classiques. Oudeyer montre que la gamification dans un cadre adaptatif améliore l'engagement.
Ce que fait EvalIA. 13 types d'exercices interactifs (QCM, vrai/faux, appariement, texte à trous, classement, catégorisation, réponse courte, mots croisés...), accessibles par lien et code sans compte élève. Le mode Live permet des quiz en temps réel avec progression affichée. Le scoring IA évalue les réponses ouvertes.
L'alignement. Les exercices interactifs avec feedback immédiat correspondent au modèle de Mallat (boucle essai-erreur, résultat visible) et à la recommandation de Guilleray (exercices de vérification de compréhension, problèmes discordants). Le mode sans compte respecte la vie privée.
La limite honnête. Les exercices ne s'adaptent pas à l'élève. Un QCM trop facile reste trop facile, un exercice trop dur reste trop dur. Il n'y a pas de « zone proximale de développement » algorithmique au sens d'Azevedo.
5. Accompagner après la correction : remédiation et portfolio
Ce que dit la recherche. La synthèse CSEN recommande de « valoriser un positionnement en tant que résolveur de problèmes » et de développer « le goût d'apprendre, la curiosité, l'exploration, la surprise ». Azevedo insiste : « Learning hurts. We should preempt students for that expectation. »
Ce que fait EvalIA. Les parcours de remédiation transforment la correction en point de départ : leçon ciblée sur la lacune → exercices d'entraînement → quiz de vérification, avec feedback immédiat. Le Portfolio Élève permet à l'élève de consulter l'ensemble de ses corrections, plans de travail et parcours de remédiation via un lien et un code personnel, sans créer de compte.
L'alignement. Le séquencement leçon → exercice → quiz reproduit le cycle pédagogique validé par la recherche. Le portfolio concrétise le droit d'accès (article 15 du RGPD) et la transparence envers l'élève que réclame la conférence. L'élève voit ses compétences, sa progression, ses résultats : c'est un premier pas vers la métacognition.
La limite honnête. Le portfolio affiche des données, il ne sollicite pas de réflexion. La métacognition au sens d'Azevedo, ce serait de demander à l'élève « Avant de voir ta correction, quelle note penses-tu avoir obtenue ? » ou « Quelle compétence penses-tu avoir le mieux réussie ? ». Ce type de questionnement n'existe pas encore.
6. Les chatbots élèves : l'IA encadrée par l'enseignant
Ce que dit la recherche. Guilleray insiste : il faut apprendre aux élèves à interagir avec l'IA (« ne me donne jamais la réponse, aide-moi à la trouver »). Oudeyer montre qu'un atelier de 2 heures suffit à améliorer significativement la capacité des élèves à utiliser ChatGPT. Mais il montre aussi que les élèves qui se déclarent familiers de ChatGPT s'en sortent moins bien (fausse confiance).
Ce que fait EvalIA. Les chatbots du Studio permettent à l'enseignant de créer un assistant IA pour ses élèves, avec des sources contrôlées (ses propres cours), un comportement défini, et sans accès aux données personnelles. L'élève interagit avec une IA encadrée, pas avec ChatGPT en accès libre.
L'alignement. C'est exactement le modèle que la conférence préconise : l'IA comme outil d'accompagnement, contrôlé par l'enseignant, ancré sur des contenus vérifiés. La différence avec ChatGPT est que l'enseignant choisit les sources, le périmètre, le ton.
La limite honnête. Nous n'avons pas de mesure de l'impact des chatbots sur l'apprentissage réel des élèves. L'outil existe, mais la preuve de sa plus-value pédagogique reste à établir, comme le recommande la DNE : « N'utiliser l'IA que lorsqu'une plus-value pédagogique est avérée. »
7. Protéger les données : au-delà des recommandations
Ce que dit la recherche. La DNE recommande de ne pas saisir de données personnelles dans les IA grand public. L'EU AI Act classe l'IA éducative comme « à haut risque ». Le CEPD exige la conformité RGPD tout au long du cycle de vie de l'IA.
Ce que fait EvalIA. Les noms des élèves sont chiffrés côté client (AES-256-GCM, Zero-Knowledge : le serveur ne peut pas les lire). Les copies sont anonymisées avant envoi à l'IA (l'en-tête est détecté et masqué). Vertex AI (Google Cloud) est hébergé en Europe (europe-west1). Le portfolio chiffre les prénoms et hash les codes côté serveur. Une AIPD complète (v4.0) documente chaque flux. Le code source des mécanismes de sécurité est ouvert à l'audit.
L'alignement. C'est le domaine où EvalIA va le plus loin par rapport aux recommandations de la conférence, qui reste au niveau des principes généraux. Le chiffrement Zero-Knowledge, l'anonymisation automatique des copies et l'AIPD détaillée sont des engagements techniques, pas des déclarations d'intention.
La limite honnête. Le contenu des copies (ce que l'élève a écrit, pas son nom) transite en clair vers Vertex AI. Pour des copies de philosophie ou de français, le contenu peut être très personnel. Nous n'avons pas non plus d'audit de sécurité externe.
Troisième partie : ce que nous devons améliorer
La conférence et les études récentes pointent trois chantiers que nous n'avons pas encore résolus.
Le feedback dialogique. L'élève reçoit un feedback structuré mais ne peut pas poser de questions, demander des précisions, ou indiquer ce qu'il n'a pas compris. Guilleray et Azevedo montrent que le feedback dialogique est plus efficace. C'est notre prochain chantier.
La métacognition active. Une étude récente montre que l'ajout d'exigences métacognitives (auto-évaluation avant le feedback, justification après) a plus d'impact que le contenu même du feedback. Le portfolio affiche des données, mais ne sollicite pas de réflexion. Nous devons transformer la consultation passive en engagement actif.
La mesure d'impact. La DNE demande que la plus-value pédagogique soit « avérée, éprouvée par les pairs, prouvée par la recherche ». Nous n'avons pas encore de données contrôlées sur l'impact d'EvalIA sur l'apprentissage des élèves. C'est un travail que nous devons entreprendre, idéalement en partenariat avec la communauté de recherche.
Ce que nous retenons
La conférence du CSEN ne valide ni ne condamne un outil comme EvalIA. Elle pose des questions fondamentales : à quoi sert l'évaluation ? Qu'est-ce qu'apprendre ? Quel rôle pour l'enseignant quand l'IA peut corriger, créer, différencier plus vite que lui ?
Notre conviction, renforcée par ces échanges : l'IA en éducation n'a de valeur que si elle préserve l'effort cognitif de l'élève, augmente le jugement professionnel de l'enseignant, et protège les données de tous. EvalIA est construit sur ces trois principes. Mais les principes ne suffisent pas : il faut les prouver.
Sources
- Conférence CSEN « Quels usages de l'IA en éducation ? » (mars 2026)
- A systematic review of AI-driven intelligent tutoring systems in K-12 education (npj Science of Learning, 2025)
- AI tutoring outperforms in-class active learning: an RCT (Scientific Reports, 2025)
- The cognitive mirror: AI-powered metacognition (Frontiers in Education, 2025)
- How adding metacognitive requirements transforms student learning (arXiv, 2025)
- Personalized adaptive learning: impact on performance and engagement (Heliyon, 2024)
- Three in 10 teachers use AI weekly, saving six weeks a year (Gallup, 2025)
- A systematic review on AI-driven grading and personalized feedback (Emerald, 2025)
- Meta-analysis of artificial intelligence in education (ERIC, 2025)
- EU AI Act: implications for ethical AI in education (Swiss Cyber Institute, 2024)
- EDPB opinion on AI and GDPR compliance (Orrick, 2025)
- Cadre d'usage de l'IA en éducation (MEN, 2024)