Un siècle de recherche en docimologie montre que corriger des copies est l'un des actes pédagogiques les plus difficiles. État des lieux de la variabilité, des biais cognitifs et du rôle que peut jouer une correction collaborative enseignant-IA.

En 1936, une étude française soumettait 100 copies du baccalauréat à plusieurs correcteurs. En français, la même copie recevait des notes allant de 3 à 16 sur 20. En 2008, l'expérience était reproduite en SES : les notes variaient de 8 à 18. Corriger des copies est un acte pédagogique d'une complexité souvent sous-estimée, et la variabilité qui en résulte n'est ni un mythe ni une anecdote : c'est un fait scientifique documenté depuis plus d'un siècle, dans toutes les disciplines et à tous les niveaux.

Cet article fait le point sur ce que la recherche en docimologie (la science des examens) nous apprend sur cette difficulté, les biais cognitifs en jeu, et comment une collaboration entre l'enseignant et un outil d'assistance pourrait aider à faire mieux.

1912 : le choc fondateur

Tout commence en 1912, quand deux chercheurs américains, Daniel Starch et Edward Elliott, publient une série d'études qui vont fonder un champ de recherche entier. Leur protocole est simple : soumettre la même copie d'élève à un grand nombre de correcteurs et mesurer la dispersion des notes.

Les résultats sont spectaculaires :

Discipline	Nombre de correcteurs	Plage de notes (sur 100)
Anglais (copie A)	142 enseignants	64 – 98
Anglais (copie B)	142 enseignants	50 – 97
Mathématiques	128 enseignants	24 – 92
Histoire	122 enseignants	43 – 92

Sources : Starch, D., & Elliott, E. C. (1912). "Reliability of the Grading of High-School Work in English." The School Review, 20(7), 442-457 ; (1913). "Reliability of Grading Work in Mathematics." The School Review, 21(4), 254-259.

Le résultat le plus contre-intuitif est en mathématiques : une même copie de géométrie recevait des notes allant de 24 à 92 sur 100. La discipline réputée la plus « objective » produisait la variabilité la plus forte.

La docimologie française : Piéron et la « loterie des examens »

En France, c'est Henri Piéron qui fonde la docimologie, littéralement la « science des examens ». Dans son ouvrage de référence Examens et docimologie (1963, PUF), il synthétise des décennies d'expérimentations et calcule le nombre de correcteurs indépendants qu'il faudrait pour obtenir une note fiable :

Discipline	Correcteurs nécessaires
Philosophie	127
Composition française	78
Anglais	28
Version latine	19
Physique	16
Mathématiques	13

Source : Piéron, H. (1963). Examens et docimologie. Paris : PUF.

Ce tableau est dévastateur. Il signifie qu'en philosophie, la note attribuée par un seul correcteur est statistiquement presque dépourvue de sens : il faudrait 127 correcteurs indépendants pour converger vers une évaluation fiable. Même en mathématiques, il en faudrait 13.

Piéron documente aussi l'instabilité intra-correcteur : un physiologiste ayant recorrigé 37 copies 3 ans et demi après sa première correction n'a attribué la même note que dans 19 % des cas. Les écarts allaient jusqu'à 10 points sur 20, et sa décision admis/recalé s'inversait pour la moitié des cas limites.

1936 : quand le correcteur pèse plus que l'élève

L'étude la plus marquante est peut-être celle menée par Henri Laugier et Dagmar Weinberg dans le cadre de la commission Carnegie. En 1936, ils soumettent 100 copies tirées au hasard dans les archives du baccalauréat parisien à 6 groupes de 5 examinateurs, soit 30 correcteurs au total.

Le résultat central : 60 % de la variance totale des notes était attribuable aux différences entre correcteurs, contre seulement 40 % aux différences réelles entre les copies des élèves.

Autrement dit, les notes mesuraient davantage le correcteur que l'élève.

Les dispersions par discipline :

Discipline	Écart de notes constaté (sur 20)
Français	3 – 16 (13 points d'écart)
Philosophie	12 points d'écart
Latin	12 points d'écart
Mathématiques	9 points d'écart
Physique	8 points d'écart

Environ 30 % des candidats pouvaient être admis ou recalés selon la composition du jury.

Sources : Laugier, H., & Weinberg, D. (1936). Enquête Carnegie sur les examens. Synthèse dans Piéron (1963) ; Les Cahiers pédagogiques, La docimologie.

Un siècle plus tard : rien n'a changé

En 2011, Hunter Brimi reproduit l'étude de Starch et Elliott. Cette fois, les 90 enseignants d'anglais ont reçu près de 20 heures de formation à un protocole d'évaluation standardisé (NWREL 6+1 Traits of Writing) et utilisent un barème critérié commun sur 100 points.

Résultat : la même copie reçoit des notes allant de 50 à 96, un écart de 46 points, quasiment identique aux 47 points d'écart observés en 1912.

Source : Brimi, H. M. (2011). "Reliability of Grading High School Work in English." Practical Assessment, Research & Evaluation, 16(1), Article 17.

La formation et les barèmes n'ont pas réduit significativement la variabilité. Ce qui se joue dans l'acte de corriger dépasse la question de l'outillage.

En France, Bruno Suchaut (IREDU-CNRS) a reproduit l'expérience en 2008 sur des copies de SES du baccalauréat : 3 copies soumises à environ 30 correcteurs par an sur 2 académies. La même copie recevait des notes allant de 8 à 18 sur 20. Avec un coefficient 7, cet écart de 10 points se traduit par 70 points de différence au total du bac, de quoi faire basculer un candidat de la mention Bien au rattrapage.

Source : Suchaut, B. (2008). "La loterie des notes au bac." Documents de travail de l'IREDU, DT 2008/3 ; Suchaut 2008 sur HAL.

Les biais cognitifs : ce n'est pas que du « bruit »

La variabilité de correction n'est pas seulement aléatoire. Elle est contaminée par des biais systématiques identifiés par la recherche.

L'effet de halo

Un enseignant qui a vu un élève faire un bon exposé oral attribue inconsciemment une note plus élevée à un travail écrit sans rapport. C'est l'effet de halo, démontré expérimentalement par Malouff, Emmerton et Schutte (2013) : l'écart moyen mesuré était de 4,2 points.

Source : Malouff, J. M., et al. (2013). "The Risk of a Halo Bias as a Reason to Keep Students Anonymous During Grading." Teaching of Psychology, 40(3), 233-237.

L'effet de contraste

La note attribuée à une copie dépend des copies corrigées juste avant. Bonniol (1972) l'a démontré : des copies identiques recevaient des notes systématiquement différentes selon qu'elles étaient entourées de bonnes ou de mauvaises copies. Corriger en fin de paquet un soir de fatigue n'a pas le même effet qu'en début de matinée.

Le biais lié au nom

En 2018, Bonefeld et Dickhäuser ont soumis la même dictée à 203 futurs enseignants, en faisant varier uniquement le nom de l'élève (nom à consonance locale vs. nom à consonance étrangère). Pour les copies de niveau faible, les élèves au nom d'origine étrangère recevaient des notes significativement plus basses (d = -0,44), alors que le comptage objectif des erreurs ne montrait aucune différence.

Le biais n'est pas dans la perception des erreurs. Il est dans le jugement qui transforme ces erreurs en note.

Source : Bonefeld, M., & Dickhäuser, O. (2018). "(Biased) Grading of Students' Performance." Frontiers in Psychology, 9, 481.

La constante macabre

André Antibi a identifié en 2003 un biais structurel : la tendance inconsciente des enseignants à produire une distribution avec environ un tiers de bonnes notes, un tiers de moyennes, un tiers de mauvaises, quelle que soit la valeur réelle du groupe. Même en regroupant les meilleurs élèves de plusieurs classes dans un groupe d'élite, un correcteur retrouve cette répartition en tiers. En 2009, 99 % des 3 020 enseignants interrogés reconnaissaient l'existence de cette constante.

Source : Antibi, A. (2003). La constante macabre ou comment a-t-on découragé des générations d'élèves ? Toulouse : Math'Adore.

La méta-analyse de synthèse

Malouff et Thorsteinsson (2016) ont agrégé 23 études expérimentales portant sur 1 935 correcteurs. L'effet global des biais est significatif : g = 0,36, soit jusqu'à 5 points d'écart pour des élèves présentant des caractéristiques « défavorables » (nom, apparence, résultats antérieurs). Ce biais existe à tous les niveaux, du primaire à l'université.

Source : Malouff, J. M., & Thorsteinsson, E. B. (2016). "Bias in grading: A meta-analysis." Australian Journal of Education, 60(3), 245-256.

Les données institutionnelles confirment

L'organisme de régulation britannique Ofqual a publié en 2019 des données à grande échelle sur la fiabilité de la correction (environ 15 millions de copies). Leur conclusion :

En mathématiques, la probabilité de recevoir la note « définitive » (celle du correcteur principal) est de 96 %.
En matières à réponse rédigée (histoire, anglais), cette probabilité tombe à 55-60 %.

En d'autres termes, dans les matières littéraires, un élève a à peine plus d'une chance sur deux de recevoir la note « juste ».

Source : Ofqual, 11 things we know about marking.

En France, la DEPP (ministère de l'Éducation nationale) a documenté en 2025 les écarts systématiques entre notes de contrôle continu et notes d'épreuves terminales au baccalauréat, montrant que la variabilité est aussi institutionnelle : différentes cultures d'établissement produisent des notations structurellement différentes pour des niveaux comparables.

Ce qu'un regard complémentaire peut apporter

Face à un siècle de données sur la difficulté intrinsèque de la correction, la question n'est pas de remplacer l'enseignant, mais de lui offrir un deuxième regard, constant et complémentaire. C'est ce que permet un outil d'assistance à la correction :

La constance. L'outil applique les mêmes critères à la première et à la dernière copie du paquet, à 8h du matin comme à 23h. Pas d'effet de fatigue, pas d'effet de contraste, pas de lundi matin. C'est une base stable sur laquelle l'enseignant peut s'appuyer, ou qu'il peut contredire en toute connaissance de cause.

Un regard sans a priori. L'outil ne connaît pas le nom de l'élève, son visage, ses résultats passés. Les biais de halo, de stéréotype et de contraste documentés par la recherche sont structurellement absents de cette première lecture, ce qui permet à l'enseignant de confronter sa propre évaluation à une analyse dépourvue de ces influences.

L'application exhaustive du barème. Quand un barème critérié détaillé est fourni, l'outil le suit critère par critère. Il ne « saute » pas d'item par lassitude et ne recalibre pas inconsciemment sa sévérité en cours de paquet. L'enseignant garde ensuite la main pour pondérer, nuancer, contextualiser.

Le feedback individualisé à l'échelle. C'est peut-être le gain le plus important pour les élèves, comme le confirme la recherche sur l'importance du feedback. Sur un paquet de 35 copies, rédiger un commentaire personnalisé de 10 lignes par élève représente un travail considérable. Un outil d'assistance peut produire une première ébauche de retour détaillé par compétence, que l'enseignant complète, reformule ou enrichit de son regard personnel. Le résultat : un feedback plus riche que ce que chacun aurait produit seul.

Les limites d'un outil : ce qui peut mal tourner

Un outil d'assistance n'est pas un correcteur parfait. Mal utilisé, il pourrait introduire de nouveaux problèmes au lieu d'en résoudre.

Le biais de compression. Les études récentes (Tang et al., 2024) montrent que les modèles de langage tendent à sous-évaluer les très bonnes copies et sur-évaluer les très faibles, un effet de « régression vers la moyenne » qui aplatit la distribution des notes. L'originalité, la créativité, le raccourci brillant risquent d'être sous-valorisés : c'est précisément là que le regard de l'enseignant est irremplaçable.

La fausse objectivité. Le risque le plus insidieux : parce qu'une analyse vient d'un algorithme, l'enseignant ou l'élève pourrait lui accorder une autorité qu'elle ne mérite pas. Les études montrent que les meilleurs modèles (GPT-4) atteignent un accord avec les correcteurs humains de l'ordre de QWK = 0,57, inférieur à l'accord inter-humain de 0,66 (Tang et al., 2024). L'outil n'est pas plus fiable qu'un correcteur, il est fiable différemment. C'est pourquoi il doit rester une proposition, jamais un verdict.

Source : Tang, X., et al. (2024). "Harnessing LLMs for multi-dimensional writing assessment." Heliyon.

L'hallucination. Un modèle de langage peut inventer une erreur qui n'existe pas dans la copie, ou attribuer une compétence que l'élève n'a pas démontrée. Sans relecture par l'enseignant, ces erreurs passent inaperçues et détruisent la confiance dans le système. La collaboration ne fonctionne que si l'enseignant reste le décideur final.

La déresponsabilisation. Si l'enseignant valide sans lire, la correction assistée devient une correction automatique, et tous les bénéfices de l'expertise pédagogique (repérer le raisonnement original, contextualiser une erreur, adapter l'exigence au parcours de l'élève) disparaissent. Un outil qui accélère la correction sans que l'enseignant reste dans la boucle est pire qu'inutile : il donne l'illusion d'un travail fait.

Corriger ensemble : le modèle de la double lecture

La conclusion de la recherche en docimologie n'est pas que les enseignants corrigent mal. C'est que corriger est intrinsèquement difficile, beaucoup plus que ce que les enseignants eux-mêmes, les élèves et les familles imaginent. Un système où 60 % de la variance des notes provient du correcteur (Laugier & Weinberg, 1936), où 30 % des candidats au bac peuvent être admis ou recalés selon le correcteur (Suchaut, 2008), et où la formation et les barèmes n'ont pas réduit significativement cette variabilité en un siècle (Brimi, 2011) appelle des solutions collaboratives.

La double correction a toujours été reconnue comme la meilleure réponse. Ofqual (2014) a montré qu'elle améliore la fiabilité. Mais elle est rarement mise en place, faute de temps. Un outil d'assistance peut jouer ce rôle de premier lecteur constant : il applique le barème de manière identique à chaque copie et propose un pré-positionnement que l'enseignant valide, ajuste ou refuse. C'est le principe de la double correction, rendu possible au quotidien.

Le mot-clé est ensemble. L'enseignant qui utilise un outil d'assistance ne délègue pas son jugement : il le confronte à une autre lecture. Et quand il n'est pas d'accord avec la proposition, c'est souvent qu'il a raison, parce qu'il connaît l'élève, le contexte, la progression. Cette expertise-là, aucun algorithme ne la remplacera. Mais la constance, l'exhaustivité et la disponibilité d'un outil peuvent aider l'enseignant à exercer cette expertise dans de meilleures conditions.

Pour aller plus loin

Starch, D., & Elliott, E. C. (1912-1913). Études sur la fiabilité de la notation, The School Review
Piéron, H. (1963). Examens et docimologie, PUF
Suchaut, B. (2008). La loterie des notes au bac, IREDU-CNRS
Brimi, H. M. (2011). Reliability of Grading High School Work in English, PARE
Malouff, J. M., & Thorsteinsson, E. B. (2016). Bias in grading: A meta-analysis, Australian Journal of Education
Bonefeld, M., & Dickhäuser, O. (2018). (Biased) Grading of Students' Performance, Frontiers in Psychology
Ofqual (2019). 11 things we know about marking, Ofqual
Tang, X., et al. (2024). Harnessing LLMs for writing assessment, Heliyon
Antibi, A. (2003). La constante macabre, Math'Adore
Les Cahiers pédagogiques, La docimologie

Pour aller encore plus loin dans la personnalisation de votre correction, découvrez les profils d'évaluation qui permettent de formaliser votre philosophie de notation.

Vous utilisez déjà EvalIA ? Testez la correction assistée : uploadez un sujet, générez un barème critérié et comparez l'analyse IA avec votre propre évaluation.

Corriger des copies : pourquoi c'est si difficile (et comment faire mieux ensemble)