Pénombre - LG n° 7 - C'est la note qui compte

Pénombre — la lettre grise n° 7

VRAIE FAUSSE NOTE

A PPROCHEZ, mesdames et messieurs, entrez, entrez… Vous allez voir ce que vous allez voir, ce que vous n’avez jamais vu ! Une VRAIE note… Allez ! vous, et vous aussi, et encore vous…759, 760, 761, et voilà, 762 ! Nous y sommes. Vous êtes ici sept cent soixantedeux.

Eh bien, je donne à chacun de vous le même devoir de philo réalisé par un élève, et chacun de vous le note. Allez-y, allez-y… Quoi ? Comment noter ? Mais je m’en fiche, moi; vous notez, et puis voilà. Entre zéro et vingt, vous savez bien…Vous avez été à l’école oui ou non ?………. Et maintenant, chacun me donne sa note, mon assistant que voici que voilà calcule la moyenne des sept cent soixante-deux notes, et là, écoutez-moi: oui, mesdames et messieurs, la VRAIE note de ce devoir de philo est …

Pour le Palace de la Rigolade, voir le premier chapitre de Pierrot mon ami, Raymond Queneau.
Vous pensez que je vous emmène à la foire, à l’Uni-Parc avec les philosophes du Palace de la Rigolade ? Pas tant que ça… regardez:

«Quand on sait qu’il faut 762 correcteurs d’une copie de philo et 95 d’une copie de physique pour obtenir une note identique, on se demande pourquoi l’organisation du bac ne serait pas confiée à l’expert en docimologie qu’est la Société Française des jeux ?»

C’est de la plume d’un inspecteur de l’Éducation nationale (Jean Desoli, Libération, Rebonds, 04-09-01), ça ne peut qu’être du sérieux…

Donc, il paraît qu’on sait qu’il faut 762 correcteurs… Ah bon ? Moi, je ne savais pas. Et j’ai essayé de comprendre d’où sortaient ces chiffres.

L’enquête Carnegie En 1931, l’Université américaine Columbia lance une enquête internationale sur «les conceptions, les méthodes, la technique et la portée pédagogique et sociale des examens et concours». La Carnegie Corporation de New York fournit les fonds nécessaires, et l’enquête sera nommée par la suite «Enquête Carnegie». Des commissions allemande, américaine, anglaise, écossaise, finlandaise, française et suisse sont créées à Eastbourne en 1931. Seules les commissions anglaise et française continueront leurs travaux jusqu’en 1938.
En 1936, la commission anglaise a publié un rapport: «An examination of examination», et la commission française un autre: «La correction des épreuves écrites dans les examens». H.Laugier et D.Weinberg, Recherche sur la solidarité et l’interdépendance des aptitudes intellectuelles d’après les notes des examens écrits du baccalauréat. Paris, Chantenay, 1938.
En 1936, la commission française de cette enquête soumet des copies du bac à une expérience de multi-correction: pour chaque copie, on dispose de six notes (sur 20): celle du bac, et celles de cinq autres correcteurs mobilisés pour l’occasion. Les écarts de notes pour une même copie sont frappants:
Écart maximum: 13 points en composition française,
9 points en mathématiques,
12 points en philosophie,
8 points en physique…
Écart moyen: 3,3 points en composition française,
2,1 points en mathématiques,
3,4 points en philosophie,
1,9 point en physique…

«H.Laugier et D.Weinberg en avaient conclu que pour obtenir la «note vraie», il fallait recourir à la moyenne de 13 correcteurs en mathématiques, 78 en composition française, 127 en philosophie… Les aléas de la correction sont donc considérables et la recherche d’une «note vraie» quelque peu utopique». (Pierre Merle, Sociologie de l’évaluation scolaire, PUF, 1998, page 9)

«Devant de tels faits, Laugier et Weinberg ont cherché à calculer statistiquement le nombre minimum d’examinateurs compétents auxquels il faudrait faire appel pour obtenir une moyenne des notes mises par eux qui ne variât plus sensiblement: ils ont trouvé pour la dissertation philosophique: 127; pour la composition française: 78; pour l’anglais: 28; pour la version latine: 19; pour la physique: 16; pour les mathématiques: 13.» (A. de Perette, Controverses en éducation, Hachette Éducation, 1993, page 354).

Cette fois, les examinateurs doivent être compétents… Ce n’était peut-être pas le cas de mes 762 philosophes…

«Une première piste, proposée par Laugier et Weinberg (1936), considérait d’une part les copies à évaluer comme des objets physiques, dotés de propriétés physiques mesurables et, d’autre part, les divergences inter-notateurs comme des erreurs de mesure. Cette perspective reposait sur deux postulats positivistes: une copie serait assimilée à un objet physique qui aurait une «vraie masse» et les notations seraient des «estimations» de cette masse; les divergences de notation seraient dues au hasard. Il convenait donc, à l’instar de la physique, de multiplier le nombre de mesures selon une procédure d’estimation
«De la mesure dont vous
mesurez, on mesurera pour
vous en retour.» Luc 6.38
statistique. En d’autres termes, il convenait de déterminer le nombre nécessaire de correcteurs pour obtenir une «vraie valeur» à chaque copie (la moyenne des notes ne variant plus, même avec des notes supplémentaires). C’est ainsi, après calcul, que ces auteurs estiment qu’il faudrait 78 correcteurs en français, 19 en latin, 28 en anglais, 13 en mathématiques, 127 en philosophie et 16 en physique.» (R. Amigues, M.T. Zerbato-Poulos, Les pratiques scolaires d’apprentissage et d’évaluation, Dunod, 1996, page 135).

La formule de Spearman-Brown

«…une zone déjà obscure, et par
conséquent poétique.»
Raymond Queneau. Pierrot mon ami.
Gallimard-Folio p.48.
«Comment obtenir la valeur réelle d’un devoir, quand on sait les divergences d’appréciations entre correcteurs, d’une part, et chez le même correcteur, d’autre part ?

«Pour répondre à cette question, H.Laugier et D.Weinberg (1936) ont étendu le principe de la double correction à autant d’évaluateurs que nécessaire pour obtenir la note d’une copie au degré de précision désiré. Ce nombre est donné par la formule de Spearman-Brown:

La Formule Magique The true-score-and-error model of a test score was presented by Spearman in 1904.
«Où R est le coefficient de fidélité
r est le coefficient moyen de corrélation
n est le nombre de mesures (ici le nombre de correcteurs).»
(On est rassuré, il y a une formule, ce n’est pas du flan.)

«(…)En fixant le coefficient de fidélité à 0.99, les auteurs cités ont obtenu les chiffres suivants:
Mathématiques 13 correcteurs Physique 16 correcteurs Version latine 19 correcteurs Anglais 8 correcteurs Composition française 78 correcteurs Dissertation philosophique 127 correcteurs» (Yvan Abernot, Les méthodes d’évaluation scolaire, Dunod, 1996, pages 22-23).

Mais est-ce que cette formule nous éclaire pour déterminer la «valeur» d’une copie ?

D’abord, je me place dans un cas extrême: 126 correcteurs ont mis 20 à un devoir de philo, et le 127e, une peau de vache patentée, ou un des philosophes de Queneau, met 0 au même devoir. Ça ne fera passer la moyenne que de 20 à 20 X 126/127, soit une variation d’à peine 0,16 point. Pas besoin de Spearman, ni de Brown pour comprendre ça.

Ensuite, je crois que ce que la formule de Spearman-Brown vise, est d’améliorer la fiabilité d’un instrument de mesure. Elle permet de savoir, par exemple, le nombre de pesées qu’il faut réaliser avec une même balance pour obtenir (en faisant la moyenne des résultats) toujours la même valeur pour un même objet. Il ne s’agit pas de savoir si la balance est juste ou fausse, mais si elle est fidèle. Elle peut très bien donner 10 kg de plus que le poids «réel», ça n’est pas la question.

De plus, une des hypothèses qui permettent d’établir cette formule est que les «erreurs» de mesure (différence entre une hypothétique valeur «vraie» et une valeur observée) sont dues au hasard, et donc que l’erreur moyenne tend vers zéro quand le nombre de mesures augmente indéfiniment.

Est-ce qu’on peut considérer que 127 correcteurs remplacent 127 corrections réalisées par un même correcteur (le pauvre…), que les variations entre les différentes corrections sont dues au hasard, et surtout est-ce qu’on peut considérer que parce qu’un correcteur a recorrigé 127 fois la même copie, la moyenne des résultats peut en quelque façon que ce soit être considérée comme une «vraie note» ?

«En fait, rien ne prouve que cette note soit plus «vraie» que celle donnée par un seul évaluateur. Si le nombre fait ici loi, il ne fait pas nécessairement vérité. Tel enseignant peut très bien avoir attribué une excellente note à une copie et la justifier très rigoureusement; tel autre peut avoir attribué une très mauvaise note et la justifier tout autant. En revanche, de nombreux correcteurs seraient bien en peine d’expliquer le détail de leur système de notation.» (Y.Abernot, op. cit. page 24)

De 127 à 762

Vous vous rappelez Monsieur Desoli ? Cela fait un moment que je vous raconte mes 127 philosophes, mais pour lui, il en fallait 762… Et en physique, ce n’était pas 13, mais 95. Inflation verbale ?

Que nenni. Là aussi il y aurait du sérieux, du scientifique:

J.J. Bonniol, Déterminants et mécanismes des comportements d’évaluation d’épreuves scolaires. Thèse. Université de Bordeaux II, 1981.

Note: Le calcul de Laugier et Weinberg, essayez de suivre un peu ! «On doit à J.J. Bonniol (1976, 1984) d’avoir dénoncé le mythe de la vraie note. En effet, en dépit de leur calcul (voir note), parmi les 78 correcteurs de français, 55% de ces évaluateurs se situent en dehors des limites statistiques de confiance, à la place des 5% prévus; les divergences constatées dépassent systématiquement et largement celles dues au hasard. Les calculs ainsi proposés par J.J. Bonniol montrent qu’il faudrait multiplier par 6 le nombre de correcteurs proposé par Laugier et Weinberg. Ce qui donnerait 78 correcteurs en mathématiques et 762 en philosophie !» (R. Amigues, M.T. Zerbato-Poulos, op. cit. page 135).

Les voilà les 762: il n’y a pas de doute: 127 × 6 = 762…(et 16 × 6 = 96 et non 95… il y a du flottement dans les multiplications à l’Inspection !)

Mais il faut lire jusqu’au bout:

«Selon Bonniol, la notation de copies ne peut s’apprécier à l’aune de la mesure physique, car une copie n’est pas un objet physique, au sens strict, mais un objet construit et multidimensionnel. Or, pour estimer, au sens de la mesure, un tel objet, il faudrait que chacune de ses dimensions soit isolable, pourvue d’une échelle métrique, combinable avec les autres selon une règle de composition, et que la nouvelle dimension obtenue soit munie d’une échelle numérique. Or cette conception métrologique ne peut s’appliquer à des copies, de français par exemple, comprenant plusieurs dimensions comme en témoignent les barèmes analytiques du type: plan, style, précision de la pensée, élégance, etc. Selon Bonniol, il est possible d’évaluer une copie, non pas au sens de la mesurer, mais de l’apprécier en référence à une échelle de valeur. En d’autres termes, la note serait un moyen de résumer des appréciations de nature différente afin de les communiquer à un élève.» (R.Amigues, M.T.Zerbato-Poulos, op. cit. page 135).

Enfin un peu de bon sens… Pourtant il semble que J.J. Bonniol n’ait pas été vraiment écouté, puisque ne restent dans le débat public que les chiffres, alors que lui ne les avait construits que pour mieux les abattre.

On n’a pas encore trouvé le moyen de déterminer la «vraie» valeur d’un devoir d’élève. On aurait pu rêver, peut-être, qu’en mesurant la chose, elle se définirait. Theodore M. Porter
Theodore M. Porter, Making things quantitative, in: Power M. (ed.), Accounting and Science, Cambridge, 1994, pp. 36-56.
raconte bien qu’au XVIIIe siècle, c’est la mesure des températures qui a permis d’éclaircir et d’unifier des notions confuses et diverses jusqu’alors: la température de l’atmosphère, la température d’un corps humain…

Rien de tel pour les copies. Dommage, car

«la fiabilité incertaine de la correction des copies (…) pose la question de la pertinence de l’expertise professorale concernant les décisions d’admission et d’ajournement». (Pierre Merle, op. cit. page 9).

En tous cas, si vous voyez un jour passer 762 philosophes, renvoyez-les vite au Palace de la Rigolade.

Françoise Dixmier

[PÉNOMBRE]

L’enquête Carnegie		En 1931, l’Université américaine Columbia lance une enquête internationale sur «les conceptions, les méthodes, la technique et la portée pédagogique et sociale des examens et concours». La Carnegie Corporation de New York fournit les fonds nécessaires, et l’enquête sera nommée par la suite «Enquête Carnegie». Des commissions allemande, américaine, anglaise, écossaise, finlandaise, française et suisse sont créées à Eastbourne en 1931. Seules les commissions anglaise et française continueront leurs travaux jusqu’en 1938. En 1936, la commission anglaise a publié un rapport: «An examination of examination», et la commission française un autre: «La correction des épreuves écrites dans les examens». H.Laugier et D.Weinberg, Recherche sur la solidarité et l’interdépendance des aptitudes intellectuelles d’après les notes des examens écrits du baccalauréat. Paris, Chantenay, 1938.
En 1936, la commission française de cette enquête soumet des copies du bac à une expérience de multi-correction: pour chaque copie, on dispose de six notes (sur 20): celle du bac, et celles de cinq autres correcteurs mobilisés pour l’occasion. Les écarts de notes pour une même copie sont frappants:
Écart maximum:	13 points en composition française, 9 points en mathématiques, 12 points en philosophie, 8 points en physique…
Écart moyen:	3,3 points en composition française, 2,1 points en mathématiques, 3,4 points en philosophie, 1,9 point en physique…

		The true-score-and-error model of a test score was presented by Spearman in 1904.
«Où	R est le coefficient de fidélité r est le coefficient moyen de corrélation n est le nombre de mesures (ici le nombre de correcteurs).»