[PÉNOMBRE] <- Prec. Sommaire Suiv. =>

Pénombre — la lettre grise n° 7


NOTER ET/OU CLASSER

En cherchant à savoir […] comment se passe l’attribution des notes […] une perception bien particulière du jugement […] émerge, et au sens large, l’expression d’arrangement évaluatif est celle qui convient le mieux.
D’après Pierre MERLE, L’évaluation des élèves, PUF.

 N oter: action de mettre une note.
Note (chiffrée): appréciation donnée selon un barème préalablement choisi (Robert); appréciation […] de quelqu’un, de son travail, d’un devoir… (Encyclopédie Larousse)
Classer: mettre un certain ordre.

On retiendra surtout dans ces extraits de dictionnaires que noter c’est en quelque sorte apprécier, ce qui peut nous laisser sur notre faim pour une approche un peu scientifique de cette affaire. L’action de noter, de classer ne peut être sortie de son inscription sociale. On ne note pas, on ne classe pas sans but plus ou moins explicite. Et dans la procédure de notation, de classement, à côté des procédures techniques il y a des questions de pertinence intellectuelle: pourquoi une faute de grammaire est-elle plus grave qu’une faute d’orthographe ? Pourquoi l’ergonomie d’un caméscope compte-elle autant que la qualité de son objectif ?… Même s’il peut paraître illusoire de vouloir isoler cet aspect, nous essayerons dans ce texte de nous intéresser aux procédures techniques de notation, de classement comme tentatives de mathématisation du réel dont l’ambition est de nous sortir d’une simple perception subjective par une démarche qui se veut plus rationnelle.

Annabelle: Pierre, qu’est-ce que tu préfères: les beignets à l’ananas, ou les beignets à la pomme ?

Noter est-ce mesurer ?

Mesurer sous-entend qu’on ait défini au préalable la notion de grandeur à mesurer. Dans un ensemble d’objets de même nature (hôpitaux, copies, fonctionnaires, magnétoscopes,…). Introduire la notion de grandeur consiste à définir ce que sont des objets équivalents. Ce n’est évidemment pas suffisant: on peut très bien regrouper des objets ou des individus en classes d’objets équivalents (les femmes et les hommes, ou encore, comme le faisaient les théoriciens du racisme, les aryens, les juifs, les slaves, les roms, sans parler des noirs, des jaunes, des métis,…) sans qu’on puisse passer ensuite à une mesure ou à une notation. On peut parler ici de simples classes nominales: on peut nommer les classes (les hommes, les femmes, les noirs, les aryens, les juifs, …). On peut aussi décider de les classer: les hommes devant les femmes, les aryens devant les juifs, …

Au delà d’un simple classement on peut introduire une notion d’écart plus ou moins grand entre deux grandeurs classées en les repérant sur une échelle numérique établie à partir de valeurs attribuées arbitrairement à des grandeurs stables et répétables (par exemple, la température d’un corps par rapport à celle de la glace fondante et de l’eau bouillante). On parlera ici d’un repérage numérique des grandeurs.

Enfin, au sens plein du terme, la mesure demande qu’on sache définir la somme de deux grandeurs de même espèce. De telles grandeurs seront additives. On choisit alors une certaine grandeur comme unité (sa mesure sera par définition 1) et on mesure les autres grandeurs par le rapport entre la grandeur à mesurer et la grandeur unité, selon une procédure de mathématisation (passage de l’addition au rapport) que nous ne préciserons pas ici.

Le processus de mesure le plus simple est le dénombrement appliqué à un groupe d’objets ou à une succession de phénomènes tenus pour identiques (par exemple les gouttes d’un liquide, le nombre de décès dans un hôpital, le nombre d’élèves présentés au bac).

Dans les sciences d’observation, tout processus de mesure est tributaire des instruments de mesure et des techniques mises en œuvre. En outre, il peut être troublé par des phénomènes parasites qu’il n’est pas toujours possible d’éliminer. On ne peut donc attribuer une signification objective à une mesure qu’à condition de définir le degré de précision et de fidélité de l’instrument de mesure ainsi que la marge globale des erreurs et incertitudes liées intrinsèquement à toute mesure.

En docimologie (le discours sur la notation), nous sommes loin de réunir toutes ces conditions. Sommes-nous en présence de grandeurs ? C’est-à-dire avons-nous défini au préalable ce qu’étaient des objets (hôpitaux, copies, fonctionnaires, magnétoscopes, …) équivalents, meilleurs, moins bons ? NON ! Regardons ensuite l’échelle de notation, par exemple la plus courante en France, celle qui consiste à noter de 0 à 20. La mise en place d’une telle échelle exige plusieurs conditions. En particulier de définir la grandeur nulle, c’est-à-dire pour chaque catégorie (services hospitaliers, lycées, copies, fonctionnaires, magnétoscopes, …) l’ensemble des nuls, et la grandeur parfaite, c’est-à-dire l’ensemble des parfaits de chaque catégorie. Puis de définir les échelons de l’échelle (pour les températures on décide qu’elles sont proportionnelles à la dilatation du mercure). Rien de tel pour une échelle de notes ! On fait même exactement l’inverse: on note d’abord et on définit ensuite, par l’intermédiaire de la note, ce que sont deux hôpitaux, copies, fonctionnaires, magnétoscopes, … équivalents, distants d’un point, de deux points. Disons que l’usage intensif de ces procédures de notation finit par instaurer sur nos objets une notion de grandeur repérable, même si la démarche est viciée dès le départ (et sans parler ici de la pertinence des critères de notation).

Pierre: à l’ananas… mais j’aime mieux les nougats chinois. Les nougats chinois, je leur mets 7, ou 8,… plutôt 8.

Une échelle de notes, telle que nous venons de la décrire, n’est en réalité qu’un repérage et n’est pas, par essence, munie d’une structure additive. On ne devrait alors faire ni sommes, ni moyennes de telles notes. Mais c’est là qu’enseignants, notateurs, testeurs, évaluateurs, succombent presque tous à la magie du nombre, au charme du résultat global chiffré, à l’illusion du mesurable. On ne peut évidemment pas aller, sans contorsions multiples, jusqu’à la grandeur mesurable pour la notation. Et pourtant on y va bien souvent, c’est-à-dire qu’on va s’autoriser à faire des moyennes (pondérées ou non), de la même façon qu’on fait de l’eau tiède avec de l’eau chaude et de l’eau froide (on reste alors sur la même échelle de notes, par exemple de 0 à 20) ou à faire des sommes pondérées de notes (on se retrouve alors sur une autre échelle, de 0 à x, où x est la somme pondérée des «20»). Dans une démarche scientifique on mesure, on compare, on additionne des grandeurs de même nature. Peut-on additionner, ou faire la moyenne, d’une note d’anglais et d’une note de mathématiques d’un élève, des notes des différents services d’un hôpital, sous le simple prétexte que les notes (et
Notez bien comment l'on note...
Extrait de Info PC, n° 167, février 2000
non les grandeurs notées) sont des nombres «de même nature» ? Cela a-t-il un sens intrinsèque ou cela a-t-il pris du sens parce que nous le faisons ? La réponse à cette question est loin d’être simple. Nous pouvons trouver une telle démarche totalement aberrante ou, à l’opposé, trouver qu’une moyenne représente un indicateur pertinent d’une «valeur moyenne» de l’élève, de l’hôpital, du caméscope, à partir d’une notation de différentes composantes.

Avec un bon barème ce sera plus juste !

Admettons qu’on note quand même, malgré tout et parce que dans la société actuelle c’est pratiquement incontournable. Remarquons qu’il y a alors plusieurs démarches possibles (ici on ne s’intéressera pas à la pertinence des critères, mais uniquement à la stratégie de notation). On peut noter intrinsèquement, globalement, sans barème, en s’appuyant sur une compétence et/ou une expérience plus ou moins avérées: telle dissertation vaut 11/20, l’ergonomie de tel magnétoscope vaut 14/20, tel chirurgien vaut 16/20, tel Côtes-du-Rhône 13/20. Les docimologues appellent une telle note une note d’estime. Souvent on y ajoute un petit commentaire «pour justifier la note». Mais parfois le notateur est lui-même soumis à des contraintes: un fonctionnaire n’est pas noté intrinsèquement, mais de telle façon qu’il se trouve dans une zone de notes qui lui assure tel avantage et lui barre tel autre en matière de promotion, d’avancement, de mutation. On pourrait parler de notation indirecte ou de notation rétrograde (non, ce n’est pas un mauvais jeu de mot !). Cette idée de notation rétrograde, c’est- à-dire d’une notation fabriquée pour donner les résultats désirés, est présente dans la plupart des processus de notation, ne serait-ce qu’au nom de la pertinence de la notation envisagée. Parfois cette idée est simplement diffuse, implicite (on pense réellement ne «mesurer» que la performance d’un élève, sans avoir fabriqué une épreuve ad hoc dont on sait d’avance qu’elle va distribuer les notes «comme il faut»), parfois elle est explicite (quelles épreuves, quels barèmes fabriquer pour avoir 80 % de reçus au baccalauréat ?).

Annabelle: moi, je leur mets 7.

Souvent, pour «être plus juste», on se donne un barème. Plus juste: l’ambiguïté de cette formule est tout à fait remarquable parce qu’elle articule deux sentiments forts du notateur, du noté et de la société environnante: justice et précision scientifique. Il y a plusieurs types de barèmes: tant de points pour une faute de grammaire, tant de points pour une faute d’orthographe. Tant de points si on saute 1m20, tant de points si on saute 1m30, etc. De tels barèmes peuvent se discuter quant à leur pertinence pédagogique, mais ont ensuite le mérite d’être indiscutables (ou presque) dans leur application (on parle de note formalisée). Nous sommes là dans la même situation que lorsqu’on repère la température grâce à la dilatation du mercure dans le tube du thermomètre. Plus utilisée est la pratique de barèmes tels que

Mais de tels «barèmes» ne sont que des démultiplications du processus de notation d’estime et produisent souvent des dérives importantes par effet cumulatif des habitudes individuelles des notateurs.

T’as quoi comme moyenne, toi ?

Dans le milieu scolaire l’usage de moyennes à des fins diverses (bulletins, passage de classe, examen, concours, classement trimestriel pour parents et administration avides de ce genre d’information…) est monnaie courante. Cela dit, les moyennes ne se rencontrent pas qu’en milieu scolaire: un classement comparatif de services hospitaliers se fait à travers une moyenne d’indicateurs hétérogènes de par la nature des objets notés (notoriété, mortalité, soins ambulatoires, durée de séjour…) et de par la nature des indicateurs chiffrés utilisés (notes entre 0 et 3, pourcentages, nombre de jours, bascule «oui/non»,…) et celui des caméscopes itou à partir de la note d’ergonomie, de celle du zoom, de celle de la mécanique… Les gens aiment les classements: faisons des moyennes pour pouvoir classer facilement.

Pour fixer les idées, nous allons nous placer dans le contexte scolaire. Que veut-on faire, que fait-on en général ?

Pour comparer des séries, on se contente très souvent de ne regarder que la moyenne sans s’occuper de leur dispersion autour de cette moyenne.

Pierre: oui, mais toi, tu notes au hasard.

Lorsqu’un notateur note une production d’élèves (prof dans sa classe, examinateur face à ses copies, interrogateur à un oral, …) il produit une série N de notes que nous supposerons, selon l’habitude la plus courante, prises sur l’échelle [0;20].

N = (x1; x2; x3;…….; xn)
(il y a ici n notes, c’est-à-dire n copies, n élèves…)

Une façon classique de décrire synthétiquement cette série N est d’en donner une caractéristique centrale (moyenne ou médiane sont les plus utilisées dans la pratique) et une caractéristique de la dispersion (écart-type ou quartiles sont en général respectivement associés à moyenne et à médiane). Restons-en à la moyenne µ(N) et à l’écart-type s (N). Remplacer N par µ(N) et s (N) a les vertus et les défauts de toute synthèse: il y a simplification et amélioration de la lisibilité, que l’on paye par une certaine perte d’information.

Dans le quotidien du monde enseignant on s’occupe beaucoup des moyennes:
  • la classe A est «meilleure» que la classe B, sous prétexte que
    µ(A) > µ(B)
  • le prof X est plus «vache» que le prof Y, parce que pour un même paquet de copies
    µ(X) < µ(Y)
  • l’élève E passera en Première et l’élève F redoublera, sous prétexte que
    µ(F) < 10 < µ(E)

On se préoccupe beaucoup moins de la dispersion des notes qui joue pourtant un rôle important. Est-on bien conscient, dans un conseil de classe par exemple, que lorsqu’on fait la moyenne, pour chaque élève d’une même classe, de la note d’EPS élément de la suite N(EPS) de moyenne µ(EPS) et d’écart-type s (EPS), affectée du coefficient 1, et de la note de français, élément de la suite N(F) de moyenne µ(F) et d’écart-type s (F), affectée du coefficient 3, le classement des élèves sera bien plus gouverné par la note d’EPS que par celle de français, malgré le jeu des coefficients, dès que s (F) est «nettement inférieur» à s (EPS).

Soyons conscients que si le poids «technique» d’une discipline, (il y a bien d’autres composantes dans le poids d’une discipline, ne serait-ce que la personnalité même du prof) est évidemment fonction du coefficient dont il dispose, il est aussi fonction de la dispersion de ses notes, dispersion qu’il peut influencer pour une bonne part.

Annabelle: non, je dis ce que j’aime et ce que je n’aime pas.

Pour les moyennes il faut être conscient d’un effet mécanique: Faire des moyennes «rabote» la dispersion ! On est là aussi en présence d’un phénomène souvent mal perçu dans les conseils de classe ou dans des jurys d’examen: la contraction de la dispersion des notes lorsqu’on fait des moyennes. Pour bien comprendre le phénomène considérons une situation tout à fait particulière, mais dans la réalité le phénomène de contraction est du même ordre de grandeur. Soit donc dans une classe de n élèves, les notes des k différentes disciplines:

Trop facile, l’examen est annulé

À la faculté de droit de Nantes (Loire-Atlantique), on n’avait jamais vu ça. Pour la première fois, des étudiants de licence ont obtenu la note maximale à l’épreuve de droit fiscal: 20 sur 20. Le jury, alerté par cette suspecte excellence, a enquêté. En fait, le professeur, qui avait fait le choix du libellé de l’épreuve, avait choisi un mode d’évaluation peu orthodoxe, sous forme d’un question-réponse binaire «oui» ou «non». Le doyen de la faculté a estimé qu’il s’agissait «d’un examen pas sérieux dont les résultats exceptionnels ne correspondent pas à une évaluation sérieuse de connaissances». Le jury a donc annulé l’épreuve et la moitié des 323 candidats devra la repasser (la deuxième moitié avait passé l’examen avec un autre professeur). Les étudiants concernés sont convoqués le 18 juin.
Libération, juin 2001
N(F) = (x1; x2; x3;…….; xn) les notes de français
N(HG) = (y1; y2; y3;…….; yn) les notes d’histoire-géographie
.
.
.
N(M) = (z1; z2; z3;…….; zn) les notes de musique

Et supposons, idéalement, que les moyennes et les écarts-type de la classe soient les mêmes dans chaque discipline. Soit µ et s  cette moyenne et cet écart-type communs (le proviseur est très content d’un tel consensus…). Supposons que la sacro-sainte moyenne de chaque élève soit calculée en appliquant le même coefficient à chaque discipline. L’élève «1» aura donc pour moyenne:

et ainsi de suite, ce qui produira la série des fameuses moyennes de chaque élève si déterminantes pour les décisions mettant en jeu leur scolarité ultérieure:

M = (m1; m2; m3;……..; mn )

Dans notre cas idéal on aura évidemment: µ(M) = µ

mais combien de professeurs, combien de chefs d’établissement seront conscients que

c’est-à-dire qu’avec 9 disciplines l’écart-type est divisé par 3 ! et qu’avec 4 disciplines, l’écart-type est déjà divisé par 2 ! On m’objectera que je sous-entends que les séries de notes des différentes disciplines sont indépendantes les unes des autres et qu’ainsi je nie la notion de bon élève, d’élève moyen, de mauvais élève, c’est-à-dire que par-delà les disciplines il y a une certaine cohérence, une certaine corrélation entre les notes (les bons sont plus ou moins bons partout, les mauvais…). Certes cela est plus ou moins vrai et cela atténuera donc le phénomène de «rabotage», mais sauf à imaginer que chaque élève ait la même note dans chaque discipline, il y aura peu ou prou du rabotage. On peut ainsi avancer l’idée qu’en général le contrôle continu (note décisive comme moyenne de plusieurs notes de contrôles) sera moins discriminant en termes de dispersion des notes que l’épreuve unique. Cela ne préjuge en rien les avantages et inconvénients de l’une ou l’autre pratique.

Pierre: justement, tu ne peux pas noter comme ça. Imagine que tu sois une maîtresse: tu n’aimes pas un enfant;

Est-il normal que la distribution des notes soit normale ?

Autre question: est-il naturel, normal, souhaitable, indispensable que la dispersion des notes (sous réserve qu’il y en ait une certaine quantité) ait l’allure de la célèbre courbe de Gauss (courbe en cloche) ? Courbe de Gauss, dite courbe en cloche.

La distribution des notes selon une courbe de Gauss (pas forcément centrée sur la moyenne 10, comme pourrait le faire croire la figure) estelle une loi naturelle ou un modèle social porté par la culture du notateur qui consciemment ou non fabrique épreuves et barèmes pour y aboutir ? Il faut dire que le modèle a tout pour séduire: symétrie harmonieuse, cohérence avec les idées dominantes (petite élite de «forts», masse de «moyens», minorité de «faibles»). La courbe de Gauss serait justifiée si les performances des élèves face à un travail et la notation qui en est faite suivaient «objectivement» une loi normale (au sens statistique et mathématique de cette expression).

Une telle loi a une définition précise et décrit des phénomènes aléatoires fréquents dans la nature. Mais nous n’avons aucune certitude quant à l’adéquation de la situation scolaire décrite précédemment à une telle loi.

On peut se demander si la référence gaussienne, invoquée pour rassurer les acteurs scolaires (élèves, professeurs, parents, jurys, institution) n’agit pas en fait de façon perverse. La littérature consacrée à la docimologie rapporte souvent l’expérience suivante: on fait corriger par plusieurs correcteurs (afin de lisser les travers individuels) un même lot de copies. On aboutit en général à une distribution des notes suivant une belle courbe de Gauss. On garde Courbe bimodale, dite courbe de Saint-Exupéry... ensuite de ce lot le quart des copies les plus faibles et le quart des copies les meilleures, qu’on réunit en un seul lot qu’on fait corriger à nouveau (par d’autres correcteurs !). La logique voudrait qu’on obtienne une distribution bimodale (courbe à deux bosses dont l’allure serait proche de la figure 2). Dans la plupart des cas il n’en est rien, les correcteurs recréent une distribution qui suit une courbe de Gauss. Au mieux elle sera plus étalée (écart-type plus grand) que la courbe initiale.

D’autres expériences de docimologie confirment cette tendance naturelle à produire des notes distribuées de façon gaussienne: derrière une loi statistique se cache sans doute aussi un biais comportemental de nature individuelle, sociale ou institutionnelle.

Et d’autres expériences permettent de mettre en évidence d’autres biais comportementaux des correcteurs, très souvent induits par l’attente de l’institution, des parents, des élèves.

donc tu vas lui mettre une mauvaise note. Non. Moi, si je mets 8, c’est parce que pour moi, les nougats chinois

Courbe en i Les notes distribuées selon une courbe de Gauss répondent en général à une fonction plus ou moins explicite: séparer le bon grain de l’ivraie (ou plutôt définir le bon grain et l’ivraie) tout en gérant une masse de «moyens». Lorsqu’on se propose simplement d’extraire d’une population une petite élite (certains concours par exemple), épreuves et corrections s’adaptent pour produire plutôt une distribution dont la courbe aura l’allure en «i» de celle de la figure 3.

Au contraire lorsqu’il s’agit d’un examen largement accordé (le brevet des collèges par exemple) on trouvera plutôt des distributions dont la courbe aura une allure en «j» (figure 4). Courbe en i

Et c’est bien la fonction (de l’épreuve à noter) qui crée en quelque sorte l’organe (du notateur).

Classez, classez, il en restera toujours quelque chose !

Derrière l’action de classer, il y a l’idée fondamentale d’ordre, de hiérarchie, mais au delà de cela il y a des aspects, des procédures, des utilisations bien divers. On peut «classer» (le mot convient-il dans ce cas limite ?) une population en deux catégories: les bons et les mauvais, les reçus et les refusés, les gagnants et les perdants…, c’est-à-dire établir deux catégories ordonnées l’une par rapport à l’autre, sans que pour autant il soit nécessaire que les individus soient ordonnés entre eux au sein de chaque catégorie. Certes on peut construire ces deux catégories à partir d’un classement individuel complet, en fixant une barre; c’est ce qui se passe dans un concours pour fabriquer la liste des reçus et des refusés. Rien n’empêche ensuite d’oublier au sein de ces deux catégories le classement individuel et de publier les deux listes par exemple par ordre alphabétique. Remarquons aussi que séparer une population en deux catégories ne sous-entend pas toujours un classement: séparer les hommes et les femmes, les blancs et les noirs n’induit pas (ne devrait pas induire) une hiérarchie.

Bien évidemment, au lieu de deux catégories, on peut «ordonner» une population en plusieurs catégories (par tranches de revenus, par calibres pour des fruits, par admis, admis à un oral de contrôle, refusés, pour les candidats au bac, …).

À l’opposé de ces classements en simples catégories ordonnées, on peut avoir affaire à des classements individuels: chaque individu de la population considérée est affecté d’un rang précis. Encore que ce cas parfait soit assez rare: souvent la notion d’ex æquo induit un mélange de classement individuel et de catégorisation.

ont deux défauts, donc je leur retire deux points. Le premier, c’est que les nougats, c’est comme la limonade,

Il faut regarder de plus près le processus de «mise en ordre» sous-jacent. Les mathématiciens définissent avec précision ce qu’est une relation d’ordre et les propriétés qu’on en exige. Sans aller jusqu’à une telle formalisation technique, il faut quand même souligner les caractéristiques communes de relations comme:

  • x est plus grand que y
  • x est plus beau que y
  • x est meilleur en anglais que y
  • x est un aïeul de y
  • x est un multiple de y

Par analogie avec l’écriture x > y utilisée pour les nombres (qui sont naturellement ordonnés), nous noterons de façon générale les relations du type précédent par

x » y

Une première propriété nécessaire au bon fonctionnement de l’ordre est la transitivité, c’est-à-dire que chaque fois que x » y et que y » z on peut en déduire que x » z.

Une autre propriété serait bien utile, c’est celle d’interdire à deux individus distincts x et y de vérifier à la fois x » y et y » x

Dans la pratique courante des classements on se libère de cette contrainte en créant les fameux ex æquo: si x » y et y » x on dira que x et y sont ex æquo et on peut donc ainsi, au sein d’une population à classer individuellement, trouver éventuellement quelques îlots d’ex æquo.

Considérons à présent deux individus x et y de notre population. Quelles sont les situations possibles ?

  1. ) x et y sont ex æquo (c’est-à-dire x » y et y » x) LI>) x » y LI>) y » x
  2. ) On n’a ni x » y ni y » x (on dit que x et y ne sont pas comparables)

C’est la dernière situation (d) qui va distinguer deux types d’ordre. Si tous les éléments sont comparables entre eux, on parlera d’ordre total. C’est le cas de la plupart des classements que nous rencontrons: classement à l’issue d’un concours, classement des joueurs de tennis professionnels, classement des équipes de football du championnat de France de 1e division.

C’est aussi ce que la plupart des médias extraient d’études souvent beaucoup plus complexes et fines lorsqu’ils nous proposent/imposent le classement des hôpitaux, des lycées, des plus grosses fortunes… On peut mettre les individus dans l’ordre, i.e. leur affecter un rang: 1er, 2e, 3e… avec éventuellement des ex æquo.

Si par contre il existe dans la population à classer des individus non comparables, on parlera d’ordre partiel. Deux clubs jouant dans deux poules différentes d’une même division ne sont pas comparables, deux perdants des quarts de finale d’un tournoi ne sont pas comparables, deux personnes d’une même famille ne sont pas forcément aïeul l’un de l’autre (deux frères, un oncle et son neveu…), 12 est multiple de 3, 15 est multiple de 3, mais de ce point de vue (être multiple de), je ne peux pas comparer 12 et 15. Les évaluateurs, testeurs, notateurs… adorent les ordres totaux et font donc tout (et parfois n’importe quoi) pour transformer un ordre partiel en ordre total. Il est facile de dire qu’une grosse Bentley est plus confortable qu’une Clio ou une Peugeot 206, mais entre ces deux dernières… ? Il est peut-être évident que l’hôpital A est meilleur que la clinique chirurgicale B et que la maternité C, mais entre B et C… ? Un des moyens les plus utilisés est d’attribuer à chaque individu, à chaque voiture, à chaque hôpital, une note chiffrée (avec tous les problèmes posés par la notation) et de faire ensuite le classement via ces notes. Ainsi noter résout tous les problèmes de classement, mais il n’est pas toujours facile de noter (même de façon non pertinente !).

c’est très sucré; plus on en prend, plus on a soif…

TOPAZE
Acte I, scène 12 (extrait)
(On entend chanter la musique. Topaze ne bronche pas.) Topaze: Prenons des exemples dans la réalité quotidienne. Voyons.
(il cherche un nom sur son carnet)
Élève Tronche-Bobine
(L’élève Tronche-Bobine se lève, il est emmitouflé de cache-nez; il a des bas à grosses côtes, et un sweater de laine sous sa blouse.)
Pour réussir dans la vie, c’est-à-dire pour y occuper une situation qui corresponde à votre mérite, que fautil faire ?
L’élève Tronche réfléchit fortement: Il faut faire attention.
Topaze: Si vous voulez. Il faut faire… attention à quoi ?
L’élève Tronche, décisif: Aux courants d’air.
(Toute la classe rit.)
Topaze, il frappe à petits coups rapides sur son bureau pour rétablir le silence: Élève Tronche, ce que vous dites n’est pas entièrement absurde, puisque vous répétez un conseil que vous a donné madame votre mère, mais vous ne touchez pas au fond même de la question. Pour réussir dans la vie, il faut être… Il faut être ?…
(L’élève Tronche sue horriblement, plusieurs élèves lèvent le doigt pour répondre en disant «M’sieur… M’sieur…». Topaze repousse ces avances.)
Laissez répondre celui que j’interroge. Élève Tronche, votre dernière note fut un zéro. Essayer de l’améliorer… Il faut être ho… ho…
(Toute la classe attend la réponse de l’élève Tronche. Topaze se penche vers lui.)
L’élève Tronche, perdu: Horrible ! (Éclat de rire général accompagné d’une ritournelle de boîte à musique )
    Deux types de problèmes se présentent souvent.

Un premier problème consiste en la production d’un classement d’une population lorsqu’on connaît de cette population plusieurs classements selon des critères distincts. Exemples: le classement général des élèves d’une classe à partir des classements dans les différentes disciplines, le classement général des coureurs du Tour de France à partir de leurs résultats dans chaque étape, le classement général des hôpitaux à partir des classements de leurs services de chirurgie, de gynécologie, de néphrologie, …, le classement des meilleurs conducteurs de formule 1 à partir des classements obtenus aux différents Grands Prix. Chacun des exemples cités illustre des stratégies particulières et la liste est loin d’être exhaustive.

Le cas des élèves est le plus simple car les classements dans chaque discipline sont en général obtenus à partir de notes. On revient donc aux notes, on fait des moyennes (pondérées ou non) et on produit le classement général à partir de ces moyennes.

Pour le classement des meilleurs coureurs de formule 1'on est en présence d’une situation un peu analogue: chaque place obtenue dans chacun des Grands Prix rapporte un nombre donné de points (notes). On fait la somme pour aboutir ainsi au classement général.

Au Tour de France, sponsoring oblige, on procède de même, mais avec plusieurs systèmes de «notes»: un premier classement (maillot jaune) est établi en additionnant les temps mis par chacun pour parcourir les différentes étapes (système favorable aux grandes échappées), un second classement (maillot vert) est établi en attribuant un nombre de points donné à chacune des places obtenues dans chaque étape et en faisant pour chaque coureur la somme des points obtenus (système favorable aux sprinters), un troisième classement (maillot à pois) classe les meilleurs grimpeurs par l’addition des points obtenus selon le classement au sommet des cols et la difficulté de chaque col.

Annabelle: mais justement: pour moi, les nougats, ils ont trois défauts: le premier, c’est comme tu dis;

Plus délicat est de réaliser un classement général des hôpitaux. On peut évidemment transformer le classement de chacun des services en notes (parfois d’ailleurs les classements ont été obtenus à partir de notes), puis faire la somme ou la moyenne pour chacun des hôpitaux. Mais tous les hôpitaux n’ont pas forcément un service de néphrologie. Si on somme, les gros CHU, avec tous leurs services, l’emporteront facilement sur de petits établissements. Si on fait la moyenne des notes des services existants chez chacun, la petite clinique avec juste deux ou trois (très bons) services l’emportera sur les gros établissements où il y aura ici ou là un service un peu plus faible.

L’autre problème se présente lorsqu’on a classé séparément deux sous-populations d’une population donnée et qu’on veut classer ensuite l’ensemble de la population. Exemples: établir le classement tous sexes confondus de l’ensemble des acteurs de cinéma à partir du classement des actrices et de celui des acteurs, établir un classement général (pour la montée en division supérieure) de différentes équipes ayant disputé un championnat dans des poules différentes d’une même division, établir un classement de la popularité des «célébrités» à partir d’un classement de la popularité des hommes politiques et un autre des personnalités du monde médiatique. Dans tous ces exemples la solution «facile» est de disposer (ou de fabriquer à partir des classements initiaux) des «notes». Encore faut-il que ces notes soient comparables !

Ainsi si Lionel Jospin a 42% d’opinions favorables et se situe à la troisième place des politiques et que Béatrice Schoenberg avec 36% d’opinions favorables se situe à la seconde place des médiatiques, que peut-on faire ? Comparer des pourcentages non comparables ? Comparer des places dans deux classements non comparables ? Comparer des personnes non comparables ?

Les sportifs n’ont en général trouvé d’autres solutions que de confronter entre eux les deux ou trois premiers de chaque poule pour sortir un classement «inter-poules» afin de trier ceux qui accèderont à la division supérieure.

On peut d’ailleurs remarquer que nous pouvons beaucoup apprendre au sujet des classements dans le monde sportif. C’est dans ce secteur qu’on trouve la plus grande richesse de stratégies d’obtention de classements, dans la mesure où le classement est le nœud gordien du sport de compétition. On peut à ce sujet étudier le processus de classement des joueurs de tennis professionnels, véritable bijou dans son genre, dans la mesure où la compétition reine au tennis est le tournoi (qui ne produit qu’un ordre partiel et à chacun desquels ne participent pas tous les joueurs concernés) alors qu’on désire établir le classement, c’est-à-dire un ordre total, sur l’ensemble des joueurs professionnels.

le deuxième, c’est que je ne les aime pas trop…

Conclusion

Classer / noter est un fait social, un besoin, une envie d’ordre socioculturel. Essayer d’objectiviser une telle procédure, de se donner les instruments pour réaliser cette objectivisation peut paraître une démarche naturelle, d’autant plus qu’intuitivement on a envie de rapprocher une procédure de classement / notation de procédures plus scientifiques, plus mathématiques: mesurer / compter / ordonner. Nous avons regardé dans ce texte quelquesuns des principes qui gouvernent cette modélisation, mais nous avons aussi essayé d’en montrer les limites et la relativité des démarches utilisées. Tout cela devrait inciter notateurs, classificateurs, sondeurs, enquêteurs, médiatisateurs… à beaucoup de prudence. D’autant plus que nous n’avons pas du tout abordé un autre facteur qui devrait inciter à encore plus de prudence, c’est tout ce qui concerne la pertinence même des critères de jugement, la neutralité et la stabilité de jugement de l’évaluateur, l’usage de synthèses parfois bien réductrices, voire biaisées.

Tout cela me rend bien sceptique et je vais me consoler en buvant un coup de rouge qui a eu 14/20 dans le guide X et 17/20 chez Y, sur la terrasse d’un café «trois étoiles» d’une ville qui a 15/20 pour sa qualité de vie: le bonheur !

Daniel Reisz

Le degré de tartinabilité se mesure-t-il sur une échelle quantitative linéaire, ou sur une échelle qualitative multidimensionnelle?
Que Choisir, N°389 bis/6, Janvier 2002
N.D.L.R.: le coefficient de Spearman-Brown pour la tartinabilité est omis par cette revue pourtant sérieuse.

Pierre: non, Annabelle, tu ne peux pas dire ça: 7, c’est une très bonne note pour des nougats chinois.

Le classement des joueurs de tennis professionnels

Un bon exemple d’une procédure de classement est celle en vigueur pour les joueurs professionnels de tennis (classement ATP). Il est actuellement remis à zéro au début de chaque saison et ne tient donc pas compte du passé (saisons précédentes). Remarquons qu’il n’en a pas toujours été ainsi et qu’il y a encore quelques années, les points accumulés les saisons précédentes étaient repris en compte, avec simplement un coefficient de vieillissement qui faisait qu’un joueur sans résultats reculait progressivement au classement, mais qui malgré tout établissait un classement assez (trop) stable parmi eux. Trop stable aux yeux des sponsors qui, pour corser les choses et introduire plus de suspense et donc plus d’attractivité, ont imposé un classement remis à zéro à chaque saison, obligeant chaque joueur à refaire ses preuves, sans prise en compte de ses performances passées.

Le tennis se joue par tournoi, c’est-à-dire qu’à chaque tour les perdants sont éliminés et les gagnants s’affrontent deux par deux au tour suivant. Pour des raisons évidentes, un tournoi regroupe 128, 64, 32, 16, … joueurs et se termine donc par des quarts de finale (8 joueurs), puis demi-finales (4 joueurs), puis finale (2 joueurs). Un tel tournoi ne produit pas un classement, puisque, si on peut comparer le vainqueur et le finaliste, il n’est pas possible de comparer les deux perdants des demi-finales, ni ceux des quarts de finale, etc.

Les exigences sportives, médiatiques et aussi commerciales exigent un classement. Il se fait donc à travers le cumul de points attribués à l’issue de chaque tournoi. Le nombre de points est à la fois fonction de la performance du joueur et de l’importance du tournoi. Ainsi, pour l’un des quatre tournois du «Grand Chelem» (Roland Garros, Wimbledon, U.S. Open et Open d’Australie):
Vainqueur:200 points
Finaliste:140 points
Perdants des deux demi-finales:90 points
Perdants des quarts de finale:50 points
Perdants des huitièmes de finale:30 points
Perdants du 3e tour:15 points
Perdants du 2e tour:7 points
Perdants du 1er tour:4 points ou 1 point(*)
(*) Selon que le joueur est issu d’épreuves de qualification ou non.

Pour un tournoi ATP officiel, mais bas de gamme, les points attribués sont les suivants:
Vainqueur:35 points
Finaliste:24 points
Perdants des demi-finales:15 points
Perdants des quarts de finale:8 points
Points pour les deux tours précédents:3 et 1 points

Il y a ainsi, parmi la petite centaine de tournois reconnus par l’ATP, 9 catégories, chacune avec son barème, entre les quatre tournois du Grand Chelem et les tournois «bas de gamme». Il y a donc chez chaque joueur, outre l’envie de gagner, toute une stratégie à mettre en œuvre pour choisir les «bons» tournois en fonction de son niveau, afin de marquer un maximum de points.

D.R.

Donc tu ne peux pas à la fois dire que tu ne les aimes pas trop, et leur mettre 7.

Championnat de France de football

 1	NANTES		NANTES
 2	LYON		LYON
 3	LILLE		LILLE
 4	BORDEAUX	BORDEAUX
 5	SEDAN		SEDAN
 6	RENNES		TROYES
 7	TROYES		RENNES
 8	BASTIA		GUINGAMP
 9	PSG		BASTIA
10	GUINGAMP	PSG
11	MONACO		METZ
12	METZ		MONACO
13	AUXERRE		LENS
14	LENS		AUXERRE
15	MARSEILLE	MARSEILLE
16	St-ÉTIENNE	St-ÉTIENNE
17	TOULOUSE	TOULOUSE
18	STRASBOURG	STRASBOURG
    Il y a quelques années de cela, les dirigeants du football professionnel ont introduit un changement dans l’attribution des points dont le but était de favoriser le jeu offensif. En effet, jusqu’alors on attribuait 2 points pour une victoire, 1 point pour un match nul et 0 point pour une défaite. Afin d’éviter que les équipes, surtout en déplacement, ne se contentent trop facilement d’un match nul et ne se réfugient dans un jeu entièrement défensif peu spectaculaire, il fut décidé d’attribuer 3 points en cas de victoire, 1 point pour un nul et 0 point pour une défaite, c’est-à-dire de surpayer les victoires vis-à-vis des matchs nuls. En prenant le championnat de France 2000-2001 comme exemple et en faisant les deux décomptes, on obtient les deux classements ci-contre.

Que peut-on en conclure ? Tout d’abord que le passage de l’un des décomptes à l’autre ne bouleverse pas vraiment la hiérarchie générale des équipes. Seules quelques petites interversions se font jour, ici ou là, mais aucune équipe ne change significativement de place au classement de fin de saison. Ceci est un constat technique objectif.

Peut-on aller plus loin ? On aurait alors envie de dire que l’objectif de la réforme n’a pas été atteint de façon significative puisque les deux barèmes fournissent à peu de choses près la même hiérarchie.

 1	MONACO		MONACO
 2	NANTES		NANTES
 3	STRASBOURG	STRASBOURG
 4	MARSEILLE	MARSEILLE
 5	BASTIA		BASTIA
 6	NANCY		NANCY
 7	St-ÉTIENNE	St-ÉTIENNE
 8	NICE		NICE
 9	SOCHAUX		SOCHAUX
10	LAVAL		LAVAL
11	PSG		PSG
12	METZ		METZ
13	NÎMES		NÎMES
14	BORDEAUX	VALENCIENNES
15	LYON		REIMS
16	VALENCIENNES	BORDEAUX
17	REIMS		LYON
18	LENS		LENS
19	TROYES		TROYES
20	ROUEN		ROUEN
    Plus intéressant est de constater que les trois lignes qui précèdent constituent une belle faute de raisonnement, que d’aucuns n’ont pas manqué de faire. En effet, que les deux barèmes n’introduisent pas de différence notable après coup ne signifie pas que le style de jeu n’a pas changé. Cela ne signifie d’ailleurs pas non plus le contraire ! On peut par exemple penser que les équipes, conscientes du nouveau barème, avaient eu un jeu plus offensif, donc plus spectaculaire, mais que cela n’a pas affecté la hiérarchie des équipes. Une autre idée est de se demander l’effet que cette modification aurait eu sur un championnat antérieur. Voir ci-contre par exemple les deux classements obtenus pour la saison 78/79. Quelques légères modifications entre la 14e et la 17e place. Là encore, rétrospectivement, la hiérarchie des clubs n’était pas bouleversée ! Là encore il est difficile d’en tirer des conclusions.

D.R.

Annabelle: oui, enfin, je leur mets 7 quand même… et les nems, tu leur mets quoi ?

Quotient intellectuel (Q.I.)
Peu importent les tests pourvu qu’ils soient nombreux. A. Binet

Qu’est-ce que l’intelligence ? Est-ce seulement une boutade que de répondre que c’est ce que mesure le Q.I. (quotient intellectuel) ? Sans rentrer dans un débat de fond qui dépasserait nettement le cadre de ce court texte, essayons de «mesurer» les conséquences du succès de cette tentative de mesurer l’intelligence.

Le principe du Q.I. tel qu’il fut mis au point par Alfred Binet entre les années 1904 et 1911 consiste en une batterie de tests progressifs, étalonnés par une échelle d’âges mentaux. Le sujet normal saura réussir tous les tests correspondants à des âges mentaux inférieurs ou égaux à son âge réel et échouera à ceux qui correspondent à des âges mentaux supérieurs à son âge réel. C’est dans le souci de pouvoir comparer les performances de sujets d’âges différents que le psychologue allemand Stern proposa de diviser la «note» obtenue aux tests par l’âge réel du sujet: le quotient intellectuel était né !

La mise au point par Binet de ces tests répondait à une commande du ministre de l’Instruction de l’époque qui désirait mettre à la disposition des instituteurs un outil simple permettant de dépister parmi les élèves en difficulté scolaire ceux qui relèveraient d’un enseignement spécialisé. Contrairement à l’usage qui en a été fait ultérieurement, A. Binet s’interdisait d’assimiler Q.I. et intelligence et était parfaitement conscient qu’un outil aussi grossier ne devait en aucun cas donner naissance à des classements individuels, mais rester un simple indicateur sans grande précision.

Alfred Binet s’interdisait aussi de considérer le Q.I. comme pratiquement invariant chez un individu donné. Il croyait profondément aux vertus de l’éducation et de nombreuses expériences attestent que le Q.I. d’une personne peut progresser sous l’effet d’une éducation sérieuse.

Ce qui nous amène à nous intéresser au Q.I. dans le cadre de cette étude sur les procédures de notation et de classement est le caractère exemplaire des (mauvais) usages du Q.I. Une première dérive a consisté à passer d’un indicateur grossier de dépistage à un instrument de mesure précis en soi: cela mesure avec une totale précision quelque chose qu’on est bien en peine de définir ! En réalité le Q.I. est un unique nombre obtenu par sommation de repérages de compétences très complexes, difficiles à isoler de tout contexte socioculturel et psychologique.

Pierre: ah, les nems, je leur mets 10, sans hésiter !

Une seconde dérive a consisté à passer de la détection d’enfants relevant d’une éducation spécialisée à une échelle couvrant toute l’étendue des niveaux de performances. C’est comme si, pour mesurer la distance entre Paris et Nice, on se servait d’un double décimètre conçu pour mesurer les longueurs d’une figure de géométrie sur une feuille de papier. Conscients de ce travers, certains psychologues ont d’ailleurs mis en place des tests distincts selon le niveau présupposé des sujets à tester.

Une troisième dérive, conséquence directe des deux premières, consiste à faire du Q.I. un instrument de classement entre les individus ou entre des populations (le Q.I. moyen des Noirs, des femmes, des délinquants sexuels, …) ou de catégorisation (âge mental inférieur à 3 ans: idiot, âge mental entre 3 et 7 ans: imbécile, … jusqu’aux doués et aux surdoués, en passant par les moyens et les normaux, ces derniers étant d’ailleurs supérieurs aux moyens). Ces catégories étant évidemment définies par des bornes précises, alors que la moindre des choses serait d’envisager des zones un peu floues.

Dans cette perspective on ne peut pas ne pas citer un extrait d’un discours tenu en 1922 par le président de la Colgate University: «Nous ne pouvons concevoir pire forme de chaos qu’une démocratie véritable dans une population dont l’âge mental dépasse à peine les treize ans». (il s’agissait évidemment de la population des États-Unis)

Tout enseignant, tout évaluateur ne peut qu’être interpellé par les effets pervers d’une fausse scientificité introduite par l’usage d’un instrument technique censé mesurer avec précision quelque chose qui est loin d’être clairement défini.

Bibliographie: Stephen Jay Gould, La mal-mesure de l’homme, Éditions O. Jacob, 1997.

D.R.

Annabelle: Chut !!!


[PÉNOMBRE] <- Prec. Sommaire Suiv. =>