[PÉNOMBRE] <- Prec. Sommaire Suiv. =>

Pénombre — la lettre grise n° 7


NOTER POUR EVALUER

 L ’ARTICLE de Daniel Reisz part du constat que, dans la notation, on manie des notions bien repérées en mathématiques: ordre, équivalence, mesure. Mais il remarque aussi que la pratique ne vérifie pas toujours bien les propriétés que les mathématiques ont ainsi dégagées: elle fait de la théorie une application confuse et contestable.

Faut-il dire qu’à cette approche critique, je vais tenter d’opposer une justification ? Sans doute pas. Je partirai cependant d’un autre point de vue. Non pas celui des qualités d’une (bonne) notation: celui du besoin auquel elle s’efforce de répondre.

Flûte à 7 trous De quoi s’agit-il ? Souvent, nous avons besoin ou envie de juger: apprécier une situation, une personne, une machine, etc. afin de prendre une décision. Besoin, envie ? pas même: juger des gens et des choses est dans la nature de notre activité éveillée. Constamment, nous estimons que le café est trop chaud, que Jules est sympathique, qu’il risque de pleuvoir, que nous préférons voter pour X plutôt que pour Y, que le trajet en métro est plus sûr en durée que celui en autobus, et ainsi de suite. La plupart du temps, nous nous contentons d’une évaluation intuitive. Pas même explicite, souvent: le geste implique le jugement sans que celui-ci ait été formulé. Mais parfois, nous doutons de la pertinence de cette intuition. Nous voudrions asseoir notre jugement sur des éléments tangibles; ou bien, nous n’avons pas confiance dans l’appréciation portée par quelqu’un d’autre et nous voudrions la contrôler en nous assurant qu’il a bien pris en compte ce qui doit l’être. Ou encore, il s’agit de comparer des gens ou des choses qui ont été séparément évaluées par des juges différents. Alors, on va commencer à formaliser.

En fait, il y a là deux finalités distinctes;

Ces deux préoccupations sont indépendantes. Je puis, pour choisir une voiture, m’astreindre à regarder le prix, le poids, la consommation, la boîte de vitesses, le volume du coffre, le nombre de sièges et leur confort, etc. mais j’élabore cela pour moi-même et n’ai pas besoin de le transmettre. À l’inverse, l’usage de notations s’étant répandu dans la société, on entend parfois dire que l’on met à Untel une note de 15/20, comme ça, à l’estime, pour son aptitude ou son esthétique ou autre chose: sans qu’il soit besoin de détailler les critères pris en compte. C’est un langage imagé et l’on se fait très bien comprendre (du moins dans le contexte donné). Mais souvent aussi, on visera les deux objectifs à la fois: encadrer l’évaluation et la faire communiquer entre évaluateurs ou décideurs.

Désubjectiver le jugement

D’abord, considérons un seul juge: nous-même, par exemple. Nous voulons asseoir notre jugement sur des critères exprès, car d’une certaine façon nous nous méfions de notre Lyre à 7 cordes impulsion. Définir une notation contrôlée suppose trois opérations: l’une est d’arrêter la liste, la nomenclature des critères à examiner; la deuxième est de doter d’une échelle chacun des critères; la dernière est de décider d’une manière de les combiner.

1. liste de critères. Par exemple, on dira que des candidats doivent faire une dictée, nager 100 m et subir un test psychométrique. Ou encore, dans une copie d’examen: le plan, le style, les connaissances et l’orthographe.

2. cotation. On définira pour chaque épreuve une échelle de cotation: peut-être à deux catégories (admis/refusé), peut-être à plusieurs niveaux (A, B, C, ...) en principe ordonnés, ou enfin une échelle quasi-continue telle qu’une note chiffrée. Cette note élémentaire donnée ici peut rester tout à fait subjective: simplement, on s’astreint à faire porter la subjectivité sur des critères bien explicités. Mais on peut aussi décider qu’on prendra une mesure objective: nombre de secondes du parcours, nombre de fautes à la dictée, etc. À partir de ce schéma, et avant d’en venir à la synthèse, se situera la cotation proprement dite, qui consiste à examiner l’objet ou la personne au regard de chaque critère séparément et à la classer dans une catégorie ou lui attribuer une note.

3. synthèse (ou, agrégation). On dispose de notes séparées pour les différents critères et l’on veut les ramener à une note unique. Souvent, si l’on a des notes numériques, on en fait la somme ou la moyenne; et il peut s’agir de la somme ou de la moyenne simple ou bien avec des pondérations qui donnent plus d’importance à certains critères qu’à d’autres. Cela permet une compensation entre bons et mauvais scores. Mais il y a d’autres façons de faire: on peut par exemple exiger un niveau minimum à toutes les épreuves. Ou, des formules plus compliquées ou hybrides.

Pour cette synthèse, souvent, il est commode d’avoir des notes partielles qui soient des nombres: car cela permet des opérations telles que des moyennes (pondérées) ou simplement parce que les nombres sont ordonnés. On peut en effet seulement s’intéresser au rang: à l’ordre dans lequel les différents objets ou personnes apparaissent au regard du critère en question. Le nombre n’est ici convoqué que pour la relation d’ordre, de même que les maisons sont numérotées dans une rue sans qu’on en déduise que la distance entre les numéros 2 et 10 serait la même qu’entre le 12 et le 20.

Je ne crois pas essentiel - et, pour tout dire, il est un peu illusoire - de prétendre «échapper» à une supposée dictature des nombres en adoptant des barèmes de lettres ou de couleurs, par exemple. J’ai connu des appels d’offres pour l’attribution de crédits de recherche ou des marchés de fourniture, où l’on demandait de classer en trois catégories: les très bons (A), les bons (B) et les mauvais (C): eh bien ! on voyait apparaître des A- et des B+, quand ce n’étaient pas des A+++. Si c’est pour en venir là, autant noter de 0 à 20...

«Ceux qui jugent d’un ouvrage sans règle sont à l’égard des autres comme ceux qui ont une montre à l’égard des autres. L’un dit: il y a deux heures; l’autre dit: il n’y a que trois quarts d’heure. Je regarde ma montre et je dis à l’un: vous vous ennuyez et à l’autre: le temps ne vous dure guère, car il y a une heure et demie et je me moque de ceux qui disent que le temps me dure à moi et que j’en juge par fantaisie.
Car il ne savent pas que j’en juge par ma montre.»
Pascal Pensées
    Un point important est que c’est souvent le besoin de synthétiser plusieurs critères qui conduit, pour formaliser la synthèse, à utiliser des notes chiffrées: non parce que c’est nécessaire, mais parce que c’est commode. On est conduit à «numériser» ce qui n’est que qualitatif. Autrement dit, c’est le besoin d’une appréciation multidimensionnelle (ou, multicritère) qui conduit d’abord à plaquer un critère qualitatif sur une échelle de nombres: de 1 à 5, de 0 à 20 ou autre. Par exemple, on vous dit «donnez votre préférence entre 1 et 5». On soulignera, pour s’en indigner ou s’en émerveiller, qu’on a alors toute l’apparence d’une mesure comme une longueur ou un poids, alors qu’il s’agit du plaisir ou du degré de confiance que l’on éprouve. Qu’on s’en indigne, soit ! Mais aussi, qu’on considère que cette formalisation répond au but de contrôler, d’endiguer l’impétuosité de jugements qui, sinon, seraient autrement affectifs ou fantasques.

Intersubjectiver les jugements

Ici, le problème n’est peut-être pas tant d’avoir une appréciation «objective» que de s’assurer d’une transitivité des appréciations entre des juges différents: que la même personne ou le même objet soit apprécié de la même façon par tous; ou, ce qui revient au même, que l’appréciation par l’un vaille pour l’autre. Il s’agit que le jugement soit communicable. À la limite, peu importe qu’il reste subjectif (intuitif, affectif,...) pourvu que ce soit de la même façon1:
1. Cette identité du ressenti, chez des personnes différentes, est sans doute illusoire. Mais elle est posée comme un idéal: hors d’atteinte, certes, mais dont on s’efforce de s’approcher.

d’où l’adjectif «intersubjectif». Ceci peut se présenter de deux manières, que nous pourrions appeler verticale et horizontale.

La transmission - ou, transitivité - verticale est le cas d’un jugement délégué: si je n’ai pas le temps ou la compétence pour porter un jugement, je vais m’en remettre à vous. Et, je ferai mienne votre appréciation. Par exemple, je souhaite recruter un formateur en informatique: je n’ai pas le temps de recevoir moi-même tous les candidats, parce que mes fonctions m’occupent totalement par ailleurs. Ou bien, je pourrais recevoir les candidats, mais je ne connais rien à l’informatique et je ne sais pas reconnaître un bon pédagogue. Je demande donc à plus compétent et plus disponible que moi de faire cette sélection. Mais le juge, l’examinateur, l’arbitre, l’expert, etc. auquel je m’en remets doit préparer une décision que je prendrai et qui soit ajustée compte tenu de ce que j’attends de la personne recherchée. Donc, ce juge que je mandate doit s’assurer de ce que je cherche: il me demande d’abord quels sont mes critères. Je lui fournis la première des trois étapes évoquées plus haut. (Ou, nous discutons pour l’établir d’un commun accord.) Puis il accomplira les deux autres étapes. Mais le résultat me reviendra.

La transmission - ou, transitivité - horizontale est le cas où les différents candidats (personnes, équipements, procédés, etc.) mis en concurrence ne sont pas examinés par un juge unique mais par plusieurs. Il faut alors s’assurer qu’un même candidat serait jugé de la même manière par les différents juges (ou jurys). À la question de la pertinence des critères, comme précédemment, s’ajoute ici celle de l’équité. Il faut donc donner aux différents juges une liste commune de critères de jugement, une échelle commune pour chaque critère et un même schéma de synthèse (minima, moyennes, pondérations, etc.). Il faut aussi que les juges soient à peu près interchangeables, c’est-à-dire également compétents. Mais il restera sans doute une part de subjectivité dans leurs appréciations. On peut tomber sur un examinateur plus sévère ou qui se laisse séduire par une forme de présentation, etc. Cependant, le fait de s’être donné un ensemble de critères et de barèmes permet de réduire les différences d’appréciations entre les juges. Ceci demande un certain soin a priori et aussi une vigilance durant tout le processus. Par exemple, on peut croire qu’on a donné une juste pondération aux différents critères alors que (D. Reisz le mentionne) le fait qu’un examinateur note dans une large fourchette et un autre avec très peu de variation introduit une pondération implicite qui modifie le poids en principe affecté à leurs notes respectives.

Objectiver en fonction de l’objectif

Une formalisation du processus de jugement ou notation permet d’échapper à l’inconvénient d’impulsions ou à la relativité des notateurs. (Permet de, ou en tout cas vise à.) Les notions mobilisées par cette formalisation ressemblent à celles des mathématiques: nomenclatures et relations d’équivalence, échelles et relations d’ordre, chiffrage et mesurage. On n’atteint pas toujours à la pureté des notions mathématiques en question, mais on se trouve quelque part à mi-chemin de la subjectivité incontrôlée et de la mesure objective. On peut donc se plaindre que le verre reste à demi-vide; mais on peut être heureux qu’il soit déjà à demi-plein. On utilise en quelque sorte une mathématique dégradée, une pseudo-mathématique. Mais après tout, n’en est-il pas souvent ainsi dans la pratique ? Lorsqu’un jardinier dessine un massif circulaire, est-on bien sûr que le pourtour en est un cercle à la fraction de millimètre près ? Et, a-ton vraiment besoin qu’il en soit ainsi ? Le tout est de savoir si l’approximation est suffisante pour qu’on s’appuie sur quelques propriétés intéressantes des outils mathématiques utilisés (on dirait presque: imités). Et, ceci, compte tenu du but que l’on se donne. D’où le jeu de mots de mon dernier intertitre: échapper suffisamment à la subjectivité en fonction de l’objectif que l’on se donne.

Cette utilisation pragmatique de notions ressemblant à celles des mathématiques (des nombres, mais aussi, on l’a vu des notions non numériques: ordres, équivalences...) est commode et tout à fait licite. À condition toutefois qu’on observe deux règles: être clair sur ce qu’on fait et ne pas tirer l’interprétation trop loin.

Si l’intérêt de cette formalisation du jugement est que l’on explicite un certain nombre de choses (critères d’évaluation, pondérations, etc.) il faut justement que cette explicitation soit accessible. Il faut donner la recette que l’on applique. C’est classiquement ce qu’on fait pour les examens scolaires, domaine où la notation est devenue paradigmatique: liste des matières, programmes des épreuves, barèmes de notes, statistiques ultérieures (et rétrospectives), ... Mais c’est aussi ce qui est fait dans d’autres cas. Une revue de consommateurs qui établit une comparaison de moulins à légumes ou de téléviseurs donne les divers critères qu’elle a examinés. Si elle propose une note de synthèse (un «meilleur choix») elle vous donne aussi le détail et vous laisse libre de préférer d’autres pondérations. Elle a jugé pour vous, par délégation, mais vous êtes en état de vérifier si ses critères de jugement s’accordent aux vôtres. Lyre et double flûte

La seconde précaution consiste à ne pas se piéger soimême ou à ne par surinterpréter des notes d’apparence rigoureuse. Il faut garder à l’esprit que ce n’est là qu’une amélioration par rapport à ce qu’un jugement brut aurait pu être. Le fait que ça s’exprime par des chiffres ne veut pas dire que c’est «scientifique». Encore que: ne pas non plus donner à cet adjectif le sens qu’on lui donne souvent à tort. Un résultat n’est pas scientifique: c’est la démarche qui y conduit qui peut l’être... ou non. Or, la science est (étymologiquement: scinder) l’art de séparer le vrai du faux. Et, la science a depuis longtemps repéré qu’il n’y a pas une telle distinction tranchée entre le vrai et le faux. Le vrai n’est souvent qu’approximation: si ma montre marque 12h03 et que je dis «il est midi», est-ce faux ? Parfois aussi, le vrai est seulement probable: si un médecin dit «ce malade n’en a plus que pour une semaine», comprenons-nous qu’il mourra certainement dans 168 heures ? En revanche, ce qui est scientifique, c’est la manière de contrôler le doute, la manière d’arriver à une affirmation approximative et probable; et, de donner en même temps une indication de son degré d’approximation et de probabilité.

Or, qu’a fait notre processus de notation ? Il a caractérisé une ou des propriétés d’un objet ou d’une personne et l’a fait en vue d’une certaine décision (achat, recrutement, ...). On espère qu’il permet à cette décision de n’être pas trop mauvaise. Mais doit-on s’autoriser du résultat intermédiaire que la note constitue pour en tirer sur le produit ou la personne en cause d’autres conclusions ? Pas forcément. La notation a consisté à objectiver le ressenti, à donner une expression quantitative de ce qui n’était pas quantitatif, une mesure de ce qui n’est pas métrique. Elle l’a fait par approximation en vue d’un certain but. Elle n’a pas eu pour effet de mesurer le non mesurable.

En revanche, le fait d’utiliser le langage des nomenclatures et des nombres permet diverses opérations sur les résultats intermédiaires et finals: des indicateurs de l’écart entre notateurs, de la stabilité ou de l’homogénéité des jugements, etc. Ce qui permet une certaine appréciation de la qualité des appréciations portées.

Si l’on veut bien alors ne demander à la notation que ce pour quoi on l’a établie, ne pas lui faire dire ce qu’il n’a pas été prévu qu’elle dise, alors la procédure consistant à enserrer ainsi le jugement dans des grilles, des barèmes et des règles est acceptable: car elle est utile.

Mais il faut voir aussi que l’abus n’est pas seulement du côté de l’interprétation après coup. Il peut se situer dans le processus même de la notation ou chez ceux mêmes qui l’instituent: si certains manipulent le processus pour lui faire fournir le résultat qui les arrange (ou, l’empêcher de produire ce qui les gêne), ou encore s’ils instrumentalisent le processus lui-même pour s’arroger un pouvoir ou pour accréditer par avance une signification hors de propos ou hors d’atteinte.

René Padieu

Violoncelle et contrebasse


[PÉNOMBRE] <- Prec. Sommaire Suiv. =>