PRÉC. SOMM SUIV.
Gregory Bateson - Vers une Écologie de l'esprit
Forme et pathologie des relations sociales

- III.I.4 - Les catégories de l'apprentissage et de la communication [*] -

Le concept d'apprentissage, en un sens ou l'autre du mot, devrait intéresser tous ceux qui travaillent dans les sciences du comportement à quelque courant qu'ils appartiennent. Bien plus, comme il s'agit là d'un phénomène de communication, ils devraient être tous également concernés par la révolution cybernétique qui s'est déployée au cours des vingt dernières années. Elle a été déclenchée par les ingénieurs et les techniciens de la communication, mais ses origines sont à chercher beaucoup plus loin, notamment dans l'œuvre physiologique de Claude Bernard, dans la physique de Clark Maxwell et dans la philosophie de la mathématique de Russell et Whitehead. Dans la mesure où ceux qui font des recherches dans ce champ si diversifié — que j'appelle ici d'un seul nom : « sciences du comportement » — ignorent encore les problèmes soulevés dans Principia Mathematica[1], ils s'offrent tout simplement le luxe de la désuétude, voire d'une soixantaine d'années de retard.

Il semble néanmoins que les barrières d'incompréhension qui séparent les différentes orientations dans ce domaine peuvent être, sinon supprimées, du moins mises clairement en évidence par une application de la Théorie des types logiques de Russell au concept d'apprentissage.

Obtenir ce nouvel éclairage est le but de cet essai.


La théorie des types logiques

Il convient tout d'abord d'indiquer quel est l'objet de cette théorie. On y affirme que : dans un discours logique ou mathématique formel, aucune classe ne peut être un membre d'elle-même ; une classe de classes ne peut être l'une des classes qui sont ses membres ; un nom n'est pas la chose nommée ; « John Bateson », par exemple, est la classe dont ce garçon est le membre unique, etc.

Ces affirmations peuvent sembler banales et même évidentes mais, nonobstant, nous verrons par la suite qu'il n'est pas du tout rare que les théoriciens du comportement commettent, par exemple, précisément l'erreur de classer ensemble le nom et la chose nommée ; autrement dit, ils se mettent en situation de manger la carte à la place du repas : simple erreur de discrimination des types logiques.

Le postulat suivant de cette théorie peut cependant paraître moins évident : il n'est pas correct de classer ensemble une classe et les éléments qui sont ses non-membres. Si nous classons ensemble les chaises, pour former la classe des chaises, nous pourrons faire remarquer par la suite que les tables et les abat-jour font partie d'une vaste classe de « non-chaises » ; mais nous commettrons une erreur dans le discours formel, si nous comptons la classe des chaises au nombre des éléments qui constituent la classe de non-chaises.

Finalement, la théorie affirme que, si l'on contrevient à ces règles du discours formel, on aboutit à un paradoxe et de ce fait le discours sera vicié.

Cette théorie traite donc de matières hautement abstraites ; son origine se trouve dans l'univers abstrait de la logique : lorsqu'on peut prouver que telle ou telle succession de propositions engendre un paradoxe, tout l'ensemble d'axiomes, de théorèmes, etc., impliqué dans l'engendrement de ce paradoxe, est de ce fait anéanti, réduit à zéro, comme s'il n'avait jamais existé. Mais dans le monde réel (ou du moins dans les descriptions que nous en faisons), il y a le temps, et rien de ce qui a été ne peut être totalement annulé de cette façon : par exemple, l'ordinateur qui rencontre un paradoxe (dû à une erreur de programmation) n'est pas anéanti pour autant.

Le « si... donc... »de la logique ne contient pas de temps. Mais dans l'ordinateur, ce sont la cause et l'effet qui sont utilisés pour simuler le « si... donc... » logique ; et toutes les séquences de cause et effet impliquent inévitablement le temps. (Inversement, nous pouvons dire que dans les explications scientifiques le « si... donc... » logique est utilisé pour simuler le « si... donc... » de la cause et de l'effet)

L'ordinateur ne rencontre jamais de véritable paradoxe logique, mais uniquement la simulation du paradoxe, dans les enchaînements de causes et effets. L'ordinateur n'est donc pas détruit. Il ne fait que « s'affoler ».

En fait, il existe d'importantes différences entre le monde de la logique et celui des phénomènes, et il nous faut tenir compte de ces différences à chaque fois que nous appuyons nos arguments sur l'analogie - partielle, mais importante - qui existe entre eux.

La visée de mon essai est précisément de montrer que cette analogie partielle peut fournir à la théorie un critère fondamental pour la classification des phénomènes qui se rattachent à l'apprentissage : c'est précisément dans la communication animale et mécanique que doit s'appliquer une théorie comme celle des types logiques.

Il est rare néanmoins que des questions de cet ordre soient abordées dans les laboratoires de zoologie, au cours des recherches anthropologiques ou bien encore dans les congrès psychiatriques ; il est donc nécessaire de démontrer ici que ces considérations abstraites ne sont pas sans avoir de l'importance pour les sciences du comportement.

Considérons le syllogisme suivant :

  1. Les changements dans la fréquence des éléments du comportement des mammifères peuvent être décrits et même prédits, en fonction de différentes « lois » de renforcement.
  2. L'« exploration », telle qu'elle a été étudiée chez les rats, est une catégorie ou classe du comportement des mammifères.
  3. En conséquence, on devrait pouvoir décrire les changements dans la fréquence de l'« exploration », en fonction de ces mêmes « lois » de renforcement.

Supposons tout de suite deux points : 1. les données empiriques prouvent que la conclusion c) est fausse ; 2. si l'on pouvait démontrer que la conclusion c) est vraie, a) ou b) seraient alors faux[2].

La logique et l'histoire naturelle trouveraient davantage leur compte dans une version développée et corrigée de la conclusion c), notamment :

  1. Si, comme il est affirmé dans b),l'« exploration » n'est pas un élément du comportement des mammifères, mais une catégorie de ces éléments, alors aucun énoncé descriptif qui serait vrai pour les éléments du comportement ne peut être vrai pour l'« exploration ». Si toutefois les énoncés descriptifs qui sont vrais pour les éléments du comportement sont également vrais pour l'« exploration », cette dernière est alors un élément, et non pas une catégorie d'éléments.

Le problème revient donc à la question de savoir si la distinction entre une classe et ses membres est (ou n'est pas) un principe de mise en ordre des phénomènes du comportement qui font l'objet de notre étude.

Ou, dans un langage moins formalisé : on peut renforcer un rat (positivement ou négativement), pendant qu'il examine un objet insolite et il apprendra ainsi de façon appropriée à l'approcher ou à l'éviter. En fait,le but même de l'« exploration » est d'obtenir des informations sur les objets à approcher ou à éviter. Découvrir qu'un objet donné est dangereux correspond donc à un succès dans le processus d'acquisition des informations. Ce « succès » ne découragera pas le rat d'explorer par la suite d'autres objets insolites.

Nous pouvons affirmer à priori que toute perception et toute réponse, tout comportement et toute classe de comportements, tout apprentissage et toute génétique, toute neurophysiologie et endocrinologie, toute organisation et toute évolution (qui en fait constituent un seul et même objet) sont communicationnels de par leur nature et, par conséquent, soumis aux grandes généralisations ou « lois » des phénomènes de la communication ; nous devons dès lors nous attendre à trouver dans nos données les principes de mise en ordre que proposerait une théorie fondamentale de la communication : la Théorie des types logiques, la Théorie de l'information nous serviront alors de guides.


L'apprentissage des ordinateurs, des rats et des hommes

Le mot « apprentissage » indique indubitablement un changement, d'une sorte ou d'une autre. Mais il est très difficile de dire de quelle sorte de changement il s'agit.

Cependant, ce dénominateur commun « changement » nous permet de déduire que dans nos descriptions de l'« apprentissage » nous devrons tenir compte de la variété des types logiques qui ont eu cours dans les sciences physiques depuis l'époque de Newton : la forme de changement la plus simple et la plus familière est le mouvement, et même à ce niveau physique élémentaire il nous faut structurer nos descriptions en fonction de la « position ou du mouvement zéro », de la « vitesse constante », de l'« accélération », du « taux de changement d'accélération »[3], etc.

Le changement implique un processus. Mais les processus eux-mêmes sont exposés au changement. Un processus peut s'accélérer, se ralentir ou peut subir encore d'autres types de changement qui nous feront dire qu'il s'agit dès lors d'un processus « différent ».

Ces considérations nous amènent à penser que nous devrions commencer la mise en ordre de nos idées sur l'« apprentissage » au niveau le plus simple.

Examinons le cas de la spécificité de réaction, ou apprentissage zéro. Il s'agit du cas où une entité présente un changement minimal dans sa réponse à un élément itéré d'excitation sensorielle. Des phénomènes qui se rapprochent de ce degré de simplicité peuvent être trouvés dans des contextes différents :

  1. Dans des milieux expérimentaux où l'« apprentissage » est complet et l'animal donne approximativement 100% de réponses correctes au stimulus répété.
  2. Dans des cas d'accoutumance, où l'animal a cessé de répondre de façon manifeste à ce qui était auparavant un stimulus perturbant.
  3. Dans des cas où le modèle de la réponse est déterminé au niveau minimal par l'expérience et au niveau maximal par des facteurs génétiques.
  4. Dans des cas où la réponse est devenue fortement stéréotypée.
  5. Dans des circuits électroniques simples, où la structure du circuit ne sera pas soumise à un changement résultant du passage d'impulsions à l'intérieur du circuit, c'est-à-dire où les liens causaux entre le « stimulus » et la « réponse » sont « soudés » (selon l'expression des ingénieurs).

Dans le langage courant, non technique, le mot « apprendre » s'applique souvent à ce que nous appelons ici « apprentissage zéro », c'est-à-dire à la simple réception d'une information provenant d'un événement extérieur, d'une façon telle qu'un événement analogue se produisant à un moment ultérieur (et approprié) transmettra la même information : par la sirène de l'usine, j'apprends qu'il est midi.

Il est également intéressant de constater que dans le cadre de notre définition bon nombre de systèmes mécaniques simples font montre au moins du phénomène d'apprentissage zéro. La question n'est pas : « Les machines peuvent-elles apprendre ? » mais plutôt : « Quel niveau ou quel ordre d'apprentissage peut être réalisé par une machine donnée ? » En ce sens, il est utile d'examiner ici un cas extrême, quoique hypothétique :

Le « joueur » d'un jeu du type de von Neumann est une fiction mathématique, comparable à la ligne droite dans la géométrie euclidienne ou à la particule dans la physique newtonienne. Par définition, il a la capacité d'effectuer tous les calculs nécessaires pour résoudre n'importe quel problème posé par les événements du jeu ; il est incapable de ne pas effectuer ces calculs, à chaque fois qu'ils sont nécessaires ; il s'y fie et agit toujours selon les résultats de ceux-ci. Un tel « joueur » reçoit l'information provenant des événements du jeu et agit de façon appropriée sur celle-ci. Cependant son apprentissage est limité par ce que nous appelons ici apprentissage zéro.

Un examen de cette fiction formelle contribuera à notre définition de l'apprentissage zéro.

  1. Le « joueur » peut recevoir, des événements du jeu, une information d'un type logique supérieur ou inférieur, et il peut s'en servir pour prendre des décisions d'un type logique supérieur ou inférieur. Autrement dit, ses décisions peuvent être soit stratégiques, soit tactiques, et il peut identifier et répondre aux indications à la fois tactiques et stratégiques de son adversaire. Il est vrai cependant que dans la définition formelle d'un jeu von Neumann tous les problèmes qui se posent dans le cadre du jeu sont conçus comme calculables : autrement dit, alors même que le jeu contient des problèmes et des informa1tions de plusieurs types logiques différents, la hiérarchie de ces types est strictement finie (limitée).
    Il semble donc qu'une définition de l'apprentissage zéro ne dépendra ni des types logiques de l'information reçue par l'organisme ni de celle des décisions appropriées que celui-ci peut prendre. Un ordre supérieur (mais limité) de complexité peut caractériser un comportement approprié, basé simplement sur l'apprentissage zéro.
  2. Le « joueur » peut estimer la valeur de l'information dont il pourra tirer parti et apprécie aussi qu'il a intérêt à obtenir cette information en effectuant des mouvements « exploratoires ». Par ailleurs, il a la possibilité d'effectuer des mouvements d'essai ou d'atermoiement, en attendant de recevoir les informations nécessaires.
    Il s'ensuit qu'un rat, par exemple, engagé dans un comportement exploratoire, peut agir de la sorte uniquement sur la base d'un apprentissage zéro.
  3. Le « joueur » peut estimer qu'il est profitable d'effectuer un mouvement au hasard. Dans le jeu de monnaie, il appréciera que, en choisissant au hasard « pile » ou « face », il aura des chances égales de gagner. S'il utilise un plan ou un modèle, cela se manifestera comme modèle ou redondance dans la séquence de ses mouvements et son adversaire en recevra l'information. Le « joueur » choisira donc de jouer au hasard.
  4. Le « joueur » est incapable de commettre une « erreur ». Il peut choisir pour de bonnes raisons d'effectuer soit des mouvements exploratoires, soit des mouvements au hasard, mais il est par définition incapable d'« apprendre à travers un processus d'essai-et-erreur ».

Si nous supposons que par rapport à l'apprentissage le mot « erreur » a la signification que nous lui avons donnée en disant que le « joueur » est incapable de commettre une erreur, le processus d'« essai-et-erreur » est donc exclu du répertoire du joueur de von Neumann. En fait, ce type de joueur nous amène à cerner de plus près ce que nous appelons apprentissage par « essai-et-erreur » et ce que nous entendons par « apprentissage » en général. La signification supposée du mot « erreur » est loin d'être banale et mérite d'être examinée plus attentivement.

Il existe une possibilité où le joueur peut avoir tort : il peut notamment prendre une décision sur la base des calculs de probabilité et effectuer un mouvement qui, à la lumière des informations restreintes dont il dispose, a le plus de chances d'être correct. Mais lorsqu'il disposera d'un grand nombre d'informations, il risque de s'apercevoir qu'il n'en était pas ainsi. Cependant. cette découverte ne contribuera en rien à l'amélioration de sa compétence future. Par définition, le joueur a utilisé correctement toutes les informations disponibles. Il a correctement évalué les probabilités et a effectué celui des mouvements qui avait le plus de chances d'être correct. Découvrir qu'il s'est trompé dans tel cas particulier n'aura aucun effet sur les situations à venir. Lorsque le même problème se posera par la suite, le joueur refera correctement les mêmes calculs et parviendra à la même décision. De plus, l'ensemble de possibilités dans le cadre duquel il devra faire son choix sera le même, et ainsi de suite.

A l'opposé de cela, les possibilités d'erreur d'un organisme sont beaucoup plus nombreuses. Les choix malheureux sont judicieusement appelés « erreurs » lorsqu'ils sont capables de fournir à l'organisme des informations lui permettant d'améliorer sa compétence future. Ce sont des cas où certaines des informations disponibles ont été ignorées ou utilisées incorrectement. On peut distinguer plusieurs types de ces erreurs profitables.

Admettons que le système d'événements extérieurs contienne des détails qui indiquent à l'organisme qu'il peut choisir son prochain mouvement : a) dans le cadre d'un tel ensemble de possibilités ; et b) notamment, un tel membre de cet ensemble. Deux ordres d'erreurs sont possibles dans cette situation :

  1. L'organisme peut utiliser correctement l'information qui lui indique l'ensemble de possibilités qui s'offrent à son choix, mais il choisit une mauvaise solution à l'intérieur de cet ensemble.
  2. Il peut choisir dans le cadre d'un mauvais ensemble de possibilités. (Il existe également une classe intéressante de cas, dans laquelle les ensembles de possibilités contiennent des éléments communs. L'organisme peut donc « avoir raison », mais pour de mauvaises raisons. Cette forme d'erreur correspond inévitablement à un renforcement du soi)

Si nous acceptons maintenant l'idée universelle selon laquelle tout apprentissage (autre que l'apprentissage zéro) est dans une certaine mesure stochastique (c'est-à-dire qu'il contient des séquences d'« essai-et-erreur »), nous pouvons alors procéder à une mise en ordre des processus d'apprentissage en fonction d'une classification hiérarchisée des types d'erreurs qui sont à corriger au cours de divers processus d'apprentissage. L'apprentissage zéro sera donc une désignation de la base immédiate de tous ces actes (simples et complexes), qui ne sont pas susceptibles d'être corrigés par le processus d'« essai-et-erreur ». L'Apprentissage I sera la dénomination appropriée pour la révision du choix dans le cadre d'un ensemble inchangé de possibilités. L'Apprentissage II correspondra à la révision de l'ensemble à l'intérieur duquel le choix est fait, et ainsi de suite.


Apprentissage I

En suivant l'analogie formelle que nous donnent les « lois » du mouvement (c'est-à-dire les « règles » qui le décrivent), nous allons maintenant rechercher la classe de phénomènes décrits à juste titre comme des changements dans l'apprentissage zéro (tout comme le « mouvement » décrit un changement de position). Il s'agit en l'occurrence des cas où une entité donne au Moment 2 une réponse différente de celle qu'elle a donnée au Moment 1. Et, une fois encore, il existe de nombreux cas qui sont reliés de différentes façons avec l'expérience, la physiologie, la génétique et les processus mécaniques :

  1. Il y a tout d'abord le phénomène d'accoutumance — ce changement qui va de la réponse à chaque occurrence d'un événement répété jusqu'à l'absence de réponse manifeste. Il y a également l'extinction ou la perte de l'accoutumance, qui apparaît comme conséquence d'un intervalle vide plus ou moins prolongé, ou de toute autre interruption dans la séquence des répétitions du stimulus. L'accoutumance présente un intérêt particulier. La spécificité de réaction, que nous appelons apprentissage zéro, caractérise tout protoplasma : il est cependant intéressant de remarquer que l'« accoutumance » est peut-être la seule forme d'Apprentissage I à laquelle les êtres vivants peuvent parvenir sans passer par le circuit nerveux.
  2. Dans cette catégorie, le cas le plus connu et certainement le plus étudié est celui du conditionnement pavlovien classique. Au Moment 2, le chien salive en réponse au coup de sonnerie, alors qu'il ne salivait pas au Moment 1.
  3. Il Y a aussi un « apprentissage » qui s'effectue dans des contextes de récompense instrumentale et d'évitement instrumental.
  4. Il existe encore le phénomène de l'apprentissage routinier, dans lequel un élément du comportement de l'organisme devient un stimulus pour un autre élément du comportement.
  5. Il y a la rupture, la disparition ou l'inhibition de l'apprentissage « achevé », comme conséquences d'un changement ou d'une absence de renforcement.

En somme la liste de cas de l'Apprentissage I contient les comportements qu'on appelle généralement « apprentissage » dans les laboratoires de psychologie.

Soulignons que, dans tous les cas de l'Apprentissage I, notre description contient une hypothèse relative au « contexte ». Essayons de la rendre (explicite). La définition de l'Apprentissage I part du postulat que le coup de sonnerie (le stimulus) est pour ainsi dire « le même » au Moment 1 et au Moment 2. Et cette hypothèse d'« identité » doit également délimiter le « contexte » qui doit être (théoriquement) le même, dans l'un et l'autre cas. Il s'ensuit que dans notre description les événements qui se sont produits au Moment 1 ne sont pas inclus dans notre définition du contexte au Moment 2, parce que les inclure aurait immédiatement créé une différence importante entre le « contexte au Moment 1 » et « le contexte au Moment 2 ». Pour paraphraser Héraclite : « Aucun homme ne peut coucher deux fois pour la première fois avec la même fille ».

L'hypothèse classique selon laquelle un contexte donné peut être répété, du moins dans certains cas, me sert ici pour prouver que l'étude du comportement doit s'ordonner d'après la Théorie des types logiques. Si nous ne partions pas de là (ainsi que de cette autre hypothèse, selon laquelle pour les organismes que nous étudions la séquence de l'expérience est vraiment ponctuée de la sorte), il s'ensuivrait que tout « apprentissage » ne pourrait être que d'un seul type : celui de l'apprentissage zéro. A propos de l'expérience de Pavlov, nous dirions alors tout simplement que dès le départ les circuits nerveux du chien contiennent certaines caractéristiques, si bien que placé dans un Contexte A au Moment l, il ne salivera pas, tandis que dans le Contexte B (totalement différent du précédent) et au Moment 2, il salivera. Ce que nous avons appelé précédemment « apprentissage », nous le décrirons dès lors comme une « discrimination » entre les événements du Moment 1 et les événements du Moment 1 plus le Moment 2. Il s'ensuit logiquement que toute question du type : « Ce comportement est-il “appris” ou “inné” ? » ne trouvera une réponse que dans des termes génétiques.

Nous aurons démontré ainsi que, sans l'hypothèse d'un contexte répétable, notre thèse s'effondre et, avec elle, le concept général d'« apprentissage ». Si cette hypothèse est acceptée comme vraie pour les organismes étudiés, alors l'idée d'un typage logique des phénomènes d'apprentissage se vérifie avec nécessité, puisque la notion de contexte est elle-même soumise à un tel typage.

De deux choses l'une : ou bien il faut rejeter la notion de « contexte », ou bien il faut la conserver et accepter avec elle la série hiérarchisée : stimulus, contexte du stimulus, contexte du contexte du stimulus, etc. Cette série peut se décomposer sous la forme d'une hiérarchie de types logiques :

Le stimulus est un signal élémentaire interne ou externe. Le contexte du stimulus est un métamessage qui classifie le signal élémentaire.
Le contexte du contexte du stimulus est un méta-métamessage qui classifie le métamessage.
Etc.

Nous aurions pu établir une hiérarchie analogue à partir de la notion de « réponse » ou de celle de « renforcement ».

Alternativement, en suivant la classification hiérarchisée des erreurs qui doivent être corrigées par le processus stochastique d'« essai-et-erreur », nous pouvons considérer le « contexte » comme un terme collectif désignant tous les événements qui indiquent à l'organisme à l'intérieur de quel ensemble de possibilités il doit faire son prochain choix.

Il nous faut introduire ici le terme d'« indicateur » de contexte. Un organisme répond différemment au « même » stimulus, dans des contextes différents, et nous devons donc nous interroger sur la source informative de l'organisme. D'où tient-il l'information que le Contexte A est différent du Contexte B ?

Dans bon nombre de cas, il se peut qu'il n'y ait aucun signal spécifique ni indice qui permette de classifier et de différencier les deux contextes ; l'organisme se verra donc contraint de tirer ses informations de l'accumulation présente d'événements qui constituent le contexte dans chaque cas particulier. Mais dans la vie humaine et probablement dans celle de nombreux autres organismes, il existe des signaux dont la fonction est de classifier les contextes. Tout donne à penser que lorsqu'on met son harnais à un chien qui a subi un entraînement prolongé en laboratoire de psychologie, l'animal saura à quelle série de contextes il aura affaire. C'est une telle source d'informations que nous appellerons « indicateur de contexte ». Toutefois, il convient de faire remarquer qu'au niveau humain, au moins, il y a également des « indicateurs de contexte de contexte ». Par exemple, l'audience assiste à une représentation de Hamlet au théâtre et les spectateurs entendent le héros monologuer sur le suicide, dans le contexte de la relation avec son père mort, avec Ophélie et tout le reste. Si les spectateurs ne se précipitent pas pour téléphoner à la police, c'est parce qu'ils ont reçu l'information sur le contexte du contexte de Hamlet. Ils savent qu'il s'agit d'une pièce de théâtre et cette information leur a été fournie par de nombreux « indicateurs de contexte de contexte » : affiches, disposition des fauteuils, rideau, etc. Le « Roi », en revanche, qui se laisse prendre à son jeu, par l'astuce de la pièce dans la pièce, ne tient pas compte de ce genre d'« indicateurs de contexte de contexte ».

Au niveau humain, maints événements divers appartiennent à la catégorie d'« indicateurs de contexte de contexte ». En voici quelques exemples :

  1. Le trône du Pape d'où il fait des déclarations ex cathedra qui sont investies d'un certain type de validité.
  2. L'objet brillant que certains hypnotiseurs utilisent pour « provoquer un état de transe ».
  3. Le placebo qui permet au médecin de préparer le terrain pour un changement dans l'expérience subjective du malade.
  4. La sirène du raid aérien et de la « fin d'alerte ».
  5. La poignée de main que se donnent les boxeurs avant le combat.
  6. Les observances de l'étiquette.

Mais toutefois, ce sont là des exemples tirés de la vie sociale d'un organisme très complexe et, à ce stade, il est plus utile de s'interroger sur les phénomènes analogues qui se produisent au niveau préverbal.

Un chien, en voyant son maître prendre la laisse, peut agir comme s'il savait que ce geste indiquait la promenade ; ou bien le son du mot « promener » peut l'informer que ce type de contexte ou de séquence est proche.

Mais, quand un rat commence une séquence d'activités exploratoires, agit-il en réponse à un « stimulus », à un « contexte » ou bien à un « indicateur de contexte » ?

Ces questions font apparaître les problèmes formels de la Théorie des types logiques, dont il nous faut parler. Dans sa forme originaire, la théorie ne traite que d'une communication rigoureusement digitale, et nous pouvons nous demander dans quelle mesure elle peut être appliquée à des systèmes analogiques ou iconiques. Ce que nous appelons ici « indicateurs de contexte » peuvent être soit digitaux (le mot « promener », mentionné ci-dessus), soit analogiques : certains mouvements animés du maître peuvent indiquer au chien qu'il y a de la promenade dans l'air ; ou, encore, certaines parties du contexte à venir peuvent servir d'indicateurs (la laisse, comme partie de la séquence « promenade ») ; ou, enfin, dans un cas extrême, c'est la promenade elle-même qui est représentée dans toute sa complexité, sans qu'il y ait une étiquette ou un indicateur entre le chien et l'expérience. L'événement perçu peut communiquer lui-même sa propre occurrence. Dans ce cas bien sûr il ne peut y avoir d'erreur du type : « menu à la place du repas ». Il est en outre impossible que se produise un paradoxe étant donné qu'il n'y a pas de signe « ne... pas » dans la communication purement analogique ou iconique.

Il n'existe en fait presque aucune théorie formelle traitant de la communication analogique et, en particulier, aucun équivalent de la Théorie de l'information ou de la Théorie des types logiques. Cette lacune de la connaissance formelle est gênante lorsque nous quittons le monde raréfié de la logique et des mathématiques pour affronter les phénomènes de l'histoire naturelle. Dans le monde de la nature, il est rare que la communication soit purement digitale ou purement analogique. Il arrive fréquemment que certains points digitaux discrets soient combinés entre eux pour former des images analogiques, comme dans les similis d'imprimerie. Et il y a parfois, comme dans le cas des indicateurs de contexte, une gradation continue allant du manifeste au purement digital, en passant par l'iconique. A l'extrémité digitale de cette échelle, tous les théorèmes de la Théorie de l'information trouvent leur pleine signification mais, à l'extrémité manifeste et analogique, ils sont dépourvus de sens.

La communication dans le comportement des mammifères supérieurs demeure manifeste et analogique, tandis que leurs mécanismes internes se sont digitalisés au moins au niveau des neurones. La communication analogique semblerait donc être en quelque sorte plus primitive que la communication digitale et il y aurait une large tendance évolutive à substituer des mécanismes digitaux aux mécanismes analogiques. Ce phénomène semble opérer plus rapidement dans l'évolution des mécanismes internes que dans celle du comportement extérieur.

Pour récapituler et développer ce que nous venons de dire :

  1. La notion d'un contexte répétable est une prémisse nécessaire à toute théorie qui définit l'« apprentissage » comme changement.
  2. Cette notion n'est pas uniquement un outil pour notre description mais elle contient l'hypothèse implicite que, pour les organismes que nous étudions, la séquence de l'expérience vécue, de l'action, etc., est en quelque sorte segmentée ou ponctuée en sous-séquences ou « contextes » que l'organisme peut comparer ou différencier.
  3. Dans le cas d'organismes supérieurs se trouvant dans des situations complexes, la distinction qu'on fait communément entre perception et action, afférent et efférent, entrée et sortie, n'est pas valide. D'une part, presque tous les éléments d'action peuvent être rapportés au système nerveux central par un sens extérieur ou par un mécanisme endoceptif, auquel cas le rapport de cet élément devient une entrée. Et, d'autre part, chez les organismes supérieurs, la perception n'est aucunement un processus de simple réceptivité passive ; elle est déterminée, au moins partiellement, par un contrôle efférent effectué par les centres supérieurs. Il est reconnu que l'expérience peut modifier la perception. Nous devons en principe accepter les deux possibilités : à savoir que tout élément d'action ou de sortie peut créer un élément d'entrée ; et que le perçu peut dans certains cas participer de la nature de la sortie. Ce n'est pas par hasard que les organismes ont recours à tous leurs organes sensoriels pour émettre des signaux. Les fourmis communiquent par leurs antennes, les chiens en pointant les oreilles, etc.
  4. En principe, même dans l'apprentissage zéro, tout élément d'expérience ou de comportement peut être considéré comme un « stimulus » ou comme une « réponse », ou bien comme l'un et l'autre à la fois, selon la manière dont est ponctuée la séquence totale. Lorsque l'expérimentateur dit que la sonnerie est le « stimulus » dans une séquence donnée, son affirmation comporte une hypothèse sur la façon dont l'organisme ponctue cette séquence. Dans l'Apprentissage I, tout élément de perception ou de comportement peut être un stimulus, une réponse ou un renforcement, selon la façon dont est ponctué l'ensemble de la séquence d'interaction.

Apprentissage II

Ce que nous venons de dire a déblayé le terrain pour le niveau ou le type logique d'« apprentissage » suivant, que nous appellerons Apprentissage II. De nombreux termes ont déjà été proposés pour désigner divers phénomènes de cet ordre : « apprentissage secondaire »[4], « apprentissage d'ensemble »[5], « apprentissage de l'apprentissage », et « transfert d'apprentissage ».

Récapitulons et développons les défmitions données jusqu'à présent :

L'apprentissage zéro se caractérise par la spécificité de la réponse, qui — juste ou fausse — n'est pas susceptible de correction.
L'Apprentissage I correspond à un changement dans La spécificité de la réponse, à travers une correction des erreurs de choix à l'intérieur d'un ensemble de possibilités.
L'Apprentissage II est un changement dans le processus de l'Apprentissage I : soit un changement correcteur dans l'ensemble des possibilités où s'effectue le choix, soit un changement qui se produit dans la façon dont la séquence de l'expérience est ponctuée.
L'Apprentissage III est un changement dans le processus de l'Apprentissage II : un changement correcteur dans le système des ensembles de possibilités dans lequel s'effectue le choix. (Nous verrons par la suite qu'exiger ce niveau de performance de certains hommes et mammifères entraîne parfois des conséquences pathogéniques.)
L'Apprentissage IV correspondrait à un changement dans l'Apprentissage III, mais il est néanmoins fort improbable que l'on puisse l'enregistrer dans un organisme adulte vivant actuellement. Cependant, le processus évolutif a créé des organismes dont l'ontogenèse est telle qu'elle les amène au Niveau III. En réalité, ce n'est que la combinaison de la phylogenèse et de l'ontogenèse qui fait parvenir au Niveau IV.

Notre tâche immédiate est d'enrichir la définition de l'Apprentissage II comme « changement dans l'Apprentissage I » et c'est d'ailleurs dans ce but que le terrain a été préparé. En résumé, je dirai que nous pouvons inclure tous les phénomènes de l'Apprentissage II sous la rubrique des changements dans la façon dont le courant d'action et d'expérience est segmenté et ponctué en contextes, ensemble avec les changements dans l'utilisation des indicateurs de contexte.

La liste des phénomènes classés sous la rubrique de l'Apprentissage I comprend un ensemble important (mais non exhaustif) de contextes structurés de façon différente. Dans les contextes pavloviens classiques, le modèle de contingence qui décrit la relation entre le « stimulus », la réaction de l'animal et le renforcement est profondément différent du modèle de contingence qui caractérise les contextes instrumentaux d'apprentissage.

Cas pavlovien : si stimulus et un certain laps de temps, alors renforcement.

Cas de la récompense instrumentale : si stimulus et un élément particulier de comportement, alors renforcement.

Dans le cas pavlovien, le renforcement ne dépend pas du comportement de l'animal, comme c'est bien le cas dans un contexte instrumental. En utilisant cette différence à titre d'exemple, nous dirons qu'il s'est produit un Apprentissage II si l'on peut démontrer que la pratique d'un ou de plusieurs contextes de type pavlovien fait que l'animal placé ultérieurement dans tel ou tel contexte réagira comme s'il était, là aussi, question d'un modèle de contingence pavlovien. Nous dirons de même qu'il s'est produit un Apprentissage II, si l'expérience passée de séquences intrumentales conduit l'animal à réagir dans quelque contexte ultérieur, comme s'il croyait se trouver à nouveau dans un contexte instrumental.

D'après cette définition, l'Apprentissage II ne sera adaptatif que si l'animal ne se trompe pas dans l'appréciation du modèle de contingence qu'il s'attendait à rencontrer ; en ce cas précis, nous pourrons certainement observer un apprentissage d'apprentissage mesurable. Dans le nouveau contexte, il faudra en principe moins d'essais pour en arriver à un comportement « correct ». Si par contre l'animal se trompe en identifiant le prochain modèle de contingence, nous devons nous attendre à ce qu'il y ait un certain délai d'Apprentissage I dans le nouveau contexte. Il est possible que l'animal qui a subi des expériences prolongées dans des contextes pavloviens ne parvienne jamais à découvrir, par un processus d'« essais-et-erreurs », une réponse instrumentale correcte.

L'Apprentissage II a été soigneusement étudié dans au moins quatre champs d'expérimentation :

  1. Dans l'apprentissage routinier chez l'homme. Hull[6] entreprit des études quantitatives très détaillées de ce phénomène et mit au point un modèle mathématique pour simuler ou expliquer les courbes de l'Apprentissage I qu'il avait enregistrées. Il observa également un phénomène de second ordre, que nous pouvons appeler « apprentissage d'apprentissage routinier », et publia dans l'appendice de son ouvrage les courbes relatives à ce processus. Il préféra ne pas les introduire dans le corps fondamental de son livre, parce que son modèle mathématique (de l'Apprentissage routinier 1) ne couvrait pas cet aspect des données.
    La position théorique que nous adoptons ici a pour corollaire qu'aucune séquence d'un discours rigoureux d'un type logique donné (aussi longue soit-elle) ne peut « expliquer » des phénomènes d'un type logique supérieur. Le modèle de Hull joue le rôle d'un critère de structuration logique, en refusant automatiquement toute explication des phénomènes qui dépassent sa portée logique. Qu'il en fût ainsi — et que Hull l'ait remarqué —, cela témoigne à la fois de sa rigueur et de sa perspicacité.
    Ces faits prouvent que pour tous les sujets il se produit, en quelques étapes successives, une amélioration dans l'apprentissage routinier, amélioration qui approche de façon asymptotique un certain degré de compétence, qui varie d'un sujet à l'autre.
    Le contexte de cet apprentissage routinier était assez complexe et a dû paraître différent à chaque sujet en apprentissage. Certains ont pu être davantage motivés par la peur de se tromper, tandis que d'autres cherchaient davantage la satisfaction d'avoir raison. D'aucuns ont certainement été stimulés plutôt par le désir d'obtenir un rendement meilleur que les autres ; d'autres encore ont été fascinés à l'idée de se mesurer chaque fois à leur propre performance antérieure, etc. En tout cas, ils ont dû tous avoir certaines idées (correctes ou incorrectes) sur la nature du milieu expérimental, certains « niveaux d'aspiration », ainsi qu'une expérience antérieure de mémorisation. Aucun des sujets de Hull n'aurait pu prendre part au contexte d'apprentissage s'il n'avait pas été influencé par un Apprentissage II antérieur.
    Malgré cet Apprentissage II antérieur et malgré les différences génétiques qui pouvaient opérer à ce niveau, tous les sujets ont fait preuve d'amélioration au terme de plusieurs séances d'apprentissage. Cette amélioration ne peut pas être due à l'Apprentissage I, car aucun rappel de la séquence spécifique de syllabes, apprise au cours de la séance précédente, n'aurait pu être utilisée dans la nouvelle séquence. Il est même fort probable qu'un tel rappel soit en l'occurrence un obstacle. Je suppose donc que l'amélioration qui s'est produite d'une séance à l'autre ne peut être expliquée que par une sorte d'adaptation au contexte créé par Hull pour l'apprentissage routinier.
    Il est également utile de faire remarquer que les éducateurs ont des opinions bien arrêtées sur la valeur (positive ou négative) de l'entraînement dans l'apprentissage routinier. Les éducateurs « progressistes » insistent sur un entraînement en « profondeur », tandis que les plus conservateurs mettent l'accent sur un rappel routinier et bien inculqué.
  2. Le deuxième type d'Apprentissage II qui a été étudié expérimentalement est appelé « apprentissage d'ensemble ». Le concept est repris de Harlow et appliqué à un cas plutôt spécial d'Apprentissage II. En gros, Harlow a présenté à des singes rhésus des Gestalten ou « problèmes » plus ou moins complexes, qu'ils devaient résoudre pour être récompensés en nourriture. Harlow a montré que si ces problèmes faisaient partie d'« ensembles » similaires, autrement dit s'ils renfermaient des types d'une complexité logique analogues, il se produisait un report d'apprentissage d'un problème à un autre. Deux ordres de modèles de contingence étaient en fait contenus dans les expériences de Harlow : tout d'abord, le modèle universel de l'instrumentalisme (si le singe résout le problème, il se produit alors un renforcement) ; et secondement, les modèles de contingence logiques à l'intérieur de problèmes spécifiques.
  3. Bitterman et d'autres chercheurs ont mis au point une nouvelle méthode d'expérimentation avec l'« apprentissage inversé » : on apprend tout d'abord au sujet à faire une discrimination d'ordre binaire. Une fois qu'elle est apprise comme critère, on inverse la signification des stimuli. Si, au départ, X « signifiait » R1, et Y signifiait R2, on inverse le système initial de telle sorte que X signifie désormais R2, et Y, R1. Une nouvelle fois, on refait des essais avec cette autre signification. Dès que ceci est reconnu comme critère, on inverse encore les significations. Au cours de ces expériences, la question principale est de savoir si l'on peut parler d'un apprentissage relatif à ce renversement. Autrement dit, après un certain nombre de renversements, le sujet peut-il reconnaître le critère plus rapidement qu'il ne pouvait le faire au début de l'expérience ?
    De toute évidence, la question posée ici est d'un type logique supérieur à celui des questions relatives à l'apprentissage simple. Si l'apprentissage simple est basé en effet sur un « ensemble » d'essais, l'apprentissage inversé s'appuie sur un ensemble de ces ensembles. Il existe un parallélisme direct entre cette relation et la relation établie par Russell entre « classe » et « classe de classes ».
  4. L'Apprentissage II est illustré également par les phénomènes bien connus de « névrose expérimentale » : dans le cadre d'un apprentissage pavlovien ou instrumental, l'animal est entraîné à faire la distinction entre un certain X et un certain Y (par exemple, entre l'ellipse et le cercle) ; lorsqu'il a appris à la faire, on lui complique la tâche, en arrondissant progressivement l'ellipse et en aplatissant le cercle. On finit ainsi par parvenir à un stade où la discrimination devient impossible ; à ce moment-là, l'animal commence à manifester des symptômes de perturbations graves.
    Il faut noter que : a) un animal pour ainsi dire « naïf », placé dans une situation où un certain X peut signifier soit A soit B (sur une base choisie au hasard) ne manifeste aucune perturbation ; et b) les perturbations n'apparaissent pas en l'absence de ces nombreux indicateurs de contexte, qui caractérisent les situations expérimentales[7].
    Il semble donc que l'Apprentissage II soit une préparation nécessaire aux troubles du comportement. L'information : « ceci est un contexte de discrimination » est communiquée au début de la séquence, pour être soulignée ensuite, au cours de différentes étapes, où elle devient de plus en plus difficile à effectuer ; au moment où celle-ci devient impossible, la structure du contexte est entièrement changée. Les indicateurs de contexte (comme, par exemple, l'odeur du laboratoire et le harnais expérimental) sont désormais trompeurs pour l'animal, qui se trouve dès lors dans une situation différente : il n'est plus question de discriminer, mais de deviner ou de répondre au hasard. En réalité, l'ensemble d'une telle séquence expérimentale n'est qu'un procédé pour embrouiller l'animal au niveau de l'Apprentissage II.
    Selon mon expression, l'animal se trouve dans une situation typique de double contrainte, qui peut être considérée comme schizophrénogène[8].

Dans le monde étrange qu'on rencontre en dehors du laboratoire psychologique, les phénomènes qui relèvent de la catégorie d'Apprentissage II constituent la préoccupation majeure des anthropologues, des éducateurs, des psychiatres, des dresseurs d'animaux, des parents et des enfants. Dès qu'on réfléchit aux processus qui déterminent le caractère de l'individu, ou aux processus de changement dans les relations humaines (ou animales), on doit utiliser toutes sortes d'hypothèses relatives à l'Apprentissage II. Mais si, de temps à autre, ce monde « extérieur » fait appel à un psychologue expérimental comme consultant, il se heurte à une barrière linguistique : le psychiatre parle, par exemple, d'Apprentissage II, le psychologue d'Apprentissage I, et ni l'un ni l'autre ne sont capables de reconnaître la structure logique de cette différence.

Parmi les nombreuses formes sous lesquelles l'Apprentissage II apparaît dans les affaires humaines, nous nous contenterons ici d'en étudier trois :

a) Quand il s'agit de décrire des individus humains, le savant et le profane ont généralement recours l'un et l'autre à des adjectifs qui décrivent leurs « caractères ». Ils diront que M. Jones est dépendant, hostile, fou, méticuleux, anxieux, exhibitionniste, narcissique, passif, compétitif, énergique, audacieux, lâche, fataliste, spirituel, joueur, malin, optimiste, perfectionniste, désordonné, précautionneux, désinvolte, etc. A la lumière de ce que nous venons de dire, le lecteur pourra assigner ces adjectifs à leur type logique approprié. Ils décrivent tous des résultats (éventuels) de l'Apprentissage II, et si nous voulions définir plus exactement ces termes, notre tâche consisterait à indiquer le modèle de contingence du contexte d'Apprentissage I qui engendre l'Apprentissage II, ce qui rend ces adjectifs pertinents.

Nous pourrions dire de tel individu « fataliste » que le modèle de ses transactions avec l'environnement est celui qu'il a acquis en tant que sujet au cours d'une expérience prolongée ou répétée de type pavlovien ; il faudrait aussi faire remarquer que cette définition du « fatalisme » est spécifique et précise. Il existe de nombreuses autres formes de« fatalisme », en dehors de celle qui se définit en fonction de ce contexte particulier d'apprentissage : par exemple, le type de fatalisme plus complexe qu'on retrouve dans la tragédie classique grecque, où les actions mêmes de l'individu sont ressenties comme favorisant l'œuvre inexorable du destin.

b) Dans la ponctuation de l'interaction humaine. Le lecteur critique aura remarqué que les adjectifs énumérés précédemment, censés décrire son caractère, ne sont en fait aucunement applicables à l'individu mais aux transactions entre celui-ci et son environnement matériel et humain. Personne n'est « débrouillard » ou « dépendant » ou « fataliste » dans le vide. Chaque trait qu'on attribue à l'individu n'est pas sien, mais correspond davantage à ce qui se passe entre lui et quelque chose (ou quelqu'un) d'autre.

Cela étant, il est naturel d'examiner les rapports entre individus, afin d'y trouver les contextes d'Apprentissage I susceptibles de prêter leur forme aux processus d'Apprentissage II. Dans de tels systèmes, comprenant deux personnes ou plus, la plupart des événements importants sont des attitudes, des expressions ou des actions des êtres vivants ; nous remarquons immédiatement que le courant des événements est généralement ponctué en contextes d'apprentissage par un accord tacite entre les individus relatif à la nature de leurs relations, ou bien par des indicateurs de contexte et un accord tacite sur le fait que ceux-ci signifient la même chose pour les deux parties. Il est intéressant de tenter une analyse du processus d'échange entre A et B. Pour tout élément particulier du comportement de A, nous pouvons nous demander : Est-il un stimulus pour B ? ou une réponse de A à quelque chose que B aurait dit précédemment ? ou un renforcement de quelque élément fourni par B ? ou encore, si A se donne, avec cet élément de comportement, un renforcement pour lui-même, etc.

Ces questions feront apparaître qu'il est souvent difficile de donner une explication claire à bon nombre d'éléments du comportement de A ; et s'il arrive qu'elle le soit, cela ne peut être dû qu'à un accord tacite (rarement explicite) entre A et B sur la nature de leurs rôles mutuels, c'est-à-dire sur la nature de la structure contextuelle qu'ils devront s'attendre à trouver chez l'autre.

Si nous considérons du point de vue abstrait un échange de ce genre : ……a1b1a2b2a3b3a4b4a5b5……, où a se rapporte à des éléments du comportement de A, et b à des éléments du comportement de B, nous pouvons prendre n'importe quel ai et bâtir autour de lui trois contextes simples d'apprentissage.

Nous aurons ainsi :

  1. (a1 b1 a1 + 1), dans lequel ai est le stimulus de b1.
  2. (b1-1 a1 b1), dans lequel ai est la réponse à b1-1, que la réponse B renforce par b1.
  3. (a1-1 b1-1 a1), dans lequel ai est maintenant le renforcement de A pour b1-1 de B, ce qui était la réponse à a1-1.

Il s'ensuit que ai peut être un stimulus pour B, ou bien une réponse de A à B, ou encore un renforcement de B par A.

Mais, de surcroît, si nous considérons l'ambiguïté des concepts « stimulus » et « réponse », « afférent » et « efférent » — de la façon dont nous en avons parlé précédemment — nous remarquons que tout ai peut être également un stimulus pour A, un renforcement de soi pour A, ou bien encore une réponse de A à certains de ses comportements précédents, comme dans le cas des séquences du comportement routinier.

Cette ambiguïté d'ordre général signifie en fait que la séquence d'échanges entre deux individus n'est structurée que par la perception que l'individu a de celle-ci, comme série de contextes où chacun d'entre eux conduit au suivant. La façon particulière dont est structurée la séquence par tout individu particulier sera déterminée par son Apprentissage II antérieur (ou éventuellement par ses caractères génétiques).

Dans un tel système, des mots comme « dominateur » et « soumis », « assistant » et « dépendant » feront sens en tant que descriptions des segments de communication. Nous dirons que « A domine B » si A et B montrent par leur comportement qu'ils considèrent que leur relation se caractérise par des séquences du type a1b1a2 (a1 étant pour A et B un signal qui définit les conditions de récompense et de punition instrumentales ; b1 un signal ou un acte s'accomplissant dans ces conditions ; et a2 un signal qui renforce b2).

Nous dirons de même que « A dépend de B » si leur relation se caractérise par des séquences a1b1a2, dans lesquelles a1 est considéré comme un signal de faiblesse ; b1 comme un acte secourable ; et a2 comme une reconnaissance de b1.

Mais c'est à A et B de distinguer (consciemment ou inconsciemment, voire de ne pas distinguer du tout) entre « domination » et « dépendance » : un « ordre » peut fort bien ressembler à un « cri au secours ».

c) En psychothérapie, ce sont les phénomènes de « transfert » qui mettent le mieux en évidence l'Apprentissage II. Selon la théorie freudienne classique, le malade qui ira consulter un thérapeute est inévitablement « porteur » de fausses notions sur sa relation avec celui-ci. Ces notions (conscientes ou inconscientes) l'amèneront à agir et à parler de telle sorte que le comportement du thérapeute ressemblera à l'image que le malade s'est faite de la façon dont le traitait une autre personne (généralement son père ou sa mère), ayant joué pour lui un rôle important dans un passé plus ou moins éloigné. Pour revenir à ce qui nous intéresse ici, je dirai que le malade essaiera de façonner ses échanges avec le thérapeute en fonction des prémisses de son Apprentissage II précédent.

On peut généralement observer que la plus grande partie de l'Apprentissage II qui détermine les modèles de transfert chez le malade (et en fait, la plus grande partie des relations chez les êtres humains), a) remonte à la petite enfance ; et b) est inconsciente. Ces deux généralisations semblent être correctes ; cependant, elles nécessitent, l'une et l'autre, quelques explications.

Il semble probable que ces deux généralisations soient vraies à cause de la nature même des phénomènes dont nous parlons ici. Nous avons suggéré que ce qui est appris dans l'Apprentissage II, c'est une façon de ponctuer les événements. Mais une façon de ponctuer ne peut être ni vraie ni fausse ; il n'y a rien, dans les propositions de cet apprentissage, qui puisse être vérifié par une confrontation avec la réalité. C'est exactement comme l'image qu'on peut voir dans une tache d'encre : elle n'est ni vraie ni fausse ; ce n'est qu'une façon de voir la tache d'encre. Considérons un être vivant qui aurait une conception instrumentale de la vie ; placé dans une situation nouvelle, il s'engagera dans un comportement d'« essai-et-erreur », en agissant de sorte que la situation lui fournisse un renforcement positif. S'il ne réussit pas à l'obtenir, sa philosophie intentionnelle ne sera pas annihilée pour autant : il continuera le processus d'« essai-et-erreur ». Les prémisses de son « but » ne sont tout simplement pas du même type logique que les faits matériels de la vie et par conséquent elles ne peuvent être facilement contredites par ces faits.

Celui qui pratique la magie ne « désapprend » pas sa vision magique des événements lorsque la magie ne marche pas. En fait, les propositions qui gouvernent la ponctuation ont comme principale caractéristique de se valider elles-mêmes[9]. Ce qui est désigné par le terme de « contexte » comprend à la fin le comportement du sujet et les événements extérieurs. Mais ce comportement est contrôlé par l'Apprentissage II précédent et il sera donc de nature à façonner le contexte global en fonction de la ponctuation attendue. Somme toute, cette caractéristique du contenu de l'Apprentissage II, à savoir la validation de soi-même, fait qu'il soit en quelque sorte indéracinable : on pourrait dire en conséquence que les effets de l'Apprentissage II acquis pendant l'enfance persisteront probablement toute la vie. Et, vice versa, nous devons nous attendre à ce que bon nombre des plus importantes caractéristiques de la ponctuation de l'adulte aient leur origine dans la petite enfance.

En ce qui concerne le caractère non conscient de ces habitudes de ponctuation, nous observons que l'« inconscient » ne comprend pas exclusivement des matériaux refoulés, mais aussi la plupart des processus et des habitudes de perception de la Gestalt. Nous sommes subjectivement conscients de notre « dépendance », mais dans l'impossibilité de dire clairement ni comment ce modèle a été élaboré ni quels sont les éléments que nous avons utilisés pour le bâtir.


Apprentissage III

Ce que nous venons de dire de l'auto-validation des prémisses acquises au cours de l'Apprentissage II donne à penser que l'Apprentissage III ne peut être que difficile et par conséquent peu fréquent, même chez les êtres humains ; il serait de même difficile pour les savants qui, après tout, ne sont que des hommes d'imaginer ou de décrire ce processus. Néanmoins, il paraît qu'un tel phénomène se produit de temps à autre en psychothérapie, dans les conversions religieuses et dans d'autres séquences qui marquent une réorganisation profonde du caractère.

Les bouddhistes zen, les mystiques occidentaux et quelques psychiatres soutiennent que de telles matières se trouvent complètement au-delà du champ du langage. En dépit de cette mise en garde, j'essaierai de spéculer tant soit peu sur ce que devrait être (logiquement) un tel apprentissage.

Il convient tout d'abord de faire une distinction : nous avons fait remarquer précédemment que les expériences d'apprentissage inversé montrent qu'il y a Apprentissage II à chaque fois qu'apparaît un apprentissage mesurable relatif au renversement. Il est possible d'apprendre (Apprentissage I) une prémisse donnée à un moment donné et, à un moment ultérieur, apprendre à inverser cette prémisse sans pour autant saisir le mécanisme de l'apprentissage inversé. Il ne se produira dans ce cas aucune amélioration d'un renversement à un autre. Un élément de l'Apprentissage I n'a fait que remplacer un autre élément de l'Apprentissage I, sans qu'il y ait achèvement de l'Apprentissage II. Si par contre on peut enregistrer une amélioration d'un renversement à un autre, ce sera là la preuve d'un Apprentissage II.

Si nous appliquons maintenant le même genre de logique au rapport qui doit exister entre l'Apprentissage II et l'Apprentissage III, nous pouvons nous attendre à ce qu'il y ait remplacement de prémisses au niveau de l'Apprentissage II sans réalisation d'un Apprentissage III.

Avant d'aborder le problème de l'Apprentissage III à proprement parler, il nous faut donc distinguer entre un simple remplacement de prémisses sans Apprentissage III et cette facilité de remplacement qui serait véritablement l'Apprentissage III.

Étant donné le caractère d'auto-validation de ces prémisses et leur nature plus ou moins inconsciente, ce serait déjà fort remarquable que les psychothérapeutes puissent aider leurs malades, ne serait-ce que dans un simple remplacement des prémisses acquises dans l'Apprentissage II ; ceci peut être réalisé, sans aucun doute. Dans le cadre contrôlé et protégé de la relation thérapeutique, le psychiatre peut tenter une ou plusieurs des stratégies suivantes :

  1. parvenir à une confrontation entre les prémisses du malade et ses propres prémisses (le psychiatre est censé éviter le piège qui consisterait à valider ses prémisses antérieures) ;
  2. arriver à faire agir le patient — dans le cadre du cabinet thérapeutique ou à l'extérieur — de telle sorte qu'il soit confronté à ses propres prémisses ;
  3. démontrer la contradiction inhérente aux prémisses qui contrôlent habituellement le comportement du patient ;
  4. suggérer au patient une exagération ou une caricature (dans le rêve ou en état d'hypnose, par exemple) d'une expérience fondée sur ses prémisses habituelles.

Comme William Blake le fit remarquer il y a longtemps : « Sans contradictions, il n'est pas de progression »[10]. (Ce sont ces contradictions au niveau II que j'ai appelées doubles contraintes)

Mais il y a toujours moyen de réduire l'impact de la contradiction. Je citerai ici un lieu commun de la psychologie de l'apprentissage : d'un côté, le sujet apprendra (Apprentissage I) plus rapidement s'il est renforcé à chaque réponse correcte ; mais, de l'autre, cet apprentissage disparaîtra assez vite si le renforcement cesse. Si, en revanche, le renforcement n'est qu'occasionnel, le sujet apprendra plus lentement mais les effets de cet apprentissage ne disparaîtront pas facilement lorsqu'il n'y aura plus de renforcement. Autrement dit, le sujet peut apprendre (Apprentissage II) que le contexte est structuré de telle façon que l'absence de renforcement n'indique pas une réponse fausse ou inappropriée. En fait, l'idée qu'il se faisait du contexte était juste, jusqu'à ce que l'expérimentateur change de tactique.

Le thérapeute doit si bien accuser ou souligner les contradictions inhérentes aux prémisses du patient que de telles « échappatoires » soient complètement bloquées. Le disciple zen auquel on a assigné un paradoxe, un koan, doit s'atteler à sa tâche comme un « moustique résolu à piquer une barre de fer ».

J'ai soutenu ailleurs (cf. : « Style, grâce et information dans l'art primitif », supra, p. 167) que l'une des fonctions essentielles et nécessaires de toute formation d'habitudes et d'Apprentissage II est une économie des processus de pensée (ou des voies nerveuses), utilisée pour la résolution d'un problème ou pour l'Apprentissage I. Les prémisses de ce qui est communément appelé « caractère » — définitions du « soi » — dispensent l'individu d'examiner les aspects abstraits, philosophiques, esthétiques et éthiques de nombreuses séquences de vie. « Je ne sais pas si c'est de la bonne musique ; je peux simplement savoir si je l'aime ou pas ».

L'Apprentissage III exposera ces prémisses non examinées à une remise en question et à un changement.

Essayons ici, comme nous l'avons fait pour l'Apprentissage I et l'Apprentissage II, d'énumérer quelques-uns des changements que nous appellerons Apprentissage III.

  1. L'individu pourrait apprendre à constituer plus aisément les habitudes dont l'acquisition est appelée Apprentissage II.
  2. Il pourrait apprendre à bloquer les « issues » qui lui permettraient d'éviter l'Apprentissage III.
  3. Il pourrait apprendre à changer les habitudes acquises par l'Apprentissage II.
  4. Il pourrait apprendre qu'il est un être vivant qui peut acquérir (et de fait acquiert), inconsciemment, l'Apprentissage II.
  5. Il pourrait apprendre à limiter ou à orienter son Apprentissage II.
  6. Si l'Apprentissage II est un apprentissage des contextes de l'Apprentissage I, l'Apprentissage III devrait donc être un apprentissage des contextes de ces contextes.

Cette énumération contient un paradoxe. L'Apprentissage III (c'est-à-dire l'apprentissage relatif à l'Apprentissage II) peut conduire soit à une augmentation de l'Apprentissage II, soit à une limitation, voire même à une réduction de ce phénomène. Il doit certainement amener une plus grande souplesse dans les prémisses acquises par le processus de l'Apprentissage II : supprimer la contrainte qu'elles exercent.

Il m'est arrivé d'entendre un maître zen affirmer catégoriquement : « C'est une chose terrible de s'habituer à quoi que ce soit ».

Mais toute libération des contraintes exercées par l'habitude doit aussi s'accompagner d'une redéfinition profonde du soi. Si je m'en tiens à l'Apprentissage II, « je » suis l'ensemble des caractéristiques que j'appelle mon « caractère ». « Je » suis mes habitudes d'agir dans un contexte donné, de façonner et de percevoir les contextes dans lesquels j'agis. Ce qu'on appelle le « soi » est un produit ou un agrégat d'Apprentissage II. Dans la mesure où un individu parvient à l'Apprentissage III et apprend à perce :.voir et à réagir en fonction de contextes de contextes, son « soi » deviendra pour ainsi dire hors de propos. Le concept du « soi » ne fonctionnera plus comme un point nodal dans la ponctuation de l'expérience.

Il convient d'examiner ce problème. Lors de l'étude de l'Apprentissage II, on a vu que des mots tels que « dépendance », « fierté », « fatalisme » se rapportaient à des caractéristiques du soi qui sont apprises (Apprentissage II) dans des séquences de relations. Ces mots sont en fait des termes qui s'appliquent aux « rôles » que jouent les individus dans les relations, et se rapportent à quelque chose qui a été façonné artificiellement à partir des séquences d'interaction. J'ai par conséquent suggéré que la façon correcte d'attribuer une signification rigoureusement exacte à l'un de ces mots (quel qu'il soit) est de déchiffrer la structure formelle de la séquence dans laquelle le trait considéré pourrait avoir été appris ; c'est ainsi que la séquence interactive de l'apprentissage pavlovien, par exemple, a été proposée comme paradigme d'une certaine sorte de « fatalisme », etc.

Mais à présent nous nous interrogeons sur les contextes de ces contextes d'apprentissages, c'est-à-dire sur des séquences plus étendues dans lesquelles ces paradigmes se trouvent enfouis.

Considérons le petit élément d'Apprentissage II mentionné précédemment, comme pouvant fournir une « échappatoire » qui permet d'éviter l'Apprentissage III : à travers de multiples séquences où le renforcement est sporadique, apparaît une certaine caractéristique du soi qui peut être appelée « persistance ». Il nous faut maintenant nous interroger sur le contexte plus étendu de telles séquences : comment sont-elles engendrées ?

Là question est explosive. Car la simple séquence expérimentale d'interaction, stylisée en laboratoire, est engendrée par — et partiellement détermine — un réseau de contingences qui vont dans tous les sens, aboutissant, à l'extérieur du laboratoire, à des processus qui renvoient aux recherches psychologiques, aux interactions entre psychologues, à l'économie monétaire, etc.

Considérons maintenant la même séquence formelle dans un contexte plus « naturel ». Un être qui cherche un objet dont il a besoin ou qui lui manque : un cochon qui fouille le sol en quête de glands, un joueur qui approvisionne une machine à sous dans l'espoir de décrocher un gros lot ou encore un individu qui doit retrouver les clefs de sa voiture. Il y a des milliers d'exemples de situations où les êtres vivants doivent persister dans un certain type de comportement précisément parce que le renforcement est sporadique ou improbable. L'Apprentissage II simplifiera les choses, en traitant ces occurrences comme une catégorie unique. Si l'Apprentissage III devait s'intéresser aux contextes de ces occurrences, les catégories de l'Apprentissage II éclateraient.

Ou bien encore, considérons la signification du mot « renforcement » aux différents niveaux. Le dauphin reçoit un poisson du dresseur lorsqu'il fait ce que celui-ci lui demande. Au Niveau I, le poisson-récompense est lié à l'« exactitude » d'une action particulière. Au Niveau II, il confirme la compréhension que le dauphin a de sa relation avec le dresseur (instrumentale ou dépendante). C'est à noter qu'à ce niveau, si le dauphin déteste ou craint le dresseur, une punition administrée par celui-ci peut être un renforcement positif confirmant cette haine.

Mais qu'en est-il du « renforcement » au Niveau III (chez le dauphin comme chez l'homme) ?

Si, comme je l'ai laissé entendre précédemment, l'être vivant est amené au Niveau III par des « contradictions » engendrées au Niveau II, nous pouvons nous attendre à ce que ce soit la résolution de ces contradictions qui constitue le renforcement positif au Niveau III. Cette résolution peut prendre plusieurs formes.

Parvenir au Niveau III peut être dangereux et nombreux sont ceux qui tombent en cours de route. La psychiatrie les désigne souvent par le terme de psychotiques ; bon nombre d'entre eux se trouvent incapables d'employer le pronom de la première personne.

Pour d'autres, plus heureux, la résolution des contradictions peut correspondre à l'effondrement d'une bonne partie de ce qu'ils ont appris au Niveau II, révélant une simplicité où la faim conduit immédiatement au manger et le soi identifié n'a plus la charge d'organiser le comportement : ce sont les innocents incorruptibles de ce monde.

A d'autres encore, plus créatifs, la résolution des contradictions révèle un monde où l'identité personnelle se fond avec tous les processus relationnels, en une vaste écologie ou esthétique d'interaction cosmique. Que certains d'entre eux survivent, cela peut paraître plutôt miraculeux ; c'est peut-être le fait de se laisser absorber par les petits détails de la vie qui les sauve du flot dévastateur de ce sentiment océanique. Chaque détail de l'univers est perçu comme proposant une vue de l'ensemble. C'est sans doute pour ceux-ci que Blake a écrit son fameux conseil, dans « Augures de l'Innocence » :

Voir le monde dans un grain de sable,
Et un ciel dans une fleur sauvage,
Tenir l'infini dans le creux de ta main,
Et l'éternité dans une heure.

Le rôle de la génétique en psychologie

Tout ce que l'on peut dire de l'apprentissage chez l'animal, ou de son incapacité à apprendre, a un rapport avec sa disposition génétique. Et ce que nous venons de dire sur les niveaux d'apprentissage a un rapport avec toutes les combinaisons de la disposition génétique et les changements auxquels l'individu peut et doit parvenir.

Il y a pour tout organisme une limite au-delà de laquelle tout est déterminé par la génétique. Les planaires ne peuvent sans doute pas dépasser l'Apprentissage I. Les mammifères à l'exception de l 'homme peuvent probablement acquérir l'Apprentissage II, mais difficilement l'Apprentissage III. L'homme peut, lui, parvenir parfois à l'Apprentissage III.

La limite supérieure est (logiquement et probablement), pour tout organisme, fixée par des phénomènes génétiques : peut-être pas par des gènes isolés ou des combinaisons de gènes, mais par tous les facteurs qui contrôlent le développement des caractéristiques fondamentales du phylum.

A tout changement dont un organisme est capable correspond le fait de cette capacité. Ce fait peut être déterminé génétiquement ou sinon être le résultat d'un apprentissage. Dans ce dernier cas, c'est toujours la génétique qui doit avoir déterminé la capacité d'acquérir cette capacité, etc.

Cela est généralement vrai de tous les changements somatiques ainsi que des changements du comportement que nous appelons apprentissage. Par exemple, notre peau bronze au soleil. Quel est ici le rôle de la génétique ? La génétique détermine-t-elle entièrement la capacité de bronzer ? Ou bien certains peuvent-ils augmenter cette capacité ? Dans ce dernier cas, les facteurs génétiques interviennent évidemment à un niveau logique supérieur.

La question relative à tout comportement n'est évidemment pas : « Est-il appris ou inné ? », mais plutôt : « Jusqu'à quel niveau logique supérieur l'apprentissage agit-il ?, et, en sens inverse, jusqu'à quel niveau la génétique peut-elle jouer un rôle déterminant ou partiellement efficace ? »

Dans cette perspective, l'histoire générale de l'évolution de l'apprentissage paraît avoir lentement repoussé le déterminisme génétique vers des niveaux de type logique supérieur.


Note sur les hiérarchies

Le modèle proposé ici suppose tacitement que les types logiques peuvent être classés le long d'une échelle simple, sans ramifications. Il a été par conséquent convenable d'examiner en premier lieu les problèmes soulevés par ce modèle simple.

Mais le monde de l'action, de l'expérience, de l'organisation et de l'apprentissage ne peut pas être entièrement inscrit dans un modèle qui exclut les propositions relatives à la relation entre des classes de type logique différent.

Si C1 est une classe de propositions, C2 une classe de propositions relatives aux membres de C1, et C3 une classe de propositions relatives aux membres de C2, comment pourrons-nous classer des propositions concernant la relation entre ces classes ? Il est impossible, par exemple, de classer sur une échelle non ramifiée des types logiques la proposition : « Les membres de C2 sont aux membres de C3 ce que les membres de C1 sont aux membres de C2 ».

L'ensemble de cet essai est fondé sur la prémisse selon laquelle la relation entre C2 et C3 peut être comparée à la relation entre C1 et C2. A plusieurs reprises, je me suis arrêté pour discuter, en quelque sorte de l'extérieur, la structure de mon échelle logique. Cet essai est par conséquent lui-même un exemple du fait que l'échelle ne peut être non ramifiée.

La tâche suivante serait donc de chercher des exemples d'apprentissages qui ne peuvent pas être inscrits dans ma hiérarchie de l'apprentissage, mais qui sont à placer à ses côtés, en tant qu'apprentissages concernant les niveaux de cette même hiérarchie. J'ai suggéré dans une autre étude (cf. « Style, grâce et information dans l'art primitif », p. 167 de ce volume) que c'est l'art qui généralement constitue un tel apprentissage, en jetant un pont entre, d'une part, les prémisses plus ou moins inconscientes, acquises par l'Apprentissage II et d'autre part le contenu plus épisodique de la conscience et de l'action immédiate.

Il faudrait noter également que la structure de cet essai est inductive : la hiérarchie des ordres d'apprentissage est présentée au lecteur de bas en haut, du Niveau zéro au Niveau III. Mais cela ne veut pas dire que les explications du monde phénoménal que fournit le modèle seraient unidirectionnelles. Pour en donner une explication une telle approche était nécessaire, mais, à l'intérieur du modèle, les niveaux supérieurs sont censés expliquer les niveaux inférieurs, et vice versa. Je suppose également qu'on peut retrouver une telle relation réflexive — à la fois inductive et déductive — dans les idées et les éléments d'apprentissage, tels qu'ils se manifestent dans la vie des êtres que nous étudions.

Finalement, ce modèle demeure ambigu, en ce sens qu'en affirmant qu'il existe des relations explicatives ou déterminatives entre les idées des niveaux adjacents — vers le haut et vers le bas —, il n'est pas clair s'il existe des relations explicatives directes entre des niveaux séparés, comme, par exemple, entre le Niveau III et le Niveau I ou le Niveau zéro et le Niveau II. Cette question ainsi que celle du statut des propositions et des idées, se rattachant directement à la hiérarchie des types, restent à examiner.


[*] Cet essai fut écrit en 1964, alors que je travaillais au Communications Research Institute, grâce à la « récompense pour le développement de la carrière » (K3-NH-21, 931) qui m'a été offerte par le National Institute of Mental Health. Il a servi de communication à la « Conférence on World Views », organisée par la fondation Wenner Gren (août 1968). La partie intitulée « Apprentissage III » a été ajoutée en 1971.


[1] A. N. Whitehead et B. Russell, Principia Mathematica, deuxième édition, Cambridge, Cambridge University Press, 1910-13.
[2] Il est concevable que l'on puisse utiliser les mêmes mots pour décrire à la fois une classe et ses membres, et qu'ils dénotent la vérité dans les deux cas. Le mot « onde », par exemple, est le nom d'une classe de mouvements des particules. Nous pouvons également dire que l'onde elle-même se déplace, mais nous nous référerons alors au mouvement d'une classe de mouvements. Sous l'effet du frottement, ce métamouvement ne perdra pas de sa vitesse, comme ce serait le cas pour le mouvement d'une particule.
[3] Les équations de Newton qui décrivent les mouvements d'une particule s'arrêtent au niveau da l'« accélération ». Tout changement d'accélération ne peut se produire qu'avec la déformation du corps en mouvement, mais la « particule » de Newton ne se composait pas d'« éléments » et était donc (logiquement) incapable de déformation ou de toute autre modification interne. Elle n'était donc pas exposée au rythme du changement d'accélération.
[4] Gregory Bateson, « Social Planning and the Concept of Deutero-Learning », supra, p. 227. Conference on Science. Philosophy and Religion. Second Symposium, New York, Harper, 1942.
[5] H. E. Harlow, « The Formation of Learning Sets », Psychol. Review, 1949,56,51-65.
[6] E. L. Hull, et al., Mathematico-deductive Theory of Rote Learning, New Haven, Yale University, Institute of Human Relations, 1940.
[7] H. S. Lidell, « Reflex Method and Experimental Neurosis », Personality and Behaviour Disorders, New York, Ronald Press, 1944.
[8] Gregory Bateson et alii, « Toward a Theory of Schizophrenia », Behavioral Science, 1956, 1 ; 251-64. Repris ici, Volume II, « Vers une théorie de la schizophrénie ».
[9] J. Ruesch et G. Bateson, Communication : The Social Matrix of Psychiatry, New York, Norton, 1951.
[10] Cf. William Blake, The Marriage of Heaven and Hell, plate 3, 1790. (Nd.T.)


Gregory Bateson, Vers une écologie de l'esprit.
Traduit de l'anglais par Perial Drisso, Laurencine Lot et Eugène Simion (t. I & II) ;
avec le concours de Christian Cler (t. II)
© Éditions du Seuil, Paris, 1977 (t. I), 1980 (t. II) pour la traduction française,
Tome I : ISBN 978-2-02-025767-1 (ISBN 2-02-0O4700-4, 1ère publication ; ISBN 2-02-012301-0, 2e publication)
Tome II : ISBN 978-2-02-053233-4 (ISBN 2-02-013212-5, lø publication)


Titre original: Steps to an Ecology of Mind
édition originale: ISBN 345-23423-5-195,
© Chandler Publishing Company, New York, 1972