Toute une bibliothèque dans la poche

 L' Horreur économique de Viviane Forrester fait de 300Ko à 400Ko en format électronique; Le Discours de la Méthode, moins de 200Ko, notes et commentaires compris; Un autre ouvrage qu'on trouve sur mon site, La Colombe assassinée d'Henri Laborit, fait selon le format (HTML ou RTF) de 420Ko à 510Ko; un document plus complexe, comme Planète Terre, Que son auteur, Pierre-André Bourque, présente comme «un cours axé sur la formation générale et la culture scientifique, offrant une introduction à la géologie […] et disponible sur internet» (introduction est un faible mot, vue la grande quantité — et qualité — d'informations disponible dans ces pages), fait plus de 14Mo et occupe environ 16Mo sur un disque (CD ou disque dur). Suivant leur complexité, les documents électroniques occupent de moins de 100Ko à plus de 50Mo, la majorité occupant moins de 1Mo. Ne soyons pas chiches, disons qu'un livre passé dans un format électronique occupe en moyenne 3Mo, ce qui est à coup sûr excessif — exception faite de gros documents, comme l'énorme dictionnaire Trésor de la Langue française, le “TLF”, pour les amateurs, qui comme texte doit probablement bien faire ses 100Mo, et comme hypertexte, cinq ou six fois plus, dûs les multiples renvois. Un CD-ROM peut contenir de 640 à 720Mo, un DVD-ROM «beaucoup plus» (je n'ai pas l'information sous la main, et ne compte pas la rechercher, mais je crois le souvenir que c'est 10 ou 20 fois plus, donc 6GO à 15Go). Laissons de côté les DVD, et même les CD-ROM contenant 720Mo, puisque le parc ancien d'ordinateurs comporte seulement des lecteurs de CD ancienne manière pour CD-ROM 640Mo. Donc, partant d'une base de 3Mo, considérant qu'une partie du CD par prudence devra comporter des programmes permettant d'accéder aux documents, on peut au bas mot stocker sur un CD quelques 200 ouvrages. Ma foi, un CD ça rentre facile dans une poche de veste, d'où mon titre. Envisageant même le DVD-ROM, si je considère mon hypothèse basse de 6Go, cette fois ça serait quelques 2.000 ouvrages.

Je n'ai rien contre les bibliothèques, au contraire: j'aime les livres. Les romans, la poésie, les essais philosophiques ou esthétiques, les dictionnaires de langues, bref, ce qui n'est pas ouvrage «technique». Par exemple, autant j'apprécie de disposer sur support électronique du Discours de la Méthode ou des textes de Bateson, autant je trouve plus gratifiant de lire Bachelard ou Montaigne sur papier. L'usage n'est pas le même — ce qui n'empêche de disposer des textes de ces deux auteurs sous une forme informatisée, mais c'est moins important. Un grand nombre de livres, que je classerai plutôt dans la catégorie «documents», et qui pour certains me sont des «documents de travail», n'ont nul intérêt particulier comme objets livresques. Même, il est plus commode de consulter les ouvrages techniques via un ordinateur, on peut faire des recherches par mots-clés, par phrases, créer des liens entre rubriques et notions connexes, etc. Autant je préfère les bons vieux dictionnaires imprimés, autant je préfère électroniques les documents spécialisés où le hasard heureux de la rencontre des mots a peu de place.

Donc, les bibliothèques de poche. Franchement, j'aimerais bien ça. Un exemple: le livre L'Horreur économique déjà cité comporte une bibliographie importante, avec 155 références dont 142 livres et 13 articles ou numéros de revues; ma foi, ça serait de mon point de vue bien intéressant de disposer sur un même support de tous ces documents pour à la fois voir ce qu'ils peuvent apporter comme informations supplémentaires, et (tenter de) comprendre comment l'auteur, à partir de cette base documentaire, a conçu et réalisé son propre livre. De même, dans La Colombe assassinée on trouve une bonne cinquantaine de renvois, qui eux-mêmes probablement comportent des renvois, voire une bibliographie. Ce serait bien intéressant d'en disposer.


Bien que ce texte parte de l'idée exposée dans la page d'accueil de cette rubrique, on arrive ici à une autre optique. Il ne s'agit plus de mettre à disposition de qui préfère ce format des documents autonomes, mais de tirer parti des possibilités des documents électroniques: place occupée restreinte pour les documents, multiplicité des formats, hyperliens, unicité des supports et diversité des objets — le «multimédia» —, etc. Plus que d'une «bibliothèque de poche», j'aurais dû parler d'une «médiathèque de poche». Dans cette optique, j'ai vérifié pour les DVD, et voici ce que j'ai trouvé:

«Les DVD-ROM offrent une capacité de stockage de 4,7 Go pour les disques simple face, simple couche. Les DVD simple face, double couche stockent 8,5 Go. Les DVD double face, simple couche stockent 9,4 Go, et les DVD double face, double couche peuvent stocker 17 Go»

Le cas général est double face, simple ou double couche, soit une capacité de stockage 13 ou 24 fois supérieure à un CD-ROM. Sur un DVD-Rom 8,5Go ou 9Go on peut faire figurer plus de 2 millions de pages de textes, de 50.000 à 500.000 pages «mixtes» (un combiné de texte et d'images) selon leur complexité, des dizaines ou centaines de milliers d'images, voire des millions, selon complexité encore, des dizaines à des centaines d'heures de son (voix ou musique, ambiances), des heures à des dizaines d'heures d'images animées ou de films en prise de vue réelle ou d'animation. Un DVD «multimédia» (le terme est mal choisi puisque le médium est unique, on dirait mieux avec «multisémique» ou «multisémiotique», la multiplicité venant des systèmes de signes: scripturaires, iconiques, sonores, etc.) peut comporter au bas mot trente à quarante minutes de film, deux à trois heures d'images animées, une vingtaine à une centaine d'heures de sons, plusieurs milliers d'images et au moins cinq cent mille pages de texte, le tout uni par des hyperliens ou géré par un programme unique «multimédia» (comme on le voit souvent avec les encyclopédies sur CD). Une collection de trois cent DVD-Roms double face simple densité représenterait quelque chose comme l'équivalent de cent films long métrage, des centaines de films d'animation informatiques, des dizaines de milliers d'heures d'écoute et quelque chose de l'ordre de cinquante mille à cinq cent mille — transigeons à deux cent mille — forts volumes, de 500 pages environ chacun.

Bien sûr, ce compte n'a pas grand intérêt en soi, sinon pour mettre en évidence ceci qu'avec un support comme le DVD (ou même le CD: avec le même compte on aurait environ 4.000 CD-Roms, ce qui fait certes plus, mais toujours bien moins en occupation d'espace que l'équivalent sur d'autres supports. Malgré tout, avec les CD on ne disposerait des films que par morceaux d'une dizaine de minutes…) on a l'équivalent d'une énorme bibliothèque, d'une discothèque assez importante, d'une vidéothèque déjà conséquente, plus une quantité non négligeable de données purement informatiques (dans la forme, non dans le contenu), qui tiendrait, boîtiers et casiers de rangement compris, dans à peine plus qu'un mètre cube. Ce que je trouve plus intéressant est bien sûr la disponibilité: pour consulter à tout moment cette énorme masse documentaire, on n'aurait pas besoin de la rechercher sur des supports multiples et encombrants.

Bien que je basant sur l'esquisse de la page de présentation de cette rubrique je n'ai pas vraiment idée que chacun détienne cette «bibliothèque de poche», qui est ici de moins en moins de poche… J'imagine plutôt des «sémiothèques centrales de consultation». Considérant une structure pour 300.000 consultants potentiels, ça ferait à l'échelle d'un pays comme la France environ 200 structures; ne soyons pas chiche, et par sécurité disons 400, soit environ 4 par département, en moyenne. Ma foi, ça semble tout à fait envisageable financièrement. Avec la généralisation de l'accès Internet à haut débit, que ce soit par le biais de l'ADSL ou des réseaux câblés, tant pour le coût que pour la rapidité de consultation ça me semble très acceptable. Bien sûr, le grand avantage de ce genre de structure est, plus encore qu'avec la «bibliothèque de poche», la très grande disponibilité: si je désire consulter un ouvrage, une cassette vidéo ou audio, un disque dans une médiathèque, il faut que personne ne l'aie emprunté à ce moment, ce qui ne se pose pas avec une «sémiothèque»; de même, pour prendre ma région, il n'y a que deux médiathèques bien dotées dans le Cher, ce qui signifie qu'une personne peut être amenée à faire plus de quarante kilomètres pour y accéder, alors que ce problème n'existerait plus si l'on pouvait obtenir ce qu'on recherche sans devoir se déplacer. Bien sûr, mon hypothèse de 400 structures concerne un monde idéal où une majorité de personnes sont avides de savoir, d'information, de connaissances; dans l'état actuel, ma première idée d'une structure pour 300.000 personnes est plus que suffisante, qu'on doublerait par des structures plus spécifiques, des sortes de bibliothèques universitaires virtuelles; ici, une structure pour deux millions d'habitants serait largement suffisante, disons, une par région environ, un peu plus pour les régions denses (Île-de-France, Rhône-Alpes, Nord…), aucune ou un regroupement pour certaines (Corse, Antilles-Guyane). Déjà j'entends certains Corses se préparant à me faire un procès pour racisme anti-corse; or, avec une population de 250.000 habitants, nul besoin pour cette île de disposer d'une bibliothèque de chercheurs pour elle seule, et comme il s'agirait d'Internet, importe peu de savoir où est localisé le serveur.

Bien sûr, avec ce genre de services, on passerait à une autre méthode, les données seraient stockées sur des batteries de disques durs. Dans un «petit» serveur on peut placer cinq disques durs, chacun d'une capacité de 100Go, soit au total 1.000Go, donc l'équivalent de plus de 106 DVD dans mon hypothèse; avec une vingtaine de serveurs de ce type on disposerait donc de l'équivalent de 2.127 DVD-Roms, soit en reprenant mes comptes d'apothicaires et en arrondissant, 60.000 à 85.000 minutes de film, 4.500 à 6.400 heures d'images animées, 42.000 à 210.000 heures de sons, 6,5 à 20 millionsd'images et au moins 1 milliard de pages de texte.

On dira avec raison que rassembler une telle masse documentaire n'est pas à la portée d'une petite structure — car je n'imagine pas que mes «sémiothèques» soient animées par des équipes nombreuses. Mais, pourquoi chacune devrait-elle faire le même travail que toutes ? Et pourquoi œuvreraient-elles indépendamment d'autres structures ? Par exemple les éditeurs de librairie ou de presse disposent déjà, au moins pour les deux dernières décennies, d'un fonds considérable; de même, une part de plus en plus grande des œuvres cinématographiques ou télévisuelles, et le fonds d'archives de la radio, sont déjà sur support informatisé ou facilement informatisable; de même encore, pour un grand nombre d'images (photos, reproductions de peintures et dessins, etc.). Et bien sûr, pour tout ce qui est proprement de format informatique, la question est réglée. En fait, le travail principal serait de créer, disons, la base documentaire permettant d'accéder à tous ces documents, mais là aussi il existe des outils très performants qui font déjà ce travail de manière assez automatisée, pour ne citer que deux parmi les plus performants, le système de gestion de bases de données (SGBD) Oracle et le moteur de recherche Google. Ce qui n'est bien sûr pas contradictoire avec d'autres méthodes d'exploration, plus dirigées ou plus aléatoires.

Pour reprendre mon exemple de L'Horreur économique, on y trouve donc environ 150 références; dans un livre, sauf à disposer par miracle de ces 150 références chez soi ou à la médiathèque locale, ça reste du niveau de la citation de titres; avec un objet hypertexte, on pourrait d'un simple clic sur un lien accéder immédiatement au texte cité. Ces textes mêmes feront des renvois, qui feront des renvois qui… Autre cas, qui cette fois s'assimile aux SGBD cités, les encyclopédies numérisées: là le classement est à la fois thématique (sciences, littérature, histoire, etc.) et purement aléatoire — le classique et inépuisable classement alphabétique. Entre les deux, donc, les SGBD tels que l'on peut les trouver de plus en plus souvent dans les bibliothèques et médiathèques, et les moteurs de recherche, où les nomenclatures sont plus dirigées que dans un système de type dictionnaire, et moins déterminées que dans les «notes de bas de page» et les divers renvois qu'on trouve dans un livre, un journal.

Autre reproche qu'on pourrait faire à ma proposition, après tout Internet fonctionne déjà comme une vaste base documentaire, alors pourquoi centraliser cela ? Parce que ce ne serait ni tout-à-fait la même chose, ni surtout le même usage. Dans ma bonne ville de Bourges, je suis persuadé qu'on trouvera, soit dans ses divers magasins, soit chez les particuliers, tout ce qu'on peut trouver dans sa médiathèque; mais il n'y a que dans la médiathèque qu'on trouve à la fois cet ensemble et le moyen (classement, fichiers) qui permet de localiser ses éléments à coup sûr. De même, on trouve, dispersé dans des dizaines de millions de sites et des milliards de pages (Google recense, au 25 février 2004, plus de 4 milliards de pages, précisément 4.285.199.774; certes, ça fait une base importante, mais le classement de ces pages est hautement hasardeux, car conçu à partir de «mots-clés»; certes tous les mots d'une page donnée sont des clés, mais faire une recherche par mots-clés ne donne pas automatiquement le résultat escompté. Tenez, un exemple basé sur les statistiques de visite de mon site.

Le 24 février 2004, le programme d'analyse de sites qui fournit des statistiques sur le mien m'indiquait la liste de principales recherches suivante:

Top 20 sur un total de 176 groupes de mots-clés
# HitsMots-clés
16 2.96%messier partners
24 1.97%hexa colors
33 1.48%cramming more components onto integrated circuits
43 1.48%sarkozy juif
52 0.99%behaviourisme
62 0.99%carpentras journalisme deontologie
72 0.99%comment gerer commandes dos avec langage pascal
82 0.99%dupont-aignan
92 0.99%illich deschooling society
102 0.99%illich tools conviviality
112 0.99%ivan illich deschooling
122 0.99%japanese psyop propaganda australian troops
132 0.99%l'upjf
142 0.99%maîtrise de la nature descartes discours de la méthode
152 0.99%military mpeg commercials
162 0.99%mésinformation
172 0.99%rony braumanntariq ramadan
182 0.99%sexagénaire porter plainte enfant 3 ans
192 0.99%villon testament
201 0.49%(1452~1492 mhz) am u.s. military

Cet exemple montre deux choses: nombre de personnes ne savent pas utiliser les moteurs de recherche sur Internet, et même le sachant, on n'obtient pas toujours ce qu'on veut. Dans cette liste, les items 4, 6, 7, 12, 15, 17, 18 et 20, soit près de la moitié de l'ensemble, ne renvoient à rien qui puisse concerner ces demandes sur mon site; sans préjuger de ce que recherchaient les internautes, les éléments 1, 8 et 10 risquent d'être décevants, car rien d'aussi spécifique ne s'y trouve; les éléments 5 et 13 sont d'une telle généralité qu'ils font remonter respectivement 437 et 6.740 références dans le moteur de recherche Google; de même l'élément 19 fait apparaître 6.400 références. Bref, sur les trois quarts du «top 20 […] de mots-clés», ça ne correspond à rien ou à pas grand chose