Moteurs de recherche et bibliothèques numériques

Introduction à une table-ronde, Troyes le 3 juin 2005

En introduction de cette table-ronde consacrée aux enjeux des moteurs de recherche pour les bibliothèques, je souhaiterais préciser quelques éléments de vocabulaire, afin d’aider à la compréhension des enjeux du débat actuel. Alors que les grands médias s’emparent de ces questions, il me semble important de fixer quelques points de repère, afin d’éviter tous les glissements sémantiques, les confusions et les incompréhensions. Clarifier, c’est toujours apporter la brutalité des séparations alors que le fonctionnement même de l’internet tend à estomper toutes les catégorisations et à organiser l’ensemble des activités dans un véritable continuum numérique. Je vous prie donc de m’en excuser d’avance. Une fois le panorama dressé, il sera temps d’ajouter les précisions et les modulations.

1 - Moteurs de recherche

Bien qu’elle ne soit pas vraiment significative, cette traduction de “search engine” s’est imposée. Le caractère “technique” du terme tend à masquer une réalité sociale : le service de recherche de documents sur le web fait émerger sous nos yeux un véritable “nouveau média”.

Techniquement, un moteur de recherche est un ensemble de procédures (informatiques, mais aussi économiques et sociales) qui permettent de proposer à un lecteur une liste classée de documents répondant à un critère de recherche composé de plusieurs termes ou mots-clés. Pour cela, un moteur de recherche repose sur trois parties constitutives :

1)) Un robot d’exploration, qui va parcourir le web et rapporter les documents qui sont représentés par leur URI (Uniform Resource Identifier). Le plus connu est actuellement l’URL (Uniform Resource Locator) qui permet d’accéder aux “pages web”. Mais on voit apparaître d’autres URI comme les identifiants uniques (DOI : Digital Object Identifier - http://doi.org ou ARK : Archival Resource Key - http://www.cdlib.org/inside/diglib/ark/index.html ). La rapidité du robot, sa capacité à explorer tous les liens du web et à renouveler ses traversées pour vérifier l’actualité des pages, sont des critères déterminants pour la qualité du moteur de recherche. Avec l’expansion du web, c’est une lourde tâche qui est accomplie en multipliant les robots et en les coordonnant.

2)) Un système d’indexation qui va extraire de tous les documents rapportés par le robot des “mots-clés” permettant la recherche. Actuellement ces outils d’indexation automatique sont principalement textuels, mais des recherches sont en cours pour utiliser des signatures d’images ou de sons, des logiciels d’extraction d’information à partir des vidéos,... L’outil d’indexation est à la fois :
un outil linguistique : pour l’instant il s’agit principalement d’utiliser les mots présents dans un document, les “unitermes”... mais les avancées de la linguistique informatique laissent penser que d’autres formules “d’extraction de connaissances” sont crédibles à court et moyen terme ;
un outil statistique : chaque terme d’indexation est pondéré, en fonction de sa fréquence (dans le document et dans l’ensemble du système) ou de sa place dans le document (un même terme aura plus de “poids” dans un titre que dans une note) ;
un outil social : les documents sont eux-mêmes pondérés par leur “notoriété” sur le réseau. Cette réputation se calcule suivant deux axes :

le nombre de liens pointant vers ce document (“page rank” chez Google, modèle des “hubs and authorities” chez IBM, ...)
un coefficient de “crédibilité” qui dépend de la qualité ou notoriété du site dans lequel ce document est publié (méthode traditionnelle dans les services d’achat des bibliothèques).

3)) Une interface de recherche, qui utilise les termes demandés par le lecteur pour “classer” les documents de façon à les présenter dans une liste ordonnée par leur “ pertinence ” pour répondre aux questions du lecteur.

Se retrouvent ainsi en début de liste :
les documents qui sont indexés par les critères de recherche avec la plus forte pondération
les documents qui ont un fort critère social de notoriété

Seuls les documents figurant dans la première, voire la deuxième page, d’un lot de réponse ont des chances d’être lus (et cités, ce qui va accroître leur notoriété pour les recherches ultérieures avec les mêmes critères)

On comprend dès lors que :
plus les questions comportent un grand nombre de termes et plus la réponse sera précise
la pondération des termes est un critère statistique qui peut être modifié par des critères économiques (“l’achat de mots-clés”)
plus les documents sont valorisés par le critère social et plus ils risquent d’apparaître en “tête de gondole” et accroître encore leur réputation.

Nous avons dès lors tous les ingrédients pour considérer un “moteur de recherche” au delà de sa dimension technique. Ce phénomène de sélection de documents afin de créer autour d’eux une audience nous incite à les regarder comme de véritables médias adaptés au web.

2 - Vers le nouveau média de l’internet

Ce schéma est rapide (il mériterait des nuances techniques), bien connu depuis les années quatre-vingts (voir les travaux précurseurs de Gerald Salton : G. Salton and M. McGill. Introduction to Modern Information Retrieval. McGraw-Hill, 1983). Mais sa réalisation “en grandeur réelle” dans l’univers en expansion rapide et continue qu’est l’internet n’est pas aisée. Il faut exceller dans les trois domaines techniques qui constituent un “moteur de recherche”, et de surcroît répondre dans les délais les plus brefs à des millions de requêtes simultanées.

C’est ce qui fait que les moteurs de recherche généralistes sont peu nombreux, et s’appuient sur de grandes structures techniques réparties, et sont animés par des ingénieurs parmi les plus pointus de leurs disciplines (de l’ingénierie linguistique jusqu’au load balancing qui permet de coordonner des milliers de serveurs).

A ce titre, les entreprises qui gèrent ce point de passage obligé des internautes sont de grandes structures capitalistiques, qui doivent en permanence :
élargir les services rendus aux utilisateurs
accentuer leur présence boursière pour lever des capitaux permettant l’amélioration technique permanente
financer les recherches par la publicité, en offrant aux annonceurs des opportunités sans cesse innovantes (les adwords ou mots-pub, les fils spécialisés de veille, l’élargissement aux médias son et vidéo,...)

Nous avons là tous les critères de constitution d’un nouveau média global, adapté au fonctionnement de l’internet. Parce qu’ils ont très vite compris ce phénomène, les moteurs de recherche des Etats-Unis (Google, Yahoo, MSN) ont su se partager cet espace médiatique, au dépens des anciens systèmes, qui cherchaient leur voie dans les prouesses techniques (comme Altavista, longtemps vitrine du savoir-faire d’un constructeur informatique). Ce faisant, ces médias installés obèrent la naissance de nouveaux concurrents, car pour s’imposer, il faut d’emblée un taux de “couverture médiatique” énorme et mondial.

Peut-être est-ce parce qu’il est un “homme de média” avant d’être le Président de la BnF que Jean-Noel Jeanneney a pointé un enjeu essentiel pour l’organisation géopolitique du monde : dans le domaine des médias, la concurrence est au fondement de la démocratie.

3 - Les bibliothèques numériques

Presque à l’inverse de l’extension permanente des moteurs de recherche, la constitution de bibliothèque numérique vise au contraire à mettre en place des “collections” limitées, coordonnées (on parle ainsi d’un “projet européen”) et très catégorisées (les métadonnées de catalogage y occupent une place centrale).

Une bibliothèque numérique vise à offrir des accès (plus ou moins réservés en fonction des stratégies) à des “photocopies numériques” des documents existants (écrit, image), ou à des reformatages utilisables sur le web des documents analogiques (son, vidéo).

On peut découper en trois phases la constitution d’une bibliothèque numérique :

1)) la “numérisation” proprement dite. Un document va donner lieu à une “image numérique” (ou à une transformation dans un format lisible par ordinateur pour le son ou l’image animée). Dans cette phase, l’unité documentaire (le livre, la boîte d’archive,...) est difficile à conserver. Elle est éclatée dans chacun de ses composants élémentaires (la page au lieu du livre, le morceau de musique et non l’album, chaque pièce d’archive en place du “carton”,...).

2)) l’indexation des versions numériques, qui prend deux aspects :

l’ajout de “métadonnées” qui permettent de retrouver dans l’univers numérique les notions d’unités documentaires existant au moment de la création-réalisation des originaux. On utilise pour cela des formats (ou schémas, ou cadres de travail...) issus des technologies XML (EAD pour les archives, OAI pour les articles scientifiques, ...). La tendance est à associer ces métadonnées à des outils documentaires répartis (thésaurus, ontologies, classifications...). C’est le coeur du projet de “web sémantique”, et le cadre de travail pour cela est le format RDF, normalisé par le W3C (http://w3c.org) .

l’indexation probabiliste et sociale telle que décrite ci-dessus, pour chacune des “pages” (ou unité élémentaire) des documents numérisés. Pour cela, il faut passer du “mode image” à une représentation dans laquelle un logiciel peut distinguer les caractères, les mots, les lignes, et si possible les hiérarchies des documents (titres, citations,...). C’est la “conversion”, dite souvent OCR (reconnaissance optique de caractères) pour le texte. Pour les autres médias, on utilise souvent une indexation par “signature” (par exemple pour extraire le “mood” d’un morceau de musique, les scènes d’une vidéo, ou les caractéristiques des visages pour les images photographiques...). Cette conversion est une opération délicate, encore largement ouverte à la recherche. Les taux actuels de reconnaissance des mots d’un texte (ou de la parole, ou les personnes sur les images,...) permettent une indexation probabiliste, mais n’ont pas encore la fiabilité suffisante pour obtenir des citations exactes (annotation, citation, extraits, et reconnaissance de la mise en forme matérielle).

3)) l’ouverture à la consultation d’une bibliothèque numérique par le public. Ce qui n’est pas sans poser de nombreuses questions techniques... et sociales :
concevoir une “navigation intuitive”, dans la métaphore la plus proche du support d’origine (“tourner les pages”, contrôler les défilements pour le son ou la vidéo, voir les images sur grand-écran ...)
régler la question des “autorisations d’accès” (qui peut voir quoi, principalement pour les oeuvres encore astreinte à une propriété littéraire et artistique). On parle ainsi de “consultation sur place” (dans les murs de la bibliothèque), ce qui est un oxymore dans le domaine des réseaux numériques. On parle aussi de “reversement de droits”, mais cela touche alors à la nature même de la bibliothèque...

On le voit, cette question de l’ouverture au public reste un large enjeu de débat.

4)) envisager les multiples ré-utilisations possibles des documents numérisés, depuis l’opération inverse (imprimer, pour soi ou pour les autres - ré-édition) jusqu’à l’usage pour l’extraction de nouveaux outils de connaissance (les recherches linguistiques, les dictionnaires de citations, ...)

Le modèle de recherche documentaire qui sera choisi par la bibliothèque numérique va beaucoup influencer son approche par le public. On peut distinguer deux modes principaux :
permettre une recherche sur catalogue, à partir des métadonnées, puis un feuilletage des documents repérés ;
permettre la recherche “par mots” pour identifier des “pages” et y retrouver des “informations”. Avec cette conséquence de mise en poudre du savoir qui est pointée par Michael Gorman, Président de l’American Library Association, quand il souligne que dans les bibliothèques, les livres sont plus que la somme de leurs parties (Google and God’s Mind The problem is, information isn’t knowledge. http://www.scils.rutgers.edu/ lesk/...) .

Un mode mixte est vraisemblablement ce qui va émerger. Et alors nous aurons un phénomène de coopération entre les “bibliothèques numériques” qui offriront des accès contextualisés (éventuellement doublés par des annotations ou des compléments d’information, comme des bio-bibliographies, des cartes, des frises chronologiques, et tous les éléments permettant de replacer les documents dans leur histoire), et “moteurs de recherche” qui lanceront leurs robots pour explorer les rayons des bibliothèques numériques et intégrer leur contenu (au sens de constituant élémentaire) dans le flux médiatique qu’ils mettent en place.

Car c’est la magie et l’ubiquité du réseau informatique qui nous conduit à fondre toutes les structures dans un remixage permanent. Dès qu’un document existe sous forme numérique, il va circuler, et finalement être retrouver et consulté suivant de multiples chemins d’accès. il va ête intégré dans de nouveaux documents (études, documents pédagogiques, autres créations, citations, ré-édition,...) et servir dans la constitution de nouveaux réseaux sociaux (le conseil de lecture par mail, le lien sur des pages web, la republication par reprise sur un site existant, ...).

J’espère avec ces quelques précisions terminologiques vous donner des pistes, des points de repère pour envisager dans toute sa complexité, le débat sur la numérisation des documents du passé, et leur mode d’intégration dans l’univers numérique actuel et à venir, qu’il soit “médiatique” ou “de recherche”.

Troyes, le 3 juin 2005 Hervé Le Crosnier

Hervé Le Crosnier

Posté le 27 juin 2005

Vecam

Moteurs de recherche et bibliothèques numériques

1 - Moteurs de recherche

2 - Vers le nouveau média de l’internet

3 - Les bibliothèques numériques