IFLA

As of 22 April 2009 this website is 'frozen' in time — see the current IFLA websites

This old website and all of its content will stay on as archive – http://archive.ifla.org

IFLANET home - International Federation of Library Associations and InstitutionsAnnual ConferenceSearchContacts
*    
To Bangkok Conference programme

65th IFLA Council and General
Conference

Bangkok, Thailand,
August 20 - August 28, 1999


Code Number: 010-143-F
Division Number: III
Professional Group: Information Technology
Joint Meeting with: -
Meeting Number: 143
Simultaneous Interpretation:   Yes

E-Referencer: Transforming Boolean OPACs to Web Search Engines (version française)

Christopher S. G. Khoo (assgkhoo@ntu.edu.sg)
Division of Information Studies,
School of Applied Science,
Nanyang Technological University

Danny C. C. Poo (dpoo@comp.nus.edu.sg)
Teck-Kang Toh (tohteckk@iscs.nus.edu.sg)

Dept. of Information Systems,
School of Computing, National University of Singapore
Singapore

Glenn Hong (glennhong@nlb.gov.sg)

National Library Board
Singapore


Abstract

E-Referencer est un système expert intermédiaire pour interroger les OPAC sur le Web. Il est implémenté comme un serveur proxy qui sert de médiateur dans les échanges entre l'utilisateur et les OPAC booléens. Il transforme un OPAC booléen en système de recherche possédant beaucoup des capacités des moteurs de recherche sur le Web. E-Referencer renferme la connaissance et la compétence en matière de recherche, de bibliothécaires expérimentés. Il traite les questions en langage naturel de l'utilisateur, établit une correspondance entre les mots de la question et les LCSH, sélectionne une stratégie de recherche et formule la requête adéquate à envoyer au système de bibliothèque. Basé sur le retour de pertinence de l'utilisateur à partir des résultats de la recherche, il effectue en outre la sélection d'une stratégie pour optimiser la recherche.


Paper

Introduction

Il y un nombre croissant de moteurs de recherche qui aident les utilisateurs à localiser des pages Web potentiellement intéressantes. La plupart d'entre eux acceptent les questions en langage naturel, effectuent une recherche approchée, affichent les réponses triées dans un ordre de pertinence probable. Certains moteurs de recherche opèrent l'expansion de la requête pour identifier des termes supplémentaires en relation avec les termes de la requête de l'utilisateur et aussi bien optimisent la requête pour identifier d'autres pages Web semblables à celles que l'utilisateur a désignées comme pertinentes.

En revanche, les OPAC sur le Web sont encore difficiles à utiliser. La plupart n'acceptent pas les requêtes en langage naturel et exigent que les utilisateurs formulent leurs requêtes en langage booléen. Les notices trouvées ne sont pas classées, et aucune aide n'est fournie ni par l'expansion ni par l'optimisation de la requête. Les actuelles interfaces Web aux OPAC sont un peu meilleures que les OPAC traditionnels transplantés sur le Web. Borgman (1996) a dit que les améliorations apportées aux OPAC ces dernières années ont davantage porté sur des caractéristiques superficielles que sur des fonctionnalités fondamentales.

Pour un nombre croissant de personnes, les moteurs de recherche vont être le type de système de recherche d'information avec lequel elles seront le plus familiarisées. Elles trouveront les OPAC actuels archaïques et inacceptables et demanderont : pourquoi est-ce que les catalogues de bibliothèques ne ressemblent pas plus aux moteurs de recherche sur le Web ?

E-Referencer a été développé pour répondre à cette question. C'est un système expert intermédiaire (ou un système d'interface expert) qui sert de médiateur dans les échanges entre l'utilisateur et l'OPAC booléen. Il transforme l'OPAC booléen en système de recherche possédant beaucoup des capacités des moteurs de recherche sur le Web. E-Referencer renferme la connaissance et la compétence en matière de recherche, de bibliothécaires expérimentés. Il traite les questions en langage naturel de l'utilisateur, établit une correspondance entre les mots de la question et les LCSH, sélectionne une stratégie de recherche et formule la requête adéquate à envoyer au système de bibliothèque. Basé sur le retour de pertinence de l'utilisateur à partir des résultats de la recherche, il effectue en outre la sélection d'une stratégie pour optimiser la recherche.

Implémentation

E-Referencer utilise le protocole de recherche Z39.50 pour communiquer avec les systèmes de bibliothèque. Il utilise le client Z39.50 API d'OCLC écrit en Java (disponible à l'URL http://www.oclc.org/z39.50/#api) et le système expert Java Shell (disponible à : http://herzberg.ca.sandia.gov/jess/). Les précisions techniques de l'implémentation initiale sont données dans Poo, Toh, & Khoo (1999) et Khoo, Poo, Toh, Liew & Goh (1998). E-Referencer est accessible à l'URL : http://islab.sas.ntu.edu.sg:8000/E-Referencer/. Il interroge actuellement les systèmes de bibliothèque de l'Université de technologie de Nanyang, de l'Université de Singapour, et de quelques autres bibliothèques.

La version 1 de E-Referencer a été implémentée comme un applet Java qui puisse être déchargé et exécuté par le navigateur Web de l'utilisateur. Il a été réimplémenté en version 2 comme un serveur proxy entre la machine de l'utilisateur (client) et le système de bibliothèque (serveur). Le serveur proxy est écrit en Java. Un applet Java pour la communication avec le serveur proxy est hébergé sur la même machine. En utilisant un navigateur Web, l'utilisateur peut accéder à l'applet E-Referencer et l'exécuter ; celui-ci se connecte au serveur proxy E-Referencer, qui à son tour se connecte aux différents serveurs Z39.50 de bibliothèques. Suivant ce modèle, le traitement peut être réparti entre l'applet et le programme proxy. Le traitement qui demande l'accès à une grosse base de connaissance est exécuté sur la machine proxy et seuls les résultats sont envoyés à l'applet Java exécuté sur la machine de l'utilisateur. Le proxy peut aussi être utilisé pour capturer dans un journal de transaction les échanges avec l'interface utilisateur, ce qui peut être exploité pour analyser l'efficacité d' E-Referencer et obtenir des aperçus sur la manière dont il peut être amélioré.

Base de connaissance

L'intelligence et la connaissance d' E-Referencer repose sur :

  1. La base de connaissance conceptuelle qui établit une correspondance entre les mots clés du texte libre et les concepts représentés par les LCSH.
  2. Les stratégies de recherche codées dans le système, comprenant :

    1. les stratégies de recherche initiales, utilisées pour convertir la question en langage naturel de l'utilisateur en une formule de recherche booléenne adéquate
    2. les stratégies de reformulation, utilisées pour optimiser une recherche, basées sur les résultats de la première formule de recherche
    3. les règles pour sélectionner une stratégie de recherche adéquate.

La base de connaissance conceptuelle

La base de connaissance conceptuelle contient l'information concernant la relation entre les LCSH et chaque mot clé du texte libre. Cette base de connaissance composée de mots clés associés aux vedettes matières a été construite en analysant environ 16 ans (1980-1996) de notices du catalogue de la LC. Pour chaque mot clé trouvé dans un titre, nous avons recherché les titres contenant ce mot clé et extrait toutes les vedettes matières affectées à ces titres. A chacune des vedettes matières a été affecté un score égal au nombre de titres affectés à la vedette matière. Les scores bruts ont ensuite été normalisés en les divisant par le score le plus élevé (score obtenu par la vedette matière la plus fréquente). Les scores normalisés reflètent donc le poids de l'association entre la vedette matière et le mot clé. Par exemple, les vedettes matières fortement associées au mot clé Java sont données table 1. Cette base de connaissance conceptuelle est utilisée pour établir la correspondance entre les mots de la question de l'utilisateur et les LCSH à utiliser pour la recherche.

Table 1. Vedettes matières associées au mot clé Java
Vedette matière Score brut Score normalisé
Java (Computer program language) 98 1.00
World Wide Web (Information retrieval system) 22 0.22
Object-oriented programming (Computer science) 17 0.17
Java Indonesia-History 8 0.08

Les stratégies de recherche initiales

Deux stratégiesde recherche initiales ont été implémentées. La stratégie initiale 1 exécute une recherche de mots clés dans tous les champs. La stratégie initiale 2 utilise la base de connaissance conceptuelle pour identifier les LCSH à utiliser pour la recherche.

fig.1 image

Fig. 1. Vedettes matières affichées par E-Referencer pour la question : technologie de l'information dans les bibliothèques

La stratégie initiale 1 (recherche de mots clés) est une opération de conception simple qui élimine les mots vides, lemmatise les autres, et recherche les mots dans tous les champs interrogeables de la base de données de la bibliothèque. L'adjacence des mots est conservée. Les signes de ponctuation et les mots vides sont remplacés par l'opérateur booléen ET, mais les mots compris dans l'intervalle sont conservés comme phrases.

La stratégie initiale 2 (recherche de vedettes matières) utilise la base de connaissance conceptuelle pour identifier les vingt LCSH le plus fréquemment associées aux mots clés de l'utilisateur. Elles sont affichées pour que l'utilisateur puisse sélectionner. Si la requête de l'utilisateur contient plus d'un mot clé, la série de vedettes matières associées à chaque mot clé est recherchée et les séries de vedettes sont ensuite combinées. Si une vedette apparaît dans plus d'une série, un nouveau score lui est affecté, égal à la somme des scores correspondants dans les différentes séries. Par exemple, les vedettes qui sont fortement associées à la requête technologie de l'information dans les bibliothèques sont listées dans la fig.1.

Les stratégies de reformulation

Après l'exécution de la stratégie initiale, E-Referencer affiche les 20 premiers titres trouvés et demande à l'utilisateur d'indiquer les titres pertinents. Ceci est illustré dans la figure 2. (l'utilisateur peut choisir d'afficher plus de notices). Après que l'utilisateur ait indiqué les notices pertinentes, E-Referencer choisit et exécute une des stratégies de reformulation. Une stratégie de reformulation peut modifier la première formule de recherche ou en construire une complètement nouvelle.

Trois types de stratégies de reformulation sont utilisées :

  1. Les stratégies d'élargissement modifient une formule de recherche pour la rendre moins restrictive afin de retrouver plus de notices. Cette stratégie est appropriée quand la recherche n'a retrouvé aucune notice ou quand la plupart des notices retrouvées sont pertinentes et que l'utilisateur veut plus de notices.

  2. Les stratégies de restriction modifient une formule de recherche pour réduire le nombre de notices retrouvées. Cette stratégie est appropriée quand le nombre de notices retrouvées est trop élevé et que l'utilisateur veut en limiter le lot aux notices qui seront les plus vraisemblablement pertinentes.

  3. Les stratégies de retour de pertinence analysent le contenu des notices retrouvées pour identifier les termes qui sont susceptibles de retrouver d'autres documents pertinents. En général, si un terme est présent dans la majorité des notices jugées pertinentes par l'utilisateur et n'est présent que dans un petit nombre de notices non-pertinentes, il est vraisemblable qu'il ramènera d'autres notices pertinentes.

fig.2 image

Fig. 2. Affichage des résultats de la recherche

Les stratégies d'élargissement et de restriction sont énumérées dans la table 2. Pour le retour de pertinence, E-Referencer commence par compiler une liste des mots-clés et vedettes matières trouvés dans les notices affichées à l'utilisateur. E-Referencer extrait également toutes les combinaisons de deux termes trouvées dans chaque notice. Pour chaque terme (et combinaison de termes) , E-Referencer calcule un score basé sur le nombre de notices pertinentes et non-pertinentes dans laquelle le terme est trouvé. Deux formules sont utilisées pour calculer ce score :

  1. retour de pertinence formule 1 : nombre de notices pertinentes contenant le terme
  2. retour de pertinence formule 2 : nombre de notices pertinentes contenant le terme moins nombre de notices non-pertinentes contenant le terme

Dans une étude précédente, (Khoo, Poo, Toh, Liew & Goh, 1998), nous avons constaté que ces deux formules de retour de pertinence marchaient bien dans différentes situations. Nous avons également constaté qu'il fallait affecter des poids différents aux différents types de termes. Par exemple, les vedettes matières devaient avoir un poids plus grand que les mots clés du titre. Des détails sur le régime de pondération sont donnés dans Khoo et al. (1998).

Table 2. stratégies d'élargissement et de restriction

Stratégies d'élargissement

Stratégie 1 : convertir les opérateurs d'adjacence en ET booléens

Stratégie 2 : rechercher chaque mot clé individuellement pour identifier les mots clés non trouvés dans la base. Retirer ces mots clés de la formule de recherche

Stratégie 3 : sélectionner chaque combinaison de trois mots et relier par ET les mots clés dans chaque combinaison. Trouver le nombre de notices retrouvées par chaque combinaison de trois mots. Classer les combinaisons de trois mots dans l'ordre décroissant du nombre de notices retrouvées. Commencer avec la combinaison qui retrouve le plus petit nombre de notices. Afficher les notices. Puis aller à la combinaison suivante. Afficher les notices puis aller à la combinaison suivante. Continuer jusqu'à ce qu'au moins 15 notices aient été affichées.

Stratégie 4 : Sélectionner chaque combinaison de 2 mots clés, relier par ET les mots clés dans chaque combinaison. Lier les combinaisons entre elles avec le booléen OU.

Stratégie 5 : convertir les ET en OU.

Stratégie 6 : demander à l'utilisateur d'entrer des synonymes et des termes associés pour chaque mot clé.

Stratégies de restriction

Stratégie 1 : convertir un des opérateurs OU en ET et exécuter la recherche. Rétablir l'opérateur OU et convertir un autre opérateur OU en ET, et exécuter la recherche. Faire de même pour tous les opérateurs OU chacun à son tour. Combiner toutes les formules de recherche avec OU.

Stratégie 2 : convertir un des opérateurs ET en opérateur d'adjacence et exécuter la recherche. Rétablir l'opérateur ET et répéter l'opération pour chacun des autres opérateurs ET à son tour. Combiner toutes les formules de recherche avec OU.

Stratégie 3 : demander à l'utilisateur d'autres mots clés à relier par ET à la recherche.

Les règles utilisées pour sélectionner une stratégie de reformulation sont listées dans la table 3. Remarquez que quand la stratégie initiale retrouve moins de 15 notices, les stratégies d'élargissement sont essayées dans l'ordre de la table 2 jusqu'à ce qu'au moins 15 notices aient été retrouvées. E-Referencer affiche d'abord les notices retrouvées grâce à la stratégie initiale. Au fur et à mesure que la recherche est élargie, des notices supplémentaires sont ajoutées à la fin de l'affichage. Puisque les notices retrouvées par les stratégies d'élargissement sont vraisemblablement moins pertinentes que celles retrouvées par la stratégie initiale, cela revient à ce que E-Referencer affiche les notices approximativement dans l'ordre de pertinence probable.

Table 3. Arbre de décision pour la sélection d'une stratégie de reformulation*

*Table 3 is unavailable. Please contact authors.

Evaluation et travaux en cours

Des expérimentations avec de vrais utilisateurs ont été réalisées pour évaluer l'efficacité d' E-Referencer par rapport à deux interfaces Web d'OPAC. Les résultats d'une étude préliminaire suggèrent que la stratégie initiale 1 d'E-Referencer couplée avec la stratégie d'élargissement automatique est plus efficace qu'une interface Web d'OPAC pour aider l'utilisateur à retrouver des notices pertinentes. En moyenne, les sujets de l'expérience ont retrouvé 7,1 notices pertinentes en utilisant E-Referencer contre 5,4 en utilisant une interface Web d'OPAC. Les sujets étaient 14 étudiants licenciés, de la division des sciences de l'information à l'Université de technologie de Nanyang. Les sujets avaient suivi des cours de recherche en ligne et étaient familiarisés avec l'interface Web de l'OPAC ! Une étude d'évaluation impliquant des étudiants jusqu'au niveau de la licence inclus, dans plusieurs disciplines, est encore en cours.

Un autre travail en cours comprend :

Une exploration de la possibilité d'utiliser les réseaux neuronaux pour identifier les bons termes de recherche à utiliser pendant le retour de pertinence.

Le développement d'une interface sous forme d'un navigateur de recherche permettant d'interroger en navigant à travers un réseau de LCSH et dans la classification de la LC.

Une étude de faisabilité sur l'utilisation de la stratégie initiale 2 (recherche par vedette matière) comme aide au catalogage. Etant donné le titre d'un nouveau livre, E-Referencer peut suggérer au catalogueur des vedettes matières à affecter à l'ouvrage.

L'extension d'E-Referencer à la recherche sur les résumés et les bases en texte intégral.

REFERENCES

Borgman, C.L. (1996). Why are online catalogues still hard to use? Journal of the American Society for Information Science, 47, 493-503.

Khoo, C., Poo, D., Toh, T.K., Liew, S.K., & Goh, A. (1998). E-Referencer: A prototype expert system Web interface to online catalogs. In C. Nikolaou & C. Stephanidis (Eds.), Research and Advanced Technology for Digital Libraries, 2nd European Conference (ECDL'98), 1998 (pp. 315-333). Berlin: Springer-Verlag.

Poo, D.C.C., Toh, T.K., & Khoo, C.S.G. (1999). Search interface for Z39.50 compliant online catalogs over the Internet. In Proceedings of the 32nd Annual Hawaii International Conference on System Sciences (HICSS-32), Software Technology Track, Multi Media Database and Internet Mini Track, 1999 (pp. 50-57). New York: IEEE.

*    

Latest Revision: July 27, 1999 Copyright © 1995-2000
International Federation of Library Associations and Institutions
www.ifla.org