IFLA

As of 22 April 2009 this website is 'frozen' in time — see the current IFLA websites

This old website and all of its content will stay on as archive – http://archive.ifla.org

IFLANET home - International Federation of Library Associations and InstitutionsAnnual ConferenceSearchContacts
*    
To Bangkok Conference programme

65th IFLA Council and General
Conference

Bangkok, Thailand,
August 20 - August 28, 1999


Code Number: 010-143-G
Division Number: III
Professional Group: Information Technology
Joint Meeting with: -
Meeting Number: 143
Simultaneous Interpretation:   Yes

E-Referencer: Umwandlung Boole'scher OPACs in Suchmaschinen

Christopher S. G. Khoo (assgkhoo@ntu.edu.sg)
Division of Information Studies,
School of Applied Science,
Nanyang Technological University

Danny C. C. Poo (dpoo@comp.nus.edu.sg)
Teck-Kang Toh (tohteckk@iscs.nus.edu.sg)

Dept. of Information Systems,
School of Computing, National University of Singapore
Singapore

Glenn Hong (glennhong@nlb.gov.sg)

National Library Board
Singapore


Abstract

E-Referencer ist ein Expertentransitsystem für die Recherche in Online-Web-Katalogen. Es wurde als Proxy-Server eingerichtet, der die Interaktion zwischen Benutzer und Boole'schen OPACs vermittelt. Es verwandelt einen Boole'schen OPAC in ein Retrievalsystem mit zahlreichen der Recherchemöglichkeiten von Suchmaschinen. E-Referencer faßt Wissen und Sachkenntnis erfahrener Bibliothekare auf dem Gebiet der Informationssuche zusammen. Es verarbeitet Abfragen in natürlicher Sprache, überträgt die Wörter einer Abfrage in Schlagwörter der Library of Congress, wählt eine geeignete Suchstrategie und formuliert die entsprechende Suchfrage an das Bibliothekssystem. Auf der Grundlage der Rückmeldung des Benutzers zur Relevanz der Rechercheergebnisse wählt es dann eine Strategie zur Präzisierung der Suchfrage.


Paper

EINFÜHRUNG

Eine wachsende Zahl von Suchmaschinen hilft Benutzern bei der Suche nach Web-Seiten von potentiellem Interesse. Die meisten dieser Suchmaschinen verarbeiten Abfragen in natürlicher Sprache, führen eine Fuzzy-Prüfung durch und zeigen die Rechercheergebnisse nach Relevanz geordnet an. Einige Suchmaschinen führen erweiterte Recherchen durch, um zusätzliche Begriffe zu finden, die einen Bezug zu Begriffen in der Suchfrage des Benutzers haben und mittels einer genaueren Suchfrage zusätzliche Web-Seiten aufzufinden, die ähnliche Inhalte aufweisen, wie die vom Benutzer als relevant markierten.

Demgegenüber sind Web-OPACs (OPACs - online public access catalogues) - was ihre Benutzbarkeit angeht - noch kompliziert. Die meisten können keine Abfragen in natürlicher Sprache verarbeiten, sondern nur Boole'sche Aussagen. Ergebnisse werden in keine Rangfolge gebracht, die Systeme sind nicht in der Lage, Suchfragen zu erweitern oder zu präzisieren. Aktuelle Web-OPAC-Schnittstellen sind nur unwesentlich besser als herkömmliche OPACs, die in's Web umgesetzt wurden. Borgmann (1996) stellt fest, daß die meisten Verbesserungen der letzten Jahre eher die Oberflächen von OPACs betreffen als ihre eigentliche Funktionalität.

Für immer mehr Menschen werden Suchmaschinen zum vertrauten Retrievalsystem. Herkömmliche OPACs empfinden sie zunehmend als veraltet, ihre Akzeptanz schwindet, und sie stellen die Frage, warum Bibliothekskataloge nicht ähnlich funktionieren wie Suchmaschinen.

E-Referencer wurde als Antwort auf diese Frage entwickelt. Es handelt sich um ein Experten-Transitsystem (oder eine Expertensystem-Schnittstelle), das die Interaktion zwischen Benutzer und Boole'schem OPAC vermittelt. Es verwandelt einen Boole'schen OPAC in ein Retrievalsystem, das über zahlreiche der Recherchemöglichkeiten von Suchmaschinen verfügt. E-Referencer faßt Wissen und Sachkenntnis erfahrener Bibliothekare auf dem Gebiet der Informationssuche zusammen. Es verarbeitet Abfragen in natürlicher Sprache, überträgt die Wörter einer Abfrage in Schlagwörter der Library of Congress, wählt eine geeignete Suchstrategie und formuliert die entsprechende Suchfrage an das Bibliothekssystem. Anhand der Rückmeldung des Benutzers zur Relevanz der Rechercheergebnisse wählt es dann eine Strategie zur Präzisierung der Suchfrage.

IMPLEMENTIERUNG

E-Referencer nutzt für die Kommunikation mit Bibliothekssystemen das Z39.50-Protokoll für Information Retrieval. Es verwendet die in Java geschriebene Client- Anwenderprogrammschnittstelle von OCLC (abrufbar unter der URL http://www.oclc.org/z39.50/#api) und die Java-Expertensystemoberfläche (abrufbar unter http://herzberg.ca.sandia.gov/jess/). Technische Details der Ersteinrichtung sind nachzulesen bei Poo, Toh & Khoo (1999) sowie bei Khoo, Poo, Toh & Goh (1998). E-Referencer ist zugänglich unter der URL http://islab.sas.ntu.edu.sg:8000/E-Referencer/. Die aktuelle Version durchsucht die Bibliothekssysteme der Nanyang Technological University, der National University of Singapore und einiger anderer Bibliotheken.

Version 1 von E-Referencer war als Java Applet eingerichtet, das heruntergeladen werden und vom Web-Browser des Benutzers ausgeführt werden konnte. In Version 2 wurde es zu einem Proxy-Server zwischen der Maschine des Benutzers (Client) und dem Bibliothekssystem (Server) umgestaltet. Der Proxy-Server ist in Java geschrieben. Auf der gleichen Maschine ist ein Java-Applet zur Kommunikation mit dem Proxy-Server gespeichert. Mit einem Web-Browser kann der Benutzer auf das E-Referencer-Applet zugreifen und es ablaufen lassen, das Applet stellt die Verbindung mit dem E-Referencer-Proxy-Server her, der über Z39.50 nacheinander die Verbindung zu den verschiedenen Bibliotheksservern herstellt. Nach diesem Muster kann dieVerarbeitung zwischen Applet und Proxy-Programm verteilt werden. Anwendungen, die den Zugriff auf eine große Wissensbasis erfordern, laufen auf der Proxy-Maschine, und lediglich die Ergebnisse werden an das Java-Applet auf der Maschine des Benutzers weitergeschickt. Der Proxy kann auch genutzt werden, um Interaktionen der Benutzeroberfläche in einem Transaktionsprotokoll festzuhalten, das zur Analyse der Effektivität von E-Referencer dient, Einblicke gestattet und Verbesserungsmöglichkeiten erkennbar werden läßt.

DIE WISSENSBASIS

Die Intelligenz und das Wissen von E-Referencer beruhen auf:

  1. der logischen Wissensbasis, die Freitext-Stichwörter in Begriffe überträgt, die durch die Schlagwörter der Library of Congress (LC) ausgedrückt werden.
  2. den Suchstrategien, einem kodierten System, das die folgenden Suchstrategien umfaßt:

    1. Initialstrategien, die die natürliche Sprache des Benutzers in eine geeignete Aussage mit Boole'scher Logik umsetzen und
    2. Strategien zur Umformulierung, die eine Suchfrage auf der Grundlage der Ergebnisse einer vorangegangenen Suchfrage präzisieren.
    3. den Regeln zur Auswahl der geeigneten Suchstrategie.

Die logische Wissensbasis

Die logische Wissensbasis enthält Informationen darüber, in welchem gedanklichen Zusammenhang LC-Schlagwörter mit jedem der Freitext-Stichwörter stehen. Diese Wissensbasis der Beziehung zwischen Stich- und Schlagwort wurde auf der Grundlage einer Analyse der LC-Katalog-Datensätze von 16 Jahren (1980-1996) erstellt. Zu jedem Titelstichwort wurden alle Titel gesucht, die dieses Stichwort enthielten und alle Schlagwörter extrahiert, mit denen der jeweilige Titel verknüpft war. Jedes Schlagwort erhielt eine Punktzahl entsprechend der mit dem Schlagwort verknüpften Anzahl von Titeln. Die unbearbeiteten Zahlen wurden normiert, indem sie durch die Höchstpunktzahl (d.h. die Punktzahl des am häufigsten gefundenen Schlagwortes) dividiert wurden. Die Punktzahlen zeigen, wie stark der gedankliche Zusammenhang jedes Schlagwortes mit dem jeweiligen Stichwort ist. Als Beispiel sind in Tabelle 1 die Schlagwörter aufgeführt, die einen sehr starken Bezug zum Stichwort Java aufweisen. Diese logische Wissensbasis dient dazu, die Wörter in der Suchfrage des Benutzers in LC-Schlagwörter umzusetzen.

Table 1. Schlagwörter mit Bezug zum Stichwort Java
Schlagwort Unbearbeitete Punktzahl Normierte Punktzahl
Java (Computer Programmiersprache) 98 1.00
World Wide Web (Information retrieval system) 22 0.22
Object-oriented programming (Computer Wissenschaft) 17 0.17
Java Indonesien-Gschichte 8 0.08

Initialsuchstrategien

Es wurden zwei Initialsuchstrategien implementiert. Initialstrategie 1 führt eine Stichwortsuche in allen Feldern durch. Initialstrategie 2 nutzt die oben beschriebene logische Wissensbasis, um die passenden LC-Schlagwörter herauszufinden, die für die Suchfrage verwendet werden müssen.

fig.1 image

Abb. 1. Schlagwörter, die E-Referencer auf die Suchfrage Informationstechnologie in Bibliotheken anzeigt.

Initialstrategie 1 (Stichwortsuche) ist ein simples Verfahren, das Stoppwörter herausfiltert, die verbleibenden Wörter auf die Wortstämme reduziert und nach diesen in allen suchbaren Feldern der bibliothekarischen Datenbank sucht. Der Wortabstand wird bewahrt. Interpunktionszeichen und Stoppwörter werden durch den Boole'schen Operator UND ersetzt, jedoch werden die Wörter dazwischen in Phrasen gelassen.

Initialstrategie 2 (Schlagwortsuche) nutzt die logische Wissensbasis, um 20 LC-Schlagwörter herauszufinden, die den stärksten gedanklichen Bezug zum Stichwort des Benutzers aufweisen. Diese werden dem Benutzer zur Auswahl angezeigt. Wenn die Benutzerabfrage mehr als 1 Stichwort enthält, werden jeweils alle mit einem Stichwort in Beziehung stehenden Schlagwörter als Satz angezeigt und diese Sätze werden dann miteinander kombiniert. Wenn ein Schlagwort in mehr als einem Satz vorkommt, erhält es eine neue Punktzahl entsprechend der Summe der Punktzahlen, die es in den verschiedenen Sätzen erzielt. Die 20 Schlagwörter mit den höchsten kombinierten Punktzahlen werden dem Benutzer zur Auswahl angezeigt. In Abb. 1 sind z.B. die Schlagwörter angezeigt, die eine sehr starke gedankliche Beziehung zur Suchfrage Informationstechnologie in Bibliotheken aufweisen.

Strategien zur Umformulierung

Nachdem die Initialstrategie ausgeführt wurde, zeigt E-Referencer die ersten 20 gefundenen Titel an und fordert den Benutzer auf, die relevanten Titel zu markieren. Dies wird in Abb. 2 illustriert. (Der Benutzer kann sich bei Bedarf auch mehr Datensätze anzeigen lassen.) Wenn der Benutzer die für ihn relevanten Datensätze markiert hat, wählt E-Referencer eine Strategie zur Umformulierung und führt sie aus. Eine solche Strategie modifiziert entweder die vorherige Suchfrage oder stellt eine völlig neue Suchfrage.

Es werden drei Typen von Strategien zur Umformulierung eingesetzt:

  1. Erweiternde Strategien modifizieren eine Suchfrage, um sie weniger einzuschränken und mehr Treffer zu erhalten. Diese Strategie eignet sich, wenn eine Recherche keine Ergebnisse erbracht hat oder wenn die meisten der gefundenen Datensätze relevant sind und der Benutzer mehr Datensätze benötigt.

  2. Eingrenzende Strategien modifizieren eine Suchfrage, um die Anzahl der gefundenen Datensätze zu reduzieren. Diese Strategie eignet sich, wenn zu viele Datensätze gefunden wurden und der Benutzer die Menge auf die relevanten Datensätze begrenzen will.

  3. 3. Strategien mit Rückmeldung der Relevanz analysieren den Inhalt der gefundenen Datensätze, um Begriffe herauszufiltern, mit deren Hilfe sich wahrscheinlich weitere relevante Dokumente ermitteln lassen. Generell kann gesagt werden, daß ein Begriff, der in den meisten vom Benutzer als relevant eingeschätzten Datensätzen vorkommt und nur in einigen nicht relevanten, wahrscheinlich für die Suche nach anderen relevanten Datensätzen geeignet ist.

fig.2 image

Abb. 2. Anzeige von Rechercheergebnissen

Die erweiternden und eingrenzenden Strategien sind in Tabelle 2 aufgelistet. Bei der Rückmeldung der Relevanz stellt E-Referencer zunächst eine Liste der Stichwörter und Schlagwörter aus den dem Benutzer angezeigten Datensätzen zusammen. Sodann filtert E-Referencer jede mögliche Kombination von 2 Begriffen in jedem Datensatz heraus. Für jeden Begriff (und jede Begriffskombination) berechnet E-Referencer eine Punktzahl, die sich danach richtet, in wieviel relevanten und nicht relevanten Datensätzen der Begriff vorkommt.

Es werden zwei Formeln zur Berechnung der Punktzahlen angewendet:

  1. Formel 1 für die Rückmeldung der Relevanz: Zahl der relevanten Datensätze, in denen der Begriff vorkommt
  2. 2. Formel 2 für die Rückmeldung der Relevanz: Zahl der relevanten Datensätze, in denen der Begriff vorkommt minus Zahl der nicht relevanten Datensätze, in denen der Begriff vorkommt.

In einer früheren Untersuchung (Khoo, Poo, Toh, Liew & Goh, 1998), haben wir festgestellt, daß diese beiden Formeln für verschiedene Sachverhalte gut geeignet sind. Wir stellten außerdem fest, daß unterschiedliche Begriffe unterschiedlich gewichtet werden sollten. Z.B. sollten Schlagwörter höher gewichtet werden als Titelstichwörter. Details des Gewichtungsschemas sind nachzulesen bei Khoo u.a. (1998).

Tabelle 2. Erweiternde und eingrenzende Strategien

Eingrenzende Strategien

Strategie 1 Ersetzt Wortabstand-Operatoren durch den Boole'schen Operator UND.

Strategie 2 Sucht jedes Stichwort einzeln, um Stichwörter herauszufinden, die nicht in der Datenbank auftreten. Entfernt diese Stichwörter aus der Suchfrage.

Strategie 3 Ermittelt jede mögliche Kombination von 3 Stichwörtern UND die Stichwörter in jeder Kombination. Ermittelt die Anzahl von Datensätzen, die die Suche nach jeder möglichen Kombination von 3 Wörtern ergibt. Bringt die Kombinationen von 3 Wörtern in eine Rangfolge, absteigend nach der Anzahl der gefundenen Datensätze. Beginnt mit der Kombination, die die kleinste Zahl von Datensätzen ergeben hat. (?, d.Ü.) Zeigt jeweils den Datensatz an, geht dann zur nächsten Kombination über und fährt entsprechend fort, bis die letzten 15 Datensätze angezeigt werden.

Strategie 4 Sucht jede Kombination von 2 Stichwörtern UND die Stichwörter in jeder Kombination. Verknüpft die Kombinationen mit dem Boole'schen Operator ODER.

Strategie 5 Ersetzt UND durch ODER.

Strategie 6 Fordert den Benutzer auf, Synonyme und verwandte Begriffe zu den Stichwörtern einzugeben.

Eingrenzende Strategien

Strategie 1 Ersetzt einen der ODER-Operatoren durch UND und führt die Recherche durch. Ersetzt den ODER-Operator, ersetzt einen anderen ODER-Operator durch UND und führt die Recherche durch. Führt dies mit jedem anderen ODER-Operator nacheinander aus. Kombiniert alle Ergebnissätze mit ODER.

Strategie 2 Ersetzt einen der UND-Operatoren durch einen Wortabstand-Operator und führt die Recherche durch. Ersetzt den UND-Operator, wiederholt das Verfahren mit jedem anderen UND-Operator nacheinander. Kombiniert alle Ergebnissätze mit ODER.

Strategie 3 Fordert den Benutzer auf, zusätzliche Stichwörter mit UND einzugeben.

Die Regeln, nach denen die jeweilige Strategie zur Umformulierung angewendet wird, sind in Tabelle 3 aufgeführt. Zu beachten ist: Wenn mit der Initialstrategie weniger als 15 Datensätze gefunden wurden, werden erweiternde Strategien in der in Tabelle 2 aufgeführten Reihenfolge eingesetzt, bis mindestens 15 Datensätze gefunden werden. E-Referencer zeigt zuerst die mittels der Initialstrategie gefundenen Datensätze an. Bei erweiterter Suche werden die zusätzlichen Datensätze am Ende der Anzeige angefügt. Da die durch die erweiternden Strategien gefundenen Datensätze mit geringerer Wahrscheinlichkeit als relevant einzustufen sein dürften, als die durch die Initialstrategie gefundenen, ergibt dies für die Anzeige, daß die gefundenen Datensätze ungefähr in der Reihenfolge ihrer möglichen Relevanz angezeigt werden.

Tabelle 3. Entscheidungshierarchie zur Wahl einer Strategie zur Umformulierung*

*Table 3 is unavailable. Please contact authors.

REFERENCES

Borgman, C.L. (1996). Why are online catalogues still hard to use? Journal of the American Society for Information Science, 47, 493-503.

Khoo, C., Poo, D., Toh, T.K., Liew, S.K., & Goh, A. (1998). E-Referencer: A prototype expert system Web interface to online catalogs. In C. Nikolaou & C. Stephanidis (Eds.), Research and Advanced Technology for Digital Libraries, 2nd European Conference (ECDL'98), 1998 (pp. 315-333). Berlin: Springer-Verlag.

Poo, D.C.C., Toh, T.K., & Khoo, C.S.G. (1999). Search interface for Z39.50 compliant online catalogs over the Internet. In Proceedings of the 32nd Annual Hawaii International Conference on System Sciences (HICSS-32), Software Technology Track, Multi Media Database and Internet Mini Track, 1999 (pp. 50-57). New York: IEEE.

*    

Latest Revision: July 7, 1999 Copyright © 1995-2000
International Federation of Library Associations and Institutions
www.ifla.org