IFLA

As of 22 April 2009 this website is 'frozen' in time — see the current IFLA websites

This old website and all of its content will stay on as archive – http://archive.ifla.org

IFLANET home - International Federation of Library 
Associations and InstitutionsAnnual 
ConferenceSearchContacts

64th IFLA Conference Logo

   64th IFLA General Conference
   August 16 - August 21, 1998

 


Code Number: 114-134-G
Division Number: VI.
Professional Group: Statistics
Joint Meeting with: -
Meeting Number: 134.
Simultaneous Interpretation:   Yes

Ein Jahrzehnt Erfahrung im Messen von akademischem Datenbankgebrauch

Harry East
Database Resources Research Group
The City University
London, United Kingdom


Abstract:

The paper traces the changes in supply of databases and their services to the UK academic community and the necessity of modifying the appropriate methods of data collection. The commercial suppliers are restrictive in the data made available: it has been necessary to turn to user institutions for the appropriate data. Academic networking make statistics of use more accessible, but the protection of the user's privacy brings additional problems.


*****ACHTUNG: Fussnoten nur für die Anmerkungen erfasst und formatiert, nicht für die ziterten Titel. Hinweis darauf mit: "Nicht erfasste FN [X] " F.S.******

Paper:

Hintergrund:

Obwohl die Gruppe, der ich angehöre, strenggenommen keine Statistik-Gruppe ist, waren wir nichtsdestotrotz mehr als zehn Jahre daran beteiligt, statistische Daten zu sammeln und dazu Methoden auszuwerten. In den letzten sechs Jahren haben wir uns ausschliesslich auf das britische höhere Ausbildungssystem konzentriert, indem wir beurteilten, wie akademische Einrichtungen extern hergestellte elektronische Referenzdatenbanken in ihre Dienstleistungen einbanden. Dies war jedoch nicht unser eigentlicher Anfangspunkt, zuerst wollten wir ein weitreichendes Bild von der Lieferantenseite elektronischer Bausteine der Informationsindustrie erhalten. Wir stellten früh fest, dass dies eine zu große und schwierige Aufgabe war. 1988 schrieb ein erfahrener Beobachter dieses Arbeitsfelds:

Ich kenne keine andere Branche, die so schwierig zu erforschen wäre. Man kann einen Plastikbausatz eines geheimsten Flugzeugs der amerikanischen Streitkräfte kaufen, aber man bekommt keine Informationen über Einnahmen, Benutzer, Gewinne, Eigner, oder Computerausrüstungen irgendeines europäischen online-Datenbank Anbieters, mit der bemerkenswerten Ausnahme von Deutschland. Jeder, der Größe und Wachstum dieser Branche messen möchte, muss sich auf verschiedene Marktforschungsberichte stützen. Manche davon sind peinliche Kataloge von Irrtümern und Auslassungen und ein paar fangen an, sich der „Wahrheit" zu nähern." (****Nicht erfasste FN [1] ****)

1988 waren wir fast ausschliesslich mit dem akademischen Markt für online-Dienste, die von kommerziellen Anbietern zur Verfügung gestellt werden, befasst. Wir wollten einen Maßstab für „Gebrauch". Zu definieren was genau ein Maß für „Gebrauch" ist, ist beinahe ein philosophisches Problem. Am Schluss einigten wir uns auf einen Maßstab, wie er von Schwuchow vorgeschlagen worden war, der geschlossen hatte, daß der Beste derjenige sei, der auf Einnahmen fußt, denn dies ist

der einzige Indikator, der das Ausmaß des Markts für online-Dienste .... auf einen gemeinsamen Nenner reduziert. (***Nicht erfasste FN [2]****)

Kosten für kommerziell online-Anbieter

Tatsächlich hat Martha Williams in den USA ihre Methode für Erfassung von Daten über Gebrauch und Einnahmen der Online Datenbank Industrie 1985 beschrieben (***Nicht erfasste FN [3]****). Ihre Daten erhielt sie durch die Analyse von Rechnungskopien, die die Dienstleistungsanbieter einem repräsentativen Gremium von Anwenderorganisationen geschickt hatten. Wir übernahmen diese Methode mit einigen Änderungen für die Höhere Ausbildung im vereinigrten Königreich, indem wir repräsentative Gremien für die Universitäten und Fachhochschulen einrichteten, von welchen wir regelmässige Kopien ihrer Rechnungen erhielten. Durch die Erfassung und die Wiedereingabe - eine sehr zeitaufwendige Aufgabe - ausgewählter Daten aus diesen Rechnungen konnten wir jährliche Zusammenstellungen der Ausgaben nach Anbietern und einzelnen Datenbanken gewinnen. Abb. 1 illustriert einige unserer zusammengefassten Tabellen für die Universitäten in den Jahren 1988 und 1990. (Überschrift im Schaubild: „Durchschnittliche Kosten pro Gremiumsmitglied")

Währenddessen erwies sich unsere Erhebung von kommerziellen online-Dienstanbietern als immer weniger relevant. Informationsdienste werden traditionell als kostenfreies Allgemeingut in der akademischen Welt angesehen. Kommerzielle Anbieter berechneten hauptsächlich auf einer „Bezahlen wenn genutzt"-Basis pro Sitzung, und zu Beginn wurde der Zugang von Akademikern durch Bibliothekare vermittelt. Diese Zahlungsweise verursachte den Bibliotheksmanagern Probleme: a.) sollten solche Dienste als zusätzliche Kostenfaktoren angesehen und damit nachträglich dem Benutzer oder dessen Abteilung in Rechung gestellt werden, und b) wie gingen die Bibliotheken mit unvorhersehbarer Nachfrage und den damit einhergehenden Kosten um? Die Verfügbarkeit von Datenbanken auf CD-ROM veränderten die Art der Nachfrage entscheidend. Abb. 2 stellt dar, wie akademische Kosten von online-Anbietern hin zur CD-ROM wechselten:

Abb.2: Durchschnittliche Kosten für CD-ROM und online-Anbieter Dienste: Alte und Neue Universitäten

Das Aufkommen von CD-ROMs

Bibliotheken konnten Datenbanken im CD-ROM Format mittels eine festen jährlichen Subskription erwerben. Diese Möglichkeit passte besser mit der traditionellen Bibliotheksbuchhaltung zusammen und befriedigte den Wunsch nach vorhersehbaren Ausgaben. Zudem befreite die CD-ROM Technologie die Bibliothekare von der Aufgabe der Vermittlung: Benutzer konnten ihre eigenen Suchen durchführen, zuerst in der Bibliothek und später dadurch, dass sie auf Datenbanken anderswo auf dem Campus mittels eines regionalen Netzwerkes zugriffen. Suchergebnisse wurden dem Endbenutzer zurückgespielt.

Bis 1989 hatten wir begonnen, Daten über CD-ROM Anschaffungen zu sammeln. Wir benutzten dieselben Gremien, baten aber die, die antworteten, einen Fragebogen für eine jährliche Untersuchung auszufüllen. Anfänglich sammelten wir nur, wieviele Einrichtungen für dieses Medium Geld ausgaben und welche Titel erworben wurden. Als die Akzeptanz von CD-ROMs fortschritt, erbaten wir ebenfalls Informationen darüber, welche Titel auf Festplatten gespeichert wurden, welche über ein lokales Netzwerk abgerufen werden konnten und die Rate der gekündigten Titel. Zunehmend besitzen Bibliotheken CD-ROM Bestände, die durch externe Mittel der Abteilung (d.h. keine allgemeinen Bibliotheksmittel) finanziert wurden. Diese Information nehmen wir ebenfalls auf.

Abb. 3 stellt die Anzahl der laufenden CD-ROM Bestände 1996 und deren Anteil an Netzwerken dar:(****Nicht erfasste FN [4]****)

(Abb. 3: Höhere Bildungseinrichtungen: CD-ROM -Bestände 1996)

Die jährlichen Übersichten durch die Fragebogen stellt eine Möglichkeit dar, mehr allgemeine Richtungsweisungen über dienstleistende Bibliothekare zu bekommen, bis dahin, wie sich das Gleichgewicht verschiedener Formen von Medienlieferungen im Lichte technologischen Wandels ändert. Neueste Ergebnisse lassen vermuten, dass es eventuell eine Hinwendung zu Subskriptionen von online-Diensten im WWW gibt, auch wenn es zu früh ist, einen gesicherten Trend dahingehend anzunehmen.

Venetzte Dienstleistungen in universitären Datenzentren

Eine bedeutende Entwicklung stellte sich mit der Verfügbarkeit von Datenbanken (kommerzieller Herkunft) über universitäre Datenzentren durch das Joint Academic Network (JANET) ein. 1992 gründeten die Räte der Regierung zur Finanzierung der höheren Ausbildung - die für die Investition öffentlicher Gelder in die Universitäten verantwortlich sind- das Joint Information Systems Committee (JISC). Diese Körperschaft ist für die gesamte akademische Computerentwicklung und Netzwerkaktivität verantwortlich. Eine der frühesten Entscheidungen von JISC war, in den Erwerb von Datenbanken zum Nutzen der gesamten akademischen Gemeinschaft zu investieren (****Nicht erfasste Fußnote [5]****). Die erste Quelle die erworben wurde, war die ISI (Citation Indexes) Datenbank, sie wurde an einem Rechenzentrum der Universität Bath eingerichtet. Zugang zu dieser und allen nachfolgenden Datenbanken wurde für die Benutzer in allen Universitäten durch JANET ermöglicht.

Diese Entwicklungen riefen einen fundamentalen Wechsel in einem Aspekt unserer statistischen Arbeit hervor. Jede JISC Erwerbung wurde durch direkte Verhandlungen mit dem Datenbankbesitzer getätigt und [dies] unter der Prämisse, daß die Informationen jedem bona fide Mitglied der akademischen Gemeinschaft zugänglich sei. Die bezahlten Lizenzgebühren widerspiegelten bis zu einem gewissen Grad die vorhergesagten Benutzerzahlen. Einzelne Universitäten (d.h. JANET-Stationen) mussten eine festgesetzte jährliche Subskription zahlen. Die Summe war dieselbe für jede Einrichtung, ungeachtet der Benutzerzahlen (1). Die Politik der JISC war, dass der Zugang zur Dienstleistung „für den Endnutzer zum Zeitpunkt der Nutzung kostenfrei" wäre.

Die Auswirkung dieser Strategie war, daß, vorausgesetzt eine Universität zahlte ihre jährliche Subskription, jeder Benutzer (Angestellte und Studenten) der ein mit JANET verbundendes Terminal hatte, unbegrenzten Zugang ohne persönliche Kosten zu einer bestimmten Datenbank haben konnte. (2) Von der „Bezahlen-wenn-benutzt" Beschränkung befreit, war es nun möglich, klarere Erkenntnisse über den tatsächlichen Gebrauch zu gewinnen. Hinsichtlich der kommerziellen Online-Dienste und der Subskriptionen für CD-ROMs basierten unsere Erkenntnisse einzig auf den Einnahmen gemäß dem Anbieter. Dies ist eingestandenermaßen ein etwas unvollständiges Maß für den tatsächlichen Gebrauch (obwohl es natürlich für die Verwalter von Bibliotheksbudgets von Wichtigkeit ist).

Es gibt drei wichtige Datenzentren (Bath, Manchester, Edinburgh) die Zugang zu den Datenbanken ermöglichen, die durch die von JISC geführten Verhandlungen erworben wurden. Jede erstellt eine regelmässige Nutzerstatistik. Das bedeutendste Maß ist die Anzahl der Verbindungen, die zur Datenbank hergestellt werden. (Die Zeitspanne, in der die Verbindung besteht, ist ebenfalls ein nützlicher Meßwert. Wir haben gezeigt, daß es in der täglichen Praxis eine hohe Übereinstimmung zwischen der Anzahl der hergestellten Verbindungen und der durchschnittlichen Zeitspanne der Verbindung besteht.) Ebenso wird die Anzahl der Verbindungen zu jeder einzelnen Seite aufgezeichnet: Auf diese Weise ist das Nutzervolumen pro Universität messbar.

Jedes Datenzentrum erstellt eine Nutzerstatistik seiner Dienstleistung. Für diejenigen von uns, die die Statistik des Dienstleistungswachstums untersuchen, ist dies eine bemerkenswerte Verbesserung sowohl hinsichtlich der Zugänglichkeit wie auch der Datenkonsistenz. Abb. 3 zeigt ein Beispiel der statistischen Zahlen, wie sie aus dem venetzten Gebrauch der International Bibliography of the Social Sciences (IBSS) abgeleitet wurden.

In dieser Darstellung wird die den verschiedenen akademischen Abteilungen zugeschriebene Nutzung darsgestellt. Dies geschieht mit Hilfe der Anzahl der durchgeführten Sitzungen, der abgelaufenen Zeit der Verbindungen, der Anzahl der gefundenen und angezeigten Verweise und der Anzahl der ausgewählten Artikel. Solche Daten, zentral gesammelt und einfach in maschinenlesbarer Form abrufbar, stellen eine bedeutende Verbesserung, die beinahe heimlich stattfand, gegenüber unserer früheren Methoden des Sammlung statistischer Informationen kommerzieller Anbieter dar. Leider sind Informationen über die Zusammensetzung der Nutzer (seien es Studenten, Forscher oder Lehrende, und ihre fachlichen Interessen) nicht viel leichter zu bekommen. Um solche Informationen zu erhalten, ist es nötig, die Nutzer mittels eines Fragebogens zu erproben. Glücklicherweise gestattet es die Zusammensetzung des zentralisierten Systems die Probennahme in Echtzeit. Dies wird weiter in der Sektion „Identifikation der Nutzer" untersucht.

Abb.3: Vernetzter Gebrauch der International Bibliography of the Social Sciences (IBSS)

Auswertung der statistischen Ergebnisse

Statistiken führen oftmals zu weiteren Fragestellungen. Die ISI-Datenbank war ein besonderer Erfolg, gemessen an der Anzahl der Einrichtungen, die sich für den Zugang dazu anmelden und dem Nutzervolumen. Es gibt 107 registrierte Stellen, die gemeinsam durchschnittlich weit über 9000 Zugriffe pro Tag tätigen. Die Untersuchung des Nutzerspiegels von einzelnen Universitäten aus zeigt, wenig erstaunlich, bedeutende Abweichungen. Hohe Zugriffszahlen scheinen ein Charakteristikum älterer, wohl etablierter Einrichtungen zu sein. Die Datenbank selbst deckt ein weites Spektrum ab, hauptsächlich Zeitschriftenliteratur der Bereiche Naturwissenschaften, Geisteswissenschaften, und Sozialwissenschaften, und besonders solche Zeitschriften, die auch weithin zitierte Forschungsblätter veröffentlichen. Es scheint vernünftig, anzunehmen, daß die häufige Nutzung mit den Universitäten mit herausragenden Zeugnissen in der Forschung in Verbindung stand.

Im Vereinigten Königreich werden die Universitäten ungefähr alle 5 Jahre anhand ihrer Forschungsregebnisse evaluiert; die sog. „Forschungs-Einschätzungs-Übung" . Wir setzten die Ausdehnung des Gebrauchs der ISI Datenbank (d.h. Anzahl der Sitzungen) jeder Universität mit den gesamten universitären RAE Punkten. (3) Abb.4 zeigt die hohe Übereinstimmung an.(****Nicht erfasste FN [6]****)

(Beziehung zwischen Gebrauch BIDS ISI 1995/96 und den höchsten RAE Punkten 1996 (4,5,5,*)

Einer der bemerkenswerten Punkte innerhalb der Ergebnisse war, daß die einheitliche - und recht hohe- jährliche Subskription für diese besondere Datenbank forschungsorientierte Universitäten bevorzugte. Universitäten, dienicht zu dieser Gruppe gehörten, konnten dazu neigen, ihrre Subskription nicht zu verlängern, bedachten sie den recht niedrigen Gebrauch.

Identifikation von Nutzern

Die Betreiber und die Beurteiler von Datenbanken-Diensten, besonders jener, die weit vernetzt sind, werden die Eigenschaften ihrer Nutzer und ihren Aufenthaltsort bestimmen wollen. Leider gibt es den gegenteiligen und durchaus verständlichen Wunsch auf der Seite der Nutzer, ihre Privatsphäre nicht preiszugeben. Für jeden JANET Datenbank-Dienst muss jeder Nutzer (oder jede Nutzergruppe) einen Beweis zum berechtigen Zugriff vorlegen: der üblichen Nutzer-Erkennungscode (userid) plus eines Passworts werden zum Einstieg verlangt. Das Passwort enthält keine bedeutsamen Informationen über den Nutzer, die userid hingegen enthält Codierungen, die etwas über den Nutzer aussagen, beide sind jedoch beschränkt und wandelbar.

Jede userid enthält einen Drei-Buchstaben-Code, der die Seite anzeigt, auf der der Nutzer registriert ist. (Meine [userid] zum Beispiel enthält die Buchstaben "CIT", was bedeutet, dass ich ein Nutzer [aus der] City University bin). Abhängig von örtlichen Netzverwalter, enthalten die übrigen 5 Zeichen zusätzliche persönliche Informationen. In manchen Fällen wird der Code dazu benutzt, die Abteilung anzugeben, zu welcher der Nutzer gehört (z.B. PHY für eine Physikabteilung) und in selteneren Fällen wird auch der Status des Nutzers (z.B. U für "undergraduate", S für "staff" (Mitarbeiter)). Diesbezüglich gibt es jedoch keine einheitliche Vorgangsweise innerhalb der verschiedenen Seiten.

Insofern ist es viel einfacher, die Zugriffszahl auf eine Seite zu erfassen (und mehr noch die Zusammensetzung der durchgeführten Suche) als denn die Eigenschaften der Nutzer. In früheren Auswertungen versuchten wir die über die userids erhältlichen Informationen auszuwerten, indem wir umgekehrt mit jedem Netzverwalter Kontakt aufnahmen und fragten welches (wenn überhaupt) die lokale "Übersetzung" für die Codes sei. Dies war ein mühevoller Vorgang, der auch darin nicht zufriedenstellend war, dass er nur eine [beliebige] Auswahl (und keine besondere Zufallsauswahl) von Nutzerinformationen erbrachte. Mehr noch, nützliche Daten aus einer bestimmten Seite waren schnell nicht mehr aktuell, entsprechend dem unvermeidbaren Durchsatz in der akademischen Welt. Allerdings waren wir verpflichtet, diesen Ansatz in unseren früheren Analysen zu benutzen. Auf diese Art wurden die Zahlen in der Untersuchung des vernetzten Gebrauchs der International Bibliography of the Social Sciences (IBSS) ermittelt: (siehe Abb.3)

In einer neueren Erhebung versuchten wir einen alternativen Ansatz, der sich als weitaus effektiver erwies. Er wurde versuchsweise am ISI Service der Bath Universität ausprobiert. Wir entwickelten einen kurzen Fragebogen, der Information vom Nutzer erfragte. Dies wurde in die Systemsoftware eingespielt und erschien auf dem Schirm des Arbeitsplatzes einer (zufällig ausgewählten) Anzahl von Nutzern, wenn sie sich ins System einloggten. Es wurde für die web-Version des Systems entwickelt, wo der Nutzer nur "Zeigen und clicken" mit der Maus muss. Das Design verwendete Knöpfe, Check-Kästchen und pull-down Menüs, um die Größe zu reduzieren, die Art, wie geantwortet wurde, zu kontrollieren und um Klarheit im Allgemeinen zu bewahren. Nutzer konnten sebstverständlich Nein zum Fragebogen sagen und direkt mit ihrer Suche fortfahren. Nichtsdestotrotz wurden 47 % der Fragebögen vervollständigt, was ein recht erachtenswertes Ergebnis für eine Erhebung dieser Art ist.

Den Fragebogen liessen wir ohne Unterbrechung letztes Jahr (1997) für drei Wochen laufen und erhielten [so] ein überzeugendes Profil der Nutzer, das aus Daten hinsichtlich ihres Alters und Geschlechts, des Status ("undergraduate" bis Professor) und Fachgebiet bestand. Zusätzliche Daten erhielten wir über den Ort des Arbeitsplatzes (z.B. in einer Bibliothek, Rechenzentrum, pivates Büro oder zu Hause) und ihre Häufigkeit der Nutzung. Natürlich musste sich niemand mit Namen identifizieren.

Abb.5 ist eine kleine Auswahl der Ergebnisse die wir durch diese Technik gewannen. In diesem bestimmten Beispiel ging es um die Ergebnisse der "Feststellung des Arbeitsortes". Es zeigt sich, dass beinahe die Hälfte der Forscher die Datenbank von anderen Örtlichkeiten aus als denen in öffentlichen Räumen nutzten. Mit anderen Worten, beinahe die Hälfte der Nutzer der Datenbank gingen nicht in Bibliotheken oder Computerräume um Zugriff auf solche Informationen zu haben, sondern die Mehrzahl benutzt die in eigenen Büros oder Laboratorien eingerichteten Geräte. Nicht erstaunlich ist, dass die Studenten jene sind, die am meisten die öffentlichen Zugänge nutzen.

Abb. 5: Ort des Zugriffs nach Status des Nutzers

Potentielle Nutzergruppen

Sowie die Verfügbarkeit zentral erworbener Datenbanken zunimmt, ist es nicht nur nützlich zu wissen, wer auf sie zugreift, sondern auch die Gruppen von Nutzern einer bestimmten Datenbank. In der Erhebung der ISI Datenbank wie oben beschrieben, wurden Daten der Higher Education Statistics Agency - die die Aufgliederung der Zahlen der Studenten, die sich für ein bestimmtes Fach eingetragen haben, liefert - mit der tatsächlichen Zahl studentischer Nutzer verglichen. Abb. 6 zeigt das Ergebnis dieses Vergleichs.

Abb. 6 Anteil der Nutzung (von ISI) je Fachgebiet im Gegensatz zur [Nutzer]gruppenverteilung

Die ISI Datenbank hat ihre speziellen Stärken in der wissenschaftlichen Literatur, obwohl sie ein grosse Auswahl akademischer Interessen abdeckt. Der hohe Grad der Nutzung sowohl aus der Physik und der Biologie stimmt damit überein. In Zukunft hoffen wir, dass wir jede Datenbank umgekehrt nochmals untersuchen und, je nach fachlichem Schwerpunkt [der Datenbank], das Ausmass, indem diese Dienstleistung ihre Zielgruppe erreicht, bestimmen können. In anderen Worten: Wir wollen in der Lage sein, den Grad der Durchdringung eines bestimmten Dienstes in verschiedene Bereiche der akademischen Gemeinschaft einzuschätzen.

Zukünftige Aussichten

Der Einschluss elektronischer Resourcen in das Portfolio bibliothekarischer Dienstleistungen fügt eine neue Dimension zu deren statistischer Einschätzung hinzu. Den greifbaren Bestand, und dessen Aktivität, einer traditionellen Bibliothek zu untersuchen, war durchaus vernünftig. Innerhalb der sich erweiternden Quellen der "virtuellen" Bibliothek bedeuten verschiedene Maße eine Abwandlung des Ansatzes. Es gibt wenig Grund anzunehmen, dass sich dieser Prozess nicht fortsetzt. Die Notwendigkeit, den Wunsch des Nutzers nach Anonymität, und den Bedarf des Dienstleistungsanbieters nach Rückkopplung, wie der Dienst genutzt wird, auszubalancieren, wird eines der hauptsächlichen Dilemmas in der Zukunft sein.

Notes

  1. Nutzer mussten ein 5-Jahresvertrag für eine bestimme Datenbank unterzeichnen. Dies war eine der am wenigsten populären Bedingungen, was die Bibliotheken anging.

  2. In fast allen Fällen wurde die Subskription aus dem Budget der Bibliothek bezahlt.

  3. Sponsoren nutzen die RAE Punkte, um die Höhe der Forschungsgelder an einzelne Universitäten zu bestimmen.