IFLA

As of 22 April 2009 this website is 'frozen' in time — see the current IFLA websites

This old website and all of its content will stay on as archive – http://archive.ifla.org

IFLANET home - International Federation of Library Associations and InstitutionsAnnual ConferenceSearchContacts

63rd IFLA General Conference - Conference Programme and Proceedings - August 31- September 5, 1997

Cataloguer en SGML: de l'étiquettage au balisage

Catherine Lupovici
Jouve Systèmes d'Information
clupovici@jouve.fr
http://www.jouve.fr
http://www.jouve.com


PAPER

Introduction

SGML (Language normalisé général de balisage) est une norme internationale ISO vieille de dix ans qui a été initialisée par le monde de l'édition. Son objectif était de fournir un langage normalisé permettant de baliser la structure logique des documents indépendamment des logiciels et des matériels utilisés de manière à faciliter les échanges de documents tout au long de la chaîne de production de l'édition. Il a ensuite été utilisé pour réaliser différents produits à partir d'une base de données unique.

SGML est un langage générique pour définir la structure logique et baliser des classes de documents selon un format générique. Ce langage peut être appliqué à n'importe quel type de document comme par exemple un livre, un article de périodique, la documentation technique aéronautique, un dictionnaire et évidemment une notice bibliographique.

Les documents SGML sont codés dans un format normalisé indépendant de la plate-forme de création ou d'utilisation, ce qui garantit la pérennité de l'information à long terme et est très important pour une bibliothèque.

Actuellement SGML est utilisé non seulement pour la création des documents, mais aussi pour l'échange, le stockage, la recherche documentaire, l'impression ou la visualisation des documents. Des outils assez professionnels sont disponibles commercialement pour mettre en oeuvre toute la panoplie des applications possibles.

SGML est en cours d'implémentation pour le traitement des données dans de grands organismes officiels et chez les éditeurs majeurs, pour la création, le stockage et quelquefois la fourniture de l'information. C'est aussi le format générique que l'on retrouve dans tous les projets de bibliothèque électronique visant à prendre en compte à la fois la structure logique du document textuel et l'information bibliographique qui lui est associée.

Le TEI (Text Encoding Initiative) est une application internationale de SGML dans le domaine des sciences humaines et des industries de la langue. Elle permet au chercheur utilisateur d'étendre la structure pour son propre usage en utilisant SGML pour baliser le document primaire textuel. Comme SGML est très souvent évoqué en tant que concurrent et que successeur potentiel des formats MARC, il est important de comprendre son fonctionnement, les différents niveaux d'usage qu'il autorise pour le traitement de l'information bibliographique et d'en déduire l'intérêt potentiel pour les bibliothèques, au moment où elles réfléchissent sur les besoins fonctionnels de l'information bibliographique dans l'environnement électronique.

SGML

Les principes généraux

Codage de caractères

Dans la déclaration de la Définition de type de document on spécifie le ou les jeux de caractères de base qui seront utilisés. Des caractères supplémentaires peuvent être définis comme des entités externes à l'aide d'une notation particulière utilisant uniquement le code ASCII de base. Une telle notation peut être facilement saisie avec n'importe quel outil de traitement de texte et transférée sans déformation via les réseaux dont nous disposons aujourd'hui. Il faut seulement les interpréter correctement pour l'impression ou l'affichage ou les transcoder dans des applications spécifiques.

Exemple :     é pour la lettre e avec un accent aigu doit être affiché é

Le document SGML et le processus de balisage

Le document SGML est simplement du texte avec des balises de début et de fin encadrant les éléments logiques, les attributs ou l'appel d'entités externes textuelles, images ou vidéo. Un article codé en SGML a l'aspect suivant en terme de contenu textuel :

	
	<!DOCTYPE ARTICLE PUBLIC "-//USA/AAP//DTD ART-1//EN" "article.dtd"
[
<!ENTITY Darc CDATA "SoftQuad Explorer(tm)">
<!ENTITY nbsp CDATA " ">
]>
<ARTICLE><FM><TIG><ATL>Flexible Management of SGML-encoded Documents </ATL>
<SBT>Design Principles in &Darc;</SBT></TIG>
<AU><FNM>Donald</FNM><SNM>Broady</SNM><DEG>Ph.D.</DEG>
<AFF><ONM>University of Stockholm</ONM>
<ODV>Project manager</ODV>
<EAD>broady@nada.kth.se</EAD></AFF></AU>
<AU><FNM>Hasse</FNM><SNM>Haitto</SNM><DEG>M.Sc.</DEG>
<AFF><ONM>Royal Institute of Technology</ONM>
<ODV>Project coordinator</ODV>
<EAD>haitto@nada.kth.se</EAD></AFF>
</AU>
<ABS><P>&Darc; is a multi-user, cross-platform (PC/Windows 3.1 and Sun SPARC/X11) database and information retrieval application designed primarily for documents marked-up with SGML . Among its features is a  full-text document browser, in which markup-based  hypertext linking is complemented by interactive, on-line linking and annotation facilities through concurrent webs. Cooperative work is supported through a novel hierarchical user group mechanism</P></ABS></FM>
<BDY><SEC><ST>Keywords</ST>
<L1><LI><P>SGML</P></LI>
<LI>
<P>Hypertext</P></LI>
<LI>
<P>Databases</P></LI>
<LI>
<P>Information Retrieval</P></LI></L1>

</SEC>

On peut saisir toute cette information ou insérer les balises à un fichier textuel préexistant en utilisant soit un simple traitement de texte soit un éditeur SGML offrant des fonctionnalités d'affichage WYSIWYG (What You See Is What You Get), des fonctionnalités de contrôle interactif et une aide contextuelle pour faciliter l'insertion des balises à un endroit donné de la structure.

table

Un outil SGML, grâce à l'utilisation d'une feuille de style définissant la mise en page, permet de voir le document en cachant les balises. Evidemment différentes feuilles de style produisent autant de mises en page différentes pour un même document SGML.

Raisons d'utiliser SGML pour le traitement de l'information bibliographique

SGML a été considéré depuis son origine par la communauté des bibliothèques comme capable de supporter l'information bibliographique de différentes manières. Le projet Electronic Manuscript Project initialisé en 1984 aux Etats Unis avait déjà pour objectif de s'intéresser à la fois à l'information bibliographique et au document avec des applications possibles dans le traitement du CIP (Cataloguing In Publication).

Aujourd'hui SGML est vu soit comme un simple format d'échange, soit comme un format de création ou de traitement, selon la façon dont on considère le catalogage et ses objectifs et selon le type de document.

Format d'échange

· Echange de notices bibliographiques

SGML est un format d'échange normalisé pour n'importe quelle information structurée et peut évidemment s'appliquer à l'échange de données bibliographiques. Il est possible d'écrire une DTD ISO 2709/MARC reflétant la structure d'un enregistrement ISO 2709 associé à un format MARC particulier et à des jeux de caractères donnés.

Plusieurs DTD USMARC sont déjà disponibles. La plus détaillée est réalisée par la Bibliothèque du Congrès et une version alpha de test est disponible sur le site Web du Library of Congress Network Development and MARC Standards Office. Il y a une DTD pour les données bibliographiques et une DTD pour les données d'autorité. L'objectif de ce projet est de créer des DTDs standards pour permettre la conversion de données de catalogage entre la structure ISO 2709/USMARC et la structure SGML dans les deux sens sans perte de d'information. Le projet comporte également la possibilité de développer des utilitaires de conversion entre les deux formats. Voici la structure générale de la DTD bibliographique jusqu'au niveau des sous-champs.

La Bibliothèque de l'Université de Berkeley offre également une DTD ISO 2709/USMARC moins sophistiquée, ainsi que les outils de conversion. Cette DTD est destinée à permettre l'utilisation de SGML comme format support pour les notices dans le catalogue en ligne sur le campus de Berkeley.

· Lien bibliographique avec les éditeurs

Les grands éditeurs, principalement dans le secteur STM (Sciences, Techniques et Médecine) sont en train d'introduire SGML comme format support de leur chaîne de production. Cette migration leur permet de créer plusieurs produits à partir d'une seule saisie.

Par exemple Elsevier Science offre commercialement au bibliothèques et bases de données les notices bibliographiques des articles codées en SGML, selon la DTD Elsevier qui est publique, via le service électronique CAP-CAS.

On peut donc imaginer de demander la même information pour les livres en utilisant le format SGML pour les éditeurs qui le pratiquent.

Format de création pour le «catalogage» des documents électroniques

On peut cataloguer avec un outil SGML en utilisant une DTD MARC standard, mais il n'y a pas de réel bénéfice dans un tel investissement si les fonctions de catalogage restent également les mêmes, sauf si l'on remplace le catalogue et l'OPAC par un système fondé sur SGML. Un autre intérêt est d'utiliser un format qui est compris directement dans une autre communauté que celle des bibliothèques

Je pense cependant que le principal intérêt d'utiliser SGML se manifeste dans les cas suivants :

Plusieurs approches sont tentées. Par exemple le TEI (Text Encoding Initiave) introduit un en-tête au document lui-même pour contenir l'information bibliographique. Une autre approche est celle des propositions de métadonnées pour les besoins des applications HTML du Web.

Mais toutes ces propositions résultent de la même analyse : il existe un besoin d'inclure les données descriptives et les données à valeur ajoutée dans le document électronique lui-même.

Conclusion

On peut donc résumer la situation actuelle de la manière suivante : cataloguer en format MARC est créer des enregistrements bibliographiques avec des étiquettes MARC traduisant la présentation de fiches ISBD ou de catalogues imprimés ; cataloguer en SGML peut être simplement la même chose avec des balises SGML MARC en utilisant un outil SGML mais cela n'apporte rien de nouveau ; enfin l'utilisation de SGML peut être l'occasion d'une nouvelle approche de traitement du document électronique auquel on ajoute en SGML un balisage permettant de qualifier l'information descriptive et auquel on ajoute des éléments d'organisation de l'information destinés à faciliter l'accès au document.

Bibliographie

Gaynor, Edward, 1996. From MARC to Markup : SGML and Online Library Systems.
http://www.lib.virginia.edu/speccol/scdc/articles/alcts_brief.html

ftp://library.berkeley.edu/pub/sgml/marcdtd

ftp://ftp.loc.gov/pub/marcdtd