IFLA

As of 22 April 2009 this website is 'frozen' in time — see the current IFLA websites

This old website and all of its content will stay on as archive – http://archive.ifla.org

IFLANET home - International Federation of Library Associations and InstitutionsAnnual ConferenceSearchContacts
*    
To Bangkok Conference programme

65th IFLA Council and General
Conference

Bangkok, Thailand,
August 20 - August 28, 1999


Code Number: 079-155(WS)-S
Division Number: IV
Professional Group: Cataloguing: Workshop
Joint Meeting with: -
Meeting Number:
Simultaneous Interpretation:   No

La catalogación en el entorno del Juego Universal de Caracteres: Una visión de los límites

Joan M. Aliprand
Senior Analyst, The Research Libraries Group
Mountain View, California, USA


Paper

Mi primer trabajo fue como catalogadora, y aunque ahora trabajo como analista de sistemas, he mantenido un interés activo por ese campo. La primera edición del Anglo American Cataloguing Rules (Reglas Anglo-americanas de Catalogación), las primeras normas basadas en los Principios Internacionales de Catalogación, se publicaron cuando estaba estudiando en la escuela de documentación. Pensaba que eso era la última palabra en catalogación, y que no había mucho más que decir sobre el tema ¡Qué equivocada estaba! Poco podía imaginarme que contribuiría al debate actual.

El centro de mi estudio es la catalogación descriptiva; en especial las claves que suelen ser llamadas el "cuerpo" del registro. Aunque me centro en la catalogación descriptiva, algunos temas que planteo pueden aplicarse en general, por ejemplo, a todas las partes de los registros bibliográficos, e incluso a otro tipo de registros bibliotecarios.

En mi estudio, me referiré a las AACR2 (1). Ahora sé que las AACR2 no es utilizado en todas partes. Sin embargo, por mi procedencia de un entorno de habla inglesa, estas son las normas que conozco. Además, las AACR2 ha influido de forma muy extensa, tanto directa como indirectamente. Su influencia directa se ha producido mediante traducciones a otras lenguas para servir de base para otras normas de catalogación. Tiene influencia indirecta en donde quiera que se copian para su catalogación el gran número de registros creados en los países de habla inglesa. Incluso cuando el inglés no es el idioma de catalogación, la información transcrita desde la fuente de información puede ser útil y ahorrar tiempo. Norma 1.0E de las AACR2, Lenguaje y caracteres de la descripción, dividido en partes:

    En las siguientes áreas, dar información transcrita desde el objeto mismo en la lengua y caracteres (donde sea posible) en la cual aparece:

      Título y autor
      Edición
      Publicación, distribución, etc.
      Serie.
      Reemplazar los símbolos y otros caracteres que no pueden ser reproducidos por los caracteres tipográficos disponibles, con una descripción del catalogador entre corchetes. Añadir si es necesario una nota explicativa.

El tema principal que quiero examinar es la transcripción en el nuevo entorno informático a través del estándar Unicode (2) y el Estándar Internacional ISO/IEC 10646 (3). Estas publicaciones no sólo se refieren a los sistemas escritos en la mayor parte de las lenguas del mundo, sino también a grupos de símbolos y otros elementos del texto, por ejemplo, operadores matemáticos, Braille, puntuación, "chismes" (1), etc. Se ha puesto gran cuidado en sincronizar sus repertorios de caracteres.

También quiero analizar el problema de la transcripción fiel, lo que llamo "exactitud" en la catalogación. Durante todo el estudio mencionaré los efectos sobre la recuperación, especialmente en las consultas que afectan a varios sistemas, lo que nos debe llevar a la reflexión sobre cómo tomamos las ecisiones de catalogación.

Hasta ahora ha sido posible disponer de apoyo automatizado para múltiples escrituras antes de la creación del Estándar Unicode y del ISO/IEC 10646. Las escrituras del RLIN empezaron a ser utilizadas con CJK en 1983 (4), y las normas en Asia Oriental han incluido siembre varias escrituras, pero con el acceso a los productos basados en el Unicode, la utilización de múltiples escrituras es más fácil.

Los estándares Unicode e ISO/IEC 10646 proporcionan un repertorio mucho más amplio de escrituras y caracteres a los que normalmente tienen acceso las aplicaciones informáticas de las bibliotecas, incluyendo el USMARC (5) y el UNIMARC (6). La extensión del repertorio de escrituras supone tener acceso no sólo a escrituras a las que nunca antes se había podido acceder, sino a muchos caracteres de las escrituras anteriormente accesibles. En la siguiente tabla se realiza una comparación para varias escrituras.

Tipo de escrituraTipo de carácterUSMARC/UNIMARCJIS X 0208(2)Estándar Unicode Versión 3.0
CirílicaLetras10266237
LatinaLetras adicionales sin acento21 (3)0163
ArabeLetras124ninguno141
Ideogramas de Asia OrientalIdeogramas13.469 (86% del EACC8)6.35327.484

Sin embargo, por favor, no se debe asumir que la norma Unicode y la ISO/IEC 10646 serán la panacea de la transcripción:

(a) No todo lo que se puede encontrar en una fuente de información está dentro de sus repertorios.
(b) No todo lo que se piense que se necesita para la transcripción puede estar en sus repertorios.
(c) Algunas escrituras requieren programas de apoyo adicionales y fuentes especiales para una presentación correcta.

Esto no quiere decir que deban rechazarse estas normas. Sólo quiero mencionar sus limitaciones.

Lo que no está allí

La buena noticia es que, con la inclusión del sinhala, el etíope y el mongol, todas las grandes escrituras del mundo están ahora codificadas. La versión 3.0 del estándar Unicode será publicada a finales de este año, y la segunda edición del ISO/IEC 10646 está programada para el año que viene.

El aumento del repertorio no ha terminado: han quedado fuera varias escrituras de lenguas minoritarias, deben añadirse más símbolos, y quedan pendientes de inclusión escrituras extintas como los jeroglíficos y la cuneiforme. No debe haber muchas bibliotecas que recojan y cataloguen papiros y tablas de arcilla, pero las escrituras extintas son importantes en el ámbito académico en general y algunos museos en particular.

Una fuente de cualquier repertorio de caracteres Unicode puede ocupar mucho espacio, y es más práctico tener fuentes sólo para las escrituras incluidas en los fondos de cada biblioteca. El problema más común cuando se cataloga no es que falte una escritura, sino que falte un carácter en particular, por ejemplo, el título de un trabajo de matemáticas puede incluir un carácter no incluido en el bloque de Operadores Matemáticos. Así que habrá ocasiones en las que no se podrá transcribir el cien por cien de lo que está en la fuente de información.

Pero, protestarán, ¡pensábamos que el Conjunto de Caracteres Universales incluía todo lo que podríamos necesitar! La respuesta es no, por varias razones:

  • Puede existir un carácter extremadamente raro en la fuente de información, en este caso, no se podrá hacer nada:
  • Puede existir un carácter que sea conocido, y que su adición esté en fase de estudio;
  • Puede existir un carácter que sea conocido, pero que no esté considerado como carácter de acuerdo con los principios patrón de Unicode.

Dos principios patrón de Unicode determinan significativamente lo que puede ser indexado como caráctes: caracteres no glifos y Unificación interligüistica. Además, el Repertorio Unificado y Ordenado de Ideogramas Han ("Han Unificado"), desarrollado por el Grupo Ponente de Ideogramas.(4) tiene normas que regulan la unificación de los ideogramas.

Caracteres no glifos, quiere decir que algunos aspectos tipográficos de alto nivel no son significativos en la determinación del repertorio de caracteres. Algunos ejemplos de aspectos tipográficos son:

  • El estilo nashki de escritura árabe frente al estilo nastaliq;
  • Diferentes formas de escirbir un ideograma en Asia Oriental;
  • Diferentes formas de escribir una letra cirílica en ciertas lenguas,
  • Contracciones, dígrafos tipográficos, etc.

Unificación interlingüística significa que:

  • Los grafemas utilizados para escribir una lengua en particular (por ejemplo, un alfabeto) no son indexados separadamente;
  • Las diferentes formas según las lenguas de escribir una letra o un ideograma no son indexados como caracteres distintos.

Estas normas y principios patrón determinan lo que debe ser indexado. Y el resultado es que no todo lo que aparece en una fuente de información es susceptible de ser directamente indexado como carácter definido. Esta limitación sobre lo que puede ser indexado directamente como carácter definido no es un fallo del estándar Unicode. Esto sucede debido a una visión distinta y más sofisticada de lo que debería ser indexado como grupo de caracteres.

El enfoque original de la representación mecanográfica legible de texto era obtener un único código para cada marca sobre el papel, aunque existía la unificación para los casos generalmente aceptados (las minúsculas de los caracteres latinos a y g, por ejemplo). Los conjuntos de caracteres para lenguas de Asia Oriental asignaban códigos individuales a diferentes formas de escribir a lo que era fundamentalmente el mismo ideograma. Los juegos de caracteres de las bibliotecas representan normalmente ese "código que se ve", también aproximado, excepto en el uso de marcas no espaciales para codificar letras latinas acentuadas, donde una letra con marca diacrítica es codificada como dos caracteres distintos. Los críticos a esta medida dirían que la letra ha sido "dividida".

El estándar Unicode introdujo un enfoque alternativo a la representación del texto. "La creación de un conjunto de caracteres indexados debe aportar con precisión el conjunto de elementos que permita a los programadores crear aplicaciones capaces de incluir varios procesos de texto en cada lengua."9 Una consecuencia de esto es que los caracteres en el texto ya codificado no se corresponden necesariamente al cien por cien con los elementos que se pueden observar en el texto original.

El estilo más simple de representación de textos es el texto llano, una secuencia pura de códigos de carácter. Los datos de Unicode son texto llano. Pero para obtener lo exactamente deseado, se hace necesaria la utilización de protocolos de nivel más alto, como la identificación lingüística o instrucciones de diseño, para producir texto imaginativo o texto enriquecido. También USMARC y UNIMARC utilizan únicamente texto llano, pero sus conjuntos de caracteres puede porporcionar códigos para cosas que han sido unificadas por Unicode/ISO 10646.

Así que necesitamos analizar estos problemas:

  • ¿Cómo debemos realizar una transcripción exacta?
  • Si tenemos que ser muy exactos ¿cómo podemos conseguirlo cuando utilizamos Unicode/10646?

Evaluación de la exactitud de la transcripción

Lo anterior nos lleva a plantearnos el problema de la exactitud de la transcripción ¿Cómo de exacta debe ser una transcripción? ¿Por qué? ¿Qué excepciones hacemos (quizás sin conciencia de que las estamos haciendo)? ¿Qué "aproximaciones" utilizamos cuando no tenemos el medio tipográfico necesario?

Necesitamos exactitud en la transcripción con el fin de representar lo identificado de manera exclusiva y así hacerlo accesible. Pero, sin embargo, no siempre se transcribe la información de lo identificado con un cien por cien de fidelidad.

Una de las razones de la falta de fidelidad es que las normas de catalogación o de interpretación utilizadas por los catalogadores no siempre necesitan, y a veces no permiten, datos específicos para ser transcritos. Por ejemplo, el lenguaje hebreo se escribe normalmente sin vocalizar, es decir, sin caracteres vocálicos ni otras marcas de pronunciación. Pero a veces estas guías de pronunciación están impresas sobre la fuente de información; por ejemplo, cuando el autor o editor quiere que una palabra sea pronunciada de manera distinta a lo normal. La Biblioteca del Congreso de los Estados Unidos, y sus normas para la catalogación de herbrio, (10) se basa en la Norma 1.0G, Acentos y otras marcas diacríticas, y lo interpreta (incorrectamente en mi opinión) prohibiendo la transcripción de las marcas de vocalización que aparecen en la fuente de información. Una de las excepciones a la exactitud es la necesaria por falta de medios tipográficos, un problema reconocido en la Norma 1.0E. La solución permitida por esta norma es la descripción del elemento textual no reproducible. Esto plantea un problema para la consulta informatizada -¿debería esa inserción ser ignorada en la consulta, o tratada como una "rareza" que encaje con algo, o…? No se puede esperar que el usuario conozca la descripción exacta realizada por el catalogador.

Existen también normas no escritas para las excepciones a la exactitud. Salvo en el caso de los incunables y otros libros valiosos, normalmente, cuando transcribimos ignoramos las características de las fuentes, la caligrafía, etc. sin cuidarnos de anotar dichas particularidades. Esto ocurre porque en la práctica, en especial para los trabajos más modernos, estas distinciones a un nivel muy alto no son necesarias.

Cuando se carece por completo de los medios tipográficos para transcribir un tipo de escritura, existen varias opciones. Cuando el lenguaje para catalogar utiliza escritura latina, la solución elegida normalmente es la romanización: traducción o transcripción a la escritura latina del texto original. Wellisch11 manifestaba en 1976 que las tablas de romanización LC (ahora ALA/LC) eran las más utilizadas, seguidas por las del ISO. Cuando la lengua de catalogación es el ruso u otra lengua escrita en escritura cirílica, a veces se realiza la cirilización. Pero no todos los lenguajes usan un alfabeto silábico, y otras soluciones son transcribir la información al lenguaje local, o mantener catálogos de fichas convencionales.

Todas estas alternativas impiden un fácil acceso. Cuando una biblioteca utiliza la romanización o la cirilización, el buscador debe conocer este hecho, conocer el esquema de conversión utilizado para una lengua en particular, y ser capaz de aplicar ese esquema correctamente para crear un criterio de consulta. Un buscador puede no conocer las prácticas de una biblioteca y utilizar un esquema completamente diferente. En el caso de las traducciones, la traducción del buscador puede no coincidir con la del catalogador. Los catálogos de fichas, a menos que sean publicados en forma de libro, no pueden ser consultados a distancia.

¿Falta de caracteres codificados?

Estos problemas serán considerablemente menores con la introducción de Unicode/ISO 10646 en USMARC y UNIMARC. Pero la utilización de un extenso repertorio de escrituras no significa que todo podrá ser transcrito exactamente. Ahora analizaré las situaciones en las que ni siquiera con Unicode/ISO 10646 se conseguirá un cien por cien de fidelidad.

Históricamente, una razón fundamental para la exactitud en la transcripción era proporcionar un sustituto de la entidad bibliográfica con el mayor detalle posible. El detalle era necesario porque no teníamos ningún otro sistema para presentar el objeto que una ficha o un catálogo.

Los problemas de transcripción exacta se plantean normalmente en el caso de los ideogramas, pero no son exclusivos de este tipo de escritura. Si se cataloga un sonido grabado, ¿qué transcribimos del símbolo que utilizado por "el artista anteriormente conocido como Prince"?

Una materia que plantea muchas dificultades son las matemáticas, donde fórmulas bidimensionales deben caber dentro de un campo unidimensional. Sargent ha descrito cómo representar fórmulas matemáticas usando Unicode.

Los problemas con los ideogramas son mayores cuando el ideograma no ha sido todavía codificado, o cuando un sólo valor codificado representa varias formas de un ideograma (como apuntan Zhang y Zhen).(12) Entre los ideogramas no disponibles existen auténticos ideogramas únicos (utilizados para nombres de persona) y aquellos de uso común en ciertos ámbitos pero sin pertenecer todavía al Han Unificado (por ejemplo, algunos ideogramas utilizados y aceptados oficialmente en Hong Kong, o ideogramas referentes a nombres geográficos). En esta situación:

  • El símbolo geta debe sustituir al ideograma no disponible. El símbolo geta procede de la tipografía japonesa y marca el lugar de un ideograma que se introducirá más tarde. Esta técnica se utiliza en los registros USMARC.
  • La descripción ideográfica de los caracteres puede ayudar al usuario a visualizar el carácter no disponible. La versión 3.0 del estándar Unicode y la segunda edición del ISO/IEC 10646 incluyen estos caracteres.

Cuando un símbolo tipográfico particular ha sido unificado con otros, y el catalogador quiere utilizar esa forma particular, existen posibles soluciones:

  • Utilizar un protocolo de nivel más alto, por ejemplo, el SGML (13), para insistir en que ese carácter está presentado en un estilo de escritura particular. (Como tanto el USMARC como el UNIMARC utilizan texto llano, esta opción está fuera de su alcance.)
  • Presentar el ideograma en el registro utilizando una fuente determinada por la lengua y los códigos locales. Por ejemplo, si el código de lenguaje fuera chi y el código para el país de publicación fuera cc, la fuente sería un estilo chino simplificado. Si el código de lenguaje fuera jpn, la fuente sería una que incluyera el kanji típico. (Esta opción funcionaría solamente cuando la información codificada fuera inequívoca, y cuando los ideogramas que aparecieran en el trabajo fueran consistentes con el lenguaje comúnmente utilizado en ese trabajo y en el lugar de publicación.)
  • El Comité Técnico de Unicode ha estado considerando una propuesta que obligue a que las variantes de los ideogramas se indique en texto llano. Quizás eso aporte una solución.

Las preferencias regionales o de formas lingüísticas no son exclusivas de los ideogramas. Cuando la lengua Urdu se escribe en árabe, se imprime tradicionalmente en estilo nastaliq. La lengua árabe se imprime normalmente en estilo nashki. (Nashki es el estilo de fuente utilizado en la norma RLIN de escritura arábica.) Si toda la información sobre el trabajo está normalmente escrita en el mismo estilo tipográfico, debe resaltarse en una nota cuando el estilo tipográfico del objeto no es el mismo que el del sistema de catalogación. Esta es una situación parecida a la de la negrita y el estilo tipográfico Fraktur de imprenta europea.

Una solución generalizada al problema de la transcripción inexacta en los registros bibliográficos es utilizar un vínculo. En un catálogo accesible en la Red, podemos vincular a la fuente de información una figura (imagen escaneada). La desventaja de la imagen escaneada es que no puede realizarse una consulta como en el caso de una forma glíptica particular, sino que es un método que debe aplicarse más bien a textos completos que a la catalogación.

Conclusión

Los editores de normas de catalogación deberían revisar las normas sobre transcripción para determinar los cambios necesarios para aprovechar las nuevas tecnologías. Las nuevas posibilidades técnicas incluyen no sólo la utilización de Unicode/ISO10646, sino también la posibilidad de consulta a distancia de catálogos vía Z39.50.

Los responsables de los varios formatos MARC deberían trabajar con los catalogadores para determinar si es necesario volver a evaluar el "texto llano" de los formatos utilizados. No vale sólo con declarar el Unicode/ISO 10646 como conjuntos de caracteres aprobados (como se hizo para UNIMARC14) o de especificar los cambios con detalle (como se quiere hacer tanto para USMARC14 como para UNIMARC). Este es el primer y esencial paso, pero las necesidades de la catalogación requieren algo superior al "texto llano" del estándar Unicode y el ISO/IEC 10646. Y si se necesita algo más, entonces los diferentes formatos MARC deben especificar una metodología para proporcionarlo.

    La cuestión a la que debe responderse es: ¿Son los datos de catalogación "texto llano", o se necesita algo un poco más imaginativo?

Notas

  1. Anglo-American Cataloguing Rules, confeccionado bajo la dirección del Comité Permanente de Dirección para la Revisión dlas AACR2, editado por Michael Gorman y Paul W. Winkler, 2ª edición, revisión 1998 (Chicago: American Library Association, 1998)

  2. The Unicode Standard, Versión 2.1 consistente en:
    • The Unicode Constortium, The Unicode Standard, Versión 2.0, Addison-Wesley, MA, 1996 (ISBN 0-201-48345-9)
    • The Unicode Standard, Versión 2.1 (Unicode Technical Report # 8) Publicado en la página Web: http://www.unicode.org/unicode/reports/tr8.html
      Para una copia impresa de la Versión 2.1 contactar con Unicode Consortium.
      Unicode es una marca registrada de Unicode, Inc.

  3. International Organization for Standarization. Information Technology - Universal Multiple-Octet Coded Character Set (UCS), Part 1: Architecture and Basic Multilingual Plane, Ginebra, 1993 (ISO/IEC 10646-1: 1993)

  4. RLG East Asian Studes Comunity. http: //www.rlg.org/esa/index.html

  5. USMARC Specitifacions for Record Structure, Charactes Sets, and Exchange Media, prepared by Network Development and MARC Standards Office, 1994 ed, Cataloging Distribution Service, Library of Congress, Washington, D.C, 1994.
    USMARC Format for Bibliografic Data, including Guidelines for Content Designation, prepared by Network Development and MARC Standards Office, 1994 ed, Cataloging Distribution Service, Library of Congress, Washington, D.C, 1994.
    USMARC Format for Authority Data, including Guidelines for Content Designation, prepared by Network Development and MARC Standards Office, 1993 ed, Cataloging Distribution Service, Library of Congress, Washington, D.C, 1993.
    Para documentación adicional sobre USMARC ver la página Web de Library of Congress.

  6. UNIMARC Manual: Bibliographic Format, B. P. Holt and S. H. McCallum, editores, 2ª edición, Saur, Munich, 1994.
    UNIMARC/Authorities: Universal Format for Authorities, Saur, Munich, 1991 (ISBN 3-598-10986-5)

  7. Japanese Standards Association. Code of the Japanese Graphic Character Set for Information Interchange. (English translation of JIS X 0208-1983) Tokio, 1987 (JIS X 0208-1983)

  8. American National Standards Institute, East Asian Character Code for Bibliographic Use, Transaction, New Brunswiek, NJ, 1990 (ANSI Z39.64-1989).

  9. The Unicode Standard, Version 2.0, p. 2-2

  10. Library of Congress. Descriptive Cataloging Division. Hebraica Cataloging: a guide to ALA/LC Romanization and Descriptive Cataloging, prepared by Paul Maher (Descriptive Cataloging Division). Cataloging Distribution Service, Library of Congress, Washington, D.C. 1987.

  11. Wellisch, Hans H, "Script Conversion Practices in the World's Libaries" International Library Review, 8: 55-84 (1976)

  12. Zhang, Foster J. y Zeng, Marcia Lei, Multiscript information processing on crossroads: demands for shifting from diverse character code sets to the Unicode Standard in library applications (Ponencia en la 64 Conferencia General del IFLA, 1998)
    http://archive.ifla.org/IV/ifla64/o58-86e.htm

  13. International Organization for Standardization Information processing - Text and office Systems - Standard Generalized Markup Language (SGML), Ginebra, 1986 (ISO 8879:1986)
      Este Estándar Internacional ha sido aumentado por Technical Corrigendum 1:1996 y Amendment 1:1988

  14. UNIMARC Manual:Bibliographic Format, 2ª edición, Update 2 (1998)

  15. Unicode Identification and Encoding in USMARC Records, submitted by MARBI Unicode Encoding and Recongnition Technical Issuies Task Force, 1998. (MARBI Proposal No: 98-18)
    http://lewed.loc.gov/marc/marbi/1998/98-18.html

References

  1. Chisme, cachivache, es la traducción literal de "dingbat" , que se aplica a un objeto desconocido o sin calificar (N. del T.)

  2. El estándar industrial japonés JIS O208 se utiliza como ejemplo de estándar de Asia Oriental. En el contexto del JIS los ideogramas de Asia Oriental se llaman kanji. El JIS 0208 no tiene caracteres latinos adicionales, pero incluye las letras latinas de la A a la Z (mayúsculas y minúsculas), así como el alfabeto griego.

  3. La cifra "21" en el número de caracteres latinos sin acento en USMARC/UNIMARC es el resultado de la combinación total de caracteres especiales en USMARC (ANSEL) y UNIMARC (ISO 5426). ANSEL tiene 18 caracteres especiales, ISO 5426 tiene 17 ; 14 de los caracteres especiales son comunes a ambas normas.

  4. Los miembros del Ideographic Rapporteur Group (IRG) proceden de regiones donde se utilizan ideogramas o tienen importancia cultural : China, Japón, Corea, Singapur, Hong Kong, Taiwan, y los Estados Unidos, además de una representación del Unicode Consortium. El IRG informa al ISO/IEC/JTC I/SC 2/WG 2, que es responsable del estándar internacional ISO/IEC 10646.

*    

Latest Revision: July 19, 1999 Copyright © 1995-2000
International Federation of Library Associations and Institutions
www.ifla.org