IFLA

As of 22 April 2009 this website is 'frozen' in time — see the current IFLA websites

This old website and all of its content will stay on as archive – http://archive.ifla.org

IFLANET home - International Federation of Library Associations and InstitutionsAnnual ConferenceSearchContacts
*    
To Bangkok Conference programme

65th IFLA Council and General
Conference

Bangkok, Thailand,
August 20 - August 28, 1999


Code Number: 012-117_S
Division Number: IV
Professional Group: Classification and Indexing
Joint Meeting with: -
Meeting Number: 117
Simultaneous Interpretation:   No

Un Enfoque Estructural y Multilingüe al Acceso por Materias en la Web

Lois Mai Chan
School of Library and Information Science, University of Kentucky
Lexington, Kentucky, USA

Xia Lin

College of Information Science and Technology, Drexel University,
Philadelphia, Pennsylvania, USA

Marcia Zeng

School of Library and Information Science, Kent State University
Kent, Ohio, USA


Paper

Introducción

Entre los muchos desafíos que plantea la búsqueda y explotación de recursos útiles en la World Wide Web están el del enorme volumen de datos disponibles y el de las barreras lingüisticas. En este sentido, existe una urgente necesidad de desarrollar mecanismos que permitan organizar los recursos web de modo más eficiente y efectivo, así como programas que puedan funcionar con múltiples idiomas. En el presente artículo, dividido en tres partes, analizaremos algunos de los esfuerzos que en ambos sentidos se están llevando a cabo en la actualidad.

Parte I: Un Enfoque Estructural de la Organización de Recursos Web (Lois Mai Chan)

Han sido muchos los sistemas de clasificación de materias que se han desarrollado para organizar y gestionar recursos web. Son conocidos por distintos nombres, tales como guías temáticas, categorías de materias, directorios, jerarquías temáticas, etc. Lo que muchos de estos sistemas tienen en común es el hecho de que están basados en los principios fundamentales de la clasificación tradicional, como son la estructura jerárquica, la partición de la disciplina, la subordinación de lo específico a lo general, etc. Un análisis de las diferentes estructuras jerárquicas que hoy están funcionando como clasificaciones de recursos web revela una gran variedad, tanto en la complejidad y sofisticación de estos mecanismos, como en su cobertura y profundidad temática, o en el número de recursos que cubren. Asimismo varían en los patrones de clasificación en que se basan. En algunos casos, se han realizado intentos para adaptar al entorno Web algunos sistemas de clasificación conocidos como la Dewey Decimal Classification (DDC), Library of Congress Classification (LCC) y la Clasificación Decimal Universal (CDU). Diane Vizine-Goetz ha demostrado, en sus diferentes trabajos, cómo, con las oportunas mejoras, tales sistemas pueden ser utilizados para perfeccionar la recuperación en la Web (Vizine-Goetz). Los sistemas que usan una estructura jerárquica para organizar los recursos web incluyen:

  1. guías temáticas confeccionadas por servicios de búsqueda web muy conocidos, tales como Yahoo!, Lycos, Infoseek, Excite, etc.;
  2. sistemas diseñados por bibliotecas para ofrecer acceso a los recursos web que éstas han seleccionado e incorporado a sus sistemas locales;
  3. índices y directorios web basados en sistemas que ya existen, por ejemplo, Netfirst OCLC basada en la DDC, CyberStack y Scout Report Signpost, que se basan en la LCC.

El empleo de formatos jeráquicos o basados en clasificaciones en la organización de recursos web, podría tener importantes ventajas, entre las que se encontraría el perfeccionamiento de la búsqueda por materias, del acceso multilingüe y de la interoperabilidad con otros servicios (Koch and Day). Una estructura jerárquica puede ser concebida como un mapa conceptual, bien de la totalidad del conocimiento o de una disciplina concreta. Dicho mapa ordena la información en grupos temáticos (y en subgrupos), lo que permite a los usuarios dirigir sus búsquedas hacia áreas temáticas concretas que concentran aquellos contenidos de carácter afín o similar.

El conocimiento visto a través de una estructura organizada es mucho más fácil de ser percibido y, como consecuencia, de ser aprehendido. En la búsqueda temática o por materias, una estructura jerárquica proporciona un camino lógico hacia los objetos que se desean. Sobre todo, mejora la precisión, ya que define y limita el enunciado de la búsqueda. Esta ventaja es evidente incluso en aquellas estructuras jerárquicas con un nivel de especificidad poco profundo. La razón de esta ventaja puede estar en que la jerarquía, aún en su nivel más superficial, ejemplifica dos funciones básicas de la clasificación tradicional: la colocación (inclusión) y la partición (exclusión). Mientras que la colocación está implícita en la inclusión, que es una propiedad fundamental de la clasificación, la partición recoge otra propiedad básica de la clasificación que es la exclusión. Es muy importante que una estructura cumpla estas dos funciones, ya que esto es lo que determina su utilidad potencial en un entorno de búsqueda de información. La inclusión coloca juntos objetos e ideas que son similares. Pero en un extenso dominio de información, es tan importante excluir la información no deseada como incluir la que se desea o requiere. La exclusión puede lograrse dividiendo un gran volumen de información en partes más pequeñas, a fin de poder aislar la parte que puede ser más relevante (Chan 1995). Cuanto más grande sea el dominio de información, más importante será encontrar un medio efectivo y eficiente de definir dominios más pequeños para realizar una búsqueda. Una de las principales causas de que se produzca ruido en la recuperación son los homógrafos, es decir, palabras que se escriben igual pero tienen significados diferentes. La ventaja de buscar en un dominio específico es que, con frecuencia, los términos son ambiguos en diferentes disciplinas, pero rara vez tienen múltiples significados en una disciplina o campo temático concreto.

La aplicación de la clasificación al entorno web ofrece también otras ventajas que en un entorno impreso no eran especialmente destacables. En los sistemas tradicionales, las materias (incluidos los números de clasificación y los términos de indización) están unidos a sus fuentes, incluso físicamente a los propios documentos (la signatura topográfica en el lomo de los libros) o a la representación del documento (registros catalográficos u otros registros de metadatos, como el Dublin Core). Por el contrario, en el entorno web, las materias están separadas de, o residen fuera de los recursos propiamente dichos. En cambio, esa información puede ser almacenada en directorios u otro tipo de interfaces web que enlazan las materias a los recursos, sin afectarle de ninguna otra forma; los enlaces unen las entradas de materia con los recursos mediante "urls". La ventaja que ofrece "enlazar a" en lugar de "almacenar en" es la flexibilidad. Con un sistema de enlaces de este tipo, si la clasificación u otro tipo de organización temática son modificados, únicamente sería necesario actualizar los enlaces, ya que las páginas web no se verían afectadas en absoluto. La re-clasificación no es un problema. Además, el ámbito temático y el grado de profundidad de cada sistema se pueden ajustar con facilidad al contenido documental, sea éste de carácter popular, orientado al ocio o de tipo académico/científico. Por ejemplo, las categorías más comunes que aparecen en los índices de materias más conocidos son automóviles, ocio, familia, deporte, y viajes, mientras que en los de carácter académico son humanidades, ciencias sociales, ciencia, tecnología y derecho. Además, los índices webs pueden adaptarse también sin dificultad a las necesidades locales o regionales, o las de un tipo específico de cliente.

El empleo de la estructura jerárquica o de clasificación en la Web es aún muy reciente. Como el número de recursos web sigue creciendo, es de esperar que se produzca un parejo crecimiento y refinamiento de los sistemas de clasificación. Quizá no resulte demasiado prematuro considerar hoy algunos de los requerimientos funcionales que sería deseable que cumplieran los sistemas de clasificación de recursos web. Estos sistemas de clasificación deberían ser:

  1. intuitivos, lógicos y fáciles de usar, con jerarquías y referencias cruzadas claramente visibles, y con entradas actualizadas y expresivas;
  2. flexibles, adaptables y ampliables, a fin de reflejar entornos diversos y en rápida evolución;
  3. útiles para un gran número de contextos, y aplicables a una amplia gama de sitios web; y
  4. relativamente fáciles de mantener y revisar.

La primera cuestión que hay que plantearse es si adaptar un esquema de clasificación ya conocido o si crearlo nuevo. Un examen de la situación actual evidencia que quienes se dedican hoy día a diseñar y construir clasificaciones de recursos web desarrollan mecanismos que se basan en el conocimiento que éstos tienen de las necesidades y hábitos de búsqueda de sus usuarios. Lo que intentamos debatir aquí es la diferencia entre dos métodos de clasificar los contenidos temáticos. Los sistemas de clasificación más conocidos presentan una disposición de los contenidos de arriba a abajo, comenzando con el universo completo o una determinada disciplina, estableciendo teóricamente las clases principales, y subdividiéndolas jerárquicamente en niveles cada vez más específicos. Este método ha sido generalmente utilizado tanto si el esquema resultante había sido desarrollado para especialistas o para un amplio grupo de usuarios diversos. El método alternativo emplea una disposición de abajo a arriba, empezando con términos o documentos específicos (páginas web en este contexto), que se agrupan y organizan, primero en un microcosmos, y finalmente, conforme la estructura se va completando, en un macrocosmos. Podemos decir que en el entorno web, donde la mayor parte de las índices de materias han sido diseñados para un público no especializado, se están haciendo actualmente importantes esfuerzos por clasificar recursos mediante el método de abajo a arriba. La cuestión de cual de los dos métodos resulta más efectivo en un entorno web no tiene una respuesta definitiva. Cada método nos conduce a un sistema que emplea la partición del dominio, una disposición general/específico, y una secuencia de materias relacionadas -características que se consideran importantes para una recuperación efectiva en una colección de recursos muy grande. Lo más probable es que el tiempo demuestre que los sistemas que emplean el método de arriba a abajo son especialmente adecuados para campos temáticos consolidados y altamente estructurados, mientras que, por otra parte, los sistemas de abajo a arriba son idóneos para el tipo de información variada y fluctuante que compone gran parte de la web. Es probable también que la metodología de abajo a arriba funcione especialmente bien en las clasificaciones web personalizadas o adaptadas a las necesidades específicas de un tipo de usuario, varios de los cuales han aparecido hace algunos meses. Un ejemplo son las Carpetas de búsqueda personalizadas (Custom Search Folders) de Northernlight, una utilidad que organiza en categorías amplias los resultados de una búsqueda concreta.

La segunda parte de este trabajo presenta un informe de un proyecto de investigación sobre el desarrollo de un mecanismo personalizado para la organización y acceso al conocimiento.

Part II: Knowledge Class (Xia Lin and Lois Mai Chan)

Propósito, Objetivos, y Especificaciones de la Knowledge class

El propósito de este proyecto de investigación es crear y evaluar un dispositivo llamado "Knowledge Class", diseñado para adaptar la organización y acceso al conocimiento a los dispositivos complementarios y suplementarios disponibles para los usuarios de la Web. En un artículo muy citado, publicado en la revista Scientific American (marzo de 1997), Clifford Lynch sugiere que "la combinación de las técnicas propias del bibliotecario y del informático puede ayudar a organizar la anarquía de Internet" En nuestro proyecto, hemos estudiado las posibilidades de combinación que ofrecen los métodos de organización del conocimiento conocidos con la avanzada tecnología web para crear un sistema que sea fácil de usar por los usuarios. Los resultados preliminares han sido publicados recientemente (Lin y Chan 1997). En este apartado resumiremos brevemente sus principales características y daremos noticia de los últimos progresos realizados.

La Knowledge Class contiene dos componentes básicos: una estructura clasificatoria y un interfaz para acceder y recuperar recursos web. La estructura clasificatoria consiste un mini-tesauro clasificado, compuesto por una colección de términos estructurados jerárquicamente y referidos a un determinado campo del conocimiento o disciplina. El interfaz funciona como un mecanismo interactivo entre el usuario y los términos de la estructura así como entre el usuario y los recursos web. Mediante este dispositivo, el usuario puede iniciar búsquedas seleccionando los términos que se muestran o usando estrategias de búsqueda almacenadas, las cuales contienen con frecuencia sinónimos y pueden conectarnos a sitios web previamente consultados con sólo hacer clic en los enlaces correspondientes.

En la Knowledge Class intentamos rescatar algunas de las ventajas que ofrecen los métodos tradicionales de almacenamiento y recuperación efectivos de la información, y aplicarlas al entorno web. Concretamente, se han considerado tres aspectos:

  1. los principios de clasificación para la organización de información y de presentación de las relaciones entre materias;
  2. las particularidades del vocabulario controlado, concretamente el control de los sinónimos y de los homógrafos, con el objeto de mejorar la exhaustividad y la precisión de la recuperación; y,
  3. las estrategias de búsqueda formuladas y almacenadas, con objeto de optimizar los resultados de las búsquedas y la actualización permanente.

Intentamos diseñar la Knowledge Class de forma que permita:

  • organizar los conceptos y términos relativos a una temática específica en una estructura lógica mostrando las relaciones entre materias;
  • el browsing de los términos de materia y de sus relaciones;
  • almacenar términos y estrategias de búsqueda para un uso futuro;
  • la adición de sinónimos para una recuperación más exhaustiva, y los calificadores para resolver la ambigüedad o distinguir los términos homógrafos;
  • realizar búsquedas usando términos y estrategias almacenadas en un motor de búsqueda determinado; y,
  • almacenar las urls de sitios web para que se puedan volver a utilizar en un futuro.

En otras palabras, esperamos llevar este servicio de información un paso más lejos, más allá incluso de lo que hasta ahora tenemos disponible. En la recuperación de información en línea, hemos puesto un especial énfasis en los resultados de la recuperación. Pero, después del proceso de recuperación, es necesario también organizar la información y "almacenarla", en cierto modo, para que pueda ser utilizada nuevamente en un futuro. Esto se puede conseguir proporcionando los medios adecuados para poder volver a visitar los sitios web consultados y, de modo igualmente importante, para volver a trazar las etapas de búsqueda que se emplearon en una consulta anterior.

Nuestros dos principales objetivos son mejorar la búsqueda por materias y la precisión de la recuperación. En una primera fase de nuestro trabajo [Lin y Chan 1997], introdujimos la herramienta del minitesauro. Aquí subrayábamos que: (1) se puede construir una estructura lógica sobre los principios de la clasificación y organización bibliográficas; (2) la estructura del conocimiento puede integrarse sin fisuras en los motores de búsqueda para acceder a recursos web; y, (3) puede construirse un interfaz gráfico de uso sencillo para soportar la interacción del usuario no sólo con la estructura organizativa sino también con los recursos relevantes que se han descubierto y recuperado mediante los motores de búsqueda.

Diseño del Sistema para la Knowledge Class

Una ventaja que ofrece la investigación sobre la Web es que los sistemas que se están experimentando pueden ser diseñados y probados en un entorno real. Nosotros comenzamos con una sencilla codificación HTML para experimentar con la Knowledge Class tal y como la habíamos concebido desde un principio. Durante la etapa de implementación y prueba, revisábamos continuamente sus funciones y le íbamos añadiendo nuevas características. Como cada vez aprendíamos más y comprendíamos más su funcionamiento, empezamos a implementarla en lenguajes más avanzados y robustos como JavaScript y Java. Es este aprendizaje paso a paso lo que ha ayudado a que la Knowledge Class evolucione.

Principios de diseño

Desde el principio, nos marcamos unas metas respecto al diseño de la Knowledge Class. El proyecto comenzó con la búsqueda de un dispositivo o sistema que proporcionara un equilibrio óptimo entre la indización automática y la indización manual, con objeto de construir la estructura clasificatoria. Nuestra primera decisión fue potenciar las ventajas que ofrece tanto la indización manual como la automática. En segundo lugar, queríamos diseñar un interfaz sencillo para la Knowledge Class. El sistema debía ser de utilidad para un amplio abanico de usuarios. Los bibliotecarios y los especialistas en información pueden crear knowledge classes para sus clientes. Los usuarios finales pueden usar la Knowledge Class como un sustituto del bookmark y del browser. Los docentes pueden utilizar las knowledge classes para agrupar las materias que enseñan y los estudiantes pueden usarlas para explorar las clases temáticas y ampliar sus conocimientos añadiéndoles más términos de búsqueda y creándoles enlaces a los recursos web que les correspondan. Queremos que todos estos usuarios sean capaces de utilizar el sistema con un mínimo esfuerzo de aprendizaje. En tercer lugar, queremos que los usuarios no tengan que aprender una sintaxis detallada para la formulación de las búsquedas, ni memorizar la página de inicio de cada motor de búsqueda, ni construir estrategias de búsquedas complejas. Aunque la Knowledge Class pone a disposición de los usuarios un minitesauro, lo que la hace realmente útil es su conexión con los motores de búsqueda. Cuanto más trabajo haga el sistema detrás del escenario, mejor. Este debe poder conectarse a los motores de búsqueda directamente, añadir automáticamente a las consultas los términos sinónimos adecuados y proporcionar diferentes estrategias de búsqueda para términos distintos. Y sobre todo, el sistema debe hacer todo esto de forma transparente a los usuarios, con objeto de que éstos se centraran en la semántica y el contenido temático cuando usaran la Knowledge Class.

Proceso Iterativo de Diseño

El diseño de la Knowledge Class se llevó a cabo en tres etapas. En primer lugar, se diseñó una estructura en HTML para incluir cuatro ventanas. La primera ventana muestra todas las ramas que componen una knowledge class. La segunda ventana es para cada una de las ramas individuales, que se muestran en una estructura arborescente desplegable. Sólo se muestra una rama cada vez. La tercera ventana es la ventana principal y sirve para mostrar los resultados de la búsqueda. La cuarta ventana sirve para mostrar y activar los motores de búsqueda. Las cuatro ventanas se presentan en una página html y se pueden cargar fácilmente en los navegadores web. En la segunda etapa, trabajamos con un grupo de estudiantes de Biblioteconomía de la Universidad de Kentucky. Cada estudiante desarrolló una kc usando la estructura básica que le proporcionamos. Durante esta etapa, llegamos a la conclusión de que era necesario desarrollar diferentes tipos de estrategias de búsqueda para las diferentes clases de búsquedas. Por ejemplo, algunos términos necesitan ser buscados como palabras individuales; otros es mejor buscarlos como una frase, mientras que otros aún necesitan ser buscados con términos contextuales adicionales extraídos de los niveles jerárquicos superiores de la knowledge class. Después de muchos ensayos y pruebas, se desarrolló un sistema de códigos para facilitar la asignación de una estrategia de búsqueda específica a cada término. Una entrada en una knowledge class presenta el siguiente aspecto:

--, Mutuas, Mutuas Fondos de inversión Empresas financieras, http://www.brill.com, 1

Hay cinco elementos en esta entrada, cada uno separado por una coma. El primero de ellos, el número de guiones, indica el nivel jerárquico de este término. El segundo es el término visualizado (que se nos mostrará en la estructura arborescente). El tercero es el término buscado; puede incluir muchos términos que son sinónimos o están relacionados con el término visualizado. El cuarto es un enlace directo; cuando está presente, aparece un icono de enlace que permite al usuario acceder de forma directa a la página web correspondiente. El último número que compone la entrada corresponde a la estrategia de búsqueda codificada. La lista completa de estrategias de búsqueda codificadas se pueden consultar en Lin y Chan (1997).

En la tercera etapa, perfeccionamos aún más el diseño mediante la implementación de una versión Java de la Knowledge Class. En esta versión, las estructuras de las ventanas se volvieron a diseñar a fin de hacer más fácil el paso de una rama a otra sin necesidad de recargar toda la página. Aprovechando las ventajas que, desde un punto de vista gráfico, ofrece Java, situamos en una estructura sucinta lo que anteriormente teníamos que repartir en tres ventanas separadas: todas las ramas de la knowledge class, las estructuras arborescentes de cada rama y los motores de búsqueda de la knowledge class. Con el espacio de la pantalla que nos quedó libre, podíamos añadir otro diseño para visualizar los datos -así hemos creado una lista de todas las knowledge classes. Otra importante mejora de esta versión es que los ficheros del programa y los ficheros de datos están separados. En las primeras versiones, el JavaScript y las entradas del minitesauro tenían que residir en la misma página html, con lo que resultaba difícil para el usuario realizar modificaciones o cambios en el minitesauro sin tener un buen conocimiento de JavaScript. Con Java, la parte de programación está completamente compilada y separada de los datos propios del minitesauro. El usuario puede crear, añadir o modificar cualquier contenido y estructura en los ficheros de datos sin necesidad de conocer los programas.

Soporte multilingüe

Mientras estábamos diseñando la estructura de datos, encontramos otra ventaja en separar los términos visualizados y los términos de búsqueda. Nuestra intención original era hacer más flexible la conexión a los motores de búsqueda y la construcción de las sentencias de búsqueda. Nos dimos cuenta de que esta particularidad era especialmente útil para el desarrollo de knowledge classes multilingües.

Mientras se construía una knowledge class en Gales, uno de nuestros estudiantes desarrolló un minitesauro bilingüe clasificado con términos en inglés y galés. Esta estudiante quería que, para las páginas que mostraban los términos galeses, las búsquedas se pudieran hacer en ambas lenguas. Esto es fácil de implementar separando los términos visualizados y los términos de búsqueda -esta estudiante sólo incluyó en la knowledge class términos en inglés y en galés, y los motores de búsqueda podían buscar páginas web en ambos idiomas. Nuestra evaluación demostró que es un método muy efectivo para ofrecer soporte multilingüe. Un ejemplo de una knowledge class multilingüe es Medicina Alternativa y Complementaria (CAM), que muestra, en lengua china, la parte de la Medicina correspondiente a la Medicina China. Nosotros desarrollamos esta rama en dos, Inglesa y China (GB), y le asignamos enlaces para ir de una a otra. En la versión china, cada término de búsqueda incluye términos equivalentes en inglés y chino. Así, para los motores de búsqueda que acepten los códigos CG chinos, los resultados de búsqueda incluirán páginas inglesas y chinas. Encontramos que esta knowledge class es particularmente útil para los investigadores y estudiosos que tienen un conocimiento limitado de una determinada lengua, pero quieren tener acceso a materiales escritos en esa lengua. Por ejemplo, los investigadores americanos en medicina tradicional china normalmente tienen algún conocimiento de dicha lengua, pero no se sienten lo suficientemente cómodos para formular búsquedas en ella. Usando esta knowledge class, éstos pueden buscar los términos en la versión inglesa y conectarse a continuación a la versión china para recuperar la información, o pueden seleccionar los términos en inglés y recuperar recursos relevantes en chino. Este aspecto hace que el acceso multilingüe a los recursos web sea posible y eficiente.

Knowledge Class es un proyecto en curso que queremos seguir perfeccionando, convirtiéndolo en una herramienta útil para el acceso por materias a los recursos web. Creemos que, para lograr una recuperación eficaz, los recursos web deben estar organizados en "unidades de información", no en páginas individuales físicamente separadas. Es parecido a lo que ocurre con la catalogación en las bibliotecas: por motivos de manejabilidad y eficiencia catalogamos una monografía o una publicación periódica, pero no llegamos a catalogar capítulos o artículos individuales. Precisamente estamos confeccionando la Knowledge Class para crear estas "unidades de información". Con este mecanismo, los usuarios encontrarán primero unidades de información relevantes y, sólo después obtendrán acceso a las páginas web concretas.

Los planes que nos hemos trazado para el futuro son:

1. Esperamos convencer a más personas para que creen knowledge classes referidas a una amplia variedad de temas. Suministraremos software gratuito para fomentar la cooperación. Concretamente esperamos contar con la participación de más profesionales de la información, bibliotecarios, especialistas en la gestión de información, y estudiantes y profesores de las Escuelas y Facultades de Biblioteconomía. Cuando contemos con más gente, podremos formar una Comisión de Asesoramiento, que guíe y revise el proceso, a fin de garantizar la calidad de las knowledge classes en la colección.

2. Tenemos la intención de crear guías impresas tanto para los propios profesionales de la información como para los usuarios finales que estén interesados en usar las knowledge classes. Para los profesionales, se pondrá el énfasis en cómo aplicar los principios y técnicas de clasificación y recuperación de la información a la creación de knowledge classes, y en cómo adaptar diferentes estrategias de búsqueda a las diferentes entradas. Para los usuarios finales, el énfasis se pondrá en cómo modificar una knowledge class existente para adaptarla a los intereses particulares.

3. Pretendemos perfeccionar más el software. Actualmente, los datos tienen que editarse en un programa editor de textos y los usuarios no pueden modificar las estrategias de búsqueda en línea. En la próxima versión, el usuario dispondrá de herramientas que le permitan añadir términos a las entradas en la estructura jerárquica, añadir sinónimos a la lista de términos de búsqueda, cambiar las estrategias de búsqueda, etc. Se desarrollará también una función de edición, de modo que la knowledge class completa pueda diseñarse y probarse en un entorno gráfico.

Parte III: Una aproximación multilingüe al acceso por materias (Marcia Lei Zeng)

El uso de diferentes lenguas en la representación de los datos en la Web permite plantear y reclamar una solución al problema con que se encuentran aquellos usuarios que han de tratar simultáneamente con idiomas que conocen y con idiomas de los que no poseen ningún conocimiento. En el pasado, la mayoría de los motores de búsqueda estaban orientados a la indización de páginas escritas en idiomas de los países del Oeste de Europa. Casi todos los interfaces de búsqueda estaban en inglés y con frecuencia incluían noticias y otros eventos de interés para el público americano. Como las conexiones a Internet se van haciendo más generales y las intranets invaden las redes institucionales, el contenido de los datos disponibles está creciendo radicalmente. Desde 1998, los motores de búsqueda en la World Wide Web se han introducido en una carrera de competencia por lograr la globalización y localización. El proceso multilingüe aparece como una clave en la evolución de la tecnología del motor de búsqueda.

Los servicios de orientación multilingüe de los grandes motores de búsqueda

Para atender a una población multilingüe y multicultural en de todo el mundo, los grandes motores de búsqueda, como Altavista, Excite, HotBot, InfoSeek, y Yahoo!, han desarrollado nuevos servicios que funcionan como guías de búsqueda regionales. Esta son las siguientes:

Filtrado de dominio. Normalmente cada país tiene su propio dominio en Internet (p.e., uk para el Reino Unido). La manera más sencilla de crear una guía de contenido regional es hacer un filtrado de dominios. Los resultados se toman normalmente de las listas principales, sólo que se hace un filtrado por dominios. Los servicios más representativos son Global Excite (que incluye Australia, China, Francia, Alemania, Italia, Japón, Holanda, Suecia y Reino Unido), InfoSeek International (que cubre Brasil, Dinamarca, Alemania, España, Francia, Italia, Japón, Méjico, Holanda, Suecia, y Reino Unido), y Lycos in (que abarca Alemania, Reino Unido, Francia, Holanda, Italia, Suiza, Bélgica, Suecia, España, Japón y Corea).

Detección de dominio. En este caso, el motor de búsqueda detecta el país desde el que se conecta un cliente y, en función de esto, presenta una página predeterminada con una información concreta.

Sitios Espejo (Mirror Sites) . Son los sitios web de motores de búsqueda que se localizan fuera de los Estados Unidos. Estos pueden dar respuestas de manera más rápida, ya que no dependen del enorme tráfico de comunicaciones de los Estados Unidos y no les afectan los problemas de las largas distancias o de cruzar del océano.

Búsquedas en un idioma concreto. Algunos servicios trascienden las fronteras nacionales y están dirigidos a todos los que hablan una lengua común. Altavista y Nothern Light ofrecen tales servicios, permitiendo buscar documentos escritos en una determinada lengua. Esto es diferente al filtrado de dominio (donde las búsquedas están limitadas a un código de dominio nacional) ya que se basa sólo en el contenido de los documentos. Altavista almacena en un índice información de las páginas escritas en los diferentes idiomas, independientemente del juego de caracteres en que estén escritos.

Búsqueda multilingüe. Altavista también ofrece la posibilidad de realizar búsquedas multilinguües mediante su módulo "One World," que va especialmente dirigido a aquellos que hablan lenguas asiáticas. Básicamente, Altavista traduce cualquier página que encuentra a Unicode, que puede almacenar caracteres de todos los idiomas. El usuario puede solicitar una traducción de una sentencia de búsqueda, o de una página web completa, y del idioma -o al idioma- que quiera buscar o leer.

Interfaces regionales. Crear un interfaz regional puede ser tan fácil como presentar un mismo motor de búsqueda en la lengua de un determinado país. Hay varias formas de ofrecer este servicio. En el caso de directorios temáticos, los usuarios pueden visualizar a veces una página completa traducida del inglés, sin cambios de contenido o de ordenación de las categorías. En otros casos, los usuarios visualizan un directorio bilingüe, por ejemplo, un directorio de materias en inglés y japonés. Mostrar un directorio en lengua japonesa, requeriría tener cargado un juego de caracteres locales en la máquina cliente. Para solucionar esto, algunos directorios proporcionan un visualizador basado en imágenes gráficas. Los interfaces regionales pueden tener también contenidos y presentaciones distintas.

Directorios locales de materias. En lugar de usar interfaces regionales que pueden ser el resultado de transliterar o traducir una versión general o americana de un directorio temático, los directorios locales de materias ofrecen versiones especialmente pensadas para reflejar temas de interés local. Esto se consigue utilizando la misma lengua en todo el directorio, definiendo y denominando categorías que estén basadas en convenciones locales, presentando las categorías ordenadas según su interés desde un punto de vista local e incluyendo categorías que reúnan contenidos de interés local. World Yahoo! ofrece 19 versiones de su directorio, abarcando América, parte de Asia y Europa.

Directorios temáticos web en un entorno multilingüe

En la introducción de este trabajo, la profesora Chan enumeraba los principales puntos que deben tenerse en cuenta a la hora de diseñar un sistema útil de clasificación de recursos web. Estas son: el alcance de la disciplina y el nivel de jerarquía, definición y denominación de las categorías, estructura lógica, definición precisa de facetas, orden de entrada, clasificación cruzada, índice alfabético, terminología de las entradas y notación. De entre los motores de búsqueda y directorios temáticos más conocidos, Yahoo! ha sido el líder de los clasificadores web, con una aplicación satisfactoria de la estructura de clasificación a todo su servicio. Hace aproximadamente un año, otro importante motor de búsqueda también aplicó la metodología de los directorios de materias a su clase "folclore." Un examen de los servicios que están funcionando y que se basan en los puntos fundamentales que la profesora Chan ponía de manifiesto, revela que estos servicios emplean metodologías bien distintas. Esta sección de nuestro artículo se dedica a analizar las particularidades que algunos motores de búsqueda presentan respecto al procedimiento de búsqueda multilingüe. La mayoría de los ejemplos corresponden a los directorios de World Yahoo! y fueron consultados el 12 de febrero de 1999, aunque muchos de las características que vamos a comentar a continuación también están presentes en otro motores como Northern Light y Infoseek.

1. Alphabetical arrangement of categories

World Yahoo! ofrece casi 20 versiones de su directorio para diferentes países y regiones del mundo. El directorio divide la totalidad de los recursos en 14 categorías principales. Los nombres de algunas categorías y la cobertura de las versiones del directorio en lengua no inglesa pueden diferir con respecto a las de la versión general (también conocida como versión americana). Puesto que en la clasificación Yahoo! no se utiliza ningún tipo de notación, las categorías y subcategorías están dispuestas por orden alfabético. No se ha aplicado ningún orden de tipo lógico o sistemático, por lo que será siempre obligatorio realizar un browsing completo de las categorías para localizar una materia concreta en Yahoo!. Esto produce inevitablemente una inconsistencia de orden en las versiones no inglesas de Yahoo!. Las versiones española, francesa, italiana y alemana podrían presentar las categorías ordenadas de un modo diferente, con arreglo a sus propios usos lingüísticos. Para los idiomas que no proceden del latín, como el chino tendrían diferentes sistemas de ordenación: ni alfabética, ni sistemática.

2. Aplicación del Principio de Justificación Documental (Literary Warrant Principle)

Los directorios temáticos web siguen básicamente el principio de justificación documental. El nivel de especificidad de la jerarquía en un directorio web depende de la cantidad de información que existe sobre una determinada disciplina. Yahoo! puede dividir las subcategorías en tres niveles jerárquicos (p.e., Arte: Diseño: Teoría del color) o en nueve niveles (p.e., Negocios y Economía: Compañías: Ordenadores: Software: Internet: World Wide Web: Editores HTML: MS Windows: HTML Assistant). El principio de justificación documental también determina la inclusión o exclusión de áreas subordinadas a un área temática determinada. Cuando un usuario utiliza los directorios regionales de Yahoo!, tiene la opción de limitar los resultados sólo a una región seleccionada. Por ejemplo, cuando usamos el directorio Yahoo! UK & Ireland, podemos pedir que una búsqueda se limite únicamente a Gran Bretaña. A este respecto es muy común ver diferentes niveles de profundidad jerárquica y diferente número de categorías subordinadas en los resultados finales, pues así vienen determinados por la situación práctica de los sitios web de esa región. (Puede verse a este respecto las entradas que aparecen bajo "Religiones: Creencias y Práctica religiosa" en los distintos directorios regionales Yahoo!) Las áreas temáticas relacionadas con la cultura, la sociedad, la política y las leyes, los negocios, la salud, etc. representan los campos que reciben un tratamiento más dinámico desde el punto de vista del principio de justificación documental.

3. Flexibilidad para reflejar temas de interés local

Al tratar de encontrar una estructura de clasificación única y normalizada, los directorios temáticos web han mostrado muchas posibilidades para reflejar temas de interés local. En primer lugar, las categorías principales se pueden colocar en una posición destacada cuando se requiere. Normalmente, todas las categorías principales se muestran ordenadas alfabéticamente en lugar de lógicamente. Sin embargo, durante la celebración de la Copa del Mundo de Fútbol, Yahoo! Francia situó la categoría DEPORTE en un primer plano, con la entrada de "Copa del Mundo" en una posición destacada. En segundo lugar, las entradas subordinadas que aparecen debajo de cada categoría principal varían según el país y según la época del año en que nos encontremos. (véanse a este respecto las diferentes entradas subordinadas que aparecen bajo Arte y Humanidades en los directorios regionales Yahoo!). Por ejemplo, bajo la categoría principal Arte y Humanidades, los directorios regionales dan prioridad a que las entradas subordinadas se muestren en posiciones destacadas. Estas entradas subordinadas fueron elegidas de entre docenas de ellas en la clasificación. La elección varía en los diferentes servicios regionales. Es importante señalar que las entradas subordinadas que aparecen debajo de las categorías principales pueden no ser las subordinadas inmediatas a éstas. (Véanse los ejemplos de "moda", "literatura" y "fotografía" en los directorios regionales Yahoo!) La prioridad que se da a estas entradas subordinadas refleja el énfasis que se pone en aquellos aspectos o temas que son de interés local, e indica la flexibilidad con que los niveles jerárquicos y las relaciones de "pertenencia" se pueden romper cuando una materia/tema es considerada más importante que la posición lógica que ocupa dentro de la clasificación. Otro fenómeno interesante que hay que señalar es el tratamiento que se da al nombre de cada categoría. (veánse las subordinadas que aparecen debajo de Negocios y Economía en diferentes directorios regionales Yahoo!). Es curioso observar también cómo se tratan estos nombres. En la presentación formal de la categoría Negocios y Economía, se ha utilizado "Empleo" en lugar de "Trabajo" y "Finanzas e Inversiones" en lugar de "Finanzas" o "Inversión". Un análisis del directorio nos revela más ejemplos parecidos. Esto significa que no siempre se sigue una norma estricta para mostrar las entradas subordinadas de acuerdo a su nombre "oficial".

En tercer lugar, en los directorios temáticos web, existen muchos procedimientos de clasificación cruzada. Por ejemplo, "Impuestos" aparece bajo 93 categorías cuando realizamos una búsqueda en todo Yahoo!, 122 categorías cuando la búsqueda se hace sólo en Canadá, 5 en Gran Bretaña, 2 en Australia, 1 en Singapur y 0 en Hong Kong. Para saber si "Impuestos" es un tema de interés local, deberemos fijarnos en la posición que ocupa dentro de la lista de entradas de la categoría principal. En los ejemplos anteriores, "Impuestos" aparece en un lugar destacado bajo la categoría Negocios y Economía del directorio Yahoo! Uk & Ireland. También aparece bien situado bajo la categoría Gobierno en el directorio Yahoo! americano, junto con Ejército, Política y Leyes, lo que indica la importancia de esta materia en la actividad del actual gobierno de los Estados Unidos.

4. Limitaciones de los métodos de búsqueda basados en el análisis lingüístico

A excepción de Yahoo!, que permite realizar búsquedas por el nombre de los creadores de las páginas web, y que posee su propio equipo de trabajo para evaluar las descripciones de los sitios web de un modo manual, la mayoría de los motores de búsqueda emplean un procedimiento automático de carácter lingüístico para ponderar o agrupar (to cluster) recursos web, procedimiento que se basa en metaetiquetas (tales como términos de materia, palabras clave, etiquetas de resúmenes que aparecen en la cabecera del documento), los títulos de las páginas y las frecuencias de aparición las palabras. La limitación de este método de ponderación y agrupación (clustering) en un entorno de lengua no inglesa es obvio. Las páginas web que no están escritas en inglés pueden proporcionar metadatos y títulos en inglés, pero la búsqueda y visualización basados en estos elementos dará como resultado la mezcla de documentos escritos en inglés y la de documentos escritos en otras lenguas. En la mayoría de los casos, sin instalar los juegos de caracteres adecuados, un navegador no podrá leer, digamos, caracteres propios de las lenguas del este asiático. Por lo tanto, la visualización de diferentes lenguas sólo supone una pérdida de tiempo para el usuario, ya que no puede leer o entender ninguno de los contenidos a los que le llevan esos enlaces.

Además de esto, muchos motores de búsqueda usan el método de la frecuencia de palabra como un parámetro fundamental para la identificación y clasificación del contenido de las páginas web. La utilidad "Refine" de Altavista utiliza la teoría del clustering automático basado en la frecuencia de aparición de las palabras. Los documentos se agrupan automáticamente a partir del análisis del grado de similitud existente entre las palabras que se buscan y las que aparecen en el documento. Los resultados se muestran mediante una lista que contiene los términos agrupados con arreglo a su frecuencia de aparición, o mediante un mapa que representa los términos y sus relaciones. El usuario puede refinar más una estrategia de búsqueda incluyendo o excluyendo grupos concretos de palabras, de modo que puede lograr un alto índice de precisión. No obstante, esta utilidad está limitada a los documentos escritos en inglés y en algunas lenguas occidentales (p.e. el chino). Aunque Altavista permite realizar búsquedas por una determinada lengua, esta utilidad sólo está disponible para el tipo de búsqueda simple y no para la búsqueda "Refine."

Northern Light ofrece una utilidad conocida como "Carpetas de búsqueda personalizadas" (Custom Search Folders) que permite refinar las estrategias de búsqueda. El servicio garantiza que las carpetas no están pre-determinadas, como ocurre con otros directorios web. Más bién, cada vez que realizamos una búsqueda a Nothern Light, se crean una serie de carpetas basadas en esa búsqueda concreta. El usuario puede seleccionar las materias, tipos de material, fuentes e idiomas que desee explorar. Basándose en el número de documentos que contenga cada carpeta y su relevancia con respecto a la consulta, el motor de búsqueda determina y sugiere que carpeta es la más útil para el usuario. Sin embargo, y hasta el momento, este servicio sólo atiende consultas en cinco lenguas occidentales.

Conclusión

El camino que conduce hacia un acceso temático multilingüe completamente funcional es igualmente optimista y complejo.

Resumiendo, podemos decir que ha habido una creciente necesidad de contar con mecanismos efectivos para organizar los recursos web y permitir su exploración, descubrimiento y recuperación. El enfoque multilingüe al acceso por materias, como demuestran los principales motores de búsqueda y directorios, ha explorado varios medios de implementación de estructuras jerárquicas o clasificatorias. Estos nuevos servicios han evolucionado también más allá de los convencionalismos de la clasificación tradicional. Con la ventaja de almacenar una clasificación fuera de los propios recursos o de sus sustitutos documentales, estos servicios basados en la web pueden ser muy flexibles para ordenar y mostrar categorías y sus relaciones, así como para reflejar temas de interés local en un directorio de materias. El principio de justificación documental es completamente funcional en la práctica de los directorios temáticos web. Aún hay muchas limitaciones en el procesamiento multilingüe de las clasificaciones y los métodos de clustering automático. Cómo garantizar al mismo tiempo la globalización y localización en un entorno multilingüe y multicultural? La pregunta permanece sin constestar por parte de la teoría y tecnología disponibles.

Traducido por: Jesús Jiménez Pelayo

Referencias

Batty, David. (1998) WWW -- wealth, weariness or waste: controlled vocabulary and thesauri in support of online information access. D-Lib Magazine (http://www.dlib.org/dlib/november98/11batty.html).

Chan, Lois Mai. (1995). Classification, present and future. Cataloging & Classification Quarterly, 21(2), 5-17.

Koch, Traugott, Michael Day, and others. The role of classification schemes in Internet resource description and discovery. ({hyperlink http://www.ukoln.ac.uk/metadata/desire/classification/)}

Lester, Dan. (December 1995). Profile of a Web database," Database 46-50

Lin, X. & Chan, L. M. (1997). Knowledge Class - A dynamic structure for subject access on the web. Proceedings of the 8th ASIS SIG/CR Classification Research Workshop. (November 1, Washington, D.C.). pp. 31-40.

Lynch, Clifford Lynch. (1997). Searching the Internet. Scientific American 276(3), 52-56.

Search engine watch. Compiled by Danny Sullivan. Retrieved February 12, 1999 from the World Wide Web: {hyperlink http://searchenginewatch.com/ }

Vizine-Goetz, Diane. Using library classification schemes for Internet resources

(http://www.oclc.org/oclc/man/colloq/v-g.htm)

*    

Latest Revision: June 17, 1999 Copyright © 1995-2000
International Federation of Library Associations and Institutions
www.ifla.org