Filología e informática. Nuevas tecnologías en los estudios filologicos, José Manuel Blecua et al. (eds.), editorial Milenio / Universidad Autónoma de Barcelona, 1999. 494 págs.

Pedidos a
ed.pages.editors@cambrescat.es

Estudio de un caso:
estación lexicográfica

José Antonio Millán

 

Apartado C del capítulo "Las estaciones filológicas"

 

En la tarea de confección de diccionarios se pueden reconocer las siguientes etapas (adaptado de Logan, 1991):

  1. recopilación de datos
  2. ordenación y preparación de las entradas (lo que incluye lematización y reconocimiento de homógrafos)
  3. subdivisión de las citas según su sentido, para cada lema
  4. edición: redacción de las definiciones; selección de los ejemplos definitivos (o tal vez su supresión total)
  5. inclusión de abreviaturas y marcas.

En la actualidad (y a diferencia del gabinete de Murray que abría este artículo) en soporte electrónico pueden estar los textos de donde se extraerán los ejemplos, los ejemplos mismos seleccionados, los distintos estadios de redacción de la nueva obra y las obras de consulta. Juntos, podrían configurar una "estación lexicográfica" como la que pedían hace una década Calzolari, Picchi y Zampolli (1987): "un conjunto de diferentes fuentes de conocimiento (corpus textuales, antiguas fuentes lexicográficas, diccionarios preexistentes, referencias bibliográficas, etc.) disponibles por línea (1) y accesibles por medio de herramientas de software adecuadamente diseñadas".

Muchos de los problemas relacionados con las fuentes y con el proceso de edición son comunes al trabajo filológico general, y se han tratado a lo largo del apartado A. Ahora me centraré en aspectos más propiamente lexicográficos. Para ello utilizaré la experiencia de la creación de la edición electrónica del DRAE (Millán y Millán, 1995).

1. La experiencia del DRAE

El trabajo con la edición electrónica del DRAE no fue en rigor una labor de creación lexicográfica, aunque sí planteó muchas de las cuestiones que ésta conlleva.

En la primera etapa, el texto íntegro del diccionario se exportó desde las cintas de fotocomposición al sistema de desarrollo, se limpió (2) y se imprimió en pruebas sobre papel, que fueron leídas por un equipo de correctores tipográficos. Esto garantizaba que en el proceso de trasvase no se producían pérdidas.

Por otra parte, y también sobre el papel (3), se localizó un abundante conjunto de elementos de todo tipo que se proponían como candidatos a la recuperación automática. La base de datos así constituida se montó sobre un programa de gestión de bases de datos, y se desarrolló la herramienta de consulta y modificación que permitía a los operadores un acceso controlado a la base de datos, y que constituía la estación lexicográfica propiamente dicha. La herramienta se diseñó especialmente para esta tarea (4).

2. Estación lexicográfica

Los fines de la herramienta desarrollada eran "acceso controlado" más "apoyo para los operadores". Se pretendía que el usuario de la estación:

a) no pudiera corromper los datos por error o inadvertencia

b) tuviera sin embargo posibilidad de modificar los aspectos que exigía su intervención

c) pudiera llevar a cabo toda una serie de consultas como apoyo para su tarea

La estación funcionaba con dos tipos de representación de los datos: la normal y la representación interna. Las intervenciones se hacían sobre la visión normal del texto. Para determinadas tareas también tenía la capacidad de mostrar su forma interna (5) (en la que, por ejemplo, un carácter acentuado se resolvía como código de carácter más código de acento). Además existía un conjunto de operaciones predeterminadas, para facilidad del usuario de la estación, como luego detallaremos.

Las intervenciones que controlaba la estación eran de tres tipos:

  1. corrección del texto (erratas del original, artefactos de la transmisión...)
  2. creación de enlaces hipertextuales al servicio de las remisiones internas
  3. etiquetado del texto

La operación 1 se llevaba a cabo directamente sobre la representación interna del texto. Las operaciones 2 y 3 se resolvían mediante instrucciones predeterminadas que introducían los correspondientes códigos de forma automatizada.

2.1. Enlaces hipertextuales

En los diccionarios electrónicos las remisiones internas se resuelven como enlaces hipertextuales (6). La edición del DRAE se proponía que hubiera un enlace desde cada remisión a su punto de destino, y en la estación esto se resolvía semiautomáticamente.

La herramienta podía reconocer las remisiones dentro del cuerpo de la definición (por estar en negrita) y proponía un punto de destino. El operador tenía las siguientes opciones: validar la propuesta, buscar una alternativa, o señalar una duda o anomalía. Por ejemplo, s.v. plata se podían leer las siguientes remisiones:

4. V. batidor, bodas, dineral, ducado, edad, librillo, litargirio, maestre, maravedí, papel, real, siglo de plata.

La herramienta propondría para la primera el destino batidor, ra y buscaría la primera aparición de "plata", localizando así la forma compleja "de plata", que el operador validaría. Para la segunda, la herramienta reconocería el plural y llevaría a la entrada boda, que el operador también validaría como destino. Por último, la herramienta señalaría que en real 1 no está presente "plata", y propondría explorar real 2.

2.2. Etiquetado

Las etiquetas de la edición electrónica del DRAE correspondían a un conjunto desarrollado específicamente para la aplicación, orientado a la recuperación de información léxica y a veces gramatical por parte del usuario final. Las etiquetas se aplicaban siempre a palabras completas, y el universo de etiquetas aplicables dependía de su destino: había etiquetas para abreviaturas, para el texto de la etimología o para el texto de la definición. La herramienta controlaba que se asignaran sólo a palabras (y no, por ejemplo, a partes de palabras) y que no se asignaran etiquetas pertenecientes a ámbitos no aplicables. Por último, permitía, también de forma controlada, crear nuevas etiquetas. Para gestionar estas tareas permitía llevar paralelamente un tesauro. Trataremos más detenidamente esta función en el apartado siguiente.

2.3. Consulta

Además, se contaba con las herramientas periféricas de consulta. Estas coincidían grosso modo con las posibilidades normales de la versión 1.0. del CD-ROM del DRAE (7): acceso a palabras, a abreviaturas, a etiquetas, a categorías de las etiquetas..., todas ellas con posibilidad de combinación mediante operadores booleanos y de determinación del contexto. Su fin era claro: poder examinar decisiones tomadas en cualquier punto del diccionario, como fuente para la solución de un problema nuevo. En el apartado siguiente podremos ver un ejemplo.

Por último, había una útil capacidad, recomendable para cualquier estación de trabajo: sus operadores podían añadir notas a sus intervenciones, firmarlas y además asignarles un título. El objeto era acumular las dudas o las consultas, y poder resolverlas según tipología (por ejemplo, todas las dudas que tuvieran que ver con la marca de materia) o por autor (por ejemplo, todas las consultas generadas por el operador X).

3. Un modelo de funcionamiento

En este apartado voy a extrapolar algunas de las funciones de la herramienta de desarrollo de la versión electrónica del DRAE para imaginar cómo podría aplicarse a una tarea lexicográfica concreta: la revisión de las marcas de un diccionario preexistente. Supongamos que su texto está sobre soporte electrónico, y que tenemos identificadas como etiquetas todas las marcas primitivas (gramaticales, de uso, geográficas...) del conjunto.

En primer lugar, no haría falta que el conjunto final de etiquetas estuviera predefinido, salvo en sus tipos (etiquetas de categoría gramatical, de ámbito geográfico, etc.) Precisamente una de las tareas fundamentales de la estación lexicográfica puede ser asignar etiquetas a un texto, y establecer relaciones jerárquicas entre ellas, con el fin de resolver posteriormente problemas de unificación, de selección de rasgos a los que el usuario pueda tener acceso, etc.

Nuestra estación de trabajo resolvía esta cuestión mediante tres módulos complementarios:

a) un gestor de tesauros, que permitía, para cada etiqueta preexistente o de nueva creación, integrarla en un tipo o tipos clasificatorios (de nuevo, ya fueran preexistentes, o creados ad hoc). Estos tipos clasificatorios, que agrupaban a conjuntos de etiquetas, podían ser a su vez etiquetas o no.

b) un creador de nuevas etiquetas

c) un asignador de etiquetas a palabras o conjuntos de palabras

Veamos un ejemplo en extenso: supongamos que estamos trabajando para unificar las marcas de uso. Por una parte, tendremos la abreviatura de "vulgar": "vulg.", con apariciones como ésta:

agüela.

1. f. ant. y vulg. abuela.

Pero por otro lado, hemos localizado (a través de la herramienta de búsqueda de palabras) apariciones de palabras como "vulgarmente", candidatas a encubrir una marca de uso. Efectivamente:

Aquí

5. Vulgarmente, se usa para presentar personas cercanas a quien habla. AQUÍ Pepe, mi compañero de oficina.

Supongamos que asignamos a ambas la misma etiqueta "vulgar", conservando subyacentemente el hecho de que en un caso se aplica a una abreviatura y en otro a una palabra (8). Igualmente prescindiremos en este estadio de unificar formulaciones alternativas (como "popularmente" o "en el habla popular", etc.). Lo que de momento nos interesará es marcar de modo accesible toda una serie de fenómenos afines, con el fin de darles después la forma más adecuada.

En este estadio del proyecto podemos no saber qué estructura definitiva daremos a esta serie de etiquetas de uso, pero provisionalmente nuestro tesauro de categorías puede tener la siguiente estructura

uso

vulgar

abreviatura

no abreviatura

Pero hemos localizado también otra interesante serie de marcas de uso: "malsonante", "grosero", "popular", "estudiantil", "infantil", "dialectal"... Parecen apuntar dos grandes categorías, que reflejamos provisionalmente así en el tesauro.

uso

variantes desprestigiadas

vulgar

malsonante

grosero

...

variantes socialmente marcadas

estudiantil

infantil

dialectal

...

La herramienta nos dará acceso a las entradas que contengan una determinada etiqueta terminal (en cursiva en la relación anterior), o a las entradas que contengan un conjunto de etiquetas dominado por un nodo común. Es decir: podremos pedir las palabras etiquetadas como "grosero", las incluidas en "variantes socialmente marcadas", o incluso "todas las que tienen marcas de uso". A partir de ahí puede comenzar la tarea de unificación de redacción y tipográfica. Igualmente, y si el diccionario va a tener explotación electrónica, esta estructura sirve de base para diseñar el tipo y profundidad de acceso que va a tener el usuario final.

Pero todavía más: se puede hacer uso de la búsqueda con operadores booleanos para explorar zonas del léxico susceptibles de marcado. Supongamos una consulta como "verbos transitivos que contengan en su definición las palabras hurtar, robar o estafar y que no tengan una marca de uso como variante desprestigiada". Si hiciéramos semejante búsqueda en el cuerpo del DRAE (9), obtendríamos una serie de 49 verbos, entre los que no faltarían buenos candidatos a llevar una marca de uso, como arrapar, cangallar, despabilar, escamotear, limpiar, pillar, pulir, soplar...

 

NOTAS

1 La expresión inglesa on line hace referencia tanto a la comunicación entre aplicaciones conectadas (que era el sentido en la época del artículo citado) como a la conexión remota (sentido más moderno, y que es con el que se ha utilizado en este capítulo).

2 No es el objeto directo de estas páginas, pero no puedo dejar de señalar que el proceso de convertir unos códigos de composición en un texto electrónico limpio no es de ninguna manera una cuestión baladí. Entre otros problemas, los códigos de fotocomposición presentaban sinonimia, redundancia (código de alfa acentuada, más código de acento, por ejemplo), asistematicidades (código de acento antes o después del carácter, por ejemplo), polimorfismo, etc. Además, había que eliminar la información al servicio de la puesta en página (roturas de palabra, de columna o de página). Por no mencionar la aparición de informaciones quizás no desdeñables, pero de escasa utilidad para nuestros fines, como el nombre del teclista que en su momento escribió el fichero.

3 La facilidad de manejo y la visión de conjunto que proporciona una cómoda impresión en papel (con un tamaño de letra grande, y buenos márgenes) no la supera por el momento ninguna presentación en pantalla.

4 La programó Rafael Millán en C++, con interfaz en Visual Basic. La base de datos funcionaba con el motor de datos Jet de Microsoft.

5 Que a su vez estaba también lejos de la representación binaria.

6 Me refiero, claro está, a las adaptaciones electrónicas de los diccionarios tradicionales. No es éste el lugar para plantear los numerosos problemas y retos que ofrece la elaboración de un diccionario directamente para uso electrónico (he explorado brevemente esta cuestión en Millán (1996b).

7 Para un resumen, véase el capítulo 1 del Manual de instrucciones, Millán (1995).

8 Las abreviaturas en el contexto de la tipografía sobre papel, y muy especialmente de los diccionarios, son procedimientos de ahorro de espacio, aunque también pueden tener funciones sinópticas y ergonómicas. El diseño de obras de consulta especialmente concebidas para funcionar electrónicamente supondrá por fuerza una revisión del papel de las abreviaturas.

9 En la Versión 1.0. del DRAE electrónico (Millán y Millán, 1995), esta sería una búsqueda múltiple formulada así: "A(categoría gramatical/verbo/tipos/transitivo) y (P(hurtar, T) o P(robar, T) o P(estafar, T)) y no A(usos: materia y nivel/variantes desprestigiadas)".

salida