Una introducción al TEI-XML

¿Qué es el XML?


XML son las siglas de Extensible Markup Language (Lenguaje de Marcado Extensible).

Es extensible porque es un lenguaje que sirve para escribir otros lenguajes.

Es un lenguaje de marcado, como HTML, no un lenguaje de programación. En otras palabras, se utiliza para estructurar y describir datos, no para hacer cosas.

Es una plataforma independiente y legible por humanos. Los archivos XML son archivos de texto plano.

Se usa comúnmente para transportar o intercambiar datos entre sistemas, incluidos aquellos que pueden tener diferentes formatos internos.

Para obtener más información, consulte el tutorial clásico sobre XML de W3Schools.

¿Qué es el TEI-XML?

TEI-XML es una implementación de XML diseñada para describir textos escritos. Fue desarrollado y mantenido por Text Encoding Initiative, un consorcio internacional de académicos. Se puede encontrar la especificación completa para el estándar actual (P5) en el sitio web de TEI. Usaremos un subconjunto de los elementos disponibles en ese estándar.

¿Cómo está estructurado el TEI-XML?

La siguiente explicación extrae ejemplos de TEI-XML, pero, por supuesto, todo lo que se dice aquí es cierto para el XML en general, ya que TEI-XML es una implementación del XML.

Los elementos

TEI-XML está formado por elementos que aparecen en pares. El elemento de apertura y el elemento de cierre son idénticos, excepto que el elemento de cierre comienza con una barra inclinada hacia adelante. Por ejemplo:

<name>fray Bartolomé de las Casas</name>

Algunos elementos no contienen datos, sino que simplemente señalan un lugar en el texto, por lo que nos referimos a estos como “elementos vacíos”. Consisten solo en el elemento de apertura con la barra inclinada hacia adelante al final (esencialmente son los elementos de apertura y cierre combinados en uno). Por ejemplo el siguiente elemento señala el final de un renglón de texto:

<lb/>

Los atributos

Los elementos pueden tener atributos, que van después del nombre del elemento, y están unidos a sus valores por un signo de equivalencia (=). El valor de un atributo debe aparecer entre comillas dobles. Por ejemplo:

<pb n="1"/> 

es el elemento con el que comenzamos una página, y el valor del atributo n (abreviatura de número) indica que esta es la página 1.

Los comentarios

Podemos agregar comentarios a un archivo XML en el siguiente formato:

<!-- el texto del comentario va aquí -->

Tales comentarios son visibles cuando vemos el archivo XML en un editor de XML (como Oxygen), pero no aparecen cuando miramos el archivo XML en un navegador web. En otras palabras, se trata de notas internas que no están disponibles para el usuario casual del archivo.

La estructura de archivo

El elemento de alto nivel en un archivo TEI-XML es <TEI>, que contiene dos elementos principales:

<teiHeader> es un encabezado que contiene metadatos sobre el archivo en sí y el documento que se está editando.

<text> contiene el texto en sí.

La estructura básica del archivo TEI-XML, entonces, es la siguiente:

<TEI> <! – abre el archivo TEI ->

   <teiHeader> <! – abre el encabezado TEI ->

   </teiHeader> <! – cierra el encabezado TEI ->

   <text> <! – abre el texto ->

   </text> <! – cierra el texto ->

</TEI> <! – cierra el archivo TEI ->