Iniciativa de codificación de texto


La Iniciativa de Codificación de Texto ( TEI ) es una comunidad de práctica centrada en el texto en el campo académico de las humanidades digitales , que opera continuamente desde la década de 1980. La comunidad actualmente ejecuta una lista de correo, reuniones y series de conferencias, y mantiene un estándar técnico epónimo , una revista , una wiki , un repositorio de GitHub y una cadena de herramientas .

Iniciativa de codificación de textoTEI Logo.svg

Las Directrices TEI definen colectivamente un tipo de formato XML y son el resultado definitorio de la comunidad de práctica. El formato se diferencia de otros formatos abiertos de texto conocidos (como HTML y OpenDocument ) en que es principalmente semántico en lugar de presentacional; se especifica la semántica y la interpretación de cada etiqueta y atributo. Hay unos 500 componentes y conceptos textuales diferentes ( palabra , [1] oración , [2] carácter , [3] glifo , [4] persona , [5] etc.); cada uno se basa en una o más disciplinas académicas y se dan ejemplos.

Detalles técnicos

El estándar se divide en dos partes, una descripción textual discursiva con ejemplos extendidos y discusión y un conjunto de definiciones etiqueta por etiqueta. Los esquemas en la mayoría de los formatos modernos ( DTD , RELAX NG y W3C Schema ) se generan automáticamente a partir de las definiciones etiqueta por etiqueta. Varias herramientas apoyan la producción de las directrices y la aplicación de las directrices a proyectos específicos.

Se utilizan una serie de etiquetas especiales para eludir las restricciones impuestas por el Unicode subyacente ; glifo para permitir la representación de caracteres que no califican para la inclusión Unicode [1] y la opción para permitir superar la linealidad estricta requerida. [6]

La mayoría de los usuarios del formato no utilizan la gama completa de etiquetas, pero producen una personalización utilizando un subconjunto específico del proyecto de las etiquetas y atributos definidos por las Directrices. El TEI define un mecanismo de personalización sofisticado conocido como ODD para este propósito. Además de documentar y describir cada etiqueta TEI, una especificación ODD especifica su modelo de contenido y otras restricciones de uso, que pueden expresarse utilizando schematron .

TEI Lite es un ejemplo de tal personalización. Define un formato de archivo basado en XML para intercambiar textos. Es una selección manejable del extenso conjunto de elementos disponibles en las Directrices TEI completas.

Como formato basado en XML, TEI no puede tratar directamente con el marcado superpuesto y las estructuras no jerárquicas. Las directrices sugieren una variedad de opciones para representar este tipo de datos. [7]

Ejemplos de

El texto de las directrices de la TEI es rico en ejemplos. También hay una página de muestras en la wiki de TEI, [8] que ofrece ejemplos de proyectos del mundo real que exponen su TEI subyacente.

Etiquetas de prosa

TEI permite que los textos se marquen sintácticamente en cualquier nivel de granularidad o mezcla de granularidades. Por ejemplo, este párrafo (p) se ha marcado en oraciones (s) y cláusulas (cl). [9]

    Fue a principios de septiembre de 1664,  que yo, entre el resto de mis vecinos, escuchado en el discurso ordinario  que la plaga regresó nuevamente a Holanda;        porque había sido muy violento allí, y particularmente en Amsterdam y Rotterdam, en el año 1663,    adonde,  dicen,  fue traído,  algunos dijeron  de Italia, otros del Levante, entre algunos bienes  que fueron traídos a casa por su flota turca;      otros dijeron que fue traído de Candia; otros de Chipre.        No importaba  de dónde venía;      pero todos acordaron  que se volvió a entrar en Holanda.     

Verso

TEI tiene etiquetas para marcar el verso. Este ejemplo (tomado de la traducción francesa de las Directrices TEI) muestra un soneto. [10]

type = "sonnet" > type = "quatrain" > Les amoureux fervents et les savants austères Aiment également, dans leur mûre saison, Les chats puissants et doux, orgueil de la maison, Qui comme eux sont frileux et comme eux sédentaires. type = "quatrain" > Amis de la science et de la volupté Ils cherchent le Silence et l'horreur des ténèbres; L'Érèbe les eût pris pour ses coursiers funèbres, S'ils pouvaient au servage incliner leur fierté. type = "tercet" > Ils prennent en songeant les nobles acttitudes Des grands sphinx allongés au fond des solitudes, Qui semblent s'endormir dans un rêve sans fin; type = "tercet" > Leurs riendas féconds sont pleins d'étincelles magiques, Et des parcelles d'or, ainsi qu'un sable fin, Étoilent vaguement leurs prunelles mystiques.

Etiqueta de elección

La etiqueta de elección se utiliza para representar secciones de texto que pueden estar codificadas o etiquetadas de más de una forma posible. En el siguiente ejemplo, basado en uno en el estándar, la elección se usa dos veces, una vez para indicar un año original y corregido y una vez para indicar una ortografía original y regularizada. [11]

xml: id = "p23" > Por último, que, bajo su solemne juramento de observar todo lo anteriorartículos, dicho hombre-montaña tendrá una asignación diaria decarne y bebida suficientes para el apoyo de 1724 1728 de nuestros sujetos,con libre acceso a nuestra persona real, y otras marcas de nuestra favorecer favorecer .

IMPAR

One Document Does it all ("ODD") es un lenguaje de programación alfabetizado para esquemas XML . [12] [13] [14] [15]

En un estilo de programación alfabetizada, los documentos ODD combinan documentación legible por humanos y modelos legibles por máquina utilizando el módulo Elementos de documentación de la Iniciativa de codificación de texto. Herramientas generan localizados e internacionalizado HTML , ePub o PDF de salida y legible DTD , esquema XML del W3C , Relax NG compacto de sintaxis o Relax NG sintaxis XML de salida legible por máquina.

La aplicación web Roma [16] se basa en el formato ODD y puede utilizarla para generar esquemas en formatos DTD , W3C XML Schema , Relax NG Compact Syntax o Relax NG XML Syntax, como lo utilizan muchas herramientas y servicios de validación XML.

ODD es el formato utilizado internamente por Text Encoding Initiative para su estándar técnico homónimo . [17] Aunque los archivos ODD generalmente describen la diferencia entre un formato XML personalizado y el modelo TEI completo, ODD también se puede utilizar para describir formatos XML que están completamente separados del TEI. Un ejemplo de esto es el conjunto de etiquetas de internacionalización del W3C, que utiliza el formato ODD para generar esquemas y documentar su vocabulario. [18] [19]

Las personalizaciones de TEI son especializaciones de la especificación XML de TEI para su uso en campos particulares o por comunidades específicas.

  • EpiDoc (documentos epigráficos)
  • Iniciativa de codificación de cartas
  • Archivo de textos nórdicos medievales (Menota)

La personalización en el TEI se realiza a través del mecanismo ODD mencionado anteriormente. En realidad, desde su versión P5, todos los usos denominados "Conformes con TEI" de las Directrices de TEI se basan en una personalización de TEI documentada en un archivo ODD de TEI. Incluso cuando los usuarios eligen uno de los esquemas pregenerados listos para usar para validar, estos se han creado a partir de archivos de personalización disponibles gratuitamente.

El formato es utilizado por muchos proyectos en todo el mundo. Prácticamente todos los proyectos están asociados a una o más universidades. Algunos proyectos conocidos que codifican textos usando TEI incluyen:

Antes de la creación de TEI, los académicos de humanidades no tenían estándares comunes para codificar textos electrónicos de una manera que sirviera a sus objetivos académicos ( Hockey 1993, p. 41). En 1987, un grupo de académicos que representaban los campos de las humanidades, la lingüística y la informática se reunió en Vassar College para presentar un conjunto de pautas conocidas como los “Principios de Poughkeepsie”. Estas pautas dirigieron el desarrollo del primer estándar TEI, "P1". [20] [21]

  • 1987 - Trabajo iniciado por la Asociación de Computación y Humanidades , [22] la Asociación de Lingüística Computacional y la Asociación de Computación Literaria y Lingüística sobre lo que se convertiría en el TEI. [23] Esto culminó con la declaración de clausura de la Conferencia de planificación de Vassar . [24]
  • 1994 - Lanzamiento de TEI P3, [25] coeditado por Lou Burnard (en la Universidad de Oxford ) y Michael Sperberg-McQueen (entonces en la Universidad de Illinois en Chicago , más tarde en el W3C ).
  • 1999 - TEI P3 actualizado.
  • 2002 - Lanzamiento de TEI P4, pasando de SGML a XML; adopción de Unicode , que los analizadores XML deben admitir. [26]
  • 2007 - Lanzamiento de TEI P5, incluida la integración con los atributos xml:langy xml:iddel W3C [27] (anteriormente habían sido atributos en el espacio de nombres de TEI), la regularización de los atributos de señalamiento local para usar el hash (como se usa en HTML) y la unificación del ptr y etiquetas xptr. Juntos, estos cambios con muchas más adiciones nuevas hacen que P5 sea más regular y lo acercan a la práctica xml actual promovida por el W3C y utilizada por otras variantes de XML. Las versiones de actualización de funciones y mantenimiento de TEI P5 se han lanzado al menos dos veces al año desde 2007.
  • 2011 - TEI P5 v2.0.1 lanzado con soporte para edición genética [28] (entre muchas otras adiciones, las características de edición genética permiten codificar textos sin interpretación en cuanto a su semántica específica).
  • 2017 - TEI recibió el Premio Antonio Zampolli de la Alianza de Organizaciones de Humanidades Digitales. [29]

  1. ^ a b "Elemento w (palabra) - TEI P5" .
  2. ^ "Elemento s (unidad s) - TEI P5" .
  3. ^ "Elemento c (carácter) - TEI P5" .
  4. ^ "Elemento g (carácter o glifo) - TEI P5" .
  5. ^ "Elemento persona (persona) - TEI P5" .
  6. ^ "Elección del elemento - TEI P5" .
  7. ^ "20 estructuras no jerárquicas - TEI P5: - Directrices para la codificación e intercambio de textos electrónicos" . tei-c.org . 2019 . Consultado el 19 de marzo de 2019 .
  8. ^ "Muestras de textos TEI" . wiki.tei-c.org . 2011 . Consultado el 17 de abril de 2012 .
  9. ^ "17 mecanismos analíticos simples - TEI P5: - Directrices para la codificación e intercambio de textos electrónicos" . tei-c.org . 2012 . Consultado el 15 de abril de 2012 .
  10. ^ "Elemento TEI lg (groupe de vers)" . tei-c.org . 2012 . Consultado el 15 de abril de 2012 .
  11. ^ " Elección del elemento TEI " . tei-c.org . 2012 . Consultado el 15 de abril de 2012 .
  12. ^ Bauman, Syd; Flanders, Julia (2004), "Personalizaciones ODD", Extreme Markup Languages ​​2004.
  13. ^ Burnard, Lou; Rahtz, Sebastian (2004), "RelaxNG with Son of ODD", Extreme Markup Languages ​​2004.
  14. ^ Reiss, Kevin M. (2007), Documentación literaria para XML (PDF) , Urbana-Champaign, Illinois: Humanidades digitales 2007.
  15. ^ Burnard, Lou; Rahtz, Sebastian (junio de 2013). "Un lenguaje de definición de esquema completo para la iniciativa de codificación de texto" . XML London 2013 : 152–161. doi : 10.14337 / XMLLondon13.Rahtz01 . ISBN 978-0-9926471-0-0.
  16. ^ Aplicación web Roma
  17. ^ Burnard, Lou; Bauman, Syd, eds. (2007), TEI P5: Directrices para la codificación e intercambio de textos electrónicos , Charlottesville, Virginia, EE. UU .: Consorcio TEI.
  18. ^ Archivo W3C ITS y TEI ODD .
  19. ^ Savourel, Yves; Kosek, Jirka; Ishida, Richard, eds. (2008), "5.2 ITS y TEI", Mejores prácticas para la internacionalización de XML , Grupo de trabajo del W3C.
  20. ^ Ahronheim, JR (1998). "Metadatos descriptivos: estándares emergentes". Revista de Bibliotecología Académica . 24 (5): 395–403. doi : 10.1016 / S0099-1333 (98) 90079-9 .
  21. ^ Cantara, L. (2005). "La iniciativa de codificación de texto: Parte 1". Sistemas y servicios de OCLC . 21 (1): 36–39. doi : 10.1108 / 10650750510578136 .
  22. ^ ach.org
  23. ^ "Antecedentes históricos", sección iv.2 de TEI P5: Directrices para la codificación e intercambio de textos electrónicos.
  24. ^ "Declaración de clausura de la Conferencia de planificación de Vassar" . tei-c.org . 2009 . Consultado el 15 de abril de 2012 .
  25. ^ "Directrices TEI" . Consultado el 18 de junio de 2010 .
  26. ^ "2" , XML Basics , consultado el 9 de julio de 2011
  27. ^ "Lenguaje de marcado extensible (XML) 1.0 (quinta edición)" . w3.org .
  28. ^ "Notas de la versión 2.0.1 de P5" . tei-c.org . 2012 . Consultado el 15 de abril de 2012 .
  29. ^ "TEI: Iniciativa de codificación de texto" .

  • Sitio web del Consorcio TEI con una lista de proyectos TEI , un formulario para agregar su proyecto y wiki
  • Revista del TEI
  • TEI Lite: Introducción a la codificación de texto para el intercambio
  • TEI @ Oxford (alojado en la Universidad de Oxford ) con versiones de desarrollo y respaldo de gran parte del contenido principal.
  • Sitio de TEI GitHub (alojado en GitHub ) con repositorio y seguimiento de problemas
  • Lista más grande de proyectos TEI
  • ¿Qué es el TEI? (Resumen introductorio de Lou Burnard)