El campo de la documentación lingüística en el contexto moderno implica un conjunto complejo y en constante evolución de herramientas y métodos, y el estudio y desarrollo de su uso y, especialmente, la identificación y promoción de las mejores prácticas, puede considerarse un subcampo de documentación del idioma propiamente dicha. [1] Entre estos se encuentran principios éticos y de registro, flujos de trabajo y métodos, herramientas de hardware y herramientas de software. [2]
Principios y flujos de trabajo
Los investigadores en documentación lingüística suelen realizar trabajo de campo lingüístico para recopilar los datos en los que se basa su trabajo, grabando archivos audiovisuales que documentan el uso del lenguaje en contextos tradicionales. Debido a que los entornos en los que a menudo se lleva a cabo el trabajo de campo lingüístico pueden ser desafiantes desde el punto de vista logístico, no todos los tipos de herramientas de grabación son necesarios o ideales y, a menudo, deben establecerse compromisos entre la calidad, el costo y la facilidad de uso. También es importante visualizar el flujo de trabajo completo y los resultados previstos; por ejemplo, si se crean archivos de video, es posible que se requiera cierta cantidad de procesamiento para exponer el componente de audio al procesamiento de diversas formas mediante diferentes paquetes de software.
Ética
Las prácticas éticas en la documentación lingüística han sido el foco de muchas discusiones y debates recientes. [3] La Sociedad Lingüística de América ha preparado una Declaración de Ética y mantiene un Blog de Discusión de Ética que se centra principalmente en la ética en el contexto de la documentación del idioma. La propia moralidad de los protocolos éticos ha sido cuestionada por George van Driem . [4] La mayoría de los programas de posgrado que involucran alguna forma de documentación y descripción del lenguaje requieren que los investigadores presenten sus protocolos propuestos a una Junta de Revisión Institucional interna que asegura que la investigación se lleve a cabo de manera ética. Como mínimo, los participantes deben ser informados sobre el proceso y el uso previsto de las grabaciones, y deben otorgar un permiso grabado, audible o escrito para que los materiales audiovisuales sean utilizados para la investigación lingüística por parte de los investigadores. Muchos participantes querrán ser nombrados consultores, pero otros no; esto determinará si los datos deben ser anonimizados o restringidos del acceso público.
Formatos de datos
Adherirse a los estándares de formatos es fundamental para la interoperabilidad entre herramientas de software. Muchos archivos individuales o repositorios de datos tienen sus propios estándares y requisitos para los datos depositados en sus servidores; el conocimiento de estos requisitos debe informar la estrategia de recopilación de datos y las herramientas utilizadas, y debe ser parte de un plan de gestión de datos desarrollado antes del inicio de la investigación. A continuación, se proporcionan algunas pautas de ejemplo de repositorios bien utilizados:
- Directrices del archivo de lenguas en peligro de extinción (ELAR)
- Formatos aceptados de Max Planck Institute Archive
- Directrices audiovisuales de la Biblioteca de la Universidad de Yale
La mayoría de los estándares de archivo actuales para video utilizan MPEG-4 (H264) como formato de codificación o almacenamiento, que incluye un flujo de audio AAC (generalmente de hasta 320 kbit / s). La calidad del archivo de audio es al menos WAV 44,1 kHz, 16 bits.
Principios de grabación
Dado que la documentación de los idiomas a menudo es difícil, y muchos idiomas con los que trabajan los lingüistas están en peligro (es posible que no se hablen en un futuro próximo), se recomienda grabar con la mayor calidad posible dadas las limitaciones de una grabadora. Para video, esto significa grabar a resolución HD (1080p o 720p) o superior cuando sea posible, mientras que para audio esto significa grabar mínimamente en PCM sin comprimir 44,100 muestras por segundo, resolución de 16 bits. Sin embargo, podría decirse que las buenas técnicas de grabación (aislamiento, selección y uso del micrófono, uso de un trípode para minimizar el desenfoque) son más importantes que la resolución. Un micrófono que proporciona una grabación clara de un hablante que cuenta un cuento popular (alta relación señal / ruido) en formato MP3 (tal vez a través de un teléfono) es mejor que una grabación extremadamente ruidosa en formato WAV donde todo lo que se puede escuchar son los automóviles que pasan. Para asegurarse de que se pueden obtener buenas grabaciones, los lingüistas deben practicar con sus dispositivos de grabación tanto como sea posible y comparar los resultados para observar qué técnicas producen los mejores resultados. [5] [2] [6] [7] [8]
Flujos de trabajo
Para muchos lingüistas, el resultado final de realizar grabaciones es el análisis del lenguaje, a menudo la investigación de las propiedades fonológicas o sintácticas de un lenguaje utilizando diversas herramientas de software. Esto requiere la transcripción del audio, generalmente en colaboración con hablantes nativos del idioma en cuestión. Para la transcripción general, los archivos multimedia se pueden reproducir en una computadora (u otro dispositivo con capacidad de reproducción) y se pueden pausar para la transcripción en un editor de texto. Otras herramientas (multiplataforma) para ayudar en este proceso incluyen Audacity y Transcriber , mientras que un programa como ELAN (que se describe más adelante) también puede realizar esta función.
Los lingüistas que quieren poder interlinearizar sus textos suelen preferir programas como Toolbox o FLEx , ya que estos programas crean un diccionario de formularios y reglas de análisis para ayudar a acelerar el análisis. Desafortunadamente, los archivos multimedia generalmente no están vinculados por estos programas (a diferencia de ELAN, en el que se prefieren los archivos vinculados), lo que dificulta ver o escuchar las grabaciones para verificar las transcripciones. Actualmente existe una solución alternativa para Toolbox que permite que los códigos de tiempo hagan referencia a un archivo de audio y habiliten la reproducción (de un texto completo o una oración referenciada) desde dentro de Toolbox; en este flujo de trabajo, la alineación de tiempo del texto se realiza en Transcriber y luego en el correspondiente los códigos de tiempo y el texto se convierten a un formato que Toolbox puede leer.
Hardware
Grabadoras de video + audio
Las grabadoras que graban video también suelen grabar audio. Sin embargo, el audio no siempre cumple los criterios de necesidades mínimas y las mejores prácticas recomendadas para la documentación de idiomas (formato WAV sin comprimir, 44,1 kHz, 16 bits) y, a menudo, no es útil para fines lingüísticos como el análisis fonético. En cambio, muchos dispositivos de video graban en un formato de audio comprimido, como AAC o MP3, que se combina con la transmisión de video en una envoltura de varios tipos . Las excepciones a esta regla general son las siguientes grabadoras de video + audio:
La serie Zoom , particularmente Q8 , Q4n y Q2n , que graban en múltiples resoluciones / formatos de audio y video, sobre todo WAV (44.1 / 48/96 kHz , 16/24 bits).
Cuando utilice una grabadora de video que no grabe audio en formato WAV (como la mayoría de las cámaras DSLR), se recomienda grabar audio por separado en otra grabadora, siguiendo algunas de las pautas a continuación. Al igual que con las grabadoras de audio que se describen a continuación, muchas grabadoras de video también aceptan entradas de micrófono de varios tipos (generalmente a través de un conector TRS o de 1/8 de pulgada); esto puede garantizar una grabación de audio de respaldo de alta calidad que esté sincronizada con el video grabado. , que puede ser útil en algunos casos (es decir, para la transcripción).
Micrófonos y grabadores de audio
Las grabadoras de solo audio se pueden usar en escenarios donde el video no es práctico o no es deseable. En la mayoría de los casos, es ventajoso combinar el uso de una grabadora de solo audio con uno o más micrófonos externos; sin embargo, muchas grabadoras de audio modernas incluyen micrófonos incorporados que se pueden usar si el costo o la velocidad de configuración son preocupaciones importantes. Se prefieren las grabadoras digitales (de estado sólido) para la mayoría de los escenarios de documentación de idiomas. Las grabadoras digitales modernas logran un nivel muy alto de calidad a un precio relativamente bajo. Algunas de las grabadoras de campo más populares se encuentran en la gama Zoom , incluidas las H1 , H2 , H4 , H5 y H6 . El H1 es particularmente adecuado para situaciones en las que el costo y la facilidad de uso son los principales deseos. Otras grabadoras populares para situaciones en las que el tamaño es un factor son la serie Olympus LS y las grabadoras de voz digital de Sony (aunque en el último caso, asegúrese de que el dispositivo pueda grabar en formato WAV / PCM lineal).
Se pueden utilizar de forma eficaz varios tipos de micrófonos en escenarios de documentación lingüística, dependiendo de la situación (especialmente, incluidos factores como el número, la posición y la movilidad de los hablantes) y del presupuesto. En general, deben seleccionarse micrófonos de condensador en lugar de micrófonos dinámicos . Es una ventaja en la mayoría de situaciones de trabajo de campo si un micrófono de condensador es autoalimentado (a través de una batería); sin embargo, cuando la energía no es un factor importante, también se pueden utilizar modelos con alimentación fantasma. Se necesita una configuración de micrófono estéreo siempre que haya más de un altavoz involucrado en una grabación; esto se puede lograr mediante una matriz de dos micrófonos mono o mediante un micrófono estéreo dedicado.
En la mayoría de los casos se deben utilizar micrófonos direccionales para aislar la voz de un hablante de otras posibles fuentes de ruido. Sin embargo, los micrófonos omnidireccionales pueden ser preferidos en situaciones que involucran un mayor número de altavoces dispuestos en un espacio relativamente grande. Entre los micrófonos direccionales, los micrófonos cardioides son adecuados para la mayoría de las aplicaciones, sin embargo, en algunos casos, se puede preferir un micrófono hipercardioide ("escopeta").
Los micrófonos de diadema de buena calidad son comparativamente caros, pero pueden producir grabaciones de muy alta calidad en situaciones controladas. [9] De solapa o micrófonos "solapa" puede ser utilizado en algunas situaciones, sin embargo, dependiendo del micrófono se puede producir grabaciones que son inferiores a un micrófono de diadema para el análisis fonético, y están sujetos a algunas de las mismas preocupaciones que los micrófonos de diadema se encuentran en términos de restricción de una grabación a un solo orador, mientras que otros oradores pueden ser audibles en la grabación, estarán en segundo plano en relación con el orador que lleva el micrófono de solapa. [10]
Algunos micrófonos de calidad buena utilizados para hacer cine y entrevistas incluyen la escopeta Rode VideoMic y la serie de solapa Røde , micrófonos de diadema Shure y lavaliers Shure . Dependiendo de la grabadora y el micrófono, serán necesarios cables adicionales (XLR, convertidor estéreo / mono o un adaptador TRRS a TRS ).
Otras herramientas de grabación
Generación, almacenamiento y gestión de energía eléctrica
Sistemas informáticos
Accesorios
Software
Todavía no existe un paquete de software único que esté diseñado o sea capaz de manejar todos los aspectos de un flujo de trabajo de documentación de lenguaje típico. En cambio, existe un gran y creciente número de paquetes diseñados para manejar varios aspectos del flujo de trabajo, muchos de los cuales se superponen considerablemente. Algunos de estos paquetes utilizan formatos estándar y son interoperables, mientras que otros lo son mucho menos.
Di mas
SayMore es un paquete de documentación de idiomas desarrollado por SIL International en Dallas que se centra principalmente en las etapas iniciales de la documentación de idiomas y tiene como objetivo una experiencia de usuario relativamente sencilla.
Las funciones principales de SayMore son: (a) grabación de audio (b) importación de archivos desde un dispositivo de grabación (video y / o audio) (c) organización de archivos (d) entrada de metadatos a nivel de sesión y archivo (e) asociación de archivos AV con evidencia de consentimiento informado y otros objetos complementarios (como fotografías) (f) Segmentación de archivos AV (g) transcripción / traducción (h) Estilo NEGRITA Anotación cuidadosa del habla y traducción oral.
Los archivos SayMore se pueden exportar más para anotarlos en FLEx , y los metadatos se pueden exportar en formatos .csv e IMDI para archivarlos.
VIVACIDAD
ELAN es desarrollado por The Language Archive en el Instituto Max Planck de Psicolingüística en Nijmegen . ELAN es una herramienta de transcripción con todas las funciones, particularmente útil para investigadores con necesidades / objetivos de anotación complejos.
Flexionar
FieldWorks Language Explorer, FLEx es desarrollado por SIL International anteriormente Summer Institute of Linguistics, Inc. en SIL International en Dallas . FLEx permite al usuario construir un "léxico" del idioma, es decir, una lista de palabras con definiciones e información gramatical, y también almacenar textos del idioma. Dentro de los textos, cada palabra o parte de una palabra (es decir, un "morfema") está vinculada a una entrada en el léxico. Para nuevos proyectos y para estudiantes que aprenden por primera vez, FLEx es ahora la mejor herramienta para interlinear y hacer diccionarios.
Caja de herramientas
Field Linguist's Toolbox (generalmente llamado Toolbox) es un precursor de FLEx y ha sido uno de los paquetes de documentación de idiomas más utilizados durante algunas décadas. Anteriormente conocido como Shoebox , las funciones principales de Toolbox son la construcción de una base de datos léxica y la interlinealización de textos a través de la interacción con la base de datos léxica. Tanto la base de datos léxica como los textos se pueden exportar a un entorno de procesamiento de texto, en el caso de la base de datos léxica, utilizando la herramienta de conversión Multi-Dictionary Formatter ( MDF ). También es posible utilizar Toolbox como entorno de transcripción. [11] En comparación con ELAN y FLEx, Toolbox tiene una funcionalidad relativamente limitada, y algunos creen que tiene un diseño y una interfaz poco intuitivos. Sin embargo, se ha llevado a cabo una gran cantidad de proyectos en el entorno Shoebox / Toolbox a lo largo de su vida útil, y su base de usuarios continúa disfrutando de sus ventajas de familiaridad, velocidad y apoyo de la comunidad. Toolbox también tiene la ventaja de trabajar directamente con archivos de texto legibles por humanos que se pueden abrir en cualquier editor de texto y se pueden manipular y archivar fácilmente. Los archivos de Toolbox también se pueden convertir fácilmente para su almacenamiento en XML (recomendado para archivos), como con las bibliotecas de Python de código abierto como Xigt destinadas a usos computacionales de datos IGT.
Herramientas para automatizar componentes del flujo de trabajo
La documentación del idioma puede automatizarse parcialmente gracias a una serie de herramientas de software, que incluyen:
- eSpeak
- HTK
- Lingua Libre , un libre herramienta en línea que permite grabar un gran número de palabras y frases en un corto periodo de tiempo (hasta 1 000 palabras / hora con una lista de palabras limpia y un usuario experimentado). Automatiza el procedimiento clásico para grabar archivos de pronunciación de audio y video (para idiomas hablados y de señas ). Una vez que se realiza la grabación, la plataforma carga automáticamente archivos limpios, bien cortados, bien nombrados y aptos para aplicaciones, directamente a Wikimedia Commons (es posible descargar conjuntos de datos para un idioma específico).
- Maus
- Alineador Prosodylab
- Medias
Literatura
La revista Language Documentation and Conservation, revisada por pares , ha publicado una gran cantidad de artículos que se centran en herramientas y métodos de documentación lingüística.
Ver también
Mapa de LRE Mapa de recursos de idioma Se puede buscar por tipo de recurso, idioma (s), tipo de idioma, modalidad, uso de recursos, disponibilidad, estado de producción, conferencia (s), nombre del recurso
Catálogo de GitHub de Richard Littauer Un catálogo de "código de fuente abierta que sería útil para documentar, conservar, desarrollar, preservar o trabajar con lenguajes en peligro de extinción".
Página de software de RNLD Página de Research Network for Linguistic Diversity sobre software lingüístico.
Referencias
- ^ "Cumbre de herramientas LD" . sites.google.com . Consultado el 2 de junio de 2016 .
- ^ a b Bowern, Claire (2008). Trabajo de campo lingüístico - Springer . doi : 10.1057 / 9780230590168 . ISBN 978-0-230-54538-0.
- ^ Austin, Peter K. 2010. "Comunidades, ética y derechos en la documentación lingüística". En Peter K. Austin, Ed., Language Documentation and Description Vol 7 . Londres, SOAS: 34-54.
- ^ van Driem, George (2016). "Investigación de lenguas en peligro de extinción y la depravación moral de los protocolos de ética". Conservación y documentación del idioma 10: 243-252 . hdl : 10125/24693 .
- ^ Ladefoged, Peter (2003). Análisis de datos fonéticos: introducción al trabajo de campo y técnicas instrumentales . Malden, MA: Blackwell Pub. ISBN 978-0631232698. OCLC 51818554 .
- ^ Chelliah, Shobhana L .; de Reuse, Willem J. (2011). Manual de trabajo de campo lingüístico descriptivo . doi : 10.1007 / 978-90-481-9026-3 . ISBN 978-90-481-9025-6.
- ^ Meakins, Felicity; Green, Jennifer; Turpin, Myfany (2018). Comprender el trabajo de campo lingüístico . Londres. ISBN 9781351330114. OCLC 1029352513 .
- ^ Thieberger, Nicholas, ed. (24 de noviembre de 2011). El manual de Oxford de trabajo de campo lingüístico . Prensa de la Universidad de Oxford. doi : 10.1093 / oxfordhb / 9780199571888.001.0001 . ISBN 9780191744112.
- ^ Švec, Jan G .; Granqvist, Svante (1 de noviembre de 2010). "Directrices para la selección de micrófonos para la investigación de producción de voz humana" . Revista estadounidense de patología del habla y el lenguaje . 19 (4): 356–368. doi : 10.1044 / 1058-0360 (2010 / 09-0091) . ISSN 1058-0360 . PMID 20601621 .
- ^ Brixen, Eddy (1 de mayo de 1996). "Degradación espectral del habla capturada por micrófonos en miniatura montados en la cabeza y el pecho de las personas" . Convención de la Sociedad de Ingeniería de Audio 100 .
- ^ Margetts, Andrew (2009). "Uso de Toolbox con archivos multimedia". Conservación y documentación de idiomas . 3 (1): 51–86. hdl : 10125/4426 .