El Spoken English Corpus ( SEC ) es una colección de corpus de discursos de grabaciones de inglés británico hablado compiladas durante 1984-7. El manual del corpus se puede encontrar en ICAME . [1]
Historia
El proyecto Spoken English Corpus (SEC) fue apoyado conjuntamente en 1984-5 por el Humanities Research Fund de la Universidad de Lancaster y por IBM (UK) Ltd, y posteriormente por IBM UK Ltd. El proyecto fue apoyado por Geoffrey Leech en Lancaster y Geoffrey Kaye en IBM. El proyecto fue una colaboración, financiada por IBM , entre la Unidad de Investigación Informática en el Idioma Inglés (UCREL) de la Universidad de Lancaster y el Centro Científico de IBM en Winchester . [2]
Compilacion
SEC consta de 53 pasajes grabados, principalmente de la BBC , hablados con el acento que generalmente se conoce como pronunciación recibida o RP. La colección cubre categorías como comentarios, transmisión de noticias, conferencias, diálogos, poesía y propaganda. [3] El corpus contiene 52.637 palabras, con un total de 339 minutos. Lita Taylor describe la compilación del corpus en su artículo de 1996 "The Compilation of the Spoken English Corpus". [4]
Transcripción
Se ideó un sistema para la transcripción de la entonación del material en las grabaciones. Dos transcriptores, Gerry Knowles y Briony Williams, ambos apoyados por Lita Taylor, analizaron todo el corpus. El sistema de transcripción es explicado por Williams, [5] y Brian Pickering realizó un experimento para evaluar el grado de concordancia entre los dos transcriptores en una sección del Corpus que contiene alrededor de 1000 unidades de tono que fue transcrito por ambos transcriptores. [6] Se encontró un buen acuerdo.
Un atributo importante de un corpus moderno es que es legible por computadora: un corpus tiende a residir en un disco duro que en una estantería. Al presentar el corpus en forma de libro, los autores han tenido en cuenta las necesidades de los lingüistas de corpus establecidos y de aquellos que aún no están familiarizados con los corpus. Cualquiera que tenga el corpus en disco puede hacer copias impresas de la mayoría de los archivos; pero sin una fuente especial para imprimir los símbolos prosódicos, los textos prosódicos serán no imprimibles o ilegibles. Por este motivo se ha elegido la versión prosódica para su publicación.
Peter Alderson, quien más tarde asumió el cargo de Speech Research Manager en IBM, realizó toda la transcripción impresa en su forma actual. Posteriormente, el volumen se tituló "A Corpus of Formal British English Speech: The Lancaster / IBM Spoken English Corpus", y fue publicado por primera vez por Longman en 1996, más tarde por Routledge en 2013. Actualmente, el libro está disponible en librerías en línea, incluidas Routledge y Book. Depositario o en formato electrónico de Google Play Books. [7] [8]
Otros análisis
El etiquetado gramatical de cada palabra, basado en el conjunto de etiquetas CLAWS1 , se agregó al texto de la SEC mediante un proceso automático. [9] [10] El hecho de que este etiquetado estuviera en forma legible por máquina hizo posible relacionar información gramatical y prosódica en los textos. El trabajo posterior utilizó modelos probabilísticos para desarrollar aún más el etiquetado gramatical y producir técnicas de análisis automático . [11]
Anne Wichmann publicó su investigación sobre entonación SEC, "Entonación en texto y discurso: comienzos, medios y finales" en 2000. [12]
Corpus en inglés hablado legible por máquina (MARSEC)
Aunque el texto y su etiquetado asociado existían en forma legible por máquina, las grabaciones en sí mismas existían solo como grabaciones en cinta. Una colaboración, financiada por el Consejo de Investigación Económica y Social en 1992-4, entre los científicos del habla de las universidades de Lancaster y Leeds en el Reino Unido se propuso producir una versión del corpus que contenía las grabaciones en formato digital, vinculadas en el tiempo. al texto. [13] Los investigadores principales fueron Gerry Knowles y Tamas Varadi (Lancaster) y Peter Roach y Simon Arnfield (Leeds). El esquema del proyecto se establece en Knowles, [14] y Roach y Arnfield describen la alineación temporal automática. [15] Las grabaciones digitalizadas se grabaron en CD-ROM . Posteriormente, se puso a disposición para su descarga con fines de investigación de la Universidad de Leeds, aunque esta función ya no es compatible. [dieciséis]
Aix-MARSEC
El trabajo sobre MARSEC en Lancaster y Leeds terminó alrededor de 1995, pero el corpus ha sido posteriormente objeto de una considerable cantidad de desarrollo adicional en la Universidad de Aix-en-Provence , Francia, bajo la dirección de Daniel Hirst. [17] La base de datos consta de dos componentes principales: las grabaciones digitalizadas de MARSEC y las anotaciones. Anotaciones Hasta ahora se han llevado a cabo en nueve niveles, incluyendo fonemas , sílabas , palabras , pies de estrés , el ritmo unidades menores y mayores y unidades de giro . Pronto se integrarán dos niveles complementarios, la anotación gramatical de CLAWS y un sistema de gramática de propiedad desarrollado en Aix-en-Provence. [18] Una posible desventaja de este tratamiento es que el corpus solo se puede buscar usando scripts especialmente escritos. [19] La base de datos, junto con las herramientas, está disponible bajo licencia GNU GPL en el sitio del proyecto Aix-MARSEC. [20]
Referencias
- ^ "MANUAL DE INFORMACIÓN PARA ACOMPAÑAR A LA SEC CORPUS" . korpus.uib.no . Consultado el 15 de octubre de 2020 .
- ^ Sanguijuela, Geoffrey . (1996). "The Spoken English Corpus en su contexto". Prefacio. Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Trabajando con Speech . Longman. pag. ix. ISBN 9780582045347.
- ^ Xiao, Richard; Tono, Yukio (2006). MacEnery, Tony (ed.). Estudios del lenguaje basados en corpus: un libro de recursos avanzado . Taylor y Francis. pag. 63. ISBN 9780415286220.
- ^ Taylor, Lita. (1996). "La compilación del corpus hablado en inglés". Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Trabajando con Speech . Longman. págs. 20–37. ISBN 9780582045347.
- ^ Williams, Briony. (1996). "La formulación de un sistema de transcripción de entonación para el inglés británico". Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Trabajando con Speech . Longman. págs. 38–57. ISBN 9780582045347.
- ^ Pickering, Brian. (1996). "Análisis de diferencias de transcriptores en la SEC". Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Trabajando con Speech . Longman. págs. 61–86. ISBN 9780582045347.
- ^ "A Corpus of Formal British Speech: The Lancaster / IBM Spoken English Corpus (Paperback) - Routledge" . Routledge.com . Consultado el 22 de julio de 2018 .
- ^ "Un corpus de habla inglesa británica formal: Gerald Knowles: 9781138457768" . www.bookdepository.com . Consultado el 30 de enero de 2019 .
- ^ Taylor, Lita. (1996). "La compilación del corpus hablado en inglés". Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Trabajando con Speech . Longman. pag. 30. ISBN 9780582045347.
- ^ "Conjunto de etiquetas UCREL CLAWS1 (LOB)" . ucrel.lancs.ac.uk . Consultado el 15 de octubre de 2020 .
- ^ Sampson, Geoffrey . (1987). "Modelos probabilísticos de análisis". Garside, Roger; Sampson, Geoffrey ; Leech, Geoffrey (1987). El análisis computacional del inglés . Longman. ISBN 9780582291492.
- ^ "Entonación en el texto y el discurso: principios, medios y finales" . Prensa de Routledge y CRC . Consultado el 15 de octubre de 2020 .
- ^ Roach, P., Knowles, G., Varadi, T. y Arnfield, S. (1994) "MARSEC: un corpus en inglés hablado legible a máquina". Revista de la Asociación Fonética Internacional . 23 (2): 47–54. doi : 10.1017 / s0025100300004849 . ISSN 0025-1003 .
- ^ Knowles, G. "Convertir un corpus en una base de datos relacional: SEC se convierte en MARSEC" Geoffrey, Leech ; Myers, Greg; Thomas, Jenny (1995). Inglés hablado en la computadora . Longman. págs. 208–219. ISBN 9780582250215.
- ^ Cucaracha, Peter y Arnfield, Simon. "Vincular la transcripción prosódica a la dimensión temporal". Geoffrey, Leech ; Myers, Greg; Thomas, Jenny (1995). Inglés hablado en la computadora . Longman. págs. 149-160. ISBN 9780582250215.
- ^ "MARSEC: The Machine Readable Speken English Corpus" . www.reading.ac.uk . Consultado el 15 de octubre de 2020 .
- ^ Hirst, Daniel; De Looze, Céline; Auran, Cyril; Bouzon, Caroline (27 de julio de 2010). "Base de datos Aix-MARSEC" . Consultado el 15 de abril de 2013 .
- ^ Auron, Cyril; Bouzon, Caroline (2003). "Phonotactique prédictive et alignement automatique: aplicación au corpus MARSEC et perspectivas" [ Fonotáctica predictiva y alineación automática: aplicación en el corpus MARSEC y prospectos]. Travaux interdisciplinaires du laboratoire parole et langage d'Aix-en-Provence (en francés). Publicaciones de l'Université de Provence . 22 : 33–63 . Consultado el 15 de abril de 2013 .
- ^ Wichmann, Anne "Speech corpus y corpora hablados" Ludeling, Anke; Kyto, Merja (2006). Lingüística de corpus 1 . Walter de Gruyter. pag. 200. ISBN 9783110180435.
- ^ Hirst, Daniel. "Proyecto Aix-MARSEC" . Consultado el 15 de abril de 2013 .