Una lengua de corpus es una lengua que no tiene hablantes vivos, aunque varias de las producciones reales de los hablantes nativos se han conservado de alguna manera (generalmente en registros escritos). [1] Ejemplos de idiomas de corpus son el griego antiguo , el latín , el idioma egipcio , el inglés antiguo y el elamita .
Algunas lenguas de corpus dejaron un corpus muy grande, como el griego antiguo y el latín , y por lo tanto pueden reconstruirse por completo, aunque algunos detalles de la pronunciación pueden no estar claros. Estos idiomas se pueden utilizar incluso hoy en día, como es el caso del sánscrito y el latín. Otros tienen un corpus tan limitado que algunas palabras importantes, por ejemplo, algunos pronombres, no se encuentran en el corpus. Ejemplos de esto son el ugarítico y el gótico . Los idiomas que solo están atestiguados por unas pocas palabras, a menudo nombres y algunas frases (llamadas Trümmersprachen en lingüística alemana, literalmente "idiomas de escombros") solo se pueden reconstruir de una manera muy limitada y, a menudo, su relación genéticaa otros idiomas sigue sin estar claro. Algunos ejemplos son el idioma lombardo y el dadanítico , un idioma semítico que puede estar cerca del árabe clásico .
Las lenguas de corpus se estudian utilizando los métodos de la lingüística de corpus , pero la lingüística de corpus se puede usar (y se usa comúnmente) para el estudio de las producciones registradas de lenguas vivas.
No todas las lenguas extintas son "lenguas de corpus", ya que muchas lenguas han desaparecido dejando una producción grabada nula o muy inadecuada de sus hablantes.
Referencias
- ^ Langslow, DR 2002 "Aproximación al bilingüismo en los idiomas del corpus" en James Noel Adams, Mark Janse, Simon Swain (edd.) Bilingualism in Ancient Society: Language Contact and the Written Text Oxford: OUP