El Programa Automatizado de Juicio de Similitud ( ASJP ) es un proyecto colaborativo que aplica enfoques computacionales a la lingüística comparativa utilizando una base de datos de listas de palabras. La base de datos es de acceso abierto y consta de listas de vocabulario básico de 40 elementos para más de la mitad de los idiomas del mundo. [1] Se está ampliando continuamente. Además de aislamientos y lenguajes de grupos genealógicos demostrados, la base de datos incluye pidgins , criollos , lenguas mixtas y lenguas construidas . Las palabras de la base de datos se transcriben a una ortografía estándar simplificada ( código ASJP ). [2]La base de datos se ha utilizado para estimar las fechas en las que las familias lingüísticas han divergido en lenguas hijas mediante un método relacionado con la glotocronología , pero aún diferente , [3] para determinar la patria ( Urheimat ) de una proto-lengua , [4] para investigar el sonido simbolismo , [5] para evaluar diferentes métodos filogenéticos, [6] y varios otros propósitos.
Productor | Instituto Max Planck para la Ciencia de la Historia Humana (Alemania) |
---|---|
Idiomas | inglés |
Acceso | |
Costo | Libre |
Cobertura | |
Disciplinas | Lingüística comparativa cuantitativa |
Enlaces | |
Sitio web | http://asjp.clld.org |
ASJP no es ampliamente aceptado entre los lingüistas históricos como un método adecuado para establecer o evaluar relaciones entre familias lingüísticas. [7]
Es parte del proyecto Cross-Linguistic Linked Data organizado por el Instituto Max Planck para la Ciencia de la Historia Humana . [8]
Historia
Metas originales
ASJP se desarrolló originalmente como un medio para evaluar objetivamente la similitud de palabras con el mismo significado de diferentes idiomas, con el objetivo final de clasificar los idiomas computacionalmente, con base en las similitudes léxicas observadas. En el primer artículo de ASJP [2], dos palabras semánticamente idénticas de idiomas comparados se consideraron similares si mostraban al menos dos segmentos de sonido idénticos. La similitud entre los dos idiomas se calculó como un porcentaje del número total de palabras comparadas que se consideraron similares. Este método se aplicó a listas de palabras de 100 elementos para 250 idiomas de familias lingüísticas que incluyen austroasiático , indoeuropeo , maya y muskogeano .
Consorcio ASJP
El Consorcio ASJP, fundado alrededor de 2008, [ ¿cuándo? ] llegó a involucrar a unos 25 lingüistas profesionales y otras partes interesadas que trabajaban como transcriptores voluntarios y / o ayudaban al proyecto de otras formas. El principal impulsor de la fundación del consorcio fue Cecil H. Brown. Søren Wichmann es el comisario diario del proyecto. Un tercer miembro central del consorcio es Eric W. Holman, quien ha creado la mayor parte del software utilizado en el proyecto.
Listas de palabras más cortas
Si bien las listas de palabras utilizadas se basaron originalmente en la lista Swadesh de 100 elementos , se determinó estadísticamente que un subconjunto de 40 de los 100 elementos producía resultados clasificatorios tan buenos, si no ligeramente mejores, que la lista completa. [9] Por lo tanto, las listas de palabras recopiladas posteriormente contienen solo 40 elementos (o menos, cuando faltan las certificaciones de algunos).
Distancia de Levenshtein
En artículos publicados desde 2008, ASJP ha empleado un programa de juicio de similitud basado en la distancia de Levenshtein (LD). Se encontró que este enfoque produce mejores resultados de clasificación comparados con la opinión de expertos que el método utilizado inicialmente. LD se define como el número mínimo de cambios sucesivos necesarios para convertir una palabra en otra, donde cada cambio es la inserción, eliminación o sustitución de un símbolo. Dentro del enfoque de Levenshtein, las diferencias en la longitud de las palabras se pueden corregir dividiendo LD por el número de símbolos de la más larga de las dos palabras comparadas. Esto produce LD normalizado (LDN). Un LDN dividido (LDND) entre los dos idiomas se calcula dividiendo el LDN promedio para todos los pares de palabras que tienen el mismo significado por el LDN promedio para todos los pares de palabras que tienen significados diferentes. Esta segunda normalización está destinada a corregir la similitud del azar. [10]
Lista de palabras
El ASJP utiliza la siguiente lista de 40 palabras. [11] Es similar a la lista Swadesh-Yakhontov , pero tiene algunas diferencias.
- Partes del cuerpo
- ojo
- oído
- nariz
- lengua
- diente
- mano
- rodilla
- sangre
- hueso
- pecho (de mujer)
- hígado
- piel
- Animales y plantas
- piojo
- perro
- fish (sustantivo)
- cuerno (parte animal)
- árbol
- hoja
- Personas
- persona
- name (sustantivo)
- Naturaleza
- sol
- estrella
- agua
- fuego
- Roca
- camino
- montaña
- noche (tiempo oscuro)
- Verbos y adjetivos
- beber (verbo)
- morir
- ver
- escuchar
- venir
- nuevo
- completo
- Numerales y pronombres
- uno
- dos
- I
- usted
- nosotros
Código ASJP
La versión ASJP de 2016 utiliza los siguientes símbolos para codificar fonemas : pbfvmw 8 tdszcnrl SZC j T 5 ykgx N q X h 7 L 4 G! es decir, E 3 auo
Representan 7 vocales y 34 consonantes, todas encontradas en el teclado QWERTY estándar.
Código ASJP | Descripción | IPA |
---|---|---|
I | vocal frontal alta, redondeada y no redondeada | yo, ɪ, y, ʏ |
mi | vocal delantera media, redondeada y no redondeada | e, ø |
mi | vocal frontal baja, redondeada y no redondeada | a, æ, ɛ, ɶ, œ |
3 | vocal central alta y media, redondeada y no redondeada | ɨ, ɘ, ə, ɜ, ʉ, ɵ, ɞ |
a | vocal central baja, sin redondear | ɐ |
tu | vocal posterior alta, redondeada y no redondeada | ɯ, u |
o | vocal posterior media y baja, redondeada y no redondeada | ɤ, ʌ, ɑ, o, ɔ, ɒ |
pag | parada bilabial sorda y fricativa | p, ɸ |
B | parada bilabial sonora y fricativa | b, β |
metro | nasal bilabial | metro |
F | fricativa labiodental muda | F |
v | fricativa labiodental sonora | v |
8 | fricativa dental sorda y sonora | θ, ð |
4 | nasal dental | norte |
t | parada alveolar sorda | t |
D | parada alveolar sonora | D |
s | fricativa alveolar sorda | s |
z | fricativa alveolar sonora | z |
C | Africada alveolar sorda y sonora | ts, dz |
norte | nasal alveolar sorda y sonora | norte |
S | fricativa postalveolar sorda | ʃ |
Z | fricativa postalveolar sonora | ʒ |
C | África palato-alveolar sorda | tʃ |
j | africada palato-alveolar sonora | dʒ |
T | parada palatina sorda y sonora | c, ɟ |
5 | nasal palatino | ɲ |
k | parada velar muda | k |
gramo | parada velar sonora | ɡ |
X | fricativa velar sorda y sonora | x, ɣ |
norte | velar nasal | norte |
q | parada uvular sorda | q |
GRAMO | parada uvular sonora | ɢ |
X | fricativa uvular sorda y sonora, fricativa faríngea sorda y sonora | χ, ʁ, ħ, ʕ |
7 | parada glotal sorda | ʔ |
h | fricativa glotal sorda y sonora | h, ɦ |
l | lateral alveolar sonoro aproximado | l |
L | todos los demás laterales | ʟ, ɭ, ʎ |
w | aproximante bilabial-velar sonora | w |
y | aproximante palatino | j |
r | trino apico-alveolar sonoro y todas las variedades de "sonidos r" | r, ʀ, etc. |
! | todas las variedades de "sonidos de clic" | ǃ, ǀ, ǁ, ǂ |
Ver también
Referencias
- ^ Wichmann, Søren, André Müller, Annkathrin Wett, Viveka Velupillai, Julia Bischoffberger, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Zarina Molochieva, Pamela Brown, Harald Hammarström, Oleg Belyaev, Johann-Mattis List, Dik Bakker, Dmitry Egorov, Matthias Urban, Robert Mailhammer, Agustina Carrizo, Matthew S. Dryer, Evgenia Korovina, David Beck, Helen Geyer, Patience Epps, Anthony Grant y Pilar Valenzuela. 2013. La base de datos ASJP (versión 16). http://asjp.clld.org/
- ↑ a b c Brown, Cecil H., Eric W. Holman, Søren Wichmann y Viveka Velupillai. 2008. Clasificación automatizada de las lenguas del mundo: descripción del método y resultados preliminares . STUF - Tipología de lenguas y universales 61.4: 285-308.
- ^ Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List, y Dmitry Egorov. 2011. Fechas automatizadas de las familias lingüísticas del mundo basadas en la similitud léxica . Antropología actual 52.6: 841-875.
- ^ Wichmann, Søren, André Müller y Viveka Velupillai. 2010. Patrias de las familias lingüísticas del mundo: un enfoque cuantitativo . Diachronica 27.2: 247-276.
- ^ Wichmann, Søren, Holman, Eric W. y Cecil H. Brown. 2010. Simbolismo sonoro en vocabulario básico . Entropía 12.4: 844-858.
- ^ Pompeya, Simone, Vittorio Loreto y Francesca Tria. 2011. Sobre la precisión de los árboles del lenguaje . PLoS ONE 6: e20109.
- ^ Cf. comentarios de Adelaar, Blust y Campbell en Holman, Eric W., et al. (2011) "Citas automatizadas de las familias lingüísticas del mundo basadas en la similitud léxica". Antropología actual , vol. 52, no. 6, págs. 841–875.
- ^ "Datos enlazados interlingüísticos" . Consultado el 22 de febrero de 2020 .
- ^ Holman, Eric W., Søren Wichmann, Cecil H. Brown, Viveka Velupillai, André Müller y Dik Bakker. 2008. Exploraciones en la clasificación automatizada de idiomas . Folia Linguistica 42.2: 331-354.
- ^ Wichmann, Søren, Eric W. Holman, Dik Bakker y Cecil H. Brown. 2010. Evaluación de medidas de distancia lingüística. Physica A 389: 3632-3639 (doi: 10.1016 / j.physa.2010.05.011).
- ^ http://asjp.clld.org/static/Guidelines.pdf
Fuentes
- Søren Wichmann, Jeff Good (eds). 2014. Cuantificación de la dinámica del lenguaje: a la vanguardia de la lingüística areal y filogenética , p.203. Leiden: Brillante.
- Brown, Cecil H. y col. 2008. Clasificación automatizada de las lenguas del mundo: descripción del método y resultados preliminares . Tipología de lenguas y universales 61 (4). Noviembre de 2008. doi : 10.1524 / stuf.2008.0026
- Wichmann, Søren, Eric W. Holman y Cecil H. Brown (eds.). 2018. The ASJP Database (versión 18).
enlaces externos
- Página de inicio oficial de la base de datos ASJP