Programa automatizado de evaluación de similitudes

El Programa Automatizado de Juicio de Similitud ( ASJP ) es un proyecto colaborativo que aplica enfoques computacionales a la lingüística comparativa utilizando una base de datos de listas de palabras. La base de datos es de acceso abierto y consta de listas de vocabulario básico de 40 elementos para más de la mitad de los idiomas del mundo. ^[1] Se está ampliando continuamente. Además de aislamientos y lenguajes de grupos genealógicos demostrados, la base de datos incluye pidgins , criollos , lenguas mixtas y lenguas construidas . Las palabras de la base de datos se transcriben a una ortografía estándar simplificada ( código ASJP ). ^[2]La base de datos se ha utilizado para estimar las fechas en las que las familias lingüísticas han divergido en lenguas hijas mediante un método relacionado con la glotocronología , pero aún diferente , ^[3] para determinar la patria ( Urheimat ) de una proto-lengua , ^[4] para investigar el sonido simbolismo , ^[5] para evaluar diferentes métodos filogenéticos, ^[6] y varios otros propósitos.

Programa automatizado de evaluación de similitudes
Acceso
Productor	Instituto Max Planck para la Ciencia de la Historia Humana (Alemania)
Idiomas	inglés
Costo	Libre
Cobertura
Disciplinas	Lingüística comparativa cuantitativa
Enlaces
Sitio web	http://asjp.clld.org

ASJP no es ampliamente aceptado entre los lingüistas históricos como un método adecuado para establecer o evaluar relaciones entre familias lingüísticas. ^[7]

Es parte del proyecto Cross-Linguistic Linked Data organizado por el Instituto Max Planck para la Ciencia de la Historia Humana . ^[8]

Historia

Metas originales

ASJP se desarrolló originalmente como un medio para evaluar objetivamente la similitud de palabras con el mismo significado de diferentes idiomas, con el objetivo final de clasificar los idiomas computacionalmente, con base en las similitudes léxicas observadas. En el primer artículo de ASJP ^[2], dos palabras semánticamente idénticas de idiomas comparados se consideraron similares si mostraban al menos dos segmentos de sonido idénticos. La similitud entre los dos idiomas se calculó como un porcentaje del número total de palabras comparadas que se consideraron similares. Este método se aplicó a listas de palabras de 100 elementos para 250 idiomas de familias lingüísticas que incluyen austroasiático , indoeuropeo , maya y muskogeano .

Consorcio ASJP

El Consorcio ASJP, fundado alrededor de 2008, ^{[ ¿cuándo? ]} llegó a involucrar a unos 25 lingüistas profesionales y otras partes interesadas que trabajaban como transcriptores voluntarios y / o ayudaban al proyecto de otras formas. El principal impulsor de la fundación del consorcio fue Cecil H. Brown. Søren Wichmann es el comisario diario del proyecto. Un tercer miembro central del consorcio es Eric W. Holman, quien ha creado la mayor parte del software utilizado en el proyecto.

Listas de palabras más cortas

Si bien las listas de palabras utilizadas se basaron originalmente en la lista Swadesh de 100 elementos , se determinó estadísticamente que un subconjunto de 40 de los 100 elementos producía resultados clasificatorios tan buenos, si no ligeramente mejores, que la lista completa. ^[9] Por lo tanto, las listas de palabras recopiladas posteriormente contienen solo 40 elementos (o menos, cuando faltan las certificaciones de algunos).

Distancia de Levenshtein

En artículos publicados desde 2008, ASJP ha empleado un programa de juicio de similitud basado en la distancia de Levenshtein (LD). Se encontró que este enfoque produce mejores resultados de clasificación comparados con la opinión de expertos que el método utilizado inicialmente. LD se define como el número mínimo de cambios sucesivos necesarios para convertir una palabra en otra, donde cada cambio es la inserción, eliminación o sustitución de un símbolo. Dentro del enfoque de Levenshtein, las diferencias en la longitud de las palabras se pueden corregir dividiendo LD por el número de símbolos de la más larga de las dos palabras comparadas. Esto produce LD normalizado (LDN). Un LDN dividido (LDND) entre los dos idiomas se calcula dividiendo el LDN promedio para todos los pares de palabras que tienen el mismo significado por el LDN promedio para todos los pares de palabras que tienen significados diferentes. Esta segunda normalización está destinada a corregir la similitud del azar. ^[10]

Lista de palabras

El ASJP utiliza la siguiente lista de 40 palabras. ^[11] Es similar a la lista Swadesh-Yakhontov , pero tiene algunas diferencias.

Partes del cuerpo

ojo
oído
nariz
lengua
diente
mano
rodilla
sangre
hueso
pecho (de mujer)
hígado
piel

Animales y plantas

piojo
perro
fish (sustantivo)
cuerno (parte animal)
árbol
hoja

Personas

persona
name (sustantivo)

Naturaleza

sol
estrella
agua
fuego
Roca
camino
montaña
noche (tiempo oscuro)

Verbos y adjetivos

beber (verbo)
morir
ver
escuchar
venir
nuevo
completo

Numerales y pronombres

uno
dos
I
usted
nosotros

Código ASJP

La versión ASJP de 2016 utiliza los siguientes símbolos para codificar fonemas : pbfvmw 8 tdszcnrl SZC j T 5 ykgx N q X h 7 L 4 G! es decir, E 3 auo

Representan 7 vocales y 34 consonantes, todas encontradas en el teclado QWERTY estándar.

Sonidos representados por código ASJP ^[2]
Código ASJP	Descripción	IPA
I	vocal frontal alta, redondeada y no redondeada	yo, ɪ, y, ʏ
mi	vocal delantera media, redondeada y no redondeada	e, ø
mi	vocal frontal baja, redondeada y no redondeada	a, æ, ɛ, ɶ, œ
3	vocal central alta y media, redondeada y no redondeada	ɨ, ɘ, ə, ɜ, ʉ, ɵ, ɞ
a	vocal central baja, sin redondear	ɐ
tu	vocal posterior alta, redondeada y no redondeada	ɯ, u
o	vocal posterior media y baja, redondeada y no redondeada	ɤ, ʌ, ɑ, o, ɔ, ɒ
pag	parada bilabial sorda y fricativa	p, ɸ
B	parada bilabial sonora y fricativa	b, β
metro	nasal bilabial	metro
F	fricativa labiodental muda	F
v	fricativa labiodental sonora	v
8	fricativa dental sorda y sonora	θ, ð
4	nasal dental	norte
t	parada alveolar sorda	t
D	parada alveolar sonora	D
s	fricativa alveolar sorda	s
z	fricativa alveolar sonora	z
C	Africada alveolar sorda y sonora	ts, dz
norte	nasal alveolar sorda y sonora	norte
S	fricativa postalveolar sorda	ʃ
Z	fricativa postalveolar sonora	ʒ
C	África palato-alveolar sorda	tʃ
j	africada palato-alveolar sonora	dʒ
T	parada palatina sorda y sonora	c, ɟ
5	nasal palatino	ɲ
k	parada velar muda	k
gramo	parada velar sonora	ɡ
X	fricativa velar sorda y sonora	x, ɣ
norte	velar nasal	norte
q	parada uvular sorda	q
GRAMO	parada uvular sonora	ɢ
X	fricativa uvular sorda y sonora, fricativa faríngea sorda y sonora	χ, ʁ, ħ, ʕ
7	parada glotal sorda	ʔ
h	fricativa glotal sorda y sonora	h, ɦ
l	lateral alveolar sonoro aproximado	l
L	todos los demás laterales	ʟ, ɭ, ʎ
w	aproximante bilabial-velar sonora	w
y	aproximante palatino	j
r	trino apico-alveolar sonoro y todas las variedades de "sonidos r"	r, ʀ, etc.
!	todas las variedades de "sonidos de clic"	ǃ, ǀ, ǁ, ǂ

Ver también

Referencias

^ Wichmann, Søren, André Müller, Annkathrin Wett, Viveka Velupillai, Julia Bischoffberger, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Zarina Molochieva, Pamela Brown, Harald Hammarström, Oleg Belyaev, Johann-Mattis List, Dik Bakker, Dmitry Egorov, Matthias Urban, Robert Mailhammer, Agustina Carrizo, Matthew S. Dryer, Evgenia Korovina, David Beck, Helen Geyer, Patience Epps, Anthony Grant y Pilar Valenzuela. 2013. La base de datos ASJP (versión 16). http://asjp.clld.org/
↑ ^a ^b ^c Brown, Cecil H., Eric W. Holman, Søren Wichmann y Viveka Velupillai. 2008. Clasificación automatizada de las lenguas del mundo: descripción del método y resultados preliminares . STUF - Tipología de lenguas y universales 61.4: 285-308.
^ Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List, y Dmitry Egorov. 2011. Fechas automatizadas de las familias lingüísticas del mundo basadas en la similitud léxica . Antropología actual 52.6: 841-875.
^ Wichmann, Søren, André Müller y Viveka Velupillai. 2010. Patrias de las familias lingüísticas del mundo: un enfoque cuantitativo . Diachronica 27.2: 247-276.
^ Wichmann, Søren, Holman, Eric W. y Cecil H. Brown. 2010. Simbolismo sonoro en vocabulario básico . Entropía 12.4: 844-858.
^ Pompeya, Simone, Vittorio Loreto y Francesca Tria. 2011. Sobre la precisión de los árboles del lenguaje . PLoS ONE 6: e20109.
^ Cf. comentarios de Adelaar, Blust y Campbell en Holman, Eric W., et al. (2011) "Citas automatizadas de las familias lingüísticas del mundo basadas en la similitud léxica". Antropología actual , vol. 52, no. 6, págs. 841–875.
^ "Datos enlazados interlingüísticos" . Consultado el 22 de febrero de 2020 .
^ Holman, Eric W., Søren Wichmann, Cecil H. Brown, Viveka Velupillai, André Müller y Dik Bakker. 2008. Exploraciones en la clasificación automatizada de idiomas . Folia Linguistica 42.2: 331-354.
^ Wichmann, Søren, Eric W. Holman, Dik Bakker y Cecil H. Brown. 2010. Evaluación de medidas de distancia lingüística. Physica A 389: 3632-3639 (doi: 10.1016 / j.physa.2010.05.011).
^ http://asjp.clld.org/static/Guidelines.pdf

Fuentes

Søren Wichmann, Jeff Good (eds). 2014. Cuantificación de la dinámica del lenguaje: a la vanguardia de la lingüística areal y filogenética , p.203. Leiden: Brillante.
Brown, Cecil H. y col. 2008. Clasificación automatizada de las lenguas del mundo: descripción del método y resultados preliminares . Tipología de lenguas y universales 61 (4). Noviembre de 2008. doi : 10.1524 / stuf.2008.0026
Wichmann, Søren, Eric W. Holman y Cecil H. Brown (eds.). 2018. The ASJP Database (versión 18).

enlaces externos

Página de inicio oficial de la base de datos ASJP

[1] Wichmann, Søren, André Müller, Annkathrin Wett, Viveka Velupillai, Julia Bischoffberger, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Zarina Molochieva, Pamela Brown, Harald Hammarström, Oleg Belyaev, Johann-Mattis List, Dik Bakker, Dmitry Egorov, Matthias Urban, Robert Mailhammer, Agustina Carrizo, Matthew S. Dryer, Evgenia Korovina, David Beck, Helen Geyer, Patience Epps, Anthony Grant y Pilar Valenzuela. 2013. La base de datos ASJP (versión 16). http://asjp.clld.org/

[BrownCecil-2] Brown, Cecil H., Eric W. Holman, Søren Wichmann y Viveka Velupillai. 2008. Clasificación automatizada de las lenguas del mundo: descripción del método y resultados preliminares . STUF - Tipología de lenguas y universales 61.4: 285-308.

[3] Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List, y Dmitry Egorov. 2011. Fechas automatizadas de las familias lingüísticas del mundo basadas en la similitud léxica . Antropología actual 52.6: 841-875.

[4] Wichmann, Søren, André Müller y Viveka Velupillai. 2010. Patrias de las familias lingüísticas del mundo: un enfoque cuantitativo . Diachronica 27.2: 247-276.

[5] Wichmann, Søren, Holman, Eric W. y Cecil H. Brown. 2010. Simbolismo sonoro en vocabulario básico . Entropía 12.4: 844-858.

[6] Pompeya, Simone, Vittorio Loreto y Francesca Tria. 2011. Sobre la precisión de los árboles del lenguaje . PLoS ONE 6: e20109.

[7] Cf. comentarios de Adelaar, Blust y Campbell en Holman, Eric W., et al. (2011) "Citas automatizadas de las familias lingüísticas del mundo basadas en la similitud léxica". Antropología actual , vol. 52, no. 6, págs. 841–875.

[8] "Datos enlazados interlingüísticos" . Consultado el 22 de febrero de 2020 .

[9] Holman, Eric W., Søren Wichmann, Cecil H. Brown, Viveka Velupillai, André Müller y Dik Bakker. 2008. Exploraciones en la clasificación automatizada de idiomas . Folia Linguistica 42.2: 331-354.

[10] Wichmann, Søren, Eric W. Holman, Dik Bakker y Cecil H. Brown. 2010. Evaluación de medidas de distancia lingüística. Physica A 389: 3632-3639 (doi: 10.1016 / j.physa.2010.05.011).

[11] ttp://asjp.clld.org/static/Guidelines.pdf

[1]