Modelado analógico

El modelado analógico ( AM ) es una teoría formal del razonamiento analógico basado en ejemplos , propuesta por Royal Skousen , profesor de Lingüística y Lengua Inglesa en la Universidad Brigham Young en Provo, Utah . Es aplicable al modelado de lenguajes y otras tareas de categorización. El modelado analógico está relacionado con el conexionismo y el vecino más cercanoenfoques, en el sentido de que se basan en datos más que en abstracciones; pero se distingue por su capacidad para hacer frente a conjuntos de datos imperfectos (como los causados por límites de memoria a corto plazo simulados) y para basar las predicciones en todos los segmentos relevantes del conjunto de datos, ya sean cercanos o lejanos. En el modelado del lenguaje, AM ha predicho con éxito formas empíricamente válidas para las que no se conocía una explicación teórica (ver la discusión de la morfología finlandesa en Skousen et al. 2002).

Implementación

Descripción general

Un modelo basado en ejemplos consta de un motor de modelado de propósito general y un conjunto de datos de problemas específicos. Dentro del conjunto de datos, cada ejemplar (un caso a partir del cual se debe razonar o una experiencia pasada informativa) aparece como un vector de características: una fila de valores para el conjunto de parámetros que definen el problema. Por ejemplo, en una tarea de ortografía a sonido, el vector de características puede consistir en las letras de una palabra. Cada ejemplar del conjunto de datos se almacena con un resultado, como un fonema o un teléfono que se generará. Cuando al modelo se le presenta una situación nueva (en forma de un vector de características sin resultados), el motor ordena algorítmicamente el conjunto de datos para encontrar ejemplos que se parezcan a él y selecciona uno, cuyo resultado es la predicción del modelo. Los detalles del algoritmo distinguen un sistema de modelado basado en ejemplos de otro.

En AM, pensamos que los valores de las características caracterizan un contexto y el resultado es un comportamiento que ocurre dentro de ese contexto. En consecuencia, la situación nueva se conoce como contexto dado. Dadas las características conocidas del contexto, el motor de AM genera sistemáticamente todos los contextos que lo incluyen (todos sus supracontextos ) y extrae del conjunto de datos los ejemplos que pertenecen a cada uno. El motor luego descarta aquellos supracontextos cuyos resultados son inconsistentes (esta medida de consistencia se discutirá más adelante), dejando un conjunto analógico de supracontextos, y selecciona probabilísticamente un ejemplar del conjunto analógico con un sesgo hacia aquellos en grandes supracontextos. Esta búsqueda multinivel aumenta exponencialmente la probabilidad de que se prediga un comportamiento a medida que ocurre de manera confiable en entornos que se asemejan específicamente al contexto dado.

Modelado analógico en detalle

AM realiza el mismo proceso para cada caso que se le pide que evalúe. El contexto dado, que consta de n variables, se utiliza como plantilla para generar ${\ Displaystyle 2 ^ {n}}$ supracontextos. Cada supracontexto es un conjunto de ejemplos en los que una o más variables tienen los mismos valores que tienen en el contexto dado, y las otras variables se ignoran. En efecto, cada una es una vista de los datos, creada mediante el filtrado de algunos criterios de similitud con el contexto dado, y el conjunto total de supracontextos agota todas esas vistas. Alternativamente, cada supracontexto es una teoría de la tarea o una regla propuesta cuyo poder predictivo necesita ser evaluado.

Es importante señalar que los supracontextos no son iguales entre sí; están ordenados por su distancia del contexto dado, formando una jerarquía. Si un supracontexto especifica todas las variables que otro hace y más, es un subcontexto de ese otro, y se encuentra más cerca del contexto dado. (La jerarquía no es estrictamente ramificada; cada supracontexto puede ser en sí mismo un subcontexto de varios otros y puede tener varios subcontextos). Esta jerarquía se vuelve significativa en el siguiente paso del algoritmo.

El motor elige ahora el conjunto analógico de entre los supracontextos. Un supracontexto puede contener ejemplos que solo exhiben un comportamiento; es determinísticamente homogéneo y está incluido. Es una vista de los datos que muestra regularidad, o una teoría relevante que aún no ha sido refutada. Un supracontexto puede exhibir varios comportamientos, pero no contener ejemplos que ocurran en cualquier supracontexto más específico (es decir, en cualquiera de sus subcontextos); en este caso es homogéneo no determinista y está incluido. Aquí no hay una gran evidencia de que se produzca un comportamiento sistemático, pero tampoco un contraargumento. Finalmente, un supracontexto puede ser heterogéneo, lo que significa que exhibe comportamientos que se encuentran en un subcontexto (más cercano al contexto dado), y también comportamientos que no lo son. Cuando se aceptó el comportamiento ambiguo del supracontexto homogéneo no determinista, esto se rechaza porque el subcontexto que interviene demuestra que se puede encontrar una teoría mejor. Por tanto, se excluye el supracontexto heterogéneo. Esto garantiza que veamos un aumento en el comportamiento significativamente consistente en el conjunto analógico a medida que nos acercamos al contexto dado.

Con el conjunto analógico elegido, a cada aparición de un ejemplar (para un ejemplar dado puede aparecer en varios de los supracontextos analógicos) se le da un puntero a cualquier otra aparición de un ejemplar dentro de sus supracontextos. Luego, uno de estos indicadores se selecciona al azar y se sigue, y el ejemplo al que apunta proporciona el resultado. Esto le da a cada supracontexto una importancia proporcional al cuadrado de su tamaño, y hace que cada ejemplar sea probablemente seleccionado en proporción directa a la suma de los tamaños de todos los supracontextos analógicamente consistentes en los que aparece. Entonces, por supuesto, la probabilidad de predecir un resultado particular es proporcional a las probabilidades sumadas de todos los ejemplos que lo respaldan.

(Skousen 2002, en Skousen et al. 2002, págs. 11-25, y Skousen 2003, ambos pasados)

Fórmulas

Dado un contexto con ${\ Displaystyle n}$ elementos:

número total de emparejamientos:

{\ Displaystyle n ^ {2}}

número de acuerdos para el resultado i :

{\ Displaystyle n_ {i} ^ {2}}

número de desacuerdos para el resultado i :

{\ Displaystyle n_ {i} (n-n_ {i})}

número total de acuerdos:

{\ Displaystyle \ sum {n_ {i} ^ {2}}}

número total de desacuerdos:

{\ Displaystyle \ sum {n_ {i} (n-n_ {i})} = n ^ {2} - \ sum {n_ {i} ^ {2}}}

Ejemplo

Esta terminología se comprende mejor a través de un ejemplo. En el ejemplo utilizado en el segundo capítulo de Skousen (1989), cada contexto consta de tres variables con valores potenciales de 0 a 3.

Variable 1: 0,1,2,3

Variable 2: 0,1,2,3

Variable 3: 0,1,2,3

Los dos resultados para el conjunto de datos son e y r , y los ejemplos son los siguientes:

3 1 0 e0 3 2 r2 1 0 r2 1 2 r3 1 1 r

Definimos una red de punteros así:

Pointer network for example problem

Las líneas continuas representan punteros entre ejemplos con resultados coincidentes; las líneas punteadas representan punteros entre ejemplos con resultados que no coinciden.

Las estadísticas de este ejemplo son las siguientes:

{\ Displaystyle n = 5}

{\ Displaystyle n_ {r} = 4}

{\ Displaystyle n_ {e} = 1}

número total de emparejamientos:

{\ Displaystyle n ^ {2} = 25}

número de acuerdos para el resultado r :

{\ Displaystyle n_ {r} ^ {2} = 16}

número de acuerdos para el resultado e :

{\ Displaystyle n_ {e} ^ {2} = 1}

número de desacuerdos para el resultado r :

{\ Displaystyle n_ {r} (n-n_ {r}) = 4}

número de desacuerdos para el resultado e :

{\ Displaystyle n_ {e} (n-n_ {e}) = 4}

número total de acuerdos:

{\ Displaystyle n_ {r} ^ {2} + n_ {e} ^ {2} = 17}

número total de desacuerdos:

{\ Displaystyle n_ {r} (n-n_ {r}) + n_ {e} (n-n_ {e}) = norte ^ {2} - (n_ {r} ^ {2} + n_ {e} ^ {2}) = 8}

incertidumbre o fracción de desacuerdo:

{\ Displaystyle 8/25 = .32}

El comportamiento solo se puede predecir para un contexto dado; en este ejemplo, predigamos el resultado para el contexto "3 1 2". Para hacer esto, primero buscamos todos los contextos que contienen el contexto dado; estos contextos se denominan supracontextos. Encontramos los supracontextos eliminando sistemáticamente las variables en el contexto dado; con m variables, generalmente habrá ${\ Displaystyle 2 ^ {m}}$ supracontextos. La siguiente tabla enumera cada uno de los sub y supracontextos; x significa "no x", y - significa "cualquier cosa".

Supracontexto	Subcontextos
3 1 2	3 1 2
3 1 -	3 1 2, 3 1 2
3 - 2	3 1 2, 3 1 2
- 1 2	3 1 2, 3 1 2
3 - -	3 1 2, 3 1 2, 3 1 2 , 3 1 2
- 1 -	3 1 2, 3 1 2, 3 1 2 , 3 1 2
- - 2	3 1 2, 3 1 2, 3 1 2, 3 1 2
- - -	3 1 2, 3 1 2, 3 1 2, 3 1 2 , 3 1 2, 3 1 2 , 3 1 2 , 3 1 2

Estos contextos se muestran en el diagrama de Venn a continuación:

Illustration of sub- and supracontexts

El siguiente paso es determinar qué ejemplos pertenecen a qué contextos para determinar cuáles de los contextos son homogéneos. La siguiente tabla muestra cada uno de los subcontextos, su comportamiento en términos de los ejemplos dados y el número de desacuerdos dentro del comportamiento:

Subcontexto	Comportamiento	Desacuerdos
3 1 2	(vacío)	0
3 1 2	3 1 0 e, 3 1 1 r	2
3 1 2	(vacío)	0
3 1 2	2 1 2 r	0
3 1 2	(vacío)	0
3 1 2	2 1 0 r	0
3 1 2	0 3 2 r	0
3 1 2	(vacío)	0

Al analizar los subcontextos en la tabla anterior, vemos que solo hay un subcontexto con desacuerdos: "3 1 2 ", que en el conjunto de datos consta de "3 1 0 e" y "3 1 1 r". Hay 2 desacuerdos en este subcontexto; 1 apuntando de cada uno de los ejemplos al otro (consulte la red de punteros que se muestra arriba). Por lo tanto, solo los supracontextos que contengan este subcontexto contendrán desacuerdos. Usamos una regla simple para identificar los supracontextos homogéneos:

Si el número de desacuerdos en el supracontexto es mayor que el número de desacuerdos en el subcontexto contenido, decimos que es heterogéneo; de lo contrario, es homogéneo.

Hay 3 situaciones que producen un supracontexto homogéneo:

El supracontexto está vacío. Este es el caso de "3 - 2", que no contiene puntos de datos. No puede haber aumento en el número de desacuerdos y el supracontexto es trivialmente homogéneo.
El supracontexto es determinista, lo que significa que solo ocurre un tipo de resultado en él. Este es el caso de "- 1 2" y "- - 2", que contienen solo datos con el resultado r .
Solo un subcontexto contiene datos. El subcontexto no tiene que ser determinista para que el supracontexto sea homogéneo. Por ejemplo, mientras que los supracontextos "3 1 -" y "- 1 2" son deterministas y solo contienen un subcontexto no vacío, "3 - -" contiene solo el subcontexto "3 1 2 ". Este subcontexto contiene "3 1 0 e" y "3 1 1 r", lo que lo hace no determinista. Decimos que este tipo de supracontexto no está obstruido ni es determinista.

Los únicos dos supracontextos heterogéneos son "- 1 -" y "- - -". En ambos, es la combinación del "3 1 2 " no determinista con otros subcontextos que contienen el resultado r lo que causa la heterogeneidad.

En realidad, existe un cuarto tipo de supracontexto homogéneo: contiene más de un subcontexto no vacío y no es determinista, pero la frecuencia de resultados en cada subcontexto es exactamente la misma. Sin embargo, el modelado analógico no considera esta situación por 2 razones:

Determinar si esta 4 situación ha ocurrido requiere un ${\ Displaystyle \ chi ^ {2}}$ prueba. Esta es la única prueba de homogeneidad que requiere aritmética, e ignorarla permite que nuestras pruebas de homogeneidad se vuelvan estadísticamente libres, lo que hace que AM sea mejor para modelar el razonamiento humano.
Es una situación extremadamente rara y, por lo tanto, se puede esperar que ignorarla no tenga un gran efecto en el resultado previsto.

A continuación, construimos el conjunto analógico, que consta de todos los indicadores y resultados de los supracontextos homogéneos. La siguiente figura muestra la red de punteros con los contextos homogéneos resaltados.

Pointer network with homogeneous supracontexts circled

Los indicadores se resumen en la siguiente tabla:

Supracontexto homogéneo

Ocurrencias

Numero de
punteros

mi	r

3 1 -

"3 1 0 e", "3 1 1 r"

2

- 1 2

"2 1 2 r"

0

1

3 - -

"3 1 0 e", "3 1 1 r"

2

- - 2

"2 1 2 r", "0 3 2 r"

0

4

Totales:

4

9

4 de los punteros del conjunto analógico están asociados con el resultado e , y los otros 9 están asociados con r . En AM, un puntero se selecciona al azar y se predice el resultado al que apunta. Con un total de 13 indicadores, la probabilidad de que se prediga el resultado e es 4/13 o 30,8%, y para el resultado r es 9/13 o 69,2%. Podemos crear una cuenta más detallada enumerando los punteros para cada una de las ocurrencias en los supracontextos homogéneos:

Ocurrencia	Número de supracontextos homogéneos	Numero de punteros	Efecto analógico
3 1 0 e	2	4	30,8%
3 1 1 r	2	4	30,8%
2 1 2 r	2	3	23,1%
0 3 2 r	1	2	15,4%
2 1 0 r	0	0	0,0%

Entonces podemos ver el efecto analógico de cada una de las instancias en el conjunto de datos.

Contexto histórico

La analogía se ha considerado útil para describir el lenguaje al menos desde la época de Saussure . Noam Chomsky y otros han criticado más recientemente la analogía por ser demasiado vaga para ser realmente útil (Bańko 1991), una apelación a un deus ex machina. La propuesta de Skousen parece abordar esa crítica al proponer un mecanismo explícito de analogía, cuya validez psicológica se puede probar.

Aplicaciones

El modelado analógico se ha empleado en experimentos que van desde la fonología y la morfología (lingüística) hasta la ortografía y la sintaxis .

Problemas

Aunque el modelado analógico tiene como objetivo crear un modelo libre de reglas que los lingüistas perciben como inventadas, en su forma actual todavía requiere que los investigadores seleccionen qué variables tomar en consideración. Esto es necesario debido a la llamada "explosión exponencial" de los requisitos de potencia de procesamiento del software de computadora utilizado para implementar el modelado analógico. Investigaciones recientes sugieren que la computación cuántica podría proporcionar la solución a tales cuellos de botella en el desempeño (Skousen et al. 2002, ver págs. 45–47).

Ver también

Referencias

Royal Skousen (1989). Modelado analógico del lenguaje (tapa dura). Dordrecht: Kluwer Academic Publishers. xii + 212pp . ISBN 0-7923-0517-5.
Miroslaw Bańko (junio de 1991). "Revisión: Modelado analógico del lenguaje" (PDF) . Lingüística computacional . 17 (2): 246–248. Archivado desde el original (PDF) el 2003-08-02.
Royal Skousen (1992). Analogía y estructura . Dordrect: Kluwer Academic Publishers. ISBN 0-7923-1935-4.
Royal Skousen; Deryle Lonsdale; Dilworth B. Parkinson, eds. (2002). Modelado analógico: un enfoque del lenguaje basado en ejemplos (Procesamiento cognitivo humano vol. 10). Amsterdam / Filadelfia: John Benjamins Publishing Company. pag. x + 417pp. ISBN 1-58811-302-7.
Skousen, Royal. (2003). Modelado analógico: ejemplos, reglas y computación cuántica . Presentado en la conferencia de la Sociedad Lingüística de Berkeley.

enlaces externos

Página de inicio del grupo de investigación de modelado analógico
LINGUIST List Announcement of Analogical Modelling , Skousen et al. (2002)