El modelado analógico ( AM ) es una teoría formal del razonamiento analógico basado en ejemplos , propuesta por Royal Skousen , profesor de Lingüística y Lengua Inglesa en la Universidad Brigham Young en Provo, Utah . Es aplicable al modelado de lenguajes y otras tareas de categorización. El modelado analógico está relacionado con el conexionismo y el vecino más cercanoenfoques, en el sentido de que se basan en datos más que en abstracciones; pero se distingue por su capacidad para hacer frente a conjuntos de datos imperfectos (como los causados por límites de memoria a corto plazo simulados) y para basar las predicciones en todos los segmentos relevantes del conjunto de datos, ya sean cercanos o lejanos. En el modelado del lenguaje, AM ha predicho con éxito formas empíricamente válidas para las que no se conocía una explicación teórica (ver la discusión de la morfología finlandesa en Skousen et al. 2002).
Implementación
Descripción general
Un modelo basado en ejemplos consta de un motor de modelado de propósito general y un conjunto de datos de problemas específicos. Dentro del conjunto de datos, cada ejemplar (un caso a partir del cual se debe razonar o una experiencia pasada informativa) aparece como un vector de características: una fila de valores para el conjunto de parámetros que definen el problema. Por ejemplo, en una tarea de ortografía a sonido, el vector de características puede consistir en las letras de una palabra. Cada ejemplar del conjunto de datos se almacena con un resultado, como un fonema o un teléfono que se generará. Cuando al modelo se le presenta una situación nueva (en forma de un vector de características sin resultados), el motor ordena algorítmicamente el conjunto de datos para encontrar ejemplos que se parezcan a él y selecciona uno, cuyo resultado es la predicción del modelo. Los detalles del algoritmo distinguen un sistema de modelado basado en ejemplos de otro.
En AM, pensamos que los valores de las características caracterizan un contexto y el resultado es un comportamiento que ocurre dentro de ese contexto. En consecuencia, la situación nueva se conoce como contexto dado. Dadas las características conocidas del contexto, el motor de AM genera sistemáticamente todos los contextos que lo incluyen (todos sus supracontextos ) y extrae del conjunto de datos los ejemplos que pertenecen a cada uno. El motor luego descarta aquellos supracontextos cuyos resultados son inconsistentes (esta medida de consistencia se discutirá más adelante), dejando un conjunto analógico de supracontextos, y selecciona probabilísticamente un ejemplar del conjunto analógico con un sesgo hacia aquellos en grandes supracontextos. Esta búsqueda multinivel aumenta exponencialmente la probabilidad de que se prediga un comportamiento a medida que ocurre de manera confiable en entornos que se asemejan específicamente al contexto dado.
Modelado analógico en detalle
AM realiza el mismo proceso para cada caso que se le pide que evalúe. El contexto dado, que consta de n variables, se utiliza como plantilla para generarsupracontextos. Cada supracontexto es un conjunto de ejemplos en los que una o más variables tienen los mismos valores que tienen en el contexto dado, y las otras variables se ignoran. En efecto, cada una es una vista de los datos, creada mediante el filtrado de algunos criterios de similitud con el contexto dado, y el conjunto total de supracontextos agota todas esas vistas. Alternativamente, cada supracontexto es una teoría de la tarea o una regla propuesta cuyo poder predictivo necesita ser evaluado.
Es importante señalar que los supracontextos no son iguales entre sí; están ordenados por su distancia del contexto dado, formando una jerarquía. Si un supracontexto especifica todas las variables que otro hace y más, es un subcontexto de ese otro, y se encuentra más cerca del contexto dado. (La jerarquía no es estrictamente ramificada; cada supracontexto puede ser en sí mismo un subcontexto de varios otros y puede tener varios subcontextos). Esta jerarquía se vuelve significativa en el siguiente paso del algoritmo.
El motor elige ahora el conjunto analógico de entre los supracontextos. Un supracontexto puede contener ejemplos que solo exhiben un comportamiento; es determinísticamente homogéneo y está incluido. Es una vista de los datos que muestra regularidad, o una teoría relevante que aún no ha sido refutada. Un supracontexto puede exhibir varios comportamientos, pero no contener ejemplos que ocurran en cualquier supracontexto más específico (es decir, en cualquiera de sus subcontextos); en este caso es homogéneo no determinista y está incluido. Aquí no hay una gran evidencia de que se produzca un comportamiento sistemático, pero tampoco un contraargumento. Finalmente, un supracontexto puede ser heterogéneo, lo que significa que exhibe comportamientos que se encuentran en un subcontexto (más cercano al contexto dado), y también comportamientos que no lo son. Cuando se aceptó el comportamiento ambiguo del supracontexto homogéneo no determinista, esto se rechaza porque el subcontexto que interviene demuestra que se puede encontrar una teoría mejor. Por tanto, se excluye el supracontexto heterogéneo. Esto garantiza que veamos un aumento en el comportamiento significativamente consistente en el conjunto analógico a medida que nos acercamos al contexto dado.
Con el conjunto analógico elegido, a cada aparición de un ejemplar (para un ejemplar dado puede aparecer en varios de los supracontextos analógicos) se le da un puntero a cualquier otra aparición de un ejemplar dentro de sus supracontextos. Luego, uno de estos indicadores se selecciona al azar y se sigue, y el ejemplo al que apunta proporciona el resultado. Esto le da a cada supracontexto una importancia proporcional al cuadrado de su tamaño, y hace que cada ejemplar sea probablemente seleccionado en proporción directa a la suma de los tamaños de todos los supracontextos analógicamente consistentes en los que aparece. Entonces, por supuesto, la probabilidad de predecir un resultado particular es proporcional a las probabilidades sumadas de todos los ejemplos que lo respaldan.
(Skousen 2002, en Skousen et al. 2002, págs. 11-25, y Skousen 2003, ambos pasados)
Fórmulas
Dado un contexto con elementos:
- número total de emparejamientos:
- número de acuerdos para el resultado i :
- número de desacuerdos para el resultado i :
- número total de acuerdos:
- número total de desacuerdos:
Ejemplo
Esta terminología se comprende mejor a través de un ejemplo. En el ejemplo utilizado en el segundo capítulo de Skousen (1989), cada contexto consta de tres variables con valores potenciales de 0 a 3.
- Variable 1: 0,1,2,3
- Variable 2: 0,1,2,3
- Variable 3: 0,1,2,3
Los dos resultados para el conjunto de datos son e y r , y los ejemplos son los siguientes:
3 1 0 e0 3 2 r2 1 0 r2 1 2 r3 1 1 r
Definimos una red de punteros así:
Las líneas continuas representan punteros entre ejemplos con resultados coincidentes; las líneas punteadas representan punteros entre ejemplos con resultados que no coinciden.
Las estadísticas de este ejemplo son las siguientes:
- número total de emparejamientos:
- número de acuerdos para el resultado r :
- número de acuerdos para el resultado e :
- número de desacuerdos para el resultado r :
- número de desacuerdos para el resultado e :
- número total de acuerdos:
- número total de desacuerdos:
- incertidumbre o fracción de desacuerdo:
El comportamiento solo se puede predecir para un contexto dado; en este ejemplo, predigamos el resultado para el contexto "3 1 2". Para hacer esto, primero buscamos todos los contextos que contienen el contexto dado; estos contextos se denominan supracontextos. Encontramos los supracontextos eliminando sistemáticamente las variables en el contexto dado; con m variables, generalmente habrásupracontextos. La siguiente tabla enumera cada uno de los sub y supracontextos; x significa "no x", y - significa "cualquier cosa".
Supracontexto | Subcontextos |
---|---|
3 1 2 | 3 1 2 |
3 1 - | 3 1 2, 3 1 2 |
3 - 2 | 3 1 2, 3 1 2 |
- 1 2 | 3 1 2, 3 1 2 |
3 - - | 3 1 2, 3 1 2, 3 1 2 , 3 1 2 |
- 1 - | 3 1 2, 3 1 2, 3 1 2 , 3 1 2 |
- - 2 | 3 1 2, 3 1 2, 3 1 2, 3 1 2 |
- - - | 3 1 2, 3 1 2, 3 1 2, 3 1 2 , 3 1 2, 3 1 2 , 3 1 2 , 3 1 2 |
Estos contextos se muestran en el diagrama de Venn a continuación:
El siguiente paso es determinar qué ejemplos pertenecen a qué contextos para determinar cuáles de los contextos son homogéneos. La siguiente tabla muestra cada uno de los subcontextos, su comportamiento en términos de los ejemplos dados y el número de desacuerdos dentro del comportamiento:
Subcontexto | Comportamiento | Desacuerdos |
---|---|---|
3 1 2 | (vacío) | 0 |
3 1 2 | 3 1 0 e, 3 1 1 r | 2 |
3 1 2 | (vacío) | 0 |
3 1 2 | 2 1 2 r | 0 |
3 1 2 | (vacío) | 0 |
3 1 2 | 2 1 0 r | 0 |
3 1 2 | 0 3 2 r | 0 |
3 1 2 | (vacío) | 0 |
Al analizar los subcontextos en la tabla anterior, vemos que solo hay un subcontexto con desacuerdos: "3 1 2 ", que en el conjunto de datos consta de "3 1 0 e" y "3 1 1 r". Hay 2 desacuerdos en este subcontexto; 1 apuntando de cada uno de los ejemplos al otro (consulte la red de punteros que se muestra arriba). Por lo tanto, solo los supracontextos que contengan este subcontexto contendrán desacuerdos. Usamos una regla simple para identificar los supracontextos homogéneos:
Si el número de desacuerdos en el supracontexto es mayor que el número de desacuerdos en el subcontexto contenido, decimos que es heterogéneo; de lo contrario, es homogéneo.
Hay 3 situaciones que producen un supracontexto homogéneo:
- El supracontexto está vacío. Este es el caso de "3 - 2", que no contiene puntos de datos. No puede haber aumento en el número de desacuerdos y el supracontexto es trivialmente homogéneo.
- El supracontexto es determinista, lo que significa que solo ocurre un tipo de resultado en él. Este es el caso de "- 1 2" y "- - 2", que contienen solo datos con el resultado r .
- Solo un subcontexto contiene datos. El subcontexto no tiene que ser determinista para que el supracontexto sea homogéneo. Por ejemplo, mientras que los supracontextos "3 1 -" y "- 1 2" son deterministas y solo contienen un subcontexto no vacío, "3 - -" contiene solo el subcontexto "3 1 2 ". Este subcontexto contiene "3 1 0 e" y "3 1 1 r", lo que lo hace no determinista. Decimos que este tipo de supracontexto no está obstruido ni es determinista.
Los únicos dos supracontextos heterogéneos son "- 1 -" y "- - -". En ambos, es la combinación del "3 1 2 " no determinista con otros subcontextos que contienen el resultado r lo que causa la heterogeneidad.
En realidad, existe un cuarto tipo de supracontexto homogéneo: contiene más de un subcontexto no vacío y no es determinista, pero la frecuencia de resultados en cada subcontexto es exactamente la misma. Sin embargo, el modelado analógico no considera esta situación por 2 razones:
- Determinar si esta 4 situación ha ocurrido requiere un prueba. Esta es la única prueba de homogeneidad que requiere aritmética, e ignorarla permite que nuestras pruebas de homogeneidad se vuelvan estadísticamente libres, lo que hace que AM sea mejor para modelar el razonamiento humano.
- Es una situación extremadamente rara y, por lo tanto, se puede esperar que ignorarla no tenga un gran efecto en el resultado previsto.
A continuación, construimos el conjunto analógico, que consta de todos los indicadores y resultados de los supracontextos homogéneos. La siguiente figura muestra la red de punteros con los contextos homogéneos resaltados.
Los indicadores se resumen en la siguiente tabla:
Supracontexto homogéneo | Ocurrencias | Numero de punteros | ||
---|---|---|---|---|
| ||||
3 1 - | "3 1 0 e", "3 1 1 r" |
| ||
- 1 2 | "2 1 2 r" |
| ||
3 - - | "3 1 0 e", "3 1 1 r" |
| ||
- - 2 | "2 1 2 r", "0 3 2 r" |
| ||
Totales: |
|
4 de los punteros del conjunto analógico están asociados con el resultado e , y los otros 9 están asociados con r . En AM, un puntero se selecciona al azar y se predice el resultado al que apunta. Con un total de 13 indicadores, la probabilidad de que se prediga el resultado e es 4/13 o 30,8%, y para el resultado r es 9/13 o 69,2%. Podemos crear una cuenta más detallada enumerando los punteros para cada una de las ocurrencias en los supracontextos homogéneos:
Ocurrencia | Número de supracontextos homogéneos | Numero de punteros | Efecto analógico |
---|---|---|---|
3 1 0 e | 2 | 4 | 30,8% |
3 1 1 r | 2 | 4 | 30,8% |
2 1 2 r | 2 | 3 | 23,1% |
0 3 2 r | 1 | 2 | 15,4% |
2 1 0 r | 0 | 0 | 0,0% |
Entonces podemos ver el efecto analógico de cada una de las instancias en el conjunto de datos.
Contexto histórico
La analogía se ha considerado útil para describir el lenguaje al menos desde la época de Saussure . Noam Chomsky y otros han criticado más recientemente la analogía por ser demasiado vaga para ser realmente útil (Bańko 1991), una apelación a un deus ex machina. La propuesta de Skousen parece abordar esa crítica al proponer un mecanismo explícito de analogía, cuya validez psicológica se puede probar.
Aplicaciones
El modelado analógico se ha empleado en experimentos que van desde la fonología y la morfología (lingüística) hasta la ortografía y la sintaxis .
Problemas
Aunque el modelado analógico tiene como objetivo crear un modelo libre de reglas que los lingüistas perciben como inventadas, en su forma actual todavía requiere que los investigadores seleccionen qué variables tomar en consideración. Esto es necesario debido a la llamada "explosión exponencial" de los requisitos de potencia de procesamiento del software de computadora utilizado para implementar el modelado analógico. Investigaciones recientes sugieren que la computación cuántica podría proporcionar la solución a tales cuellos de botella en el desempeño (Skousen et al. 2002, ver págs. 45–47).
Ver también
Referencias
- Royal Skousen (1989). Modelado analógico del lenguaje (tapa dura). Dordrecht: Kluwer Academic Publishers. xii + 212pp . ISBN 0-7923-0517-5.
- Miroslaw Bańko (junio de 1991). "Revisión: Modelado analógico del lenguaje" (PDF) . Lingüística computacional . 17 (2): 246–248. Archivado desde el original (PDF) el 2003-08-02.
- Royal Skousen (1992). Analogía y estructura . Dordrect: Kluwer Academic Publishers. ISBN 0-7923-1935-4.
- Royal Skousen; Deryle Lonsdale; Dilworth B. Parkinson, eds. (2002). Modelado analógico: un enfoque del lenguaje basado en ejemplos (Procesamiento cognitivo humano vol. 10). Amsterdam / Filadelfia: John Benjamins Publishing Company. pag. x + 417pp. ISBN 1-58811-302-7.
- Skousen, Royal. (2003). Modelado analógico: ejemplos, reglas y computación cuántica . Presentado en la conferencia de la Sociedad Lingüística de Berkeley.
enlaces externos
- Página de inicio del grupo de investigación de modelado analógico
- LINGUIST List Announcement of Analogical Modelling , Skousen et al. (2002)