Enfoque de clasificación de coincidencias


De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

El método de clasificación de coincidencia (MRA) es un algoritmo fonético desarrollado por Western Airlines en 1977 para la indexación y comparación de nombres homófonos . [1]

El algoritmo en sí tiene un conjunto simple de reglas de codificación pero un conjunto más extenso de reglas de comparación. El mecanismo principal es la comparación de similitudes, que calcula el número de caracteres no coincidentes comparando las cadenas de izquierda a derecha y luego de derecha a izquierda, y eliminando caracteres idénticos. Este valor se resta de 6 y luego se compara con un umbral mínimo. El umbral mínimo se define en la tabla A y depende de la longitud de las cuerdas.

El nombre codificado se conoce (quizás incorrectamente) como un identificador numérico personal (PNI). El nombre codificado nunca puede contener más de 6 caracteres alfabéticos.

El método de clasificación de coincidencia funciona bien con nombres que contienen la letra "y", a diferencia de la versión original del algoritmo NYSIIS ; por ejemplo, los apellidos "Smith" y "Smyth" se combinan correctamente. Sin embargo, MRA no funciona bien con nombres codificados que difieren en longitud en más de 2.

Reglas de codificación

  1. Eliminar todas las vocales a menos que la vocal comience la palabra
  2. Eliminar la segunda consonante de cualquier consonante doble presente
  3. Reduzca el códice a 6 letras uniendo solo las primeras 3 y las últimas 3 letras

Reglas de comparación

En esta sección, las palabras "cadena (s)" y "nombre (s)" significan "cadena (s) codificada (s)" y "nombre (s) codificado (s)".

  1. Si la diferencia de longitud entre las cadenas codificadas es 3 o mayor, no se realiza ninguna comparación de similitud.
  2. Obtenga el valor de calificación mínimo calculando la suma de longitudes de las cadenas codificadas y utilizando la tabla A
  3. Procese las cadenas codificadas de izquierda a derecha y elimine los caracteres idénticos que se encuentren en ambas cadenas, respectivamente.
  4. Procese los caracteres no coincidentes de derecha a izquierda y elimine los caracteres idénticos encontrados en ambos nombres, respectivamente.
  5. Reste el número de caracteres no coincidentes de 6 en la cadena más larga. Esta es la calificación de similitud.
  6. Si la calificación de similitud es igual o mayor que la calificación mínima, la coincidencia se considera buena.

Umbral mínimo

La siguiente tabla muestra el mapeo entre la clasificación mínima y las longitudes de las cuerdas.

Ejemplos de enfoques de clasificación de coincidencias

La siguiente tabla muestra el resultado del algoritmo de enfoque de calificación de coincidencia para algunos nombres homófonos comunes.

Ver también

Soundex

Referencias

  1. ^ Moore, G B .; Kuhns, J L .; Treffzs, J L .; Montgomery, C A. (1 de febrero de 1977). Acceso a registros individuales desde archivos de datos personales mediante identificadores no únicos . Instituto Nacional de Estándares y Tecnología de EE. UU. pag. 17. NIST SP - 500-2. Lay resumen .

enlaces externos