Enfoque de clasificación de coincidencias

Este artículo proporciona un contexto insuficiente para quienes no están familiarizados con el tema . Por favor, ayuda a mejorar el artículo por proporcionar más contexto para el lector . ( Octubre de 2009 ) ( Obtenga información sobre cómo y cuándo eliminar este mensaje de plantilla )

El método de clasificación de coincidencia (MRA) es un algoritmo fonético desarrollado por Western Airlines en 1977 para la indexación y comparación de nombres homófonos . ^[1]

El algoritmo en sí tiene un conjunto simple de reglas de codificación pero un conjunto más extenso de reglas de comparación. El mecanismo principal es la comparación de similitudes, que calcula el número de caracteres no coincidentes comparando las cadenas de izquierda a derecha y luego de derecha a izquierda, y eliminando caracteres idénticos. Este valor se resta de 6 y luego se compara con un umbral mínimo. El umbral mínimo se define en la tabla A y depende de la longitud de las cuerdas.

El nombre codificado se conoce (quizás incorrectamente) como un identificador numérico personal (PNI). El nombre codificado nunca puede contener más de 6 caracteres alfabéticos.

El método de clasificación de coincidencia funciona bien con nombres que contienen la letra "y", a diferencia de la versión original del algoritmo NYSIIS ; por ejemplo, los apellidos "Smith" y "Smyth" se combinan correctamente. Sin embargo, MRA no funciona bien con nombres codificados que difieren en longitud en más de 2.

Reglas de codificación

Eliminar todas las vocales a menos que la vocal comience la palabra
Eliminar la segunda consonante de cualquier consonante doble presente
Reduzca el códice a 6 letras uniendo solo las primeras 3 y las últimas 3 letras

Reglas de comparación

En esta sección, las palabras "cadena (s)" y "nombre (s)" significan "cadena (s) codificada (s)" y "nombre (s) codificado (s)".

Si la diferencia de longitud entre las cadenas codificadas es 3 o mayor, no se realiza ninguna comparación de similitud.
Obtenga el valor de calificación mínimo calculando la suma de longitudes de las cadenas codificadas y utilizando la tabla A
Procese las cadenas codificadas de izquierda a derecha y elimine los caracteres idénticos que se encuentren en ambas cadenas, respectivamente.
Procese los caracteres no coincidentes de derecha a izquierda y elimine los caracteres idénticos encontrados en ambos nombres, respectivamente.
Reste el número de caracteres no coincidentes de 6 en la cadena más larga. Esta es la calificación de similitud.
Si la calificación de similitud es igual o mayor que la calificación mínima, la coincidencia se considera buena.

Umbral mínimo

La siguiente tabla muestra el mapeo entre la clasificación mínima y las longitudes de las cuerdas.

Cuadro A
Suma de longitudes	Calificación mínima
≤ 4	5
4 <suma ≤ 7	4
7 <suma ≤ 11	3
= 12	2

Ejemplos de enfoques de clasificación de coincidencias

La siguiente tabla muestra el resultado del algoritmo de enfoque de calificación de coincidencia para algunos nombres homófonos comunes.

Nombre	Códice MRA	Calificación mínima	Clasificación de comparación de similitud
Byrne	BYRN	4	5
Boern	BRN	4	5
Herrero	SMTH	3	5
Smyth	SMYTH	3	5
Catalina	CTHRN	3	4
Kathryn	KTHRYN	3	4

Ver también

Soundex

Referencias

^ Moore, G B .; Kuhns, J L .; Treffzs, J L .; Montgomery, C A. (1 de febrero de 1977). Acceso a registros individuales desde archivos de datos personales mediante identificadores no únicos . Instituto Nacional de Estándares y Tecnología de EE. UU. pag. 17. NIST SP - 500-2. Lay resumen .

enlaces externos

El algoritmo de implementación de Wikibook tiene una página sobre el tema: Enfoque de calificación de coincidencias

Una descripción general de los problemas relacionados con el uso de identificadores personales, HSMD, Statistics Canada
Implementación de C #: http://sounditout.codeplex.com/

[1] Moore, G B .; Kuhns, J L .; Treffzs, J L .; Montgomery, C A. (1 de febrero de 1977). Acceso a registros individuales desde archivos de datos personales mediante identificadores no únicos . Instituto Nacional de Estándares y Tecnología de EE. UU. pag. 17. NIST SP - 500-2. Lay resumen .

[1]