Métrica de cadena

En matemáticas y ciencias de la computación , una métrica de cadena (también conocida como métrica de similitud de cadena o función de distancia de cadena ) es una métrica que mide la distancia ("similitud inversa") entre dos cadenas de texto para la comparación o coincidencia aproximada de cadenas y en la búsqueda de cadenas difusas . Un requisito para una métrica de cadena (por ejemplo, en contraste con la coincidencia de cadenas ) es el cumplimiento de la desigualdad triangular . Por ejemplo, las cadenas "Sam" y "Samuel" pueden considerarse cercanas. ^[1]Una métrica de cadena proporciona un número que indica una indicación de distancia específica del algoritmo.

La métrica de cadena más conocida es una rudimentaria llamada distancia de Levenshtein (también conocida como distancia de edición). ^[2] Opera entre dos cadenas de entrada, devolviendo un número equivalente al número de sustituciones y eliminaciones necesarias para transformar una cadena de entrada en otra. Las métricas de cadena simplistas, como la distancia de Levenshtein, se han ampliado para incluir métodos de comparación estadística fonéticos, simbólicos , gramaticales y basados en caracteres.

Las métricas de cadenas se usan mucho en la integración de la información y actualmente se usan en áreas que incluyen detección de fraude , análisis de huellas dactilares , detección de plagio , fusión de ontologías , análisis de ADN, análisis de ARN, análisis de imágenes , aprendizaje automático basado en evidencia , deduplicación de datos de bases de datos , minería de datos , análisis incremental. búsqueda , integración de datos , detección de malware, ^[3] e integración de conocimiento semántico .