La vinculación de registros (también conocida como coincidencia de datos, resolución de entidades y muchos otros términos) es la tarea de encontrar registros en un conjunto de datos que se refieren a la misma entidad en diferentes fuentes de datos (por ejemplo, archivos de datos, libros, sitios web y bases de datos) . La vinculación de registros es necesaria cuando se unen diferentes conjuntos de datos basados en entidades que pueden o no compartir un identificador común (por ejemplo, clave de base de datos , URI , número de identificación nacional ), lo que puede deberse a diferencias en la forma del registro, la ubicación de almacenamiento o el estilo del curador. o preferencia. Un conjunto de datos que se ha sometido a una reconciliación orientada a RL puede denominarse reticulado. La vinculación de registros se conoce como vinculación de datos en muchas jurisdicciones, pero los dos son el mismo proceso.
Convenciones de nombres
"Vinculación de registros" es el término utilizado por estadísticos, epidemiólogos e historiadores, entre otros, para describir el proceso de unir registros de una fuente de datos con otra que describe la misma entidad. Sin embargo, se utilizan muchos otros términos para este proceso. Desafortunadamente, esta profusión de terminología ha dado lugar a pocas referencias cruzadas entre estas comunidades de investigación. [1] [2]
Los informáticos a menudo se refieren a él como "coincidencia de datos" o como el "problema de identidad del objeto". Las aplicaciones comerciales de correo y bases de datos se refieren a él como "procesamiento de fusión / purga" o "lavado de listas". Otros nombres utilizados para describir el mismo concepto incluyen: "correferencia / entidad / identidad / nombre / resolución de registro", "desambiguación / vinculación de entidad", "coincidencia aproximada", "detección de duplicados", "deduplicación", "coincidencia de registros", " (referencia) conciliación "," identificación de objeto "," integración de datos / información "y" fusión ". [3]
Si bien comparten nombres similares, la vinculación de registros y los datos vinculados son dos enfoques separados para procesar y estructurar datos. Aunque ambos implican la identificación de entidades coincidentes en diferentes conjuntos de datos, la vinculación de registros equipara de manera estándar "entidades" con individuos humanos; por el contrario, Linked Data se basa en la posibilidad de interconectar cualquier recurso web a través de conjuntos de datos, utilizando un concepto de identificador correspondientemente más amplio, a saber, un URI .
Historia
La idea inicial de vinculación de registros se remonta a Halbert L. Dunn en su artículo de 1946 titulado "Vinculación de registros" publicado en el American Journal of Public Health . [4]
Howard Borden Newcombe luego sentó las bases probabilísticas de la teoría moderna de vinculación de registros en un artículo de 1959 en Science . [5] Estos fueron formalizados en 1969 por Ivan Fellegi y Alan Sunter, en su trabajo pionero "A Theory For Record Linkage", donde demostraron que la regla de decisión probabilística que describieron era óptima cuando los atributos de comparación eran condicionalmente independientes. [6] En su trabajo, reconocieron el creciente interés en aplicar los avances en computación y automatización a grandes colecciones de datos administrativos , y la teoría de Fellegi-Sunter sigue siendo la base matemática para muchas aplicaciones de vinculación de registros.
Desde finales de la década de 1990, se han desarrollado diversas técnicas de aprendizaje automático que, en condiciones favorables, pueden utilizarse para estimar las probabilidades condicionales requeridas por la teoría de Fellegi-Sunter. Varios investigadores han informado de que el supuesto de independencia condicional del algoritmo de Fellegi-Sunter a menudo se viola en la práctica; sin embargo, los esfuerzos publicados para modelar explícitamente las dependencias condicionales entre los atributos de comparación no han dado como resultado una mejora en la calidad del enlace de registros. [ cita requerida ] Por otro lado, el aprendizaje automático o los algoritmos de redes neuronales que no se basan en estas suposiciones a menudo proporcionan una precisión mucho mayor cuando se dispone de suficientes datos de entrenamiento etiquetados. [7]
La vinculación de registros se puede realizar por completo sin la ayuda de una computadora, pero las razones principales por las que las computadoras se utilizan a menudo para completar las vinculaciones de registros son para reducir o eliminar la revisión manual y hacer que los resultados sean más fácilmente reproducibles. La comparación por computadora tiene las ventajas de permitir una supervisión central del procesamiento, un mejor control de calidad, velocidad, consistencia y una mejor reproducibilidad de los resultados. [8]
Métodos
Preprocesamiento de datos
La vinculación de registros es muy sensible a la calidad de los datos que se vinculan, por lo que todos los conjuntos de datos en consideración (particularmente sus campos de identificación clave) deberían idealmente someterse a una evaluación de la calidad de los datos antes de la vinculación de registros. Muchos identificadores clave para la misma entidad se pueden presentar de manera bastante diferente entre (e incluso dentro) de conjuntos de datos, lo que puede complicar enormemente la vinculación de registros a menos que se entiendan con anticipación. Por ejemplo, los identificadores clave de un hombre llamado William J. Smith pueden aparecer en tres conjuntos de datos diferentes de la siguiente manera:
Conjunto de datos | Nombre | Fecha de nacimiento | Ciudad de residencia |
---|---|---|---|
Conjunto de datos 1 | William J. Smith | 1/2/73 | Berkeley, California |
Conjunto de datos 2 | Smith, WJ | 1973.1.2 | Berkeley, CA |
Conjunto de datos 3 | Bill Smith | 2 de enero de 1973 | Berkeley, California |
En este ejemplo, los diferentes estilos de formato conducen a registros que se ven diferentes pero, de hecho, todos se refieren a la misma entidad con los mismos valores de identificador lógico. La mayoría, si no todas, las estrategias de vinculación de registros darían como resultado una vinculación más precisa si estos valores se normalizaran o estandarizaran primero en un formato coherente (p. Ej., Todos los nombres son "Apellido, Nombre" y todas las fechas son "AAAA / MM / DD "). La estandarización se puede lograr a través de transformaciones de datos simples basadas en reglas o procedimientos más complejos, como la tokenización basada en léxicos y los modelos probabilísticos de Markov ocultos. [9] Varios de los paquetes enumerados en la sección Implementaciones de software proporcionan algunas de estas características para simplificar el proceso de estandarización de datos.
Resolución de entidad
La resolución de entidades es un proceso de inteligencia operativa , generalmente impulsado por un motor de resolución de entidades o middleware , mediante el cual las organizaciones pueden conectar fuentes de datos dispares con el fin de comprender posibles coincidencias de entidades y relaciones no obvias en múltiples silos de datos . Analiza toda la información relacionada con individuos y / o entidades de múltiples fuentes de datos, y luego aplica la probabilidad y la puntuación de probabilidad para determinar qué identidades coinciden y qué relaciones no obvias, si las hay, existen entre esas identidades.
Los motores de resolución de entidades se utilizan normalmente para descubrir riesgos , fraudes y conflictos de intereses, pero también son herramientas útiles para su uso dentro de los requisitos de integración de datos del cliente (CDI) y gestión de datos maestros (MDM). Los usos típicos de los motores de resolución de entidades incluyen detección de terroristas, detección de fraude de seguros, cumplimiento de la Ley Patriota de EE . UU. , Detección de redes de delincuencia minorista organizada y detección de solicitantes.
Por ejemplo: en diferentes silos de datos (registros de empleados, datos de proveedores, listas de vigilancia, etc.), una organización puede tener varias variaciones de una entidad llamada ABC, que puede ser o no la misma persona. Estas entradas pueden, de hecho, aparecer como ABC1, ABC2 o ABC3 dentro de esas fuentes de datos. Al comparar las similitudes entre los atributos subyacentes, como la dirección , la fecha de nacimiento o el número de seguro social , el usuario puede eliminar algunas posibles coincidencias y confirmar otras como coincidencias muy probables.
Luego, los motores de resolución de entidades aplican reglas, basadas en la lógica del sentido común, para identificar las relaciones ocultas entre los datos. En el ejemplo anterior, quizás ABC1 y ABC2 no son la misma persona, sino dos personas distintas que comparten atributos comunes como la dirección o el número de teléfono.
Coincidencia de datos
Si bien las soluciones de resolución de entidades incluyen tecnología de comparación de datos, muchas ofertas de comparación de datos no se ajustan a la definición de resolución de entidad. Aquí hay cuatro factores que distinguen la resolución de entidades de la coincidencia de datos, según John Talburt, director del Centro de Investigación Avanzada en Resolución de Entidades y Calidad de la Información de la UALR :
- Funciona con registros estructurados y no estructurados, y conlleva el proceso de extracción de referencias cuando las fuentes no están estructuradas o semiestructuradas.
- Utiliza reglas de negocio y modelos conceptuales elaborados para tratar la información faltante, conflictiva y corrupta
- Utiliza información de vinculación afirmada (asociada) que no coincide, además de la coincidencia directa
- Descubre relaciones no obvias y redes de asociación (es decir, quién está asociado con quién)
A diferencia de los productos de calidad de datos, los motores de resolución de identidades más potentes también incluyen un motor de reglas y un proceso de flujo de trabajo, que aplican inteligencia empresarial a las identidades resueltas y sus relaciones. Estas tecnologías avanzadas toman decisiones automatizadas e impactan los procesos comerciales en tiempo real, lo que limita la necesidad de intervención humana.
Vinculación de registros determinista
El tipo más simple de vinculación de registros, denominado vinculación de registros determinista o basada en reglas , genera vínculos basados en el número de identificadores individuales que coinciden entre los conjuntos de datos disponibles. [10] Se dice que dos registros coinciden mediante un procedimiento de vinculación de registros determinista si todos o algunos identificadores (por encima de cierto umbral) son idénticos. La vinculación determinista de registros es una buena opción cuando las entidades en los conjuntos de datos se identifican mediante un identificador común, o cuando hay varios identificadores representativos (por ejemplo, nombre, fecha de nacimiento y sexo al identificar a una persona) cuya calidad de datos es relativamente elevado.
Como ejemplo, considere dos conjuntos de datos estandarizados, Conjunto A y Conjunto B, que contienen diferentes bits de información sobre pacientes en un sistema hospitalario. Los dos conjuntos de datos identifican a los pacientes mediante una variedad de identificadores: número de seguro social (SSN), nombre, fecha de nacimiento (DOB), sexo y código postal (ZIP). Los registros en dos conjuntos de datos (identificados por la columna "#") se muestran a continuación:
Conjunto de datos | # | SSN | Nombre | DOB | Sexo | CÓDIGO POSTAL |
---|---|---|---|---|---|---|
Establecer A | 1 | 000956723 | Smith, William | 1973/01/02 | Masculino | 94701 |
2 | 000956723 | Smith, William | 1973/01/02 | Masculino | 94703 | |
3 | 000005555 | Jones, Robert | 14/08/1942 | Masculino | 94701 | |
4 | 123001234 | Sue, María | 1972/11/19 | Mujer | 94109 | |
Conjunto B | 1 | 000005555 | Jones, Bob | 14/08/1942 | ||
2 | Smith, Bill | 1973/01/02 | Masculino | 94701 |
La estrategia de vinculación de registros determinista más simple sería elegir un único identificador que se supone que identifica de manera única, por ejemplo, SSN, y declarar que los registros que comparten el mismo valor identifican a la misma persona, mientras que los registros que no comparten el mismo valor identifican a diferentes personas. En este ejemplo, la vinculación determinista basada en SSN crearía entidades basadas en A1 y A2; A3 y B1; y A4. Si bien A1, A2 y B2 parecen representar la misma entidad, B2 no se incluiría en la coincidencia porque le falta un valor para el SSN.
El manejo de excepciones, como los identificadores faltantes, implica la creación de reglas adicionales de vinculación de registros. Una de esas reglas en el caso de que falte el SSN podría ser comparar el nombre, la fecha de nacimiento, el sexo y el código postal con otros registros con la esperanza de encontrar una coincidencia. En el ejemplo anterior, esta regla aún no coincidiría con A1 / A2 con B2 porque los nombres aún son ligeramente diferentes: la estandarización puso los nombres en el formato adecuado (Apellido, Nombre) pero no pudo discernir "Bill" como un apodo para " Guillermo". Ejecución de nombres a través de un algoritmo de fonética como Soundex , NYSIIS o metaphone , puede ayudar a resolver este tipo de problemas (aunque todavía puede tropezar con cambios apellido como el resultado de un matrimonio o divorcio), pero B2 entonces sería sólo comparable con A1 ya que el código postal en A2 es diferente. Por lo tanto, sería necesario crear otra regla para determinar si las diferencias en identificadores particulares son aceptables (como el código postal) y cuáles no (como la fecha de nacimiento).
Como demuestra este ejemplo, incluso una pequeña disminución en la calidad de los datos o un pequeño aumento en la complejidad de los datos puede resultar en un gran aumento en la cantidad de reglas necesarias para vincular registros correctamente. Con el tiempo, estas reglas de vinculación se volverán demasiado numerosas e interrelacionadas como para construirlas sin la ayuda de herramientas de software especializadas. Además, las reglas de vinculación suelen ser específicas de la naturaleza de los conjuntos de datos que están diseñados para vincular. Un estudio pudo vincular el archivo maestro de defunción del Seguro Social con dos registros hospitalarios del medio oeste de los Estados Unidos utilizando SSN, nombre codificado en NYSIIS, mes de nacimiento y sexo, pero estas reglas pueden no funcionar tan bien con conjuntos de datos de otras áreas geográficas. regiones o con datos recopilados sobre poblaciones más jóvenes. [11] Por lo tanto, las pruebas de mantenimiento continuo de estas reglas son necesarias para garantizar que continúen funcionando como se esperaba a medida que ingresan nuevos datos al sistema y deben vincularse. Los datos nuevos que presenten características diferentes a las que se esperaban inicialmente podrían requerir una reconstrucción completa del conjunto de reglas de vinculación de registros, lo que podría ser una tarea costosa y que consumiría mucho tiempo.
Vinculación probabilística de registros
La vinculación probabilística de registros , a veces denominada coincidencia difusa (también fusión probabilística o fusión difusa en el contexto de la fusión de bases de datos), adopta un enfoque diferente para el problema de vinculación de registros al tener en cuenta una gama más amplia de identificadores potenciales, calculando ponderaciones para cada identificador basado en su capacidad estimada para identificar correctamente una coincidencia o una no coincidencia, y el uso de estas ponderaciones para calcular la probabilidad de que dos registros dados se refieran a la misma entidad. Los pares de registros con probabilidades por encima de un cierto umbral se consideran coincidencias, mientras que los pares con probabilidades por debajo de otro umbral se consideran no coincidencias; los pares que caen entre estos dos umbrales se consideran "posibles coincidencias" y pueden tratarse en consecuencia (por ejemplo, revisados por humanos, vinculados o no vinculados, según los requisitos). Mientras que la vinculación de registros determinista requiere una serie de reglas potencialmente complejas que se programen con anticipación, los métodos de vinculación de registros probabilísticos pueden ser "entrenados" para funcionar bien con mucha menos intervención humana.
Muchos algoritmos probabilísticos de vinculación de registros asignan ponderaciones de coincidencia / no coincidencia a los identificadores mediante dos probabilidades denominadas u y m . La probabilidad u es la probabilidad de que un identificador en dos registros que no coincidan concuerde puramente por casualidad. Por ejemplo, la probabilidad u para el mes de nacimiento (donde hay doce valores que están distribuidos aproximadamente de manera uniforme) es 1/12 ≈ 0.083; los identificadores con valores que no están distribuidos uniformemente tendrán diferentes probabilidades de u para diferentes valores (posiblemente incluidos los valores perdidos). La probabilidad m es la probabilidad de que un identificador en pares coincidentes esté de acuerdo (o sea lo suficientemente similar, como cadenas con una distancia de Jaro-Winkler o Levenshtein baja ). Este valor sería 1.0 en el caso de datos perfectos, pero dado que esto rara vez (si es que alguna vez) es cierto, en su lugar se puede estimar. Esta estimación puede realizarse basándose en el conocimiento previo de los conjuntos de datos, identificando manualmente un gran número de pares coincidentes y no coincidentes para "entrenar" el algoritmo de vinculación de registros probabilísticos, o ejecutando iterativamente el algoritmo para obtener estimaciones más cercanas de la m probabilidad. Si se estimara un valor de 0,95 para la probabilidad m , entonces los pesos de coincidencia / no coincidencia para el identificador del mes de nacimiento serían:
Salir | Proporción de enlaces | Proporción de no enlaces | Relación de frecuencia | Peso |
---|---|---|---|---|
Partido | m = 0,95 | u ≈ 0.083 | m / u ≈ 11,4 | ln ( m / u ) / ln (2) ≈ 3,51 |
No coinciden | 1− m = 0,05 | 1- u ≈ 0,917 | (1 m ) / (1 u ) ≈ 0,0545 | ln ((1- m ) / (1- u )) / ln (2) ≈ -4,20 |
Se harían los mismos cálculos para todos los demás identificadores en consideración para encontrar sus pesos de coincidencia / no coincidencia. Luego, cada identificador de un registro se compararía con el identificador correspondiente de otro registro para calcular el peso total del par: el peso de coincidencia se agrega al total acumulado cada vez que un par de identificadores está de acuerdo, mientras que se agrega el peso de no coincidencia (es decir, el total acumulado disminuye) siempre que el par de identificadores no esté de acuerdo. Luego, el peso total resultante se compara con los umbrales antes mencionados para determinar si el par debe estar vinculado, no vinculado o reservado para una consideración especial (por ejemplo, validación manual). [12]
Determinar dónde establecer los umbrales de coincidencia / no coincidencia es un acto de equilibrio entre obtener una sensibilidad aceptable (o recuperación , la proporción de registros verdaderamente coincidentes que están vinculados por el algoritmo) y un valor predictivo positivo (o precisión , la proporción de registros vinculados por el algoritmo que realmente coincide). Se encuentran disponibles varios métodos manuales y automatizados para predecir los mejores umbrales, y algunos paquetes de software de vinculación de registros tienen herramientas integradas para ayudar al usuario a encontrar los valores más aceptables. Debido a que esta puede ser una tarea muy exigente desde el punto de vista computacional, particularmente para grandes conjuntos de datos, a menudo se usa una técnica conocida como bloqueo para mejorar la eficiencia. El bloqueo intenta restringir las comparaciones solo a aquellos registros en los que uno o más identificadores discriminatorios en particular están de acuerdo, lo que tiene el efecto de aumentar el valor predictivo positivo (precisión) a expensas de la sensibilidad (recuerdo). [12] Por ejemplo, el bloqueo basado en un apellido y un código postal codificados fonéticamente reduciría el número total de comparaciones requeridas y mejoraría las posibilidades de que los registros vinculados sean correctos (dado que dos identificadores ya están de acuerdo), pero podría perder registros que se refieren a la misma persona cuyo apellido o código postal era diferente (por matrimonio o reubicación, por ejemplo). El bloqueo basado en el mes de nacimiento, un identificador más estable que se esperaría que cambiara solo en el caso de error en los datos, proporcionaría una ganancia más modesta en el valor predictivo positivo y una pérdida de sensibilidad, pero crearía solo doce grupos distintos que, por mucho tiempo. grandes conjuntos de datos, pueden no proporcionar mucha mejora neta en la velocidad de cálculo. Por lo tanto, los sistemas de vinculación de registros robustos a menudo usan múltiples pases de bloqueo para agrupar datos de varias maneras con el fin de generar grupos de registros que deben compararse entre sí.
Aprendizaje automático
En los últimos años, se han utilizado diversas técnicas de aprendizaje automático en la vinculación de registros. Se ha reconocido [7] que el algoritmo clásico para la vinculación de registros probabilísticos descrito anteriormente es equivalente al algoritmo Naive Bayes en el campo del aprendizaje automático, [13] y adolece de la misma suposición de la independencia de sus características (una suposición de que normalmente no es cierto). [14] [15] A menudo se puede lograr una mayor precisión mediante el uso de varias otras técnicas de aprendizaje automático, incluido un perceptrón de una sola capa . [7] Junto con las tecnologías distribuidas, [16] la precisión y la escala para la vinculación de registros se pueden mejorar aún más.
Modelo matemático
En una aplicación con dos archivos, A y B, denote las filas ( registros ) por en el archivo A y en el archivo B. Asignar características de cada registro. El conjunto de registros que representan entidades idénticas está definido por
y el complemento de set , es decir, establecer representar diferentes entidades se define como
.
Un vector, está definido, que contiene los acuerdos y desacuerdos codificados sobre cada característica:
dónde es un subíndice de las características (sexo, edad, estado civil, etc.) de los archivos. Las probabilidades condicionales de observar un vector específico dado , se definen como
y
respectivamente. [6]
Aplicaciones
Gestión de datos maestros
La mayoría de los productos de gestión de datos maestros (MDM) utilizan un proceso de vinculación de registros para identificar registros de diferentes fuentes que representan la misma entidad del mundo real. Este vínculo se utiliza para crear un "registro maestro de oro" que contiene los datos limpios y reconciliados sobre la entidad. Las técnicas utilizadas en MDM son las mismas que para la vinculación de registros en general. MDM amplía esta coincidencia no solo para crear un "registro maestro de oro", sino también para inferir relaciones. (es decir, una persona tiene el mismo apellido / similar y la misma / similar dirección, esto podría implicar que comparten una relación familiar).
Almacenamiento de datos e inteligencia empresarial
La vinculación de registros juega un papel clave en el almacenamiento de datos y la inteligencia empresarial . Los almacenes de datos sirven para combinar datos de muchos sistemas de origen operativo diferentes en un modelo de datos lógico , que luego se puede introducir en un sistema de inteligencia empresarial para informes y análisis. Cada sistema de fuente operativo puede tener su propio método para identificar las mismas entidades utilizadas en el modelo de datos lógicos, por lo que la vinculación de registros entre las diferentes fuentes se vuelve necesaria para garantizar que la información sobre una entidad en particular en un sistema de fuente se pueda comparar sin problemas con la información sobre la misma entidad de otro sistema fuente. La estandarización de datos y la vinculación de registros subsiguiente a menudo ocurren en la parte de "transformación" del proceso de extracción, transformación y carga (ETL).
Investigación histórica
La vinculación de registros es importante para la investigación de historia social, ya que la mayoría de los conjuntos de datos, como los registros del censo y los registros parroquiales, se registraron mucho antes de la invención de los números de identificación nacional . Cuando se digitalizan fuentes antiguas, la vinculación de conjuntos de datos es un requisito previo para el estudio longitudinal . Este proceso a menudo se complica aún más por la falta de ortografía estándar de los nombres, los apellidos que cambian según el lugar de la vivienda, el cambio de los límites administrativos y los problemas para comparar los datos con otras fuentes. La vinculación de registros fue uno de los temas más destacados en el campo de la historia y la computación en la década de 1980, pero desde entonces ha sido objeto de menos atención en la investigación. [ cita requerida ]
Práctica e investigación médica
La vinculación de registros es una herramienta importante en la creación de datos necesarios para examinar la salud del público y del propio sistema de atención médica. Se puede utilizar para mejorar la existencia de datos, la recopilación de datos, la evaluación de la calidad y la difusión de información. Las fuentes de datos pueden examinarse para eliminar registros duplicados, identificar casos de notificación insuficiente y faltantes (por ejemplo, censos de población), crear estadísticas de salud orientadas a las personas y generar registros de enfermedades y sistemas de vigilancia de la salud. Algunos registros de cáncer vinculan varias fuentes de datos (p. Ej., Ingresos hospitalarios, informes patológicos y clínicos y registros de defunción) para generar sus registros. La vinculación de registros también se utiliza para crear indicadores de salud. Por ejemplo, la mortalidad fetal e infantil es un indicador general del desarrollo socioeconómico, la salud pública y los servicios maternos e infantiles de un país. Si los registros de defunción infantil se comparan con los registros de nacimiento, es posible utilizar variables de nacimiento, como el peso al nacer y la edad gestacional, junto con los datos de mortalidad, como la causa de la muerte, al analizar los datos. Los vínculos pueden ayudar en los estudios de seguimiento de cohortes u otros grupos para determinar factores como el estado vital, el estado residencial o los resultados de salud. El rastreo a menudo es necesario para el seguimiento de cohortes industriales, ensayos clínicos y encuestas longitudinales para obtener la causa de muerte y / o cáncer. Un ejemplo de un sistema de vinculación de registros exitoso y de larga data que permite la investigación médica basada en la población es el Proyecto de Epidemiología de Rochester con sede en Rochester, Minnesota . [17]
Críticas a las implementaciones de software existentes
Las principales razones citadas son: [ cita requerida ]
- Costos del proyecto : costos generalmente en cientos de miles de dólares
- Tiempo : falta de tiempo suficiente para lidiar con software de limpieza de datos a gran escala
- Seguridad : preocupaciones sobre compartir información, dar acceso a una aplicación a través de los sistemas y efectos en los sistemas heredados
- Escalabilidad : debido a la ausencia de identificadores únicos en los registros, la vinculación de registros es computacionalmente costosa y difícil de escalar. [18]
- Precisión : cambiar los datos comerciales y capturar todas las reglas para la vinculación es un ejercicio difícil y extenso
Ver también
- Optimización de capacidad
- Almacenamiento direccionable por contenido
- Deduplicación de datos
- Codificación delta
- Vinculación de entidades
- Modelo entidad-atributo-valor
- Resolución de identidad
- Datos vinculados
- Reconocimiento de entidad designada
- Información abierta
- Coincidencia de esquemas
- Almacenamiento de instancia única
- Desambiguación del nombre del autor
notas y referencias
- ^ Cristen, P & T: Febrl - Enlace de registro biomédico libremente extensible (Manual, versión 0.3) p.9
- ^ Elmagarmid, Ahmed; Panagiotis G. Ipeirotis; Vassilios Verykios (enero de 2007). "Detección de registros duplicados: una encuesta" (PDF) . Transacciones IEEE sobre conocimiento e ingeniería de datos . 19 (1): págs. 1-16. doi : 10.1109 / tkde.2007.250581 . S2CID 386036 . Consultado el 30 de marzo de 2009 .
- ^ http://homes.cs.washington.edu/~pedrod/papers/icdm06.pdf
- ^ Dunn, Halbert L. (diciembre de 1946). "Record Linkage" . Revista estadounidense de salud pública . 36 (12): págs. 1412–1416. doi : 10.2105 / AJPH.36.12.1412 . PMC 1624512 . PMID 18016455 .
- ^ Newcombe, HB; JM Kennedy; SJ Axford; AP James (octubre de 1959). "Vinculación automática de registros vitales". Ciencia . 130 (3381): 954–959. Código Bibliográfico : 1959Sci ... 130..954N . doi : 10.1126 / science.130.3381.954 . PMID 14426783 .
- ^ a b Fellegi, Ivan ; Sunter, Alan (diciembre de 1969). "Una teoría para la vinculación de registros" (PDF) . Revista de la Asociación Estadounidense de Estadística . 64 (328): págs. 1183–1210. doi : 10.2307 / 2286061 . JSTOR 2286061 .
- ^ a b c Wilson, D. Randall, D. Randall (31 de julio - 5 de agosto de 2011). Más allá del enlace de registros probabilísticos: uso de redes neuronales y funciones complejas para mejorar el enlace de registros genealógicos (PDF) . Actas de la Conferencia conjunta internacional sobre redes neuronales. San José, California, Estados Unidos.
- ^ Winkler, William E. "Emparejamiento y vinculación de registros" (PDF) . Oficina del Censo de EE. UU . Consultado el 12 de noviembre de 2011 .
- ^ Iglesias, Tim; Peter Christen; Kim Lim; Justin Xi Zhu (13 de diciembre de 2002). "Preparación de datos de nombre y dirección para vinculación de registros utilizando modelos ocultos de Markov" . BMC Informática Médica y Toma de Decisiones . 2 : 9. doi : 10.1186 / 1472-6947-2-9 . PMC 140019 . PMID 12482326 .
- ^ Roos, LL; Wajda A (abril de 1991). "Estrategias de vinculación de registros. Parte I: Estimación de información y evaluación de enfoques". Métodos de información en medicina . 30 (2): 117-123. doi : 10.1055 / s-0038-1634828 . PMID 1857246 .
- ^ Grannis, SJ; Overhage JM; McDonald CJ (2002). "Análisis del rendimiento del identificador mediante un algoritmo de vinculación determinista" . Proc AMIA Symp. : 305–9. PMC 2244404 . PMID 12463836 .
- ^ a b Blakely, Tony; Salmond, Clare (diciembre de 2002). "Vinculación de registros probabilísticos y un método para calcular el valor predictivo positivo" . Revista Internacional de Epidemiología . 31 (6): 1246-1252. doi : 10.1093 / ije / 31.6.1246 . PMID 12540730 .
- ^ Quass, Dallan y Starkey, Paul. “ Record Linkage for Genealogical Databases ”, ACM SIGKDD '03 Workshop on Data Cleaning, Record Linkage, and Object Consolidation, 24-27 de agosto de 2003, Washington, DC
- ^ Langley, Pat, Wayne Iba y Kevin Thompson. " Un análisis de clasificadores bayesianos ", en las actas de la 10ª Conferencia Nacional sobre Inteligencia Artificial, (AAAI-92), AAAI Press / MIT Press, Cambridge, MA, págs. 223-228, 1992.
- ^ Michie, D .; Spiegelhalter, D .; Taylor, C. (1994). Aprendizaje automático, clasificación neuronal y estadística . Hertfordshire, Inglaterra: Ellis Horwood. ISBN 0-13-106360-X.
- ^ "Coincidencia difusa con Spark" . Spark Summit.
- ^ St. Sauver JL; Grossardt BR; Bostezo BP; Melton LJ 3rd; Pankratz JJ; Brue SM; Rocca WA (2012). "Perfil de recursos de datos: el sistema de vinculación de registros médicos del proyecto de epidemiología de Rochester (REP)" . Int J Epidemiol . 41 (6): 1614–24. doi : 10.1093 / ije / dys195 . PMC 3535751 . PMID 23159830 .
- ^ https://observablehq.com/@nubetech/entity-resolution-at-scale
enlaces externos
- Proyecto de enlace de datos en Penn State, EE. UU.
- Marco de resolución de entidades de Stanford
- Dedoop: deduplicación con Hadoop
- BlockingFramework Un marco para la resolución de entidades basada en bloqueos
- Enlace de registro interactivo mejorado de privacidad en Texas A&M University