Técnicas de análisis de datos para la detección de fraudes

Introducción

Fraude que consiste en los teléfonos celulares , las reclamaciones de seguros , declaraciones de impuestos reclamaciones, las transacciones de tarjetas de crédito , compras gubernamentales , etc. representan problemas significativos para los gobiernos y las empresas especializadas y técnicas de análisis para descubrir el fraude de usarlos se requieren. Estos métodos existen en las áreas de Descubrimiento de Conocimiento en Bases de Datos (KDD), Minería de Datos , Aprendizaje Automático y Estadísticas . Ofrecen soluciones aplicables y exitosas en diferentes áreas de delitos de fraude electrónico. ^[1]

En general, la razón principal para utilizar técnicas de análisis de datos es abordar el fraude, ya que muchos sistemas de control interno tienen serias debilidades. Por ejemplo, el enfoque que actualmente prevalece empleado por muchas agencias de aplicación de la ley para detectar empresas involucradas en casos potenciales de fraude consiste en recibir evidencia circunstancial o quejas de denunciantes. ^[2] Como resultado, un gran número de casos de fraude permanecen sin ser detectados ni procesados. Para probar, detectar, validar, corregir errores y monitorear de manera efectiva los sistemas de control contra actividades fraudulentas, las entidades comerciales y las organizaciones confían en técnicas de análisis de datos especializadas como minería de datos, comparación de datos, función de sonidos, análisis de regresión, análisis de agrupamiento y brechas. ^{[3] Las} técnicas utilizadas para la detección de fraudes se dividen en dos clases principales: técnicas estadísticas e inteligencia artificial . ^[4]

Técnicas estadísticas

Ejemplos de técnicas de análisis de datos estadísticos son:

Técnicas de preprocesamiento de datos para detección, validación, corrección de errores y llenado de datos faltantes o incorrectos.
Cálculo de varios parámetros estadísticos como promedios , cuantiles , métricas de desempeño, distribuciones de probabilidad, etc. Por ejemplo, los promedios pueden incluir la duración promedio de las llamadas, el número promedio de llamadas por mes y los retrasos promedio en el pago de facturas.
Modelos y distribuciones de probabilidad de diversas actividades comerciales, ya sea en términos de varios parámetros o distribuciones de probabilidad.
Calcular perfiles de usuarios .
Análisis de series de tiempo de datos dependientes del tiempo. ^[5]
Agrupación y clasificación para encontrar patrones y asociaciones entre grupos de datos. ^[5]
Concordancia de datos La concordancia de datos se utiliza para comparar dos conjuntos de datos recopilados. El proceso se puede realizar en base a algoritmos o bucles programados. Intentar hacer coincidir conjuntos de datos entre sí o comparar tipos de datos complejos. La comparación de datos se utiliza para eliminar registros duplicados e identificar vínculos entre dos conjuntos de datos para fines de marketing, seguridad u otros usos. ^[3]
Parece que Function se usa para encontrar valores que suenen similares. La similitud fonética es una forma de localizar posibles valores duplicados o una ortografía inconsistente en los datos ingresados manualmente. La función 'suena como' convierte las cadenas de comparación en códigos American Soundex de cuatro caracteres, que se basan en la primera letra y las primeras tres consonantes después de la primera letra, en cada cadena. ^[3]
El análisis de regresión le permite examinar la relación entre dos o más variables de interés. El análisis de regresión estima las relaciones entre las variables independientes y una variable dependiente. Este método se puede utilizar para ayudar a comprender e identificar las relaciones entre las variables y predecir los resultados reales. ^[3]
El análisis de brechas se utiliza para determinar si se están cumpliendo los requisitos comerciales, si no, cuáles son los pasos que se deben tomar para cumplir con éxito.
Algoritmos de emparejamiento para detectar anomalías en el comportamiento de transacciones o usuarios en comparación con modelos y perfiles previamente conocidos. También se necesitan técnicas para eliminar falsas alarmas , estimar riesgos y predecir el futuro de las transacciones o los usuarios actuales.

Algunos contadores forenses se especializan en análisis forense, que es la obtención y el análisis de datos electrónicos para reconstruir, detectar o respaldar una denuncia de fraude financiero. Los pasos principales en el análisis forense son la recopilación de datos , la preparación de datos, el análisis de datos y la generación de informes. Por ejemplo, el análisis forense se puede utilizar para revisar la actividad de la tarjeta de compra de un empleado para evaluar si alguna de las compras se desvió o se pudo desviar para uso personal.

Técnicas de inteligencia artificial

La detección de fraudes es una actividad intensiva en conocimientos. Las principales técnicas de inteligencia artificial utilizadas para la detección de fraudes incluyen:

Minería de datos para clasificar, agrupar y segmentar los datos y encontrar automáticamente asociaciones y reglas en los datos que puedan significar patrones interesantes, incluidos los relacionados con el fraude.
Sistemas expertos para codificar la experiencia para detectar el fraude en forma de reglas.
Reconocimiento de patrones para detectar clases aproximadas, grupos o patrones de comportamiento sospechoso, ya sea automáticamente (sin supervisión) o para que coincida con las entradas dadas.
Técnicas de aprendizaje automático para identificar automáticamente las características del fraude.
Redes neuronales para generar de forma independiente clasificación, agrupamiento, generalización y pronóstico que luego se pueden comparar con las conclusiones obtenidas en auditorías internas o documentos financieros formales como 10-Q . ^[5]

Otras técnicas, como el análisis de enlaces , las redes bayesianas , la teoría de decisiones y el emparejamiento de secuencias también se utilizan para la detección de fraudes. ^[4] También se ha empleado una técnica nueva y novedosa denominada enfoque de propiedades del sistema siempre que haya datos de clasificación disponibles. ^[6]

El análisis estadístico de datos de investigación es el método más completo para determinar si existe fraude de datos. El fraude de datos según lo define la Oficina de Integridad de la Investigación (ORI) incluye la fabricación, la falsificación y el plagio.

Aprendizaje automático y minería de datos

Las primeras técnicas de análisis de datos estaban orientadas a extraer características de datos cuantitativos y estadísticos. Estas técnicas facilitan interpretaciones de datos útiles y pueden ayudar a obtener una mejor comprensión de los procesos detrás de los datos. Aunque las técnicas tradicionales de análisis de datos pueden llevarnos indirectamente al conocimiento, todavía lo crean analistas humanos. ^[7]

Para ir más allá, un sistema de análisis de datos debe estar equipado con una cantidad sustancial de conocimientos básicos y ser capaz de realizar tareas de razonamiento que involucren ese conocimiento y los datos proporcionados. ^[7] En un esfuerzo por alcanzar este objetivo, los investigadores han recurrido a ideas del campo del aprendizaje automático. Esta es una fuente natural de ideas, ya que la tarea de aprendizaje automático se puede describir como convertir el conocimiento previo y los ejemplos (entrada) en conocimiento (salida).

Si la minería de datos da como resultado el descubrimiento de patrones significativos, los datos se convierten en información. La información o los patrones que son nuevos, válidos y potencialmente útiles no son simplemente información, sino conocimiento. Se habla de descubrir conocimientos, antes ocultos en la enorme cantidad de datos, pero ahora revelados.

Las soluciones de aprendizaje automático e inteligencia artificial se pueden clasificar en dos categorías: aprendizaje "supervisado" y "no supervisado". Estos métodos buscan cuentas, clientes, proveedores, etc. que se comportan 'inusualmente' para generar puntajes de sospecha, reglas o anomalías visuales, según el método. ^[8]

Ya sea que se utilicen métodos supervisados o no supervisados, tenga en cuenta que el resultado solo nos da una indicación de la probabilidad de fraude. Ningún análisis estadístico independiente puede asegurar que un objeto en particular sea fraudulento, pero pueden identificarlo con grados muy altos de precisión.

Aprendizaje supervisado

En el aprendizaje supervisado, se toma una submuestra aleatoria de todos los registros y se clasifica manualmente como 'fraudulenta' o 'no fraudulenta' (la tarea se puede descomponer en más clases para cumplir con los requisitos del algoritmo). Es posible que sea necesario muestrear en exceso los eventos relativamente raros, como el fraude, para obtener un tamaño de muestra lo suficientemente grande. ^[9] Estos registros clasificados manualmente se utilizan luego para entrenar un algoritmo de aprendizaje automático supervisado. Después de construir un modelo usando estos datos de entrenamiento, el algoritmo debería poder clasificar los nuevos registros como fraudulentos o no fraudulentos.

Las redes neuronales supervisadas, las redes neuronales difusas y las combinaciones de redes y reglas neuronales se han explorado ampliamente y se han utilizado para detectar fraudes en redes de telefonía móvil y fraudes en los estados financieros. ^[10]^[11]

La red neuronal de aprendizaje bayesiano se implementa para la detección de fraudes de tarjetas de crédito, fraudes de telecomunicaciones, detección de fraudes de reclamos de automóviles y fraudes de seguros médicos. ^[12]

Los sistemas híbridos basados en conocimiento / estadísticas, donde el conocimiento experto se integra con el poder estadístico, utilizan una serie de técnicas de minería de datos con el fin de detectar el fraude de clones celulares. Específicamente, se implementa un programa de aprendizaje de reglas para descubrir indicadores de comportamiento fraudulento de una gran base de datos de transacciones de clientes. ^[13]

Cahill y col. (2000) diseñan una firma de fraude, basada en datos de llamadas fraudulentas, para detectar fraudes en telecomunicaciones. Para calificar una llamada por fraude, su probabilidad bajo la firma de la cuenta se compara con su probabilidad bajo una firma de fraude. La firma de fraude se actualiza secuencialmente, lo que permite la detección de fraude basada en eventos.

El análisis de enlaces comprende un enfoque diferente. Relaciona a los estafadores conocidos con otras personas, utilizando métodos de vinculación de registros y redes sociales. ^[14]^[15]

Este tipo de detección solo es capaz de detectar fraudes similares a los que han ocurrido anteriormente y han sido clasificados por un humano. Para detectar un tipo novedoso de fraude, es posible que se requiera el uso de un algoritmo de aprendizaje automático no supervisado.

Aprendizaje sin supervisión

Por el contrario, los métodos no supervisados no utilizan registros etiquetados.

Cabe mencionar algunos estudios importantes con aprendizaje no supervisado con respecto a la detección de fraudes. Por ejemplo, Bolton y Hand ^[16] utilizan el análisis de grupo de pares y el análisis de punto de ruptura aplicado al comportamiento del gasto en cuentas de tarjetas de crédito. El análisis de grupo de pares detecta objetos individuales que comienzan a comportarse de una manera diferente a los objetos a los que habían sido similares anteriormente. Otra herramienta desarrollada por Bolton y Hand ^[16] para la detección de fraudes por comportamiento es el Análisis de punto de ruptura. A diferencia del análisis de grupo de pares, el análisis de punto de ruptura opera a nivel de cuenta. Un punto de quiebre es una observación en la que se detecta un comportamiento anómalo para una cuenta en particular. Ambas herramientas se aplican al comportamiento de gasto en cuentas de tarjetas de crédito. Se incluye una combinación de métodos supervisados y no supervisados para la detección de fraudes con tarjetas de crédito. ^[17]

Conjuntos de datos disponibles

Una limitación importante para la validación de los métodos de detección de fraude existentes es la falta de conjuntos de datos públicos. ^[18] Uno de los pocos ejemplos es el conjunto de datos de detección de fraudes en tarjetas de crédito ^{[19] que} puso a disposición el Grupo de aprendizaje automático de ULB. ^[20]

Ver también

Fraude
Disuasión del fraude
Elaboración de perfiles (ciencia de la información)
Procesamiento de datos
Software de geolocalización
Redes neuronales
Inteligencia artificial
Patrones
Agrupación de datos
Estadísticas
Etiquetado
Aprendizaje del árbol de decisiones
Análisis de regresión
Datos sintéticos
Ley de Benford
Beneish puntaje M

Referencias

^ Publicado por Roman Chuprina el 14 de abril de 2020 a la 1:30 am; Blog, Ver. "La guía en profundidad 2020 para la detección de fraudes en el comercio electrónico" . www.datasciencecentral.com . Consultado el 24 de mayo de 2020 .
^ Velasco, Rafael B .; Carpanese, Igor; Interian, Ruben; Paulo Neto, Octávio CG; Ribeiro, Celso C. (28 de mayo de 2020). "Un sistema de apoyo a la decisión para la detección de fraudes en la contratación pública" . Transacciones internacionales en investigación operativa . 28 : 27–47. doi : 10.1111 / itor.12811 . ISSN 0969-6016 .
^ a b c d Bolton, R. y Hand, D. (2002). Detección de fraude estadístico: una revisión. Ciencia estadística 17 (3), págs. 235-255
^ a b G. K. Palshikar, La verdad oculta: los fraudes y su control: una aplicación fundamental para la inteligencia empresarial, Empresa inteligente, vol. 5, no. 9, 28 de mayo de 2002, págs. 46–51.
^ a b c Al-Khatib, Adnan M. (2012). "Técnicas de detección de fraudes en pagos electrónicos". Revista Mundo de las Ciencias de la Computación y Tecnología de la Información . 2 . S2CID 214778396 .
^ Vani, GK (febrero de 2018). "Cómo detectar el fraude en la recopilación de datos utilizando el enfoque de propiedades del sistema" . Multilógica en la ciencia . VII (NÚMERO ESPECIAL ICAAASTSD-2018). ISSN 2277-7601 . Consultado el 2 de febrero de 2019 .
↑ a b Michalski, RS, I. Bratko y M. Kubat (1998). Aprendizaje automático y minería de datos: métodos y aplicaciones. John Wiley & Sons Ltd.
^ Bolton, R. y Hand, D. (2002). Detección de fraude estadístico: una revisión (con debate). Ciencia estadística 17 (3): 235–255.
^ Dal Pozzolo, A. y Caelen, O. y Le Borgne, Y. y Waterschoot, S. y Bontempi, G. (2014). Lecciones aprendidas en la detección de fraudes con tarjetas de crédito desde la perspectiva de un profesional. Sistemas expertos con aplicaciones 41: 10 4915–4928.
^ Green, B. y Choi, J. (1997). Evaluación del riesgo de fraude en la gestión a través de la tecnología de redes neuronales. Auditoría 16 (1): 14-28.
^ Estevez, P., C. Held y C. Perez (2006). Prevención de fraudes de suscripción en telecomunicaciones mediante reglas difusas y redes neuronales. Sistemas expertos con aplicaciones 31, 337–344.
^ Bhowmik, Rekha Bhowmik. "35 técnicas de minería de datos en la detección de fraudes" . Revista de Forense Digital, Seguridad y Derecho . Universidad de Texas en Dallas.
^ Fawcett, T. (1997). Enfoques de IA para la detección de fraudes y la gestión de riesgos: artículos del taller AAAI de 1997. Informe técnico WS-97-07. AAAI Press.
^ Phua, C .; Lee, V .; Smith-Miles, K .; Gayler, R. (2005). "Una encuesta completa de investigación de detección de fraude basada en minería de datos". arXiv : 1009.6119 . doi : 10.1016 / j.chb.2012.01.002 . S2CID 50458504 . Cite journal requiere |journal=( ayuda )
^ Cortes, C. y Pregibon, D. (2001). Métodos basados en firmas para flujos de datos. Minería de datos y descubrimiento de conocimientos 5: 167–182.
↑ a b Bolton, R. y Hand, D. (2001). Métodos de creación de perfiles no supervisados para la detección de fraudes. Calificación crediticia y control crediticio VII.
^ Carcillo, Fabrizio; Le Borgne, Yann-Aël; Caelen, Olivier; Kessaci, Yacine; Oblé, Frédéric; Bontempi, Gianluca (16 de mayo de 2019). "Combinando el aprendizaje supervisado y no supervisado en la detección de fraudes con tarjetas de crédito" . Ciencias de la información . 557 : 317–331. doi : 10.1016 / j.ins.2019.05.042 . ISSN 0020-0255 .
^ Le Borgne, Yann-Aël; Bontempi, Gianluca (2021). "Aprendizaje automático para la detección de fraudes con tarjetas de crédito - Manual práctico" . Consultado el 26 de abril de 2021 .
^ "Detección de fraudes de tarjetas de crédito" . kaggle.com .
^ "Grupo de Aprendizaje Automático ULB" . mlg.ulb.ac.be .

[1] Publicado por Roman Chuprina el 14 de abril de 2020 a la 1:30 am; Blog, Ver. "La guía en profundidad 2020 para la detección de fraudes en el comercio electrónico" . www.datasciencecentral.com . Consultado el 24 de mayo de 2020 .

[2] Velasco, Rafael B .; Carpanese, Igor; Interian, Ruben; Paulo Neto, Octávio CG; Ribeiro, Celso C. (28 de mayo de 2020). "Un sistema de apoyo a la decisión para la detección de fraudes en la contratación pública" . Transacciones internacionales en investigación operativa . 28 : 27–47. doi : 10.1111 / itor.12811 . ISSN 0969-6016 .

[English302gmu-3] Bolton, R. y Hand, D. (2002). Detección de fraude estadístico: una revisión. Ciencia estadística 17 (3), págs. 235-255

[palshikar_2002-4] G. K. Palshikar, La verdad oculta: los fraudes y su control: una aplicación fundamental para la inteligencia empresarial, Empresa inteligente, vol. 5, no. 9, 28 de mayo de 2002, págs. 46–51.

[:0-5] Al-Khatib, Adnan M. (2012). "Técnicas de detección de fraudes en pagos electrónicos". Revista Mundo de las Ciencias de la Computación y Tecnología de la Información . 2 . S2CID 214778396 .

[6] Vani, GK (febrero de 2018). "Cómo detectar el fraude en la recopilación de datos utilizando el enfoque de propiedades del sistema" . Multilógica en la ciencia . VII (NÚMERO ESPECIAL ICAAASTSD-2018). ISSN 2277-7601 . Consultado el 2 de febrero de 2019 .

[michalski_1998-7] Michalski, RS, I. Bratko y M. Kubat (1998). Aprendizaje automático y minería de datos: métodos y aplicaciones. John Wiley & Sons Ltd.

[bolton_2002-8] Bolton, R. y Hand, D. (2002). Detección de fraude estadístico: una revisión (con debate). Ciencia estadística 17 (3): 235–255.

[dal2014learned-9] Dal Pozzolo, A. y Caelen, O. y Le Borgne, Y. y Waterschoot, S. y Bontempi, G. (2014). Lecciones aprendidas en la detección de fraudes con tarjetas de crédito desde la perspectiva de un profesional. Sistemas expertos con aplicaciones 41: 10 4915–4928.

[green_1997-10] Green, B. y Choi, J. (1997). Evaluación del riesgo de fraude en la gestión a través de la tecnología de redes neuronales. Auditoría 16 (1): 14-28.

[estevez_2006-11] Estevez, P., C. Held y C. Perez (2006). Prevención de fraudes de suscripción en telecomunicaciones mediante reglas difusas y redes neuronales. Sistemas expertos con aplicaciones 31, 337–344.

[12] Bhowmik, Rekha Bhowmik. "35 técnicas de minería de datos en la detección de fraudes" . Revista de Forense Digital, Seguridad y Derecho . Universidad de Texas en Dallas.

[fawcett_1997-13] Fawcett, T. (1997). Enfoques de IA para la detección de fraudes y la gestión de riesgos: artículos del taller AAAI de 1997. Informe técnico WS-97-07. AAAI Press.

[phua_2005-14] Phua, C .; Lee, V .; Smith-Miles, K .; Gayler, R. (2005). "Una encuesta completa de investigación de detección de fraude basada en minería de datos". arXiv : 1009.6119 . doi : 10.1016 / j.chb.2012.01.002 . S2CID 50458504 . Cite journal requiere |journal=( ayuda )

[cortes_2002-15] Cortes, C. y Pregibon, D. (2001). Métodos basados en firmas para flujos de datos. Minería de datos y descubrimiento de conocimientos 5: 167–182.

[bolton_2001-16] Bolton, R. y Hand, D. (2001). Métodos de creación de perfiles no supervisados para la detección de fraudes. Calificación crediticia y control crediticio VII.

[17] Carcillo, Fabrizio; Le Borgne, Yann-Aël; Caelen, Olivier; Kessaci, Yacine; Oblé, Frédéric; Bontempi, Gianluca (16 de mayo de 2019). "Combinando el aprendizaje supervisado y no supervisado en la detección de fraudes con tarjetas de crédito" . Ciencias de la información . 557 : 317–331. doi : 10.1016 / j.ins.2019.05.042 . ISSN 0020-0255 .

[18] Le Borgne, Yann-Aël; Bontempi, Gianluca (2021). "Aprendizaje automático para la detección de fraudes con tarjetas de crédito - Manual práctico" . Consultado el 26 de abril de 2021 .

[19] "Detección de fraudes de tarjetas de crédito" . kaggle.com .

[20] "Grupo de Aprendizaje Automático ULB" . mlg.ulb.ac.be .

[1]