Elaboración de perfiles (ciencia de la información)

En ciencia de la información , la elaboración de perfiles se refiere al proceso de construcción y aplicación de perfiles de usuario generados por análisis de datos computarizados .

Es el uso de algoritmos u otras técnicas matemáticas que permiten el descubrimiento de patrones o correlaciones en grandes cantidades de datos, agregados en bases de datos . Cuando estos patrones o correlaciones se utilizan para identificar o representar a personas, pueden denominarse perfiles . Aparte de una discusión sobre las tecnologías de elaboración de perfiles o la elaboración de perfiles de población , la noción de elaboración de perfiles en este sentido no se trata solo de la construcción de perfiles, sino que también se refiere a la aplicación de perfiles de grupo a individuos, e. g., en los casos de credit scoring, discriminación de precios o identificación de riesgos de seguridad ( Hildebrandt & Gutwirth 2008 ) ( Elmer 2004 ).

La elaboración de perfiles no es simplemente una cuestión de reconocimiento de patrones computarizado; permite una discriminación de precios refinada, un servicio específico , la detección de fraudes y una amplia clasificación social . La creación de perfiles de máquinas en tiempo real constituye la condición previa para las infraestructuras socio-técnicas emergentes imaginadas por los defensores de la inteligencia ambiental , ^{[1] la} computación autónoma ( Kephart & Chess 2003 ) y la computación ubicua ( Weiser 1991 ).

Uno de los problemas más desafiantes de la sociedad de la información consiste en lidiar con la creciente sobrecarga de datos. Con la digitalización de todo tipo de contenido, así como la mejora y la caída en el costo de las tecnologías de grabación, la cantidad de información disponible se ha vuelto enorme y aumenta exponencialmente. Por tanto, se ha vuelto importante para empresas, gobiernos e individuos discriminar información del ruido , detectando datos útiles o interesantes. El desarrollo de tecnologías de creación de perfiles debe considerarse en este contexto. ^{[ cita requerida ]} Estas tecnologías son pensadas ^{[ por quién? ]} para recopilar y analizar datos de manera eficiente con el fin de encontrar o probar el conocimiento en forma de patrones estadísticos entre los datos. Este proceso, denominado Descubrimiento de conocimientos en bases de datos (KDD) ( Fayyad, Piatetsky-Shapiro & Smyth 1996 ), proporciona al generador de perfiles conjuntos de datos correlacionados utilizables como "perfiles".

El proceso de elaboración de perfiles

El proceso técnico de elaboración de perfiles se puede dividir en varios pasos:

Puesta a tierra preliminar: el proceso de elaboración de perfiles comienza con una especificación del dominio del problema aplicable y la identificación de los objetivos del análisis.
Recopilación de datos : el conjunto de datos o la base de datos de destino para el análisis se forma seleccionando los datos relevantes a la luz del conocimiento del dominio existente y la comprensión de los datos.
Preparación de datos : los datos se preprocesan para eliminar el ruido y reducir la complejidad mediante la eliminación de atributos.
Minería de datos : Los datos se analizan con el algoritmo o heurística desarrollado para adaptarse a los datos, modelo y objetivos.
Interpretación: Los patrones extraídos son evaluados en su relevancia y validez por especialistas y / o profesionales en el dominio de la aplicación (por ejemplo, excluyendo correlaciones espurias).
Aplicación: Los perfiles construidos se aplican, por ejemplo, a categorías de personas, para probar y ajustar los algoritmos.
Decisión institucional : La institución decide qué acciones o políticas aplicar a grupos o individuos cuyos datos coinciden con un perfil relevante.

La recopilación, preparación y extracción de datos pertenecen a la fase en la que se está construyendo el perfil. Sin embargo, la elaboración de perfiles también se refiere a la aplicación de perfiles, es decir, el uso de perfiles para la identificación o categorización de grupos o personas individuales. Como se puede ver en el paso seis (solicitud), el proceso es circular. Existe un circuito de retroalimentación entre la construcción y la aplicación de perfiles. La interpretación de los perfiles puede llevar a un ajuste fino reiterativo, posiblemente en tiempo real, de pasos previos específicos en el proceso de elaboración de perfiles. La aplicación de perfiles a personas cuyos datos no se utilizaron para construir el perfil se basa en la coincidencia de datos, lo que proporciona nuevos datos que permiten ajustes adicionales. El proceso de elaboración de perfiles es dinámico y adaptativo. Un buen ejemplo de la naturaleza dinámica y adaptativa de la creación de perfiles es el Proceso estándar entre industrias para la minería de datos ( CRISP-DM ).

Tipos de prácticas de elaboración de perfiles

Para aclarar la naturaleza de las tecnologías de elaboración de perfiles, deben hacerse algunas distinciones cruciales entre los diferentes tipos de prácticas de elaboración de perfiles, además de la distinción entre la construcción y la aplicación de perfiles. Las principales distinciones son las que existen entre perfiles ascendentes y descendentes (o aprendizaje supervisado y no supervisado) y entre perfiles individuales y grupales.

Aprendizaje supervisado y no supervisado

Los perfiles se pueden clasificar de acuerdo con la forma en que se han generado ( Fayyad, Piatetsky-Shapiro & Smyth 1996 ) ( Zarsky & 2002-3 ). Por un lado, los perfiles se pueden generar probando una correlación hipotética. Esto se denomina elaboración de perfiles de arriba hacia abajo o aprendizaje supervisado . Es similar a la metodología de la investigación científica tradicional en que parte de una hipótesis y consiste en probar su validez. El resultado de este tipo de elaboración de perfiles es la verificación o refutación de la hipótesis. También se podría hablar de perfiles deductivos. Por otro lado, los perfiles se pueden generar explorando una base de datos, utilizando el proceso de minería de datos para detectar patrones en la base de datos que no fueron hipotetizados previamente. En cierto modo, se trata de generar hipótesis: encontrar correlaciones que uno no esperaba o ni siquiera imaginaba. Una vez que se hayan extraído los patrones, entrarán en el circuito, descrito anteriormente, y se probarán con el uso de nuevos datos. A esto se le llama aprendizaje no supervisado .

Dos cosas son importantes con respecto a esta distinción. Primero, los algoritmos de aprendizaje no supervisados parecen permitir la construcción de un nuevo tipo de conocimiento, no basado en hipótesis desarrolladas por un investigador y no basado en relaciones causales o motivacionales sino exclusivamente basado en correlaciones estocásticas. En segundo lugar, los algoritmos de aprendizaje no supervisados parecen permitir un tipo inductivo de construcción del conocimiento que no requiere una justificación teórica o una explicación causal ( Custers 2004 ).

Algunos autores afirman que si la aplicación de perfiles basados en el reconocimiento de patrones estocásticos computarizado 'funciona', es decir, permite predicciones confiables de comportamientos futuros, la explicación teórica o causal de estos patrones ya no importa ( Anderson 2008 ). Sin embargo, la idea de que los algoritmos "ciegos" proporcionen información confiable no implica que la información sea neutral. En el proceso de recopilación y agregación de datos en una base de datos (los primeros tres pasos del proceso de construcción del perfil), se realizan traducciones de eventos de la vida real a datos legibles por máquina . Luego, estos datos se preparan y se limpian para permitir la computabilidad inicial. El sesgo potencial deberá ubicarse en estos puntos, así como en la elección de los algoritmos que se desarrollen. No es posible extraer una base de datos para todas las posibles correlaciones lineales y no lineales, lo que significa que las técnicas matemáticas desarrolladas para buscar patrones serán determinadas por los patrones que se pueden encontrar. En el caso de la elaboración de perfiles mecánicos, el sesgo potencial no está informado por el prejuicio de sentido común o lo que los psicólogos llaman estereotipos, sino por las técnicas informáticas empleadas en los pasos iniciales del proceso. Estas técnicas son en su mayoría invisibles para aquellos a quienes se aplican los perfiles (porque sus datos coinciden con los perfiles de grupo relevantes).

Perfiles individuales y grupales

Los perfiles también deben clasificarse según el tipo de tema al que se refieren. Este sujeto puede ser un individuo o un grupo de personas. Cuando se construye un perfil con los datos de una sola persona, esto se denomina perfil individual ( Jaquet-Chiffelle 2008 ). Este tipo de elaboración de perfiles se utiliza para descubrir las características particulares de un determinado individuo, para permitir una identificación única o la prestación de servicios personalizados. Sin embargo, el servicio personalizado se basa en la mayoría de los casos en la elaboración de perfiles grupales, lo que permite categorizar a una persona como un determinado tipo de persona, basándose en el hecho de que su perfil coincide con un perfil que se ha construido sobre la base de cantidades masivas de datos sobre cantidades masivas de otras personas. Un perfil de grupo puede hacer referencia al resultado de la minería de datos en conjuntos de datos que hacen referencia a una comunidad existente que se considera a sí misma como tal, como un grupo religioso, un club de tenis, una universidad, un partido político, etc. En ese caso se puede describir previamente patrones desconocidos de comportamiento u otras características de dicho grupo (comunidad). Un perfil de grupo también puede referirse a una categoría de personas que no forman una comunidad, pero que comparten patrones de comportamiento u otras características previamente desconocidos ( Custers 2004 ). En ese caso, el perfil del grupo describe comportamientos específicos u otras características de una categoría de personas, como por ejemplo mujeres con ojos azules y cabello rojo, o adultos con brazos y piernas relativamente cortos. Se puede encontrar que estas categorías se correlacionan con los riesgos para la salud, la capacidad de generar ingresos, las tasas de mortalidad, los riesgos crediticios, etc.

Si se aplica un perfil individual a la persona de la que se extrajo, se trata de un perfil individual directo. Si se aplica un perfil de grupo a una persona cuyos datos coinciden con el perfil, se trata de un perfil individual indirecto, porque el perfil se generó utilizando datos de otras personas. De manera similar, si se aplica un perfil de grupo al grupo del que se extrajo, entonces se trata de un perfil de grupo directo ( Jaquet-Chiffelle 2008 ). Sin embargo, en la medida en que la aplicación de un perfil de grupo a un grupo implica la aplicación del perfil de grupo a miembros individuales del grupo, tiene sentido hablar de perfil de grupo indirecto, especialmente si el perfil de grupo es no distributivo.

Perfiles distributivos y no distributivos

Los perfiles de grupo también se pueden dividir en términos de su carácter distributivo ( Vedder 1999 ). Un perfil de grupo es distributivo cuando sus propiedades se aplican por igual a todos los miembros de su grupo: todos los solteros son solteros o todas las personas con un gen específico tienen un 80% de posibilidades de contraer una enfermedad específica. Un perfil no es distributivo cuando el perfil no se aplica necesariamente a todos los miembros del grupo: el grupo de personas con un código postal específico tiene una capacidad de ingresos promedio de XX, o la categoría de personas con ojos azules tiene una probabilidad promedio del 37% para contraer una enfermedad específica. Tenga en cuenta que, en este caso, la posibilidad de que un individuo tenga una capacidad de ingresos particular o de contraer la enfermedad específica dependerá de otros factores, por ejemplo, sexo, edad, antecedentes de los padres, salud previa, educación. Debería ser obvio que, además de perfiles tautológicos como el de los solteros, la mayoría de los perfiles grupales generados mediante técnicas informáticas son no distributivos. Esto tiene implicaciones de gran alcance para la precisión de la elaboración de perfiles individuales indirectos basados en la coincidencia de datos con perfiles de grupos no distributivos. Aparte del hecho de que la aplicación de perfiles precisos puede ser injusta o causar una estigmatización indebida, la mayoría de los perfiles de grupo no serán precisos.

Dominios de aplicación

Las tecnologías de creación de perfiles se pueden aplicar en una variedad de dominios diferentes y para una variedad de propósitos. Todas estas prácticas de elaboración de perfiles tendrán un efecto diferente y plantearán problemas diferentes.

Recientemente, se publicó una revisión titulada "Perfiles sociales: una revisión, taxonomía y desafíos" que proporciona una descripción detallada de las aplicaciones de creación de perfiles para extraer atributos de perfil de usuario, es decir, personalidad, comportamiento, interés, etc. y fuentes de datos que se utilizan en estudios anteriores. ^[2]

El conocimiento sobre el comportamiento y las preferencias de los clientes es de gran interés para el sector comercial. Sobre la base de las tecnologías de elaboración de perfiles, las empresas pueden predecir el comportamiento de diferentes tipos de clientes. Las estrategias de marketing se pueden adaptar a las personas que se ajusten a estos tipos. Ejemplos de prácticas de elaboración de perfiles en marketing son las tarjetas de fidelización de clientes , la gestión de relaciones con los clientes en general y la publicidad personalizada. ^[3]^[4]^[5]

En el sector financiero, las instituciones utilizan tecnologías de elaboración de perfiles para la prevención del fraude y la calificación crediticia . Los bancos quieren minimizar los riesgos al otorgar crédito a sus clientes. Sobre la base del grupo extenso, a los clientes de elaboración de perfiles se les asigna un determinado valor de puntuación que indica su solvencia. Las instituciones financieras como los bancos y las compañías de seguros también utilizan la elaboración de perfiles de grupo para detectar fraudes o blanqueo de dinero . Las bases de datos con transacciones se buscan con algoritmos para encontrar comportamientos que se desvíen del estándar, lo que indica transacciones potencialmente sospechosas. ^[6]

En el contexto del empleo, los perfiles pueden ser útiles para rastrear a los empleados al monitorear su comportamiento en línea , para detectar fraudes por parte de ellos y para el despliegue de recursos humanos al agrupar y clasificar sus habilidades. ( Leopold & Meints 2008 ) ^[7]

La elaboración de perfiles también se puede utilizar para apoyar a las personas en el trabajo, y también para el aprendizaje, interviniendo en el diseño de sistemas hipermedia adaptativos que personalicen la interacción. Por ejemplo, esto puede ser útil para apoyar la gestión de la atención ( Nabeth 2008 ).

En la ciencia forense , existe la posibilidad de vincular diferentes bases de datos de casos y sospechosos y extraerlos para patrones comunes. Esto podría usarse para resolver casos existentes o con el propósito de establecer perfiles de riesgo de posibles sospechosos ( Geradts & Sommer 2008 ) ( Harcourt 2006 ).

Riesgos y problemas

Las tecnologías de elaboración de perfiles han planteado una serie de cuestiones éticas, legales y de otro tipo, incluidas la privacidad , la igualdad , el debido proceso , la seguridad y la responsabilidad . Numerosos autores han advertido contra las posibilidades de una nueva infraestructura tecnológica que podría surgir sobre la base de tecnologías de elaboración de perfiles semiautonómicas ( Lessig 2006 ) ( Solove 2004 ) ( Schwartz 2000 ).

La privacidad es uno de los principales problemas que se plantean. Las tecnologías de creación de perfiles hacen posible un seguimiento de largo alcance del comportamiento y las preferencias de un individuo. Los perfiles pueden revelar información personal o privada sobre individuos que tal vez ni siquiera ellos mismos conozcan ( Hildebrandt & Gutwirth 2008 ).

Las tecnologías de elaboración de perfiles son, por su propia naturaleza, herramientas discriminatorias. Permiten tipos incomparables de clasificación y segmentación social que podrían tener efectos injustos. Las personas que se perfilan pueden tener que pagar precios más altos, ^[8] podrían perderse ofertas u oportunidades importantes y pueden correr mayores riesgos porque atender sus necesidades es menos rentable ( Lyon 2003 ). En la mayoría de los casos, no serán conscientes de esto, ya que las prácticas de elaboración de perfiles son en su mayoría invisibles y los propios perfiles a menudo están protegidos por propiedad intelectual o secreto comercial. Esto representa una amenaza para la igualdad y la solidaridad de los ciudadanos. A mayor escala, podría provocar la segmentación de la sociedad. ^[9]

Uno de los problemas que subyacen a las posibles violaciones de la privacidad y la no discriminación es que el proceso de elaboración de perfiles suele ser invisible para aquellos a los que se está perfilando. Esto crea dificultades, ya que se vuelve difícil, si no imposible, impugnar la aplicación de un perfil de grupo en particular. Esto perturba los principios del debido proceso: si una persona no tiene acceso a la información sobre la base de la cual se le niegan beneficios o se le atribuyen ciertos riesgos, no puede impugnar la forma en que está siendo tratada ( Steinbock 2005 ).

Los perfiles se pueden usar contra personas cuando terminan en manos de personas que no tienen derecho a acceder o utilizar la información. Un tema importante relacionado con estas brechas de seguridad es el robo de identidad .

Cuando la aplicación de perfiles causa un daño, la responsabilidad por este daño debe determinarse quién debe rendir cuentas. ¿Es responsable el programador de software, el proveedor de servicios de creación de perfiles o el usuario perfilado? Este tema de la responsabilidad es especialmente complejo en el caso de que la aplicación y las decisiones sobre perfiles también se hayan automatizado como en Autonomic Computing o decisiones de inteligencia ambiental de decisiones automatizadas basadas en perfiles.

Ver también

Orientación por comportamiento
Procesamiento de datos
Perfiles demográficos
Identidad digital
Rastros digitales
Perfiles forenses
Identificación (información)
Identidad
Etiquetado
Intimidad
Perfilado
Perfiles de delincuentes
Perfiles sociales
Estereotipo
Modelado de usuarios
Perfil del usuario

Referencias

Anderson, Chris (2008). "El fin de la teoría: el diluvio de datos hace obsoleto el método científico" . Revista cableada . 16 (7).
Custers, BHM (2004). "El poder del conocimiento". Tilburg: Wolf Legal Publishers. Cite journal requiere |journal=( ayuda )
Elmer, G. (2004). "Máquinas de creación de perfiles. Mapeo de la economía de la información personal". MIT Press. Cite journal requiere |journal=( ayuda )
Fayyad, UM; Piatetsky-Shapiro, G .; Smyth, P. (1996). "De la minería de datos al descubrimiento del conocimiento en bases de datos" (PDF) . Revista AI . 17 (3): 37–54. Archivado desde el original (PDF) el 16 de diciembre de 2009 . Consultado el 9 de febrero de 2009 .
Geradts, Zeno; Sommer, Peter (2008). "D6.7c: Perfiles forenses" (PDF) . Entregables FIDIS . 6 (7c).
Harcourt, BE (2006). "Contra la predicción. Perfilado, vigilancia y castigo en una era actuarial". The University of Chicago Press, Chicago y Londres. Cite journal requiere |journal=( ayuda )
Hildebrandt, Mireille; Gutwirth, Serge (2008). Perfilando al ciudadano europeo. Perspectivas interdisciplinarias . Springer, Dordrecht. doi : 10.1007 / 978-1-4020-6914-7 . ISBN 978-1-4020-6913-0.
Jaquet-Chiffelle, David-Olivier (2008). "Respuesta: Perfilado directo e indirecto a la luz de las personas virtuales. A: Definición del perfil: ¿un nuevo tipo de conocimiento?". En Hildebrandt, Mireille; Gutwirth, Serge (eds.). Perfilando al ciudadano europeo . Springer Holanda. págs. 17–45. doi : 10.1007 / 978-1-4020-6914-7_2 .
Kephart, JO; Ajedrez, DM (2003). "La Visión de la Computación Autonómica" (PDF) . Computadora . 36 (1 de enero): 96–104. CiteSeerX 10.1.1.70.613 . doi : 10.1109 / MC.2003.1160055 . Archivado desde el original (PDF) el 10 de agosto de 2014.
Leopold, N .; Meints, M. (2008). "Elaboración de perfiles en situaciones de empleo (fraude)". En Hildebrandt, Mireille; Gutwirth, Serge (eds.). Perfilando al ciudadano europeo . Springer Holanda. págs. 217-237. doi : 10.1007 / 978-1-4020-6914-7_12 .
Lessig, L. (2006). "Código 2.0". Basic Books, Nueva York. Cite journal requiere |journal=( ayuda )
Lyon, D. (2003). "La vigilancia como clasificación social: privacidad, riesgo y discriminación digital". Routledge. Cite journal requiere |journal=( ayuda )
Nabeth, Thierry (2008). "Perfilado de usuarios para el apoyo a la atención en la escuela y el trabajo". En Hildebrandt, Mireille; Gutwirth, Serge (eds.). Perfilando al ciudadano europeo . Springer Holanda. págs. 185-200. doi : 10.1007 / 978-1-4020-6914-7_10 .
Schwartz, P. (2000). "Más allá del código de Lessig para la privacidad de Internet: filtros del ciberespacio, control de la privacidad y prácticas de información justas". Revisión de la ley de Wisconsin . 743 : 743–788.
Solove, DJ (2004). La persona digital. Tecnología y privacidad en la era de la información . Nueva York, New York University Press.
Steinbock, D. (2005). "Data Matching, Data Mining y debido proceso". Revisión de la ley de Georgia . 40 (1): 1–84.
Vedder, A. (1999). "KDD: el desafío al individualismo". Ética y Tecnología de la Información . 1 (4): 275–281. doi : 10.1023 / A: 1010016102284 . S2CID 10377988 .
Weiser, M. (1991). "La computadora para el siglo XXI". Scientific American . 265 (3): 94-104. doi : 10.1038 / scientificamerican0991-94 .
Zarsky, T. (2002). " ¡ Explota tu propio negocio!": Defensa de las implicaciones de la minería de datos o la información personal en el foro de opinión pública ". Revista de derecho y tecnología de Yale . 5 (4): 17–47.

Notas y otras referencias

^ ISTAG (2001), Escenarios de inteligencia ambiental en 2010, Grupo asesor de tecnología de la sociedad de la información
^ Bilal, Muhammad; Gani, Abdullah; Lali, Muhammad Ikram Ullah; Marjani, Mohsen; Malik, Nadia (2019). "Perfiles sociales: una revisión, taxonomía y desafíos". Ciberpsicología, comportamiento y redes sociales . 22 (7): 433–450. doi : 10.1089 / cyber.2018.0670 . PMID 31074639 .
^ Centro de información de privacidad electrónica. "EPIC - Privacidad y perfil del consumidor" . epic.org .
^ "Copia archivada" . Archivado desde el original el 8 de abril de 2009 . Consultado el 9 de febrero de 2009 .Mantenimiento de CS1: copia archivada como título ( enlace )
^ "Copia archivada" . Archivado desde el original el 18 de julio de 2011 . Consultado el 9 de febrero de 2009 .Mantenimiento de CS1: copia archivada como título ( enlace )
^ Canhoto, AI (2007). "Perfilar el comportamiento: la construcción social de categorías en la detección de delitos financieros, disertación en la London School of Economics" (PDF) . lse.ac.uk .
^ Centro de información de privacidad electrónica. "EPIC - Privacidad en el lugar de trabajo" . epic.org .
^ Odlyzko, A. (2003). "Privacidad, economía y discriminación de precios en Internet, AM Odlyzko. ICEC2003: Quinta Conferencia Internacional sobre Comercio Electrónico, N. Sadeh, ed., ACM, págs. 355–366" (PDF) .
^ Gandy, O. (2002). "Minería de datos y vigilancia en el entorno posterior al 11 de septiembre, Presentación en IAMCR, Barcelona" (PDF) . asc.upenn.edu .

[1] ISTAG (2001), Escenarios de inteligencia ambiental en 2010, Grupo asesor de tecnología de la sociedad de la información

[2] Bilal, Muhammad; Gani, Abdullah; Lali, Muhammad Ikram Ullah; Marjani, Mohsen; Malik, Nadia (2019). "Perfiles sociales: una revisión, taxonomía y desafíos". Ciberpsicología, comportamiento y redes sociales . 22 (7): 433–450. doi : 10.1089 / cyber.2018.0670 . PMID 31074639 .

[3] Centro de información de privacidad electrónica. "EPIC - Privacidad y perfil del consumidor" . epic.org .

[4] "Copia archivada" . Archivado desde el original el 8 de abril de 2009 . Consultado el 9 de febrero de 2009 .Mantenimiento de CS1: copia archivada como título ( enlace )

[5] "Copia archivada" . Archivado desde el original el 18 de julio de 2011 . Consultado el 9 de febrero de 2009 .Mantenimiento de CS1: copia archivada como título ( enlace )

[6] Canhoto, AI (2007). "Perfilar el comportamiento: la construcción social de categorías en la detección de delitos financieros, disertación en la London School of Economics" (PDF) . lse.ac.uk .

[7] Centro de información de privacidad electrónica. "EPIC - Privacidad en el lugar de trabajo" . epic.org .

[8] Odlyzko, A. (2003). "Privacidad, economía y discriminación de precios en Internet, AM Odlyzko. ICEC2003: Quinta Conferencia Internacional sobre Comercio Electrónico, N. Sadeh, ed., ACM, págs. 355–366" (PDF) .

[9] Gandy, O. (2002). "Minería de datos y vigilancia en el entorno posterior al 11 de septiembre, Presentación en IAMCR, Barcelona" (PDF) . asc.upenn.edu .

[1] la