Privacidad diferencial

La privacidad diferencial es un sistema para compartir públicamente información sobre un conjunto de datos al describir los patrones de grupos dentro del conjunto de datos mientras se retiene información sobre las personas en el conjunto de datos. La idea detrás de la privacidad diferencial es que si el efecto de realizar una única sustitución arbitraria en la base de datos es lo suficientemente pequeño, el resultado de la consulta no se puede utilizar para inferir mucho sobre un solo individuo y, por lo tanto, proporciona privacidad. Otra forma de describir la privacidad diferencial es como una restricción en los algoritmos utilizados para publicar información agregada sobre una base de datos estadística.lo que limita la divulgación de información privada de registros cuya información se encuentra en la base de datos. Por ejemplo, algunas agencias gubernamentales utilizan algoritmos de privacidad diferencial para publicar información demográfica u otros agregados estadísticos mientras se asegura la confidencialidad de las respuestas de la encuesta, y las empresas para recopilar información sobre el comportamiento de los usuarios mientras controlan lo que es visible incluso para los analistas internos.

Aproximadamente, un algoritmo es diferencialmente privado si un observador que ve su salida no puede decir si la información de un individuo en particular se usó en el cálculo. La privacidad diferencial se analiza a menudo en el contexto de la identificación de personas cuya información puede estar en una base de datos. Aunque no se refiere directamente a los ataques de identificación y reidentificación , los algoritmos privados diferencialmente probablemente resistan tales ataques. ^[1]

La privacidad diferencial fue desarrollada por criptógrafos y, por lo tanto, a menudo se asocia con la criptografía y extrae gran parte de su lenguaje de la criptografía.

Historia

Las organizaciones oficiales de estadística están encargadas de recopilar información de individuos o establecimientos y de publicar datos agregados para servir al interés público. Por ejemplo, el censo de los Estados Unidos de 1790 recopiló información sobre las personas que viven en los Estados Unidos y publicó tabulaciones basadas en el sexo, la edad, la raza y la condición de servidumbre. Las organizaciones estadísticas han recopilado información durante mucho tiempo bajo la promesa de confidencialidad de que la información proporcionada se utilizará con fines estadísticos, pero que las publicaciones no producirán información que pueda rastrearse hasta un individuo o establecimiento específico. Para lograr este objetivo, las organizaciones estadísticas han suprimido durante mucho tiempo la información en sus publicaciones. Por ejemplo, en una tabla que presenta las ventas de cada negocio en una ciudad agrupadas por categoría de negocio, se puede suprimir una celda que tenga información de una sola empresa, para mantener la confidencialidad de las ventas específicas de esa empresa.

La adopción de sistemas electrónicos de procesamiento de información por las agencias de estadística en las décadas de 1950 y 1960 aumentó drásticamente el número de tablas que una organización de estadística podía producir y, al hacerlo, aumentó significativamente la posibilidad de una divulgación indebida de información confidencial. Por ejemplo, si una empresa que tenía sus cifras de ventas suprimidas también tenía esas cifras en las ventas totales de una región, entonces podría ser posible determinar el valor suprimido restando las otras ventas de ese total. Pero también puede haber combinaciones de sumas y restas que pueden hacer que se revele la información privada. El número de combinaciones que debían comprobarse aumenta exponencialmente con el número de publicaciones, y es potencialmente ilimitado si los usuarios de datos pueden realizar consultas de la base de datos estadística utilizando un sistema de consulta interactivo.

En 1977, Tore Dalenius formalizó las matemáticas de la supresión celular. ^[2]

En 1979, Dorothy Denning , Peter J. Denning y Mayer D. Schwartz formalizaron el concepto de Tracker, un adversario que podía aprender los contenidos confidenciales de una base de datos estadística creando una serie de consultas específicas y recordando los resultados. ^[3] Esta y otras investigaciones futuras mostraron que las propiedades de privacidad en una base de datos solo se pueden preservar considerando cada nueva consulta a la luz de (posiblemente todas) las consultas anteriores. Esta línea de trabajo a veces se denomina privacidad de consultas, y el resultado final es que rastrear el impacto de una consulta en la privacidad de las personas en la base de datos fue muy difícil.

En 2003, Kobbi Nissim e Irit Dinur demostraron que es imposible publicar consultas arbitrarias en una base de datos estadística privada sin revelar cierta cantidad de información privada, y que todo el contenido de información de la base de datos puede revelarse publicando los resultados de una base de datos sorprendentemente pequeña. número de consultas aleatorias, mucho menos de lo que implicaba el trabajo anterior. ^[4] El fenómeno general se conoce como la Ley Fundamental de Recuperación de Información , y su idea clave, a saber, que en el caso más general, la privacidad no se puede proteger sin inyectar cierta cantidad de ruido, llevó al desarrollo de la privacidad diferencial.

En 2006, Cynthia Dwork , Frank McSherry , Kobbi Nissim y Adam D. Smith publicaron un artículo en el que formalizaban la cantidad de ruido que era necesario agregar y proponían un mecanismo generalizado para hacerlo. ^[1] Su trabajo fue co-receptor del Premio TCC Test-of-Time 2016 ^[5] y el Premio Gödel 2017 . ^[6]

Desde entonces, investigaciones posteriores han demostrado que hay muchas formas de producir estadísticas muy precisas a partir de la base de datos y, al mismo tiempo, garantizar altos niveles de privacidad. ^[7]^[8]

ε-privacidad diferencial

El artículo de 2006 de Dwork, McSherry, Nissim y Smith introdujo el concepto de privacidad diferencial ε, una definición matemática de la pérdida de privacidad asociada con cualquier publicación de datos extraída de una base de datos estadística. (Aquí, el término base de datos estadística significa un conjunto de datos que se recopilan bajo el compromiso de confidencialidad con el fin de producir estadísticas que, por su producción, no comprometen la privacidad de las personas que proporcionaron los datos).

La intuición de la definición de 2006 de privacidad ε-diferencial es que la privacidad de una persona no puede verse comprometida por una publicación estadística si sus datos no están en la base de datos. Por lo tanto, con la privacidad diferencial, el objetivo es brindar a cada individuo aproximadamente la misma privacidad que resultaría de la eliminación de sus datos. Es decir, las funciones estadísticas que se ejecutan en la base de datos no deben depender demasiado de los datos de ningún individuo.

Por supuesto, la contribución de un individuo al resultado de una consulta de base de datos depende en parte de cuántos datos de personas están involucrados en la consulta. Si la base de datos contiene datos de una sola persona, los datos de esa persona contribuyen al 100%. Si la base de datos contiene datos de cien personas, los datos de cada persona contribuyen solo con el 1%. La idea clave de la privacidad diferencial es que a medida que la consulta se realiza sobre los datos de cada vez menos personas, es necesario agregar más ruido al resultado de la consulta para producir la misma cantidad de privacidad. De ahí el nombre del artículo de 2006, "Calibración del ruido a la sensibilidad en el análisis de datos privados".

El artículo de 2006 presenta tanto una definición matemática de privacidad diferencial como un mecanismo basado en la adición de ruido de Laplace (es decir, ruido procedente de la distribución de Laplace ) que satisface la definición.

Definición de privacidad diferencial ε

Sea ε un número real positivo y ${\ Displaystyle {\ mathcal {A}}}$ ser un algoritmo aleatorio que toma un conjunto de datos como entrada (que representa las acciones de la parte confiable que posee los datos). Dejar ${\ Displaystyle {\ textrm {im}} \ {\ mathcal {A}}}$ denotar la imagen de ${\ Displaystyle {\ mathcal {A}}}$ . El algoritmo ${\ Displaystyle {\ mathcal {A}}}$ se dice que proporciona ${\ Displaystyle \ epsilon}$ -privacidad diferencial si, para todos los conjuntos de datos ${\ Displaystyle D_ {1}}$ y ${\ Displaystyle D_ {2}}$ que difieren en un solo elemento (es decir, los datos de una persona), y todos los subconjuntos ${\ Displaystyle S}$ de ${\ Displaystyle {\ textrm {im}} \ {\ mathcal {A}}}$ :

${\ Displaystyle \ Pr [{\ mathcal {A}} (D_ {1}) \ in S] \ leq \ exp \ left (\ epsilon \ right) \ cdot \ Pr [{\ mathcal {A}} (D_ { 2}) \ en S],}$

donde la probabilidad se toma sobre la aleatoriedad utilizada por el algoritmo. ^[9]

La privacidad diferencial ofrece garantías sólidas y robustas que facilitan el diseño modular y el análisis de mecanismos diferencialmente privados debido a su componibilidad , solidez al posprocesamiento y degradación elegante en presencia de datos correlacionados .

Composabilidad

La (auto) componibilidad se refiere al hecho de que la distribución conjunta de las salidas de mecanismos (posiblemente elegidos de manera adaptativa) diferencialmente privados satisface la privacidad diferencial.

Composición secuencial. Si consultamos un mecanismo de privacidad diferencial ε ${\ Displaystyle t}$ veces, y la aleatorización del mecanismo es independiente para cada consulta, entonces el resultado sería ${\ Displaystyle \ epsilon t}$ -diferencialmente privado. En el caso más general, si hay ${\ Displaystyle n}$ mecanismos independientes: ${\ Displaystyle {\ mathcal {M}} _ {1}, \ dots, {\ mathcal {M}} _ {n}}$ , cuyas garantías de privacidad son ${\ Displaystyle \ epsilon _ {1}, \ dots, \ epsilon _ {n}}$ privacidad diferencial, respectivamente, luego cualquier función ${\ Displaystyle g}$ de ellos: ${\ Displaystyle g ({\ mathcal {M}} _ {1}, \ dots, {\ mathcal {M}} _ {n})}$ es ${\ Displaystyle \ left (\ sum \ limits _ {i = 1} ^ {n} \ epsilon _ {i} \ right)}$ -diferencialmente privado. ^[10]

Composición paralela. Si los mecanismos anteriores se calculan en subconjuntos disjuntos de la base de datos privada, entonces la función ${\ Displaystyle g}$ sería ${\ Displaystyle (\ max _ {i} \ epsilon _ {i})}$ -diferencialmente privado en su lugar. ^[10]

Robustez al posprocesamiento

Para cualquier función determinista o aleatoria ${\ Displaystyle F}$ definido sobre la imagen del mecanismo ${\ Displaystyle {\ mathcal {A}}}$ , Si ${\ Displaystyle {\ mathcal {A}}}$ satisface la privacidad diferencial ε, también lo hace ${\ Displaystyle F ({\ mathcal {A}})}$ .

Juntos, la componibilidad y la robustez del posprocesamiento permiten la construcción modular y el análisis de mecanismos diferencialmente privados y motivan el concepto del presupuesto de pérdida de privacidad . Si todos los elementos que acceden a datos confidenciales de un mecanismo complejo son por separado diferencialmente privados, también lo será su combinación, seguida de un posprocesamiento arbitrario.

Privacidad del grupo

En general, la privacidad diferencial ε está diseñada para proteger la privacidad entre bases de datos vecinas que difieren solo en una fila. Esto significa que ningún adversario con información auxiliar arbitraria puede saber si un participante en particular presentó su información. Sin embargo, esto también es ampliable si queremos proteger bases de datos que difieren en ${\ Displaystyle c}$ filas, lo que equivale a un adversario con información auxiliar arbitraria puede saber si ${\ Displaystyle c}$ participantes particulares enviaron su información. Esto se puede lograr porque si ${\ Displaystyle c}$ los elementos cambian, la dilatación de la probabilidad está limitada por ${\ Displaystyle \ exp (\ epsilon c)}$ en vez de ${\ Displaystyle \ exp (\ epsilon)}$ , ^[11] es decir, para D ₁ y D _{2 que} difieren en ${\ Displaystyle c}$ artículos:

{\ Displaystyle \ Pr [{\ mathcal {A}} (D_ {1}) \ in S] \ leq \ exp (\ epsilon c) \ cdot \ Pr [{\ mathcal {A}} (D_ {2}) \En s]\,\!}

Por lo tanto, estableciendo ε en lugar de ${\ Displaystyle \ epsilon / c}$ logra el resultado deseado (protección de ${\ Displaystyle c}$ artículos). En otras palabras, en lugar de tener cada elemento ε-protegido diferencialmente privado, ahora cada grupo de ${\ Displaystyle c}$ los artículos están protegidos de forma ε-diferencialmente privada (y cada artículo está ${\ Displaystyle (\ epsilon / c)}$ -protegido diferencialmente privado).

ε-mecanismos privados diferencialmente

Dado que la privacidad diferencial es un concepto probabilístico, cualquier mecanismo diferencialmente privado es necesariamente aleatorio. Algunos de estos, como el mecanismo de Laplace, que se describe a continuación, se basan en agregar ruido controlado a la función que queremos calcular. Otros, como el mecanismo exponencial ^[12] y el muestreo posterior ^[13] muestran en su lugar una familia de distribuciones dependiente del problema.

Sensibilidad

Dejar ${\ Displaystyle d}$ ser un número entero positivo, ${\ Displaystyle {\ mathcal {D}}}$ ser una colección de conjuntos de datos, y ${\ Displaystyle f \ colon {\ mathcal {D}} \ rightarrow \ mathbb {R} ^ {d}}$ ser una función. La sensibilidad ^[1] de una función, denotada ${\ Displaystyle \ Delta f}$ , es definido por

{\ Displaystyle \ Delta f = \ max \ lVert f (D_ {1}) - f (D_ {2}) \ rVert _ {1},}

donde el máximo está sobre todos los pares de conjuntos de datos ${\ Displaystyle D_ {1}}$ y ${\ Displaystyle D_ {2}}$ en ${\ Displaystyle {\ mathcal {D}}}$ que difieren en como máximo un elemento y ${\ Displaystyle \ lVert \ cdot \ rVert _ {1}}$ denota el ${\ Displaystyle \ ell _ {1}}$ norma .

En el ejemplo de la base de datos médica a continuación, si consideramos ${\ Displaystyle f}$ ser la función ${\ Displaystyle Q_ {i}}$ , entonces la sensibilidad de la función es uno, ya que cambiar cualquiera de las entradas en la base de datos hace que la salida de la función cambie por cero o uno.

Existen técnicas (que se describen a continuación) mediante las cuales podemos crear un algoritmo diferencialmente privado para funciones con baja sensibilidad.

El mecanismo de Laplace

El mecanismo de Laplace agrega ruido de Laplace (es decir, ruido de la distribución de Laplace , que se puede expresar mediante la función de densidad de probabilidad ${\ Displaystyle {\ text {ruido}} (y) \ propto \ exp (- | y | / \ lambda) \, \!}$ , que tiene una media de cero y una desviación estándar ${\ Displaystyle {\ sqrt {2}} \ lambda \, \!}$ ). Ahora en nuestro caso definimos la función de salida de ${\ Displaystyle {\ mathcal {A}} \, \!}$ como una función de valor real (llamada como salida de la transcripción por ${\ Displaystyle {\ mathcal {A}} \, \!}$ ) como ${\ Displaystyle {\ mathcal {T}} _ {\ mathcal {A}} (x) = f (x) + Y \, \!}$ dónde ${\ Displaystyle Y \ sim {\ text {Lap}} (\ lambda) \, \! \, \!}$ y ${\ Displaystyle f \, \!}$ es la consulta / función de valor real original que planeamos ejecutar en la base de datos. Ahora claramente ${\ Displaystyle {\ mathcal {T}} _ {\ mathcal {A}} (x) \, \!}$ puede considerarse una variable aleatoria continua, donde

{\ Displaystyle {\ frac {\ mathrm {pdf} ({\ mathcal {T}} _ {{\ mathcal {A}}, D_ {1}} (x) = t)} {\ mathrm {pdf} ({ \ mathcal {T}} _ {{\ mathcal {A}}, D_ {2}} (x) = t)}} = {\ frac {{\ text {ruido}} (tf (D_ {1})) } {{\ text {ruido}} (tf (D_ {2}))}} \, \!}

que es como mucho ${\ Displaystyle e ^ {\ frac {| f (D_ {1}) - f (D_ {2}) |} {\ lambda}} \ leq e ^ {\ frac {\ Delta (f)} {\ lambda} } \, \!}$ . Podemos considerar ${\ Displaystyle {\ frac {\ Delta (f)} {\ lambda}} \, \!}$ ser el factor de privacidad ${\ Displaystyle \ epsilon \, \!}$ . Por lo tanto ${\ Displaystyle {\ mathcal {T}} \, \!}$ sigue un mecanismo diferencialmente privado (como puede verse en la definición anterior ). Si tratamos de utilizar este concepto en nuestro ejemplo de diabetes, se deduce del hecho derivado anterior que para tener ${\ Displaystyle {\ mathcal {A}} \, \!}$ como el ${\ Displaystyle \ epsilon \, \!}$ -Algoritmo privado diferencial que necesitamos tener ${\ Displaystyle \ lambda = 1 / \ epsilon \, \!}$ . Aunque hemos utilizado aquí el ruido de Laplace, se pueden emplear otras formas de ruido, como el ruido gaussiano, pero pueden requerir una ligera relajación de la definición de privacidad diferencial. ^[11]

De acuerdo con esta definición, la privacidad diferencial es una condición en el mecanismo de liberación (es decir, la parte confiable que entrega información sobre el conjunto de datos) y no en el conjunto de datos en sí. Intuitivamente, esto significa que para dos conjuntos de datos que sean similares, un algoritmo diferencialmente privado dado se comportará aproximadamente igual en ambos conjuntos de datos. La definición ofrece una fuerte garantía de que la presencia o ausencia de un individuo no afectará significativamente el resultado final del algoritmo.

Por ejemplo, supongamos que tenemos una base de datos de registros médicos. ${\ Displaystyle D_ {1}}$ donde cada registro es un par ( Nombre , X ), donde ${\ Displaystyle X}$ es un booleano que indica si una persona tiene diabetes o no. Por ejemplo:

Nombre	Tiene diabetes (X)
Ross	1
Monica	1
Joey	0
Phoebe	0
Velero	1
Raquel	0

Ahora suponga que un usuario malintencionado (a menudo denominado adversario ) quiere averiguar si Chandler tiene diabetes o no. Suponga que también sabe en qué fila de la base de datos reside Chandler. Supongamos ahora que el adversario solo puede utilizar una forma particular de consulta. ${\ Displaystyle Q_ {i}}$ que devuelve la suma parcial de la primera ${\ Displaystyle i}$ filas de columna ${\ Displaystyle X}$ en la base de datos. Para encontrar el estado de diabetes de Chandler, el adversario ejecuta ${\ Displaystyle Q_ {5} (D_ {1})}$ y ${\ Displaystyle Q_ {4} (D_ {1})}$ , luego calcula su diferencia. En este ejemplo, ${\ Displaystyle Q_ {5} (D_ {1}) = 3}$ y ${\ Displaystyle Q_ {4} (D_ {1}) = 2}$ , por lo que su diferencia es 1. Esto indica que el campo "Tiene diabetes" en la fila de Chandler debe ser 1. Este ejemplo destaca cómo la información individual puede verse comprometida incluso sin consultar explícitamente la información de un individuo específico.

Continuando con este ejemplo, si construimos ${\ Displaystyle D_ {2}}$ reemplazando (Chandler, 1) con (Chandler, 0) entonces este adversario malicioso podrá distinguir ${\ Displaystyle D_ {2}}$ de ${\ Displaystyle D_ {1}}$ por computación ${\ Displaystyle Q_ {5} -Q_ {4}}$ para cada conjunto de datos. Si el adversario tuviera que recibir los valores ${\ Displaystyle Q_ {i}}$ a través de un ${\ Displaystyle \ epsilon}$ -Algoritmo diferencialmente privado, para un lo suficientemente pequeño ${\ Displaystyle \ epsilon}$ , entonces no podrá distinguir entre los dos conjuntos de datos.

Respuesta aleatoria

Un ejemplo sencillo, especialmente desarrollado en las ciencias sociales , ^[14] es pedirle a una persona que responda la pregunta "¿Posees el atributo A ?", De acuerdo con el siguiente procedimiento:

Lanza una moneda .
Si sale cara, lanza la moneda de nuevo (ignorando el resultado) y responde la pregunta con sinceridad.
Si sale cruz, arroje la moneda de nuevo y responda "Sí" si sale cara, "No" si sale cruz.

(El lanzamiento extra aparentemente redundante en el primer caso es necesario en situaciones en las que otros pueden observar solo el acto de lanzar una moneda, incluso si el resultado real permanece oculto). La confidencialidad surge entonces de la refutabilidad de las respuestas individuales.

Pero, en general, estos datos con muchas respuestas son significativos, ya que las personas que no tienen el atributo A dan una cuarta parte de las respuestas positivas y las personas que realmente lo poseen a las tres cuartas partes. Por lo tanto, si p es la verdadera proporción de personas con A , entonces esperamos obtener (1/4) (1- p ) + (3/4) p = (1/4) + p / 2 respuestas positivas. Por tanto, es posible estimar p .

En particular, si el atributo A es sinónimo de comportamiento ilegal, entonces responder "Sí" no es incriminatorio, en la medida en que la persona tiene una probabilidad de una respuesta "Sí", cualquiera que sea.

Aunque este ejemplo, inspirado en una respuesta aleatoria , podría ser aplicable a los microdatos (es decir, la publicación de conjuntos de datos con cada respuesta individual), por definición, la privacidad diferencial excluye la publicación de microdatos y solo es aplicable a consultas (es decir, agregando respuestas individuales en un resultado) ya que esto violaría los requisitos, más específicamente la negación plausible de que un sujeto participó o no. ^[15]^[16]

Transformaciones estables

Una transformacion ${\ Displaystyle T}$ es ${\ Displaystyle c}$ -estable si la distancia de martilleo entre ${\ Displaystyle T (A)}$ y ${\ Displaystyle T (B)}$ es como máximo ${\ Displaystyle c}$ -veces la distancia de martilleo entre ${\ Displaystyle A}$ y ${\ Displaystyle B}$ para dos bases de datos cualesquiera ${\ Displaystyle A, B}$ . El teorema 2 en ^[10] afirma que si hay un mecanismo ${\ Displaystyle M}$ es decir ${\ Displaystyle \ epsilon}$ -diferencialmente privado, luego el mecanismo compuesto ${\ Displaystyle M \ circ T}$ es ${\ Displaystyle (\ epsilon \ times c)}$ -diferencialmente privado.

Esto podría generalizarse a la privacidad del grupo, ya que el tamaño del grupo podría considerarse como la distancia de martilleo. ${\ Displaystyle h}$ Entre ${\ Displaystyle A}$ y ${\ Displaystyle B}$ (dónde ${\ Displaystyle A}$ contiene el grupo y ${\ Displaystyle B}$ no lo hace). En este caso ${\ Displaystyle M \ circ T}$ es ${\ Displaystyle (\ epsilon \ times c \ times h)}$ -diferencialmente privado.

Otras nociones de privacidad diferencial

Dado que la privacidad diferencial se considera demasiado fuerte o débil para algunas aplicaciones, se han propuesto muchas versiones. ^[17] La relajación más extendida es la privacidad diferencial (ε, δ), ^[18] que debilita la definición al permitir una pequeña densidad de probabilidad δ adicional en la que el límite superior ε no se cumple.

Adopción de privacidad diferencial en aplicaciones del mundo real

Hasta la fecha se conocen varios usos de la privacidad diferencial en la práctica:

2008: Oficina del Censo de EE . UU. , Por mostrar patrones de viaje. ^[19]
2014: RAPPOR de Google , para telemetría, como el aprendizaje de estadísticas sobre el secuestro de software no deseado de la configuración de los usuarios ^[20] ( implementación de código abierto de RAPPOR ).
2015: Google, para compartir estadísticas históricas de tráfico. ^[21]
2016: Apple anunció su intención de utilizar la privacidad diferencial en iOS 10 para mejorar su tecnología de asistente personal inteligente . ^[22]
2017: Microsoft, para telemetría en Windows. ^[23]
2019: Privitar Lens es una API que utiliza privacidad diferencial. ^[24]
2020: LinkedIn, para consultas de anunciantes. ^[25]

Consideraciones de propósito público

Hay varias consideraciones de propósito público con respecto a la privacidad diferencial que es importante considerar, especialmente para los formuladores de políticas y las audiencias centradas en políticas interesadas en las oportunidades y riesgos sociales de la tecnología: ^[26]

Utilidad y precisión de los datos. La principal preocupación con la privacidad diferencial es el compromiso entre la utilidad de los datos y la privacidad individual. Si el parámetro de pérdida de privacidad se establece para favorecer la utilidad, los beneficios de privacidad se reducen (se inyecta menos "ruido" en el sistema); si el parámetro de pérdida de privacidad se establece para favorecer la privacidad pesada, la precisión y la utilidad del conjunto de datos se reducen (se inyecta más "ruido" en el sistema). Es importante que los formuladores de políticas consideren las compensaciones que plantea la privacidad diferencial para ayudar a establecer las mejores prácticas y estándares apropiados en torno al uso de esta práctica de preservación de la privacidad, especialmente considerando la diversidad en los casos de uso organizacional. Sin embargo, vale la pena señalar que la disminución de la precisión y la utilidad es un problema común entre todos los métodos de limitación de divulgación estadística y no es exclusivo de la privacidad diferencial. Sin embargo, lo que es único es cómo los formuladores de políticas, los investigadores y los implementadores pueden considerar mitigar los riesgos presentados a través de esta compensación.

Privacidad y seguridad de los datos. La privacidad diferencial proporciona una medida cuantificada de la pérdida de privacidad y un límite superior y permite a los curadores elegir el compromiso explícito entre privacidad y precisión. Es resistente a ataques de privacidad aún desconocidos. Sin embargo, fomenta un mayor intercambio de datos, que si se hace mal, aumenta el riesgo de privacidad. La privacidad diferencial implica que la privacidad está protegida, pero esto depende en gran medida del parámetro de pérdida de privacidad elegido y, en cambio, puede conducir a una falsa sensación de seguridad. Por último, aunque es robusto frente a futuros ataques imprevistos a la privacidad, se puede idear una contramedida que no podemos predecir.

Ver también

Cuasi-identificador
Mecanismo exponencial (privacidad diferencial) : una técnica para diseñar algoritmos privados diferencialmente
k-anonimato
Análisis diferencialmente privado de gráficos
Información de salud protegida

Referencias

^ a b c Calibración del ruido a la sensibilidad en el análisis de datos privados por Cynthia Dwork, Frank McSherry, Kobbi Nissim, Adam Smith. En Theory of Cryptography Conference (TCC), Springer, 2006. doi : 10.1007 / 11681878_14 . La versión completa aparece en Journal of Privacy and Confidentiality, 7 (3), 17-51. doi : 10.29012 / jpc.v7i3.405
^ Tore Dalenius (1977). "Hacia una metodología para el control de la divulgación estadística". Statistik Tidskrift . 15 .
^ Dorothy E. Denning; Peter J. Denning; Mayer D. Schwartz (marzo de 1978). "El rastreador: una amenaza para la seguridad de las bases de datos estadísticas" (PDF) . 4 (1): 76–96. Cite journal requiere |journal=( ayuda )
^ Irit Dinur y Kobbi Nissim. 2003. Revelar información preservando la privacidad. En Actas del vigésimo segundo simposio ACM SIGMOD-SIGACT-SIGART sobre principios de sistemas de bases de datos (PODS '03). ACM, Nueva York, NY, EE. UU., 202–210. doi : 10.1145 / 773153.773173
^ "Premio TCC Test-of-Time" .
^ "Premio Gödel 2017" .
^ Hilton, Michael. "Privacidad diferencial: un estudio histórico". S2CID 16861132 . Cite journal requiere |journal=( ayuda )
^ Dwork, Cynthia (25 de abril de 2008). "Privacidad diferencial: una encuesta de resultados" . En Agrawal, Manindra; Du, Dingzhu; Duan, Zhenhua; Li, Angsheng (eds.). Teoría y aplicaciones de modelos de computación . Apuntes de conferencias en Ciencias de la Computación. 4978 . Springer Berlín Heidelberg. págs. 1–19. doi : 10.1007 / 978-3-540-79228-4_1 . ISBN 9783540792277.
^ Los fundamentos algorítmicos de la privacidad diferencial por Cynthia Dwork y Aaron Roth. Fundamentos y Tendencias en Informática Teórica. Vol. 9, no. 3–4, págs. 211-407, agosto de 2014. doi : 10.1561 / 0400000042
^ a b c Consultas integradas de privacidad: una plataforma extensible para el análisis de datos que preserva la privacidad de Frank D. McSherry. En Actas de la 35a Conferencia Internacional SIGMOD sobre Gestión de Datos (SIGMOD), 2009. doi : 10.1145 / 1559845.1559850
^ a b Privacidad diferencial de Cynthia Dwork, Coloquio internacional sobre autómatas, lenguajes y programación (ICALP) 2006, p. 1-12. doi : 10.1007 / 11787006 1
^ F.McSherry y K.Talwar. Diseño Mechasim vía Privacidad Diferencial. Actas del 48 ° Simposio Anual de Fundamentos de la Ciencia de la Computación, 2007.
^ Christos Dimitrakakis, Blaine Nelson, Aikaterini Mitrokotsa, Benjamin Rubinstein. Inferencia Bayesiana Robusta y Privada. Teoría del aprendizaje algorítmico 2014
^ Warner, SL (marzo de 1965). "Respuesta aleatoria: una técnica de encuesta para eliminar el sesgo de respuesta evasiva". Revista de la Asociación Estadounidense de Estadística . Taylor y Francis . 60 (309): 63–69. doi : 10.1080 / 01621459.1965.10480775 . JSTOR 2283137 . PMID 12261830 .
^ Dwork, Cynthia. "Una base firme para el análisis de datos privados". Comunicaciones de la ACM 54.1 (2011): 86–95, supra nota 19, pág. 91.
^ Bambauer, Jane, Krishnamurty Muralidhar y Rathindra Sarathy. "El oro de los tontos: una crítica ilustrada de la privacidad diferencial". Vand. J. Ent. & Tech. L.16 (2013): 701.
↑ SoK: Differential Privacies de Damien Desfontaines, Balázs Pejó. 2019.
^ Dwork, Cynthia, Krishnaram Kenthapadi, Frank McSherry, Ilya Mironov y Moni Naor. "Nuestros datos, nosotros mismos: privacidad a través de la generación de ruido distribuido". En Advances in Cryptology-EUROCRYPT 2006, págs. 486–503. Springer Berlín Heidelberg, 2006.
^ Ashwin Machanavajjhala, Daniel Kifer, John M. Abowd, Johannes Gehrke y Lars Vilhuber. "Privacidad: la teoría se encuentra con la práctica en el mapa". En Actas de la 24a Conferencia Internacional sobre Ingeniería de Datos, ICDE) 2008.
↑ Úlfar Erlingsson, Vasyl Pihur, Aleksandra Korolova. "RAPPOR: Respuesta ordinal de preservación de privacidad agregable aleatoria". En Actas de la 21ª Conferencia de la ACM sobre seguridad informática y de las comunicaciones (CCS), 2014. doi : 10.1145 / 2660267.2660348
^ Abordar la movilidad urbana con tecnología por Andrew Eland. Blog de Google Policy Europe, 18 de noviembre de 2015.
^ "Apple - Información de prensa - Vista previa de Apple iOS 10, el lanzamiento de iOS más grande jamás" . Manzana . Consultado el 16 de junio de 2016 .
^ Recopilación de datos de telemetría de forma privada por Bolin Ding, Jana Kulkarni, Sergey Yekhanin. NIPS 2017.
^ "Lente Privitar" . Consultado el 20 de febrero de 2018 .
^ API de compromisos de audiencia de LinkedIn: un sistema de análisis de datos que preserva la privacidad a escala por Ryan Rogers, Subbu Subramaniam, Sean Peng, David Durfee, Seunghyun Lee, Santosh Kumar Kancha, Shraddha Sahay, Parvez Ahammad. arXiv: 2002.05839.
^ "Ficha tecnológica: privacidad diferencial" . Centro Belfer de Ciencia y Asuntos Internacionales . Consultado el 12 de abril de 2021 .

Otras lecturas

Una lista de lectura sobre privacidad diferencial
Abowd, John. 2017. “¿Cómo operarán las agencias de estadística cuando todos los datos sean privados?”. Revista de Privacidad y Confidencialidad 7 (3). doi : 10.29012 / jpc.v7i3.404 ( diapositivas )
"Privacidad diferencial: una introducción a una audiencia no técnica" , Kobbi Nissim, Thomas Steinke, Alexandra Wood, Micah Altman , Aaron Bembenek, Mark Bun, Marco Gaboardi, David R. O'Brien y Salil Vadhan, Proyecto de herramientas de privacidad de Harvard , 14 de febrero de 2018
Dinur, Irit y Kobbi Nissim. 2003. Revelar información preservando la privacidad. En Actas del vigésimo segundo simposio ACM SIGMOD-SIGACT-SIGART sobre principios de sistemas de bases de datos (PODS '03). ACM, Nueva York, NY, EE. UU., 202-210. doi : 10.1145 / 773153.773173 .
Dwork, Cynthia, Frank McSherry, Kobbi Nissim y Adam Smith. 2006. en Halevi, S. & Rabin, T. (Eds.) Calibración del ruido a la sensibilidad en el análisis de datos privados Teoría de la criptografía: Tercera conferencia sobre teoría de la criptografía, TCC 2006, Nueva York, NY, EE. Actas, Springer Berlin Heidelberg, 265-284, doi : 10.1007 / 11681878 14 .
Dwork, Cynthia. 2006. Privacidad diferencial, 33 ° Coloquio internacional sobre autómatas, lenguajes y programación, parte II (ICALP 2006), Springer Verlag, 4052, 1-12, ISBN 3-540-35907-9 .
Dwork, Cynthia y Aaron Roth. 2014. Los fundamentos algorítmicos de la privacidad diferencial. Fundamentos y Tendencias en Informática Teórica. Vol. 9, números 3-4. 211–407, doi : 10.1561 / 0400000042 .
Machanavajjhala, Ashwin, Daniel Kifer, John M. Abowd, Johannes Gehrke y Lars Vilhuber. 2008. Privacidad: la teoría se encuentra con la práctica en el mapa, Conferencia internacional sobre ingeniería de datos (ICDE) 2008: 277-286, doi : 10.1109 / ICDE.2008.4497436 .
Dwork, Cynthia y Moni Naor. 2010. Sobre las dificultades de la prevención de la divulgación en bases de datos estadísticas o el caso de la privacidad diferencial, Revista de privacidad y confidencialidad: vol. 2: Iss. 1, artículo 8. Disponible en: http://repository.cmu.edu/jpc/vol2/iss1/8 .
Kifer, Daniel y Ashwin Machanavajjhala. 2011. No hay almuerzo gratis en la privacidad de los datos. En Actas de la Conferencia Internacional ACM SIGMOD 2011 sobre Gestión de datos (SIGMOD '11). ACM, Nueva York, NY, EE. UU., 193-204. doi : 10.1145 / 1989323.1989345 .
Erlingsson, Úlfar, Vasyl Pihur y Aleksandra Korolova. 2014. RAPPOR: Respuesta ordinal agregada aleatoria que preserva la privacidad. En Actas de la Conferencia ACM SIGSAC de 2014 sobre seguridad informática y de comunicaciones (CCS '14). ACM, Nueva York, NY, EE. UU., 1054-1067. doi : 10.1145 / 2660267.2660348 .
Abowd, John M. e Ian M. Schmutte. 2017. Revisando la economía de la privacidad: estadísticas de población y protección de la confidencialidad como bienes públicos. Labor Dynamics Institute, Cornell University, Labor Dynamics Institute, Cornell University, en https://digitalcommons.ilr.cornell.edu/ldi/37/
Abowd, John M. e Ian M. Schmutte. Próximo. Un análisis económico de la protección de la privacidad y la precisión estadística como opciones sociales. American Economic Review, arXiv : 1808.06303
Apple, Inc. 2016. Apple presenta iOS 10, el mayor lanzamiento de iOS hasta la fecha. Comunicado de prensa (13 de junio). https://www.apple.com/newsroom/2016/06/apple-previews-ios-10-biggest-ios-release-ever.html .
Ding, Bolin, Janardhan Kulkarni y Sergey Yekhanin 2017. Recopilación de datos de telemetría de forma privada, NIPS 2017.
http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/
Ryffel, Theo, Andrew Trask, et. Al. Alabama. "Un marco genérico para preservar la privacidad del aprendizaje profundo"

enlaces externos

Privacidad diferencial por Cynthia Dwork, ICALP julio de 2006.
Los fundamentos algorítmicos de la privacidad diferencial por Cynthia Dwork y Aaron Roth, 2014.
Privacidad diferencial: una encuesta de resultados por Cynthia Dwork, Microsoft Research, abril de 2008
Privacidad de datos dinámicos: observación continua y privacidad panorámica por Moni Naor, Instituto de estudios avanzados, noviembre de 2009
Tutorial sobre privacidad diferencial por Katrina Ligett , Instituto de Tecnología de California, diciembre de 2013
Una guía práctica para principiantes sobre la privacidad diferencial por Christine Task, Purdue University, abril de 2012
Private Map Maker v0.2 en el blog de Common Data Project
Estadísticas de aprendizaje con privacidad, con la ayuda del lanzamiento de una moneda por Úlfar Erlingsson, Blog de investigación de Google, octubre de 2014
Ficha técnica sobre tecnología: Privacidad diferencial por Raina Gandhi y Amritha Jayanti, Belfer Center for Science and International Affairs, otoño de 2020

[DMNS06-1] Calibración del ruido a la sensibilidad en el análisis de datos privados por Cynthia Dwork, Frank McSherry, Kobbi Nissim, Adam Smith. En Theory of Cryptography Conference (TCC), Springer, 2006. doi : 10.1007 / 11681878_14 . La versión completa aparece en Journal of Privacy and Confidentiality, 7 (3), 17-51. doi : 10.29012 / jpc.v7i3.405

[2] Tore Dalenius (1977). "Hacia una metodología para el control de la divulgación estadística". Statistik Tidskrift . 15 .

[3] Dorothy E. Denning; Peter J. Denning; Mayer D. Schwartz (marzo de 1978). "El rastreador: una amenaza para la seguridad de las bases de datos estadísticas" (PDF) . 4 (1): 76–96. Cite journal requiere |journal=( ayuda )

[4] Irit Dinur y Kobbi Nissim. 2003. Revelar información preservando la privacidad. En Actas del vigésimo segundo simposio ACM SIGMOD-SIGACT-SIGART sobre principios de sistemas de bases de datos (PODS '03). ACM, Nueva York, NY, EE. UU., 202–210. doi : 10.1145 / 773153.773173

[5] "Premio TCC Test-of-Time" .

[6] "Premio Gödel 2017" .

[7] Hilton, Michael. "Privacidad diferencial: un estudio histórico". S2CID 16861132 . Cite journal requiere |journal=( ayuda )

[8] Dwork, Cynthia (25 de abril de 2008). "Privacidad diferencial: una encuesta de resultados" . En Agrawal, Manindra; Du, Dingzhu; Duan, Zhenhua; Li, Angsheng (eds.). Teoría y aplicaciones de modelos de computación . Apuntes de conferencias en Ciencias de la Computación. 4978 . Springer Berlín Heidelberg. págs. 1–19. doi : 10.1007 / 978-3-540-79228-4_1 . ISBN 9783540792277.

[DPBook-9] Los fundamentos algorítmicos de la privacidad diferencial por Cynthia Dwork y Aaron Roth. Fundamentos y Tendencias en Informática Teórica. Vol. 9, no. 3–4, págs. 211-407, agosto de 2014. doi : 10.1561 / 0400000042

[PINQ-10] Consultas integradas de privacidad: una plataforma extensible para el análisis de datos que preserva la privacidad de Frank D. McSherry. En Actas de la 35a Conferencia Internacional SIGMOD sobre Gestión de Datos (SIGMOD), 2009. doi : 10.1145 / 1559845.1559850

[Dwork,_ICALP_2006-11] Privacidad diferencial de Cynthia Dwork, Coloquio internacional sobre autómatas, lenguajes y programación (ICALP) 2006, p. 1-12. doi : 10.1007 / 11787006 1

[12] F.McSherry y K.Talwar. Diseño Mechasim vía Privacidad Diferencial. Actas del 48 ° Simposio Anual de Fundamentos de la Ciencia de la Computación, 2007.

[13] Christos Dimitrakakis, Blaine Nelson, Aikaterini Mitrokotsa, Benjamin Rubinstein. Inferencia Bayesiana Robusta y Privada. Teoría del aprendizaje algorítmico 2014

[14] Warner, SL (marzo de 1965). "Respuesta aleatoria: una técnica de encuesta para eliminar el sesgo de respuesta evasiva". Revista de la Asociación Estadounidense de Estadística . Taylor y Francis . 60 (309): 63–69. doi : 10.1080 / 01621459.1965.10480775 . JSTOR 2283137 . PMID 12261830 .

[15] Dwork, Cynthia. "Una base firme para el análisis de datos privados". Comunicaciones de la ACM 54.1 (2011): 86–95, supra nota 19, pág. 91.

[16] Bambauer, Jane, Krishnamurty Muralidhar y Rathindra Sarathy. "El oro de los tontos: una crítica ilustrada de la privacidad diferencial". Vand. J. Ent. & Tech. L.16 (2013): 701.

[DP19-17] SoK: Differential Privacies de Damien Desfontaines, Balázs Pejó. 2019.

[DKMMN06-18] Dwork, Cynthia, Krishnaram Kenthapadi, Frank McSherry, Ilya Mironov y Moni Naor. "Nuestros datos, nosotros mismos: privacidad a través de la generación de ruido distribuido". En Advances in Cryptology-EUROCRYPT 2006, págs. 486–503. Springer Berlín Heidelberg, 2006.

[MachanavajjhalaKAGV08-19] Ashwin Machanavajjhala, Daniel Kifer, John M. Abowd, Johannes Gehrke y Lars Vilhuber. "Privacidad: la teoría se encuentra con la práctica en el mapa". En Actas de la 24a Conferencia Internacional sobre Ingeniería de Datos, ICDE) 2008.

[RAPPOR-20] Úlfar Erlingsson, Vasyl Pihur, Aleksandra Korolova. "RAPPOR: Respuesta ordinal de preservación de privacidad agregable aleatoria". En Actas de la 21ª Conferencia de la ACM sobre seguridad informática y de las comunicaciones (CCS), 2014. doi : 10.1145 / 2660267.2660348

[Eland-21] Abordar la movilidad urbana con tecnología por Andrew Eland. Blog de Google Policy Europe, 18 de noviembre de 2015.

[22] "Apple - Información de prensa - Vista previa de Apple iOS 10, el lanzamiento de iOS más grande jamás" . Manzana . Consultado el 16 de junio de 2016 .

[DpWinTelemetry-23] Recopilación de datos de telemetría de forma privada por Bolin Ding, Jana Kulkarni, Sergey Yekhanin. NIPS 2017.

[24] "Lente Privitar" . Consultado el 20 de febrero de 2018 .

[DpLinkedIn-25] API de compromisos de audiencia de LinkedIn: un sistema de análisis de datos que preserva la privacidad a escala por Ryan Rogers, Subbu Subramaniam, Sean Peng, David Durfee, Seunghyun Lee, Santosh Kumar Kancha, Shraddha Sahay, Parvez Ahammad. arXiv: 2002.05839.

[26] "Ficha tecnológica: privacidad diferencial" . Centro Belfer de Ciencia y Asuntos Internacionales . Consultado el 12 de abril de 2021 .

[1]