Google ha anunciado hoy la liberación de sus herramientas de privacidad diferencial para desarrolladores y emprendedores en Internet a quienes les pueden ser bastante útiles para comenzar sus propios propios servicios.
Las opciones que ofrecen estas herramientas son bastantes, como por ejemplo permitir a las organizaciones aprender de la mayoría de sus datos cuidando siempre la información personal de cualquier persona.
Esta versatilidad en el sistema de privacidad diferencial para el correcto y efectivo uso de datos es lo que a continuación nos explica en detalle Miguel Guevara, Gerente de Producto, Oficina de Privacidad y Protección de Datos.
Google y su Privacidad diferencial
¿Que es la privacidad diferencial?
Yo lo describiría a grandes rasgos como una formulación matemática muy robusta sobre privacidad, es un concepto matemático que provee una forma de cuantificar cuanta información está saliendo por parte de un usuario, siendo un conjunto de ideas las cuales son bastante sólidas que nos permiten medir cuanta privacidad estamos dejando de dar cada vez que alguien hace una pregunta a una base de datos.
¿Cómo se aplica este tipo de privacidad dentro de la compañía?
Lo hacemos de diferentes maneras, la primera vez que utilizamos la privacidad diferencial en nuestros productos fue en Google Chrome. En este caso lo que hicimos fue usar esta opción en el momento en que conectábamos información de nuestros usuarios para calcular métricas. En este caso aplicábamos un concepto que se llama «ruido» el cual permite a cada usuario la capacidad de decir si efectivamente participó o no en la colección de datos.
Con la privacidad diferencial nosotros con una cierta probabilidad podemos registrar si es que tú como usuario haz visitado algún sitio, por lo que podemos estimar muy bien cuantos usuarios en promedio pueden visitar alguna página web en particular, sin necesidad de tener que saber más información sobre cada uno.
¿En que otra aplicación de su ecosistema han utilizado este tipo de privacidad?
Ahora lo estamos usando en Maps, donde tenemos las gráficas que muestran por ejemplo, que tanta gente hay en un restaurante, o en una oficina o cualquier otro servicio. Este método es producido en base a la privacidad diferencial, ya que gracias a los aportes de los propios usuarios.
Por ejemplo si hay una persona que trabaja en Uber Eats, irá constantemente al mismo restaurante, por lo que nosotros acá aplicamos la privacidad para evitar que esta persona aparezca mucho en los histogramas. La forma en que lo hacemos es calculando cuantas veces un usuario ingresa a este conjunto de datos, luego calibramos el ruido para que podamos ordenar la contribución de el en particular. Con esto nos encargamos de preservar las estadísticas generales sobre cuanta gente va a este lugar cada cierta hora.
¿Estas dos aplicaciones son las únicas del ecosistema donde se ocupa esta privacidad?
Internamente lo que hacemos es usar esta opción para muchas de nuestras operaciones de análisis de datos. Antes de que creemos un nuevo producto nos tenemos que hacer la pregunta ¿Tiene futuro?, y es a raíz de estos procesos donde analizamos los datos que tenemos con la privacidad diferencial que nos permite entender los patrones globales y poblacionales sin tener estudiar el acceso a la información de que hace cada usuario.
¿Por qué en Google han optado por hacer estas herramientas públicas?
La razón de hacerla pública es porque nos dimos cuenta que existe una brecha gigantesca entre la teoría y la práctica, ya que en si no es un método sencillo, porque en muchos casos existen usuarios que contribuyen demasiado mientras que otros no tanto, por lo que tenemos que trabajar mucho en la gráficas para que estos (los que aportan mucho), no acaben afectando al resto que lo hace menos. Llegar a desarrollar una herramienta que realice este trabajo nos costó dos años completos en construirla.
Además en la compañía tenemos una tradición en contribuir al ecosistema de desarrolladores y nos regimos por lo que Sundar dijo hace algunos meses «La privacidad no es un lujo». Queremos ayudar a que una organización invierta dos años con ingenieros de software e investigadores para poder desarrollar un sistema así, siendo que nosotros con mucha emoción podemos entregarla para todos, en especial para todos los que no tienen los presupuestos necesarios para desarrollar estos algoritmos.
Finalmente ¿Que tienen que hacer las personas para poder acceder a ellas?
Lo que tienen que hacer es entrar a la publicación oficial en nuestro blog y desde ahí podrán descargar el reposteo que tenemos disponible y lo podrán correr en su computador localmente. En ese lugar encontraran varios ejemplos de como poder usar la librería sobre casos específicos y además estamos preparado un Paper específicos donde entregaremos más detalles para el uso de la privacidad diferencial.