You are currently browsing the tag archive for the ‘datos anonimizados’ tag.

Tras cada escándalo, los gran colectores de datos como Google o Facebook adviertan que archivan los datos de forma “anonimizada”. Es media mentira – pero aunque fuera verdad, tienen una base de datos con potencial de bomba nuclear. La comparación puede parecer exagerado – si comparas la opinión sobre los datos en 2050 con la opinión sobre bombas nucleares en 1950.

Datos pseudo-anonimizados

Lo que los servidores web pueden escribir en un log puede contener todo lo que pueden detectar. Como mínimo suele ser el tiempo y la dirección IP del cliente. También pueden guardar los contenidos enviados. Es decir, práctamente todo.

Estos logs suelen ser meramente de uso interno de la compañía que mantiene el sitio web. “Uso interno” suene bien, a menos que comienzas a pensar lo que significa realmente “interno”. En su política de privacidad, la empresa se permite poder (o no) pasar tus datos a terceras empresas, pero asegura que estas tienen que tener la misma protección de datos restrictiva – será que pueden o no pasar tus datos a cuartas empresas.

La compañía advierte también que guardar tus datos en el país que sea. Puede estar obligado a colaborar con las autoridades dentro de la ley. Esto quiere decir en EEUU, que pueden dejar todos tus datos a los servicios secretos sin poder admitirlo, porque esta es la ley en EEUU. Tienen leyes similares en Arabia Saudí, China y Coréa del Norte. Lo que no tienen ahí son los nodos centrales del Internet mundial.

La compañía puede también utilizar tus datos “anonimizados” para clientes que quieren poner publicidad a públicos específicos, por ejemplo chicos de entre 17 y 18 años en poblaciones de menos de 25 habitantes. Casi no se sabe quién podría ser.

Cuando ya no queda nadie con un interés de verdad en tus datos – digamos tras un año – se anonimizan. Por ejemplo, se corta el último byte de tu dirección IP. Así ya podría haber 255 direcciones más, que podrían haber generado el tráfico – y que probablemente están todas asignadas a tu barrio. Seguramente toda esta gente buscaba a la misma hora los mismos términos en Google que tú.

Gracias a la política de privacidad, tus datos están protegidos – con varias copias de seguridad.

El poder de datos realmente anonimizados

Ahora suponemos que los datos son realmente anónimos. Se guarda que alguien ha comprado pantalones verdes y un cuadro de arte abstracta, pero no se guarda la dirección IP. Nadie puede saber que has sido tú.

Pensemos que esta empresa guarda más datos anónimos. ¡Muchos más datos! Y en estos datos hace lo que se llama “data mining”, es decir, buscar correlaciones. De esta búsqueda resulta que personas que buscan en Internet por los términos “SIDA”, “tratamiento” y “ayuda”, buscan con más probabilidad por expresiones como “pantalones verdes” o “arte moderna”. Quizá piensas que un gusto no tiene nada que ver con una enfermedad. Pero el data mining no busca razones. Busca correlaciones.

Vas a una entrevista de trabajo o solicitas un seguro médico. A la cita vas con tus pantalones verdes. Durante la charla habléis de arte. El entrevistador pregunta si te gusta el arte clásico y tu dices “no, el arte moderno”. Y como él sabe de la correlación y tú llevas pantalones verdes, le dices además – sin querer – “y con más probabilidad tengo el SIDA”. Ahora adivinas si vas a tener el puesto de trabajo o el seguro médico.

No importa si has sido tú

No es que buscar información sobre una enfermedad es lo mismo que tenerla. Pero tenerla suele ser una buena motivación de buscar. (Esto es otra correlación.) A un seguro muchas veces no interesa si tienes un problema o no. Basta con que tengas más riesgo. Una empresa no quiere hacerte feliz sino ganar dinero contigo.

Observa que esta situación te puede suceder también, si nunca has utilizado el Internet, y si ni siquiera compraste los pantalones verdes porque te fueron regalados. La información sale de los datos acumulados anónimos de mucha otra gente, que lo ha suministrado – a menudo sin saber que lo estaba haciendo. No se puede sacar de los datos anonimizados, quién los ha generado. Y tampoco importa sacarlo. Valen para todos.

Puede ser que tres características independientes como el color de los pantalones, el estilo de arte y una enfermedad realmente no están correlados. Pero en estas bases de datos gigantescos no sólo se pueden buscar correlaciones entre tres parámetros. Se pueden buscar entre veinte, cien o cuántas haya. ¿Estás seguro que no hay absolutamente ninguna correlación que te podría amenazar?

Bombas por la paz

Una gran cantidad de datos es como una tonelada de plutonio. No supone un gran peligro mientras está sola. Pero sólo por existir atrae a personas a que gusta hacer la vida imposible a mucha otra gente. La diferencia es: con los datos puedes hacer su vida imposible sin matarla.

La radioactividad emitida por una explosión nuclear, en cambio, suele estar en niveles aceptables unas décadas después. El peligro de los datos no. Se guardan igual. Tras unas décadas sólo será posible descifrar algoritmos de encriptación que hoy se consideran seguros.

Lectura adicional

Escribe tu dirección de correo electrónico para suscribirte a este blog, y recibir notificaciones de nuevos mensajes por correo.

Únete a otros 48 seguidores

Archivos

agosto 2017
L M X J V S D
« Ene    
 123456
78910111213
14151617181920
21222324252627
28293031