El terror de la privacidad: ¿Qué revelan los chatbots sobre tu persona?

El terror de la privacidad: ¿Qué revelan los chatbots sobre tu persona?
chatbots

En su innovador estudio, Vechev y su equipo han hecho un descubrimiento impactante que cambiará la forma en que vemos la privacidad en la era de la inteligencia artificial. Los modelos lingüísticos de gran tamaño (Llm) que alimentan a los chatbots más avanzados tienen la capacidad de extraer información personal detallada de los usuarios, incluso a partir de conversaciones aparentemente insignificantes. ¡Sí, has oído bien! Estos algoritmos están tan bien entrenados que pueden deducir con precisión datos personales a partir de simples intercambios de palabras.

¿Cómo es posible esto? Según el líder de la investigación, el destacado profesor de informática Martin Vechev del Politécnico de Zúrich en Suiza, esto se debe a la forma en que se entrenaron estos modelos. Parece que el problema radica en la enorme cantidad de datos que se utilizan para alimentar a estos chatbots. OpenAI, Google, Meta y Anthropic fueron las empresas cuyos modelos lingüísticos fueron probados por el equipo de Zúrich, y sí, todas ellas se vieron afectadas por este problema.

Vechev y su equipo informaron a todas las empresas sobre este descubrimiento preocupante. OpenAI está trabajando arduamente para eliminar cualquier información personal de los datos de entrenamiento y ajustar sus modelos para evitar solicitudes de datos personales. Anthropic, por su parte, asegura en su política de privacidad que no recopila ni vende información personal. Por otro lado, ni Google ni Meta respondieron a las solicitudes de comentarios.

Este nuevo desafío de privacidad se originó en el proceso que permitió a los chatbots, en particular a ChatGPT, mejorar su capacidad de respuesta. Los modelos de inteligencia artificial utilizados para entrenar a estos chatbots se alimentan con enormes cantidades de datos recopilados en la web. Este proceso les permite desarrollar una sensibilidad única hacia los patrones del lenguaje. Sin embargo, estos datos de entrenamiento contienen información personal que, a primera vista, puede parecer irrelevante. Pero aquí está la magia: estos modelos lingüísticos pueden identificar patrones y combinar información para deducir detalles sorprendentes sobre los usuarios, como su ubicación, género, edad e incluso etnia.

Para probar esta sorprendente capacidad, el equipo de Zúrich utilizó conversaciones publicadas en Reddit, donde los usuarios revelaron información personal sobre sí mismos. El modelo GPT-4, en el que se basa ChatGPT, logró deducir correctamente información privada con una precisión impresionante, oscilando entre el 85% y el 95%. ¡Es simplemente asombroso!

No debería sorprendernos que los modelos lingüísticos sean capaces de extraer información privada. Sin embargo, lo que realmente llama la atención es la precisión con la que lo hacen. Aunque existen técnicas para ocultar datos personales en los textos, los Llm son tan inteligentes que pueden sacar conclusiones precisas incluso a partir de información parcial. Los investigadores temen que estos modelos puedan ser utilizados en redes sociales para extraer información sensible o incluso ser diseñados para descubrir datos a través de solicitudes aparentemente inocuas.