(Estamos en WhatsApp. Empieza a seguirnos ahora)
En julio pasado, Google introdujo un cambio de ocho palabras en su política de privacidad que representa un paso importante en su carrera para construir la próxima generación de inteligencia artificial.
Oculto entre miles de palabras en el documento, Google cambió la redacción de cómo se usaban los datos de sus productos, agregando que la información pública podría usarse para entrenar su chatbot de IA y otros servicios.
(En las colecciones se presentan las ediciones de los textos —en rojo— y las adiciones, en verde).
El cambio sutil no es exclusivo de Google. Teniendo en cuenta que las empresas están tratando de entrenar sus modelos de IA con datos protegidos por leyes de privacidad, escriben cuidadosamente en sus términos y condiciones para incluir palabras como «inteligencia artificial», «aprendizaje automático» e «IA generativa».
Algunos cambios en los niveles de servicio son mínimos, con solo unas pocas palabras. Otros incluyen agregar ciertas secciones para explicar cómo funcionan los modelos de IA generativa y qué tipos de acceso tienen los datos del usuario. Snap, por ejemplo, advirtió a sus usuarios que no compartieran información confidencial con su chatbot de IA porque se usaba en su entrenamiento, y Meta alertó a los usuarios en Europa que pronto se usaría contenido público en Facebook e Instagram para entrenar su gran modelo de lenguaje.
Estos términos y condiciones, que muchas personas han ignorado durante gran parte del tiempo, son criticados por algunos usuarios que son escritores, ilustradores y artistas visuales y creen que su trabajo se utiliza para capacitarse para los productos que los reemplazan.
«Estamos destruyendo el mundo y dejándolo con contenido de mala calidad que fue creado básicamente a partir de nuestro material, y ahora lo estamos desechando», afirmó Sasha Yanshin, personalidad de YouTube y cofundadora de un sitio de recomendaciones de viajes.
Este mes, Yanshin canceló su suscripción a Adobe cambiando su política de privacidad. “El herrero que te vende un pincel no sirve para el cuadro que estás haciendo con él, ¿es cierto? «, preguntó.
Para formarse en IA generativa, las empresas tecnológicas pueden utilizar dos tipos de datos: públicos y privados. Los datos públicos están disponibles en Internet para que cualquiera pueda verlos, mientras que los datos privados incluyen mensajes de texto, correos electrónicos y publicaciones en redes sociales realizadas desde cuentas privadas.
Los datos públicos son un recurso limitado y varias empresas los han estado utilizando recientemente para todos sus sistemas de inteligencia artificial. Sin embargo, los gigantes tecnológicos como Meta y Google tendrán un tesoro de datos privados que podría ser 10 veces mayor que el de sus homólogos públicos, dijo Tamay Besiroglu, subdirector de Epoch, un instituto de investigación de IA.
Según Besiroglu, estos datos podrían representar “una ventaja sustancial” en la carrera de IA. El problema es acceder a él. Los datos privados están protegidos en gran medida por un mosaico de leyes de privacidad federales y estatales que otorgan a los usuarios algún tipo de licencia para el contenido creado en línea, y las empresas no pueden usarlo para sus propios productos sin consentimiento.
En febrero, la Comisión Federal de Comercio aconsejó a las empresas de tecnología que cambiaran sus políticas de privacidad para extraer retroactivamente datos antiguos que pudieran estar «corrompidos o enredados».
Entrenar la IA podría llevarle a utilizar tipos de datos más personales, como mensajes a amigos y familiares. Un portal de Google informó que un pequeño grupo de usuarios de prueba, con permiso, permitieron a Google entrenar su IA con aspectos de sus correos electrónicos personales.
Algunas empresas han tenido problemas para equilibrar su enfoque hacia los nuevos datos con la preocupación por la privacidad del usuario. En junio, Adobe enfrentó una reacción violenta en las redes sociales después de cambiar su política de privacidad para incluir una frase sobre la automatización que muchos de sus clientes interpretaron como lo que habían visto con la extracción de contenido destinado a la IA.
La empresa explicó los cambios con un par de entradas de blog, en las que se pensaba que los clientes los habían malinterpretado. El 18 de junio, Adobe agregó explicaciones encima de algunas secciones de sus términos y condiciones.
“Nunca hemos entrenado la IA generativa con contenido del cliente, trabajo apropiado del cliente o acceso autorizado al contenido del cliente más allá de los requisitos legales”, aseguró Dana Rao, abogada senior de Adobe y directora del área de fideicomisos, en un comunicado de prensa.
Este año, Snap actualizó su política de privacidad sobre los datos recopilados por My AI, su chatbot de IA con el que los usuarios pueden mantener conversaciones.
Un portavoz de Snap dijo que la compañía había “brindado buenos consejos” sobre cómo utilizar los datos para entrenar su IA con el consentimiento de sus usuarios.
En septiembre, la plataforma social X añadió una frase única a su política de privacidad sobre el aprendizaje automático y la inteligencia artificial. La empresa no respondió a una solicitud de comentarios.
El mes pasado, Meta alertó a sus usuarios de Facebook e Instagram en Europa de que estaban utilizando contenido público en sus plataformas para aprender sobre IA a partir del miércoles, lo que provocó algunas reacciones negativas. Posteriormente, la empresa suspendió sus actividades, por lo que el Centro Europeo de Derechos Digitales presentó denuncias contra la empresa en 11 países europeos.
En Estados Unidos, donde las leyes de privacidad son menos estrictas, Meta pudo utilizar contenido público de redes sociales para entrenar su IA sin producir este nivel de alerta. La compañía anunció en septiembre que la nueva versión de su modelo de lenguaje grande se había entrenado con datos de usuarios junto con aquellos que no habían sido entrenados en su iteración anterior.
Meta dijo que su IA no lee los mensajes enviados por amigos y familiares en aplicaciones como Messenger y WhatsApp al menos una vez al año, por lo que un usuario etiqueta su chatbot de IA en un mensaje.
«El uso de información pública para entrenar modelos de IA es una práctica industrial generalizada y no es exclusiva de nuestros servicios», dijo un portavoz de Meta en un comunicado.
Muchas empresas también agregan una cláusula a sus términos de servicio que protege su contenido pirateado para capacitarse en habilidades de IA.

