El uso de IA en las empresas supone riesgos para la seguridad, ya que a través de estas interacciones se pueden revelar datos confidenciales. En base a esto, entidades de ciberseguridad informan que los colaboradores están proporcionando data sensible a ChatGPT, lo que requiere medidas de protección ante posibles amenazas.
Los chatbots e IA son cada vez más sofisticados y capaces de procesar grandes volúmenes de información. Como resultado, los empleados los utilizan cada vez más para acceder a todo tipo de datos, tales como información financiera, datos de clientes y datos relacionados a propiedad intelectual. Aunque los chatbots pueden ser una forma cómoda de acceder a esta información, también suponen un importante riesgo para la seguridad si no se protegen adecuadamente.
Con el aumento de la popularidad de ChatGPT de OpenAI y su modelo básico de IA -el Generative Pre-trained Transformer o GPT-4-, así como de otros LLM, las empresas y los profesionales de la seguridad han empezado a preocuparse por la posibilidad de que los datos confidenciales introducidos como datos de entrenamiento en los modelos puedan resurgir cuando se realicen las consultas adecuadas. Existe el temor de que si una persona introduce información confidencial -informes trimestrales, material para una presentación interna, cifras de ventas o similares- y pide a ChatGPT que escriba un texto en torno a ella, cualquiera podría obtener información sobre esa empresa simplemente preguntando a ChatGPT al respecto más tarde si no se dispone de la seguridad de datos adecuada para el servicio.
En un informe reciente, el servicio de seguridad de datos Cyberhaven detectó y bloqueó solicitudes para introducir datos en ChatGPT del 4,2% de los 1,6 millones de trabajadores de sus empresas clientes por el riesgo de filtrar información confidencial, datos de clientes, código fuente o información regulada al LLM. Y a medida que más empleados utilicen ChatGPT y otros servicios basados en IA como herramientas de productividad, el riesgo aumentará.
Las implicaciones de esta situación podrían ser de gran alcance: Por ejemplo, al trabajar en una presentación interna que contenga nuevos datos corporativos que revelen un problema de la empresa que se debatirá en una reunión del consejo de administración. Divulgar esa información confidencial podría socavar el precio de las acciones, la actitud de los consumidores y la confianza de los clientes.
¿Puede ocurrir alguna filtración de data con lo que se introduce en ChatGPT?
Este concepto fue analizado por la empresa de investigación Cyberhaven en febrero, centrándose en cómo OpenAI utiliza el material que la gente introduce en ChatGPT como datos de entrenamiento para mejorar su tecnología, con un resultado muy parecido al introducido. Cyberhaven afirmaba que los datos confidenciales introducidos en ChatGPT podrían ser revelados a terceros si éstos formulan a ChatGPT determinadas preguntas basadas en la información facilitada por el usuario.
El Centro Nacional de Ciberseguridad del Reino Unido (NCSC) afirma que ChatGPT y otros grandes modelos lingüísticos (LLM) no añaden actualmente información automáticamente de las consultas a los modelos para que otros puedan consultarlos. Es decir, incluir información en una consulta no implica que esos datos potencialmente privados se incorporen al LLM. Sin embargo, la consulta será visible para la organización que proporciona el LLM (en el caso de ChatGPT, para OpenAI).
Esas consultas se almacenan y casi con toda seguridad se utilizarán para desarrollar el servicio o modelo LLM en algún momento. Esto podría significar que el proveedor del LLM (o sus socios/contratistas) pueden leer las consultas e incorporarlas de algún modo en futuras versiones. Otro riesgo, que aumenta a medida que más organizaciones producen y utilizan LLM, es que las consultas almacenadas en línea puedan ser pirateadas, filtradas o puestas accidentalmente a disposición del público, según el NCSC.
Por lo tanto, el riesgo no es teórico. En un artículo publicado en junio de 2022, una docena de investigadores de una lista de empresas y universidades -entre ellas Apple, Google, la Universidad de Harvard y la Universidad de Stanford- descubrieron que los llamados «ataques de extracción de datos de entrenamiento» podían recuperar con éxito secuencias de texto textuales, información personal identificable (IPI) y otra información de los documentos de entrenamiento del LLM conocido como GPT-3. De hecho, los investigadores afirman en su artículo que basta un único documento para que un LLM memorice datos literales.
Riesgos probables de introducir datos sensibles en ChatGPT
Según la entidad de ciberseguridad WithSecure, aunque es válido preocuparse de que los chatbots almacenen y luego revelen información sensible, sería necesario entrenar un nuevo gran modelo para incorporar esos datos. Entrenar a los LLM es un procedimiento caro y largo, y si finalmente se crea un nuevo modelo que incluya los avisos recogidos por ChatGPT, los temores se centran en los ataques de inferencia de pertenencia. Estos ataques podrían revelar números de tarjetas de crédito o información personal que figurase en los datos de entrenamiento. Sin embargo, no se ha demostrado ningún ataque de inferencia de miembros contra los LLM de ChatGPT y otros sistemas similares. Esto significa que es muy poco probable que los futuros modelos sean susceptibles de sufrir ataques de inferencia de miembros, aunque la entidad admite que es posible que la base de datos que contiene los mensajes guardados sea pirateada o filtrada.
¿Los vínculos de terceros con la IA podrían exponer los datos?
Según Orange Cyberdefense, es más probable que los problemas surjan de proveedores externos que no declaran explícitamente sus políticas de privacidad, por lo que usarlos con herramientas y plataformas que de otro modo serían seguras puede poner en riesgo cualquier dato privado. Las plataformas SaaS como Slack y Microsoft Teams tienen límites claros de datos y procesamiento y un bajo riesgo de que los datos queden expuestos a terceros. Sin embargo, estas líneas claras pueden difuminarse rápidamente si los servicios se aumentan con complementos de terceros o bots que necesitan interactuar con los usuarios, independientemente de si están vinculados a la IA.
¿Cómo es posible minimizar/mitigar los riesgos asociados?
A medida que más empresas de software conectan sus aplicaciones a ChatGPT, el LLM puede estar recopilando mucha más información de la que los usuarios -o sus empresas- son conscientes, poniéndolos en riesgo. Los datos confidenciales representan actualmente el 11% de lo que los empleados introducen en ChatGPT, y una empresa media filtra datos confidenciales cientos de veces cada semana, según Cyberhaven.
Para mitigar estos riesgos, es importante que las empresas apliquen medidas de seguridad cuando utilicen chatbots en el lugar de trabajo. Esto incluye la formación de los empleados sobre el uso adecuado de los chatbots y la importancia de proteger la información sensible, así como la aplicación de medidas técnicas de seguridad, como el cifrado de datos y los controles de acceso.
También es importante que las empresas sean conscientes de los riesgos potenciales asociados al uso de chatbots y evalúen las implicaciones de su uso para la seguridad. Esto incluye evaluar la seguridad del propio chatbot, así como la seguridad de los datos y sistemas con los que interactúa.
Las organizaciones deben actualizar las políticas de protección de la información para asegurarse de que los tipos de aplicaciones que emplean datos confidenciales están bien documentados. Además, las organizaciones deben explorar cómo pueden utilizar estas nuevas tecnologías de IA para mejorar sus negocios de una manera reflexiva, dedicando personal a explorar nuevas herramientas que muestren su potencial, de modo que se puedan comprender los riesgos desde el principio y garantizar que se dispone de las protecciones adecuadas.
En última instancia, es responsabilidad de las empresas asegurarse de que sus usuarios son plenamente conscientes de qué información debe y no debe revelarse a ChatGPT. Las organizaciones deben tener mucho cuidado con los datos que deciden enviar en las solicitudes.
Referencia: