Miles de repositorios de GitHub expuestos, ahora privados, aún pueden ser accedidos a través de Copilot

Los investigadores de seguridad advierten que los datos expuestos a Internet, incluso por un momento, pueden permanecer en chatbots de inteligencia artificial generativa en línea como Microsoft Copilot mucho tiempo después de que los datos se vuelvan privados.
Miles de repositorios de GitHub que alguna vez fueron públicos y que pertenecen a algunas de las empresas más grandes del mundo, incluida Microsoft, están afectados, según nuevos hallazgos de Lasso, una empresa israelí de ciberseguridad centrada en amenazas emergentes de inteligencia artificial generativa.
Ophir Dror, cofundador de Lasso, dijo a TechCrunch que la empresa encontró contenido de su propio repositorio de GitHub que aparecía en Copilot porque había sido indexado y almacenado en caché por el motor de búsqueda Bing de Microsoft. Dror dijo que el repositorio, que se había hecho público por error durante un breve período, se había configurado desde entonces como privado y que al acceder a él en GitHub aparecía un error de "página no encontrada".
“En Copilot, sorprendentemente, encontramos uno de nuestros propios repositorios privados”, dijo Dror. “Si yo navegara por la web, no vería estos datos. Pero cualquier persona en el mundo podría hacerle la pregunta correcta a Copilot y obtener estos datos”.
Después de darse cuenta de que cualquier dato en GitHub, incluso brevemente, podría quedar expuesto por herramientas como Copilot, Lasso investigó más.
Lasso extrajo una lista de repositorios que eran públicos en cualquier momento de 2024 e identificó los repositorios que desde entonces se habían eliminado o se habían convertido en privados. Mediante el mecanismo de almacenamiento en caché de Bing, la empresa descubrió que más de 20.000 repositorios de GitHub que desde entonces eran privados todavía tenían datos accesibles a través de Copilot, lo que afectaba a más de 16.000 organizaciones.
Según Lasso, entre las organizaciones afectadas se encuentran Amazon Web Services, Google, IBM, PayPal, Tencent y la propia Microsoft. En el caso de algunas empresas afectadas, Copilot podría verse obligado a devolver archivos confidenciales de GitHub que contienen propiedad intelectual, datos corporativos sensibles, claves de acceso y tokens, afirmó la empresa.
Lasso señaló que utilizó Copilot para recuperar el contenido de un repositorio de GitHub (que luego fue eliminado por Microsoft) que alojaba una herramienta que permitía la creación de imágenes de IA “ofensivas y dañinas” utilizando el servicio de IA en la nube de Microsoft.
Dror dijo que Lasso se puso en contacto con todas las empresas afectadas que se vieron “severamente afectadas” por la exposición de datos y les aconsejó que rotaran o revocaran cualquier clave comprometida.
Ninguna de las empresas afectadas mencionadas por Lasso respondió a las preguntas de TechCrunch. Microsoft tampoco respondió a la consulta de TechCrunch.
Lasso informó a Microsoft de sus hallazgos en noviembre de 2024. Microsoft le dijo a Lasso que clasificó el problema como de "baja gravedad" y afirmó que este comportamiento de almacenamiento en caché era "aceptable". Microsoft ya no incluyó enlaces al caché de Bing en sus resultados de búsqueda a partir de diciembre de 2024.
Sin embargo, Lasso dice que aunque la función de almacenamiento en caché estaba desactivada, Copilot todavía tenía acceso a los datos aunque no fueran visibles a través de búsquedas web tradicionales, lo que indica una solución temporal.
techcrunch