Los modelos de IA maliciosos están detrás de una nueva ola de ciberdelitos, Cisco Talos

Una nueva investigación de Cisco Talos revela un aumento en el uso indebido de los Modelos de Lenguaje Largo (LLM) por parte de ciberdelincuentes para potenciar sus actividades ilícitas . Estas potentes herramientas de IA, conocidas por generar texto, resolver problemas y escribir código, están siendo manipuladas, según se informa, para lanzar ataques más sofisticados y generalizados.
Para su información, los LLM están diseñados con funciones de seguridad integradas, como la alineación (entrenamiento para minimizar el sesgo) y las barreras de seguridad (mecanismos en tiempo real para evitar resultados dañinos). Por ejemplo, un LLM legítimo como ChatGPT se negaría a generar un correo electrónico de phishing. Sin embargo, los ciberdelincuentes buscan activamente formas de evadir estas protecciones.
La investigación de Talos, compartida con Hackread.com, destaca tres métodos principales utilizados por los adversarios:
LLM sin censura : Estos modelos, al carecer de restricciones de seguridad, generan fácilmente contenido sensible o dañino. Algunos ejemplos son OnionGPT y WhiteRabbitNeo, que pueden generar herramientas de seguridad ofensivas o correos electrónicos de phishing. Frameworks como Ollama permiten a los usuarios ejecutar modelos sin censura, como Llama 2 Uncensored, en sus propios equipos.
LLMs Criminales a Medida : Algunos ciberdelincuentes emprendedores están desarrollando sus propios LLMs, diseñados específicamente para fines maliciosos. Nombres como GhostGPT, WormGPT , DarkGPT, DarkestGPT y FraudGPT se anuncian en la dark web , ofreciendo funciones como la creación de malware, páginas de phishing y herramientas de hacking.
Liberación de LLM legítimos : Esto implica engañar a los LLM existentes para que ignoren sus protocolos de seguridad mediante ingeniosas técnicas de inyección de indicaciones. Los métodos observados incluyen el uso de lenguaje codificado (como Base64), la adición de texto aleatorio (sufijos adversarios), escenarios de rol (p. ej., DAN o la liberación de Grandma) e incluso la explotación de la autoconciencia del modelo (metaindicación).
La dark web se ha convertido en un mercado para estos LLM maliciosos . FraudGPT, por ejemplo, anunciaba funciones que abarcaban desde la creación de código malicioso y malware indetectable hasta la detección de sitios web vulnerables y la generación de contenido de phishing.
Sin embargo, el mercado no está exento de riesgos para los propios delincuentes; los investigadores de Talos descubrieron que el supuesto desarrollador de FraudGPT , CanadianKingpin12, estaba estafando a compradores potenciales de criptomonedas prometiéndoles un producto inexistente.
Más allá de la generación directa de contenido ilícito, los ciberdelincuentes utilizan las LLM para tareas similares a las de los usuarios legítimos, pero con un toque malicioso. En diciembre de 2024, Anthropic , desarrolladores de Claude LLM, señaló la programación, la creación de contenido y la investigación como los principales usos de su modelo. De igual forma, las LLM delictivas se utilizan para:
- Programación: creación de ransomware, troyanos de acceso remoto, limpiadores y ofuscación de código.
- Creación de contenido: generación de correos electrónicos de phishing, páginas de destino y archivos de configuración convincentes.
- Investigación: Verificar números de tarjetas de crédito robadas, escanear en busca de vulnerabilidades e incluso generar ideas para nuevos esquemas criminales.
Los LLM también se están convirtiendo en objetivos. Los atacantes distribuyen modelos con puertas traseras en plataformas como Hugging Face , integrando código malicioso que se ejecuta al descargarse. Además, los LLM que utilizan fuentes de datos externas (Recuperación y Generación Aumentada o RAG) pueden ser vulnerables al envenenamiento de datos, donde los atacantes manipulan los datos para influir en las respuestas del LLM.
Cisco Talos anticipa que, a medida que la tecnología de IA continúa avanzando, los ciberdelincuentes adoptarán cada vez más LLM para agilizar sus operaciones, actuando efectivamente como un "multiplicador de fuerza" para los métodos de ataque existentes en lugar de crear "armas cibernéticas" completamente nuevas.
HackRead