30 segundos frente a 3: El marco de razonamiento d1 que reduce drásticamente los tiempos de respuesta de la IA

Únase a nuestros boletines diarios y semanales para recibir las últimas novedades y contenido exclusivo sobre la cobertura líder en IA del sector. Más información.
Investigadores de UCLA y Meta AI han presentado d1, un novedoso marco que utiliza aprendizaje por refuerzo (RL) para mejorar significativamente la capacidad de razonamiento de los modelos de lenguaje grande basados en difusión (dLLM). Si bien la mayor parte de la atención se ha centrado en modelos autorregresivos como GPT, los dLLM ofrecen ventajas únicas. Dotarlos de sólidas habilidades de razonamiento podría generar nuevas eficiencias y aplicaciones para las empresas.
Los dLLM representan un enfoque distinto para la generación de texto en comparación con los modelos autorregresivos estándar, ofreciendo potencialmente beneficios en términos de eficiencia y procesamiento de información, lo que podría ser valioso para diversas aplicaciones del mundo real.
La mayoría de los modelos de lenguaje grandes (LLM), como GPT-4o y Llama, son autorregresivos (AR). Generan texto secuencialmente y predicen el siguiente token basándose únicamente en los tokens anteriores.
Los modelos de lenguaje de difusión (dLLM) funcionan de forma diferente. Inicialmente, se utilizaron en modelos de generación de imágenes como DALL-E 2, Midjourney y Stable Diffusion . La idea principal consiste en añadir ruido gradualmente a una imagen hasta que se vuelva estática pura, y luego entrenar un modelo para revertir este proceso meticulosamente, partiendo del ruido y refinándolo progresivamente hasta obtener una imagen coherente.
Adaptar este concepto directamente al lenguaje resultó complicado, ya que el texto se compone de unidades discretas (tokens), a diferencia de los valores de píxeles continuos de las imágenes. Los investigadores solucionaron este problema desarrollando modelos lingüísticos de difusión enmascarada. En lugar de añadir ruido continuo, estos modelos funcionan enmascarando aleatoriamente los tokens en una secuencia y entrenándolos para predecir los tokens originales.
Esto conlleva un proceso de generación diferente al de los modelos autorregresivos. Los dLLM parten de una versión muy enmascarada del texto de entrada y la van desenmascarando o refinando gradualmente a lo largo de varios pasos hasta obtener la salida final coherente. Esta generación de grueso a fino permite a los dLLM considerar todo el contexto simultáneamente en cada paso, en lugar de centrarse únicamente en el siguiente token.
Esta diferencia ofrece a los dLLM ventajas potenciales, como un mejor procesamiento paralelo durante la generación, lo que podría resultar en una inferencia más rápida, especialmente para secuencias más largas. Ejemplos de este tipo de modelo incluyen el LLaDA de código abierto y el modelo Mercury de código cerrado de Inception Labs .
“Si bien los LLM autorregresivos pueden usar el razonamiento para mejorar la calidad, esta mejora conlleva un alto costo computacional, ya que los LLM de razonamiento de frontera incurren en una latencia de más de 30 segundos para generar una sola respuesta”, declaró a VentureBeat Aditya Grover, profesor adjunto de informática en UCLA y coautor del artículo sobre d1. “En cambio, una de las principales ventajas de los dLLM es su eficiencia computacional. Por ejemplo, los dLLM de frontera como Mercury pueden superar en rendimiento de usuario a los mejores LLM autorregresivos optimizados para velocidad de los laboratorios de frontera por diez veces”.
A pesar de sus ventajas, los modelos dLLM aún están por detrás de los modelos autorregresivos en cuanto a capacidad de razonamiento. El aprendizaje por refuerzo se ha vuelto crucial para enseñar a los LLM habilidades de razonamiento complejas. Al entrenar modelos basados en señales de recompensa (esencialmente, recompensándolos por pasos de razonamiento correctos o respuestas finales), el aprendizaje por refuerzo ha impulsado a los LLM hacia un mejor seguimiento de instrucciones y razonamiento.
Algoritmos como la Optimización Proximal de Políticas (PPO) y, más recientemente, la Optimización Relativa de Políticas de Grupo (GRPO) han sido fundamentales para la aplicación eficaz del aprendizaje por parte de los modelos autorregresivos. Estos métodos suelen basarse en el cálculo de la probabilidad (o probabilidad logarítmica) de la secuencia de texto generada bajo la política actual del modelo para guiar el proceso de aprendizaje.
Este cálculo es sencillo para los modelos autorregresivos gracias a su generación secuencial, token a token. Sin embargo, para los dLLM, con su proceso de generación iterativo y no secuencial, calcular directamente esta probabilidad de secuencia resulta difícil y costoso computacionalmente. Esto ha sido un obstáculo importante para la aplicación de técnicas de aprendizaje automático (RL) establecidas para mejorar el razonamiento de los dLLM.
El marco d1 aborda este desafío con un proceso de post-entrenamiento de dos etapas diseñado específicamente para dLLM enmascarados:
- Ajuste fino supervisado (SFT): En primer lugar, el dLLM preentrenado se ajusta con un conjunto de datos de ejemplos de razonamiento de alta calidad. El artículo utiliza el conjunto de datos "s1k", que contiene soluciones detalladas paso a paso a los problemas, incluyendo ejemplos de autocorrección y retroceso ante errores. Esta etapa busca inculcar patrones y comportamientos de razonamiento fundamentales en el modelo.
- Aprendizaje por refuerzo con diffu-GRPO: Tras la SFT, el modelo se somete a un entrenamiento de refuerzo (RL) mediante un novedoso algoritmo llamado diffu-GRPO. Este algoritmo adapta los principios de GRPO a los dLLM. Introduce un método eficiente para estimar probabilidades logarítmicas, evitando los costosos cálculos previos. También incorpora una técnica inteligente llamada "enmascaramiento de indicaciones aleatorias".
Durante el entrenamiento de RL, partes de la instrucción de entrada se enmascaran aleatoriamente en cada paso de actualización. Esto actúa como una forma de regularización y aumento de datos, permitiendo que el modelo aprenda con mayor eficacia de cada lote de datos.

Los investigadores aplicaron el marco d1 a LLaDA-8B-Instruct, un dLLM de código abierto. Lo perfeccionaron utilizando el conjunto de datos de razonamiento s1k para la etapa de SFT. Posteriormente, compararon varias versiones: el modelo LLaDA básico, LLaDA solo con SFT, LLaDA solo con diffu-GRPO y el d1-LLaDA completo (SFT seguido de diffu-GRPO).
Estos modelos se probaron en puntos de referencia de razonamiento matemático (GSM8K, MATH500) y tareas de razonamiento lógico (Sudoku 4×4, juego de números Countdown).
Los resultados mostraron que el d1-LLaDA completo logró consistentemente el mejor rendimiento en todas las tareas. Sorprendentemente, diffu-GRPO aplicado por sí solo también superó significativamente a SFT solo y al modelo base.

“Los dLLM con razonamiento mejorado, como d1, pueden impulsar diversos tipos de agentes para cargas de trabajo empresariales”, afirmó Grover. “Estos incluyen agentes de codificación para ingeniería de software instantánea, así como investigación profunda ultrarrápida para estrategia y consultoría en tiempo real… Con los agentes d1, los flujos de trabajo digitales cotidianos pueden automatizarse y acelerarse simultáneamente”.
Curiosamente, los investigadores observaron mejoras cualitativas, especialmente al generar respuestas más largas. Los modelos comenzaron a mostrar momentos de revelación, demostrando la autocorrección y el retroceso aprendidos de los ejemplos del conjunto de datos s1k. Esto sugiere que el modelo no solo memoriza respuestas, sino que aprende estrategias de resolución de problemas más sólidas.
Los modelos autorregresivos tienen la ventaja de ser pioneros en cuanto a su adopción. Sin embargo, Grover cree que los avances en los dLLM pueden cambiar la dinámica del mercado. Para una empresa, una forma de decidir entre ambos es si su aplicación se ve actualmente limitada por la latencia o las limitaciones de coste.
Según Grover, los dLLM de difusión mejorados por razonamiento, como el d1, pueden ayudar de una de dos maneras complementarias:
- Si una empresa actualmente no puede migrar a un modelo de razonamiento basado en un LLM autorregresivo, los dLLM mejorados con razonamiento ofrecen una alternativa lista para usar que permite a las empresas experimentar la calidad superior de los modelos de razonamiento a la misma velocidad que los dLLM autorregresivos sin razonamiento.
- Si la aplicación empresarial permite una mayor latencia y un presupuesto de costos mayor, d1 puede generar seguimientos de razonamiento más largos utilizando el mismo presupuesto y mejorar aún más la calidad.
“En otras palabras, los dLLM de estilo d1 pueden dominar en el sentido de Pareto a los LLM autorregresivos en el eje de calidad, velocidad y costo”, dijo Grover.
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.
Lea nuestra Política de Privacidad
Gracias por suscribirte. Consulta más boletines de VB aquí .
Se produjo un error.

venturebeat