Os criadores do DeepSeek, a IA chinesa que derrubou o Vale do Silício, revelam seus segredos.

Uma pequena e desconhecida empresa chinesa, a DeepSeek, revolucionou a indústria de inteligência artificial generativa (IA) em janeiro deste ano . Seu modelo R1 teve um desempenho tão bom quanto ou melhor que a versão mais recente do ChatGPT, mas era gratuito e de código aberto. Ele havia sido desenvolvido na China, apesar do embargo à exportação de chips, e, como foi anunciado (e posteriormente questionado), com muito menos recursos do que a concorrência. A equipe da DeepSeek publicou um artigo hoje na revista Nature descrevendo os avanços que lhe permitiram virar o setor de cabeça para baixo . A chave está em seu compromisso com o chamado aprendizado por reforço.
A IA generativa, capaz de produzir texto, imagens, vídeos ou áudio a partir de uma série de instruções do usuário, baseia-se em aprendizado profundo . Trata-se de uma estratégia no campo da IA que ganhou relevância na última década e envolve a aplicação de algoritmos a enormes bancos de dados para extrair padrões dos quais se podem fazer previsões ou tomar decisões. Em outras palavras, a IA aprende com os dados.
Existem várias maneiras de desenvolver o aprendizado de máquina. O aprendizado por reforço, a técnica escolhida pela DeepSeek, é semelhante à forma como uma criança aprende a jogar videogame. Ao mover seu personagem pelo mundo virtual, ela aprende por tentativa e erro que algumas ações, como pegar moedas, lhe dão mais pontos, e outras, como ser atacado por inimigos, os subtraem.
Continuando com a metáfora, aprender com prompts (os comandos dados aos chatbots) envolve fazer com que a criança leia as instruções do jogo para aprender a dominá-lo. A aprendizagem supervisionada envolve mostrar à criança centenas de jogos jogados por um colega para que ela possa dominá-los por imitação.
A técnica mais utilizada até agora era esta última, o aprendizado supervisionado: processar milhões de textos com o algoritmo, fazer perguntas e selecionar manualmente as respostas corretas; retreiná -lo com essas diretrizes, corrigi-lo novamente e assim por diante. Após esse processo, a máquina estava pronta para reconhecer qual palavra, frase ou conjunto de frases tinha maior probabilidade de seguir o texto inserido pelo usuário.
Os cientistas da DeepSeek, sem os recursos das gigantes da tecnologia e com a limitação de comprar chips de última geração, decidiram inovar. Eles se concentraram no aprendizado por reforço, algo inédito até então. "Mostramos que as habilidades de raciocínio de modelos de linguagem de grande porte (LLMs) podem ser aprimoradas usando técnicas de aprendizado por reforço puro, eliminando a necessidade de introduzir chips de raciocínio com marcação humana", escrevem os autores no artigo.
“A equipe do DeepSeek conseguiu que os LLMs pudessem ser incentivados a aprender a raciocinar sem primeiro serem expostos a exemplos de sequências de raciocínio humano”, observa Daphne Ippolito, professora da Carnegie Mellon University (Pittsburgh, EUA) e especialista em modelos de linguagem natural.
Técnicas de misturaInicialmente, os cientistas da startup chinesa se concentraram em disciplinas onde era fácil definir metas ou recompensas numéricas. A máquina precisava atingir a maior pontuação possível, mas não lhe foi dito como. O resultado foi positivo. "O modelo alcança desempenho superior em tarefas verificáveis, como matemática, competições de programação e áreas STEM (ciência, tecnologia, engenharia e matemática), superando seus equivalentes treinados com aprendizado supervisionado convencional com demonstrações humanas", destaca Wenfeng Liang, cientista da equipe de IA da DeepSeek.
Apesar dos bons resultados, como as respostas não foram corrigidas, o modelo ocasionalmente gerava respostas estranhas, por exemplo, misturando inglês e chinês, os dois idiomas para os quais o sistema foi otimizado, no mesmo texto. Mas, no geral, funcionou bem.
“Nossa hipótese era que padrões de raciocínio definidos por humanos podem limitar a exploração do modelo, enquanto o treinamento de aprendizagem por reforço irrestrito pode incentivar melhor o surgimento de novas capacidades de raciocínio em LLMs”, afirmam Liang e seus colegas. Como a interferência humana pode ser limitada no modelo? “Prompts ou o treinamento do LLM com prompts humanos podem introduzir vieses, impedindo o modelo de desenvolver suas próprias formas de raciocínio”, observa Ippolito.
Além da combinação de idiomas, eles perceberam que as respostas podiam ser extremamente longas, com até 10.000 palavras, dificultando o acompanhamento do usuário. Por isso, os pesquisadores decidiram incorporar aprendizado supervisionado à combinação para encontrar um equilíbrio entre respostas corretas e compreensíveis. A combinação dessas duas abordagens, praticada no modelo R1, permitiu que alcançassem desempenho de ponta em matemática e programação.
Destilando modelos e economizando recursosA abordagem economizou recursos. "Fazer com que os LLMs demonstrem alguma capacidade de raciocínio na fase de pré-treinamento requer uma grande quantidade de recursos computacionais", escreve a equipe do DeepSeek. Liang e seus colegas demonstraram que essas capacidades podem ser aprimoradas fornecendo ao sistema alguns exemplos bem elaborados ou usando prompts minimalistas.
Outra iniciativa da empresa de tecnologia chinesa foi o que se conhece como destilação generativa de modelos de IA (o uso de modelos existentes), o que lhes permitiu evitar a necessidade de desenvolver um do zero. Isso lhes permitiu "obter maior acesso a uma IA poderosa a um custo de energia menor".
A equipe da DeepSeek acredita que sua demonstração do uso de aprendizado por reforço pode "desbloquear níveis mais elevados de capacidades em LLMs, abrindo caminho para modelos mais autônomos e adaptativos no futuro". Para Ippolito, o trabalho da empresa chinesa levanta outras questões. "A questão do que faz um modelo raciocinar bem é tanto uma questão filosófica quanto técnica. Que tipo de respostas um usuário busca ao fazer uma pergunta complexa a uma IA? Devemos nos importar com o fato de o raciocínio ser ininteligível se, ainda assim, ele chegar à resposta correta?"
EL PAÍS