Anthropic lança um novo modelo de IA que 'pensa' o tempo que você quiser

A Anthropic está lançando um novo modelo de IA de fronteira chamado Claude 3.7 Sonnet, que a empresa projetou para "pensar" sobre questões pelo tempo que os usuários quiserem.
A Anthropic chama o Claude 3.7 Sonnet de o primeiro "modelo de raciocínio de IA híbrida" do setor, porque é um modelo único que pode dar respostas em tempo real e respostas mais ponderadas e "pensadas" para perguntas. Os usuários podem escolher se querem ativar as habilidades de "raciocínio" do modelo de IA, que levam o Claude 3.7 Sonnet a "pensar" por um curto ou longo período de tempo.
O modelo representa o esforço mais amplo da Anthropic para simplificar a experiência do usuário em torno de seus produtos de IA. A maioria dos chatbots de IA hoje tem um seletor de modelos assustador que força os usuários a escolher entre várias opções diferentes que variam em custo e capacidade. Laboratórios como a Anthropic preferem que você não tenha que pensar sobre isso — o ideal é que um modelo faça todo o trabalho.
O Claude 3.7 Sonnet será lançado para todos os usuários e desenvolvedores na segunda-feira, disse a Anthropic, mas apenas usuários que pagam pelos planos premium do chatbot Claude da Anthropic terão acesso aos recursos de raciocínio do modelo. Usuários gratuitos do Claude receberão a versão padrão, sem raciocínio, do Claude 3.7 Sonnet, que a Anthropic afirma ter melhor desempenho do que seu modelo de IA de fronteira anterior, o Claude 3.5 Sonnet . (Sim, a empresa pulou um número.)
O Claude 3.7 Sonnet custa US$ 3 por milhão de tokens de entrada (o que significa que você pode inserir aproximadamente 750.000 palavras, mais palavras do que toda a série O Senhor dos Anéis, no Claude por US$ 3) e US$ 15 por milhão de tokens de saída. Isso o torna mais caro do que o o3-mini da OpenAI (US$ 1,10 por 1 milhão de tokens de entrada/US$ 4,40 por 1 milhão de tokens de saída) e o R1 da DeepSeek (US$ 0,55 por 1 milhão de tokens de entrada/US$ 2,19 por 1 milhão de tokens de saída), mas tenha em mente que o o3-mini e o R1 são modelos estritamente racionais — não híbridos como o Claude 3.7 Sonnet.

Claude 3.7 Sonnet é o primeiro modelo de IA da Anthropic que pode "raciocinar", uma técnica à qual muitos laboratórios de IA recorreram à medida que os métodos tradicionais de melhoria do desempenho da IA diminuíram .
Modelos de raciocínio como o3-mini, R1, Gemini 2.0 Flash Thinking do Google e Grok 3 (Think) da xAI usam mais tempo e poder de computação antes de responder perguntas. Os modelos dividem os problemas em etapas menores, o que tende a melhorar a precisão da resposta final. Modelos de raciocínio não estão pensando ou raciocinando como um humano faria, necessariamente, mas seu processo é modelado após a dedução.
Por fim, a Anthropic gostaria que Claude descobrisse por quanto tempo ele deveria "pensar" sobre as perguntas por conta própria, sem precisar que os usuários selecionem os controles com antecedência, disse a líder de produtos e pesquisas da Anthropic, Diane Penn, ao TechCrunch em uma entrevista.
“Assim como os humanos não têm dois cérebros separados para perguntas que podem ser respondidas imediatamente em comparação com aquelas que exigem reflexão”, escreveu Anthropic em uma postagem de blog compartilhada com o TechCrunch, “nós consideramos o raciocínio simplesmente como uma das capacidades que um modelo de fronteira deve ter, para ser integrado suavemente com outras capacidades, em vez de algo a ser fornecido em um modelo separado”.
A Anthropic diz que está permitindo que o Claude 3.7 Sonnet mostre sua fase de planejamento interno por meio de um "bloco de rascunho visível". Lee disse ao TechCrunch que os usuários verão o processo de pensamento completo de Claude na maioria dos prompts, mas que algumas partes podem ser redigidas por questões de confiança e segurança.

A Anthropic diz que otimizou os modos de pensamento de Claude para tarefas do mundo real, como problemas difíceis de codificação ou tarefas de agente. Os desenvolvedores que usam a API da Anthropic podem controlar o “orçamento” para pensar, negociando velocidade e custo pela qualidade da resposta.
Em um teste para medir tarefas de codificação de palavras reais, SWE-Bench, Claude 3.7 Sonnet teve 62,3% de precisão, em comparação com o modelo o3-mini da OpenAI, que obteve 49,3%. Em outro teste para medir a capacidade de um modelo de IA de interagir com usuários simulados e APIs externas em um ambiente de varejo, TAU-Bench, Claude 3.7 Sonnet obteve 81,2%, em comparação com o modelo o1 da OpenAI, que obteve 73,5%.
A Anthropic também diz que o Claude 3.7 Sonnet se recusará a responder perguntas com menos frequência do que seus modelos anteriores, alegando que o modelo é capaz de fazer distinções mais sutis entre prompts nocivos e benignos. A Anthropic diz que reduziu recusas desnecessárias em 45% em comparação com o Claude 3.5 Sonnet. Isso ocorre em um momento em que alguns outros laboratórios de IA estão repensando sua abordagem para restringir as respostas de seus chatbots de IA .
Além do Claude 3.7 Sonnet, a Anthropic também está lançando uma ferramenta de codificação agentic chamada Claude Code. Lançada como uma prévia de pesquisa, a ferramenta permite que os desenvolvedores executem tarefas específicas por meio do Claude diretamente de seus terminais.
Em uma demonstração, funcionários da Anthropic mostraram como Claude Code pode analisar um projeto de codificação com um comando simples como, “ Explique esta estrutura de projeto.” Usando inglês simples na linha de comando, um desenvolvedor pode modificar uma base de código. Claude Code descreverá suas edições conforme faz alterações e até mesmo testará um projeto para erros ou o enviará para um repositório GitHub.
O Claude Code estará inicialmente disponível para um número limitado de usuários por ordem de chegada, disse um porta-voz da Anthropic ao TechCrunch.
A Anthropic está lançando o Claude 3.7 Sonnet em um momento em que os laboratórios de IA estão enviando novos modelos de IA em um ritmo alucinante. A Anthropic historicamente adotou uma abordagem mais metódica e focada na segurança. Mas, desta vez, a empresa está procurando liderar o grupo.
Por quanto tempo é a questão. A OpenAI pode estar perto de lançar um modelo de IA híbrida próprio ; o CEO da empresa, Sam Altman, disse que chegará em “meses”.
techcrunch