Anthropic usou Pokémon para avaliar seu mais novo modelo de IA

A Anthropic usou Pokémon para avaliar seu mais novo modelo de IA. Sim, é verdade.
Em uma postagem de blog publicada na segunda-feira, a Anthropic disse que testou seu modelo mais recente, Claude 3.7 Sonnet , no clássico Pokémon Red do Game Boy. A empresa equipou o modelo com memória básica, entrada de pixel de tela e chamadas de função para pressionar botões e navegar pela tela, permitindo que ele jogue Pokémon continuamente.
Um recurso exclusivo do Claude 3.7 Sonnet é sua capacidade de se envolver em "pensamento estendido". Assim como o o3-mini da OpenAI e o R1 da DeepSeek, o Claude 3.7 Sonnet pode "raciocinar" sobre problemas desafiadores aplicando mais computação — e levando mais tempo.
Isso foi útil em Pokémon Red, aparentemente.
Comparado à versão anterior de Claude, Claude 3.0 Sonnet, que não conseguiu sair da casa em Pallet Town, onde a história começa, Claude 3.7 Sonnet lutou com sucesso contra três líderes de ginásio Pokémon e ganhou seus emblemas.

Agora, não está claro quanta computação foi necessária para que o Claude 3.7 Sonnet atingisse esses marcos — e quanto tempo cada um levou. A Anthropic disse apenas que o modelo realizou 35.000 ações para atingir o último líder de ginásio, Surge.
Certamente não demorará muito para que algum desenvolvedor empreendedor descubra.
Pokémon Red é mais um benchmark de brinquedo do que qualquer outra coisa. No entanto, há uma longa história de jogos sendo usados para propósitos de benchmarking de IA. Só nos últimos meses, uma série de novos aplicativos e plataformas surgiram para testar as habilidades de jogo dos modelos em títulos que vão de Street Fighter a Pictionary .
techcrunch