Anthropic usou Pokémon para avaliar seu mais novo modelo de IA

A Anthropic usou Pokémon para avaliar seu mais novo modelo de IA. Sim, é verdade.

Em uma postagem de blog publicada na segunda-feira, a Anthropic disse que testou seu modelo mais recente, Claude 3.7 Sonnet , no clássico Pokémon Red do Game Boy. A empresa equipou o modelo com memória básica, entrada de pixel de tela e chamadas de função para pressionar botões e navegar pela tela, permitindo que ele jogue Pokémon continuamente.

Um recurso exclusivo do Claude 3.7 Sonnet é sua capacidade de se envolver em "pensamento estendido". Assim como o o3-mini da OpenAI e o R1 da DeepSeek, o Claude 3.7 Sonnet pode "raciocinar" sobre problemas desafiadores aplicando mais computação — e levando mais tempo.

Isso foi útil em Pokémon Red, aparentemente.

Comparado à versão anterior de Claude, Claude 3.0 Sonnet, que não conseguiu sair da casa em Pallet Town, onde a história começa, Claude 3.7 Sonnet lutou com sucesso contra três líderes de ginásio Pokémon e ganhou seus emblemas.

Pokémon Antrópico Vermelho — **Créditos da imagem:** Anthropic

Agora, não está claro quanta computação foi necessária para que o Claude 3.7 Sonnet atingisse esses marcos — e quanto tempo cada um levou. A Anthropic disse apenas que o modelo realizou 35.000 ações para atingir o último líder de ginásio, Surge.

Certamente não demorará muito para que algum desenvolvedor empreendedor descubra.

Pokémon Red é mais um benchmark de brinquedo do que qualquer outra coisa. No entanto, há uma longa história de jogos sendo usados para propósitos de benchmarking de IA. Só nos últimos meses, uma série de novos aplicativos e plataformas surgiram para testar as habilidades de jogo dos modelos em títulos que vão de Street Fighter a Pictionary .

techcrunch

Anthropic usou Pokémon para avaliar seu mais novo modelo de IA

A Anthropic usou Pokémon para avaliar seu mais novo modelo de IA. Sim, é verdade.

Isso foi útil em Pokémon Red, aparentemente.

Certamente não demorará muito para que algum desenvolvedor empreendedor descubra.

techcrunch

Anthropic usou Pokémon para avaliar seu mais novo modelo de IA

Notícias semelhantes

Anthropic usou Pokémon para avaliar seu mais novo modelo de IA

Notícias semelhantes

Chegg processa Google por resumos de pesquisa de IA

A mais nova câmera da Sigma é tão minimalista que não tem slot para cartão de memória

Até Elon Musk às vezes esquece que X não é Twitter

Chegg processa Google por prejudicar tráfego com IA enquanto considera alternativas estratégicas

Balatro e outros reclassificados pela PEGI após apelação bem-sucedida, o que levou a uma revisão da regra