Google Gemini: tudo o que você precisa saber sobre os modelos de IA generativa

O Google está tentando fazer ondas com o Gemini, seu principal conjunto de modelos, aplicativos e serviços de IA generativa. Mas o que é Gemini? Como você pode usá-lo? E como ele se compara a outras ferramentas de IA generativa, como o ChatGPT da OpenAI, o Llama da Meta e o Copilot da Microsoft?

Para facilitar o acompanhamento dos últimos desenvolvimentos do Gemini, elaboramos este guia prático, que manteremos atualizado conforme novos modelos, recursos e notícias sobre os planos do Google para o Gemini forem lançados.

Gemini é a família de modelos de IA generativa de última geração prometida pelo Google. Desenvolvido pelos laboratórios de pesquisa de IA do Google, DeepMind e Google Research, ele vem em quatro sabores:

Gemini Ultra , um modelo muito grande.
Gemini Pro , um modelo grande – embora menor que o Ultra. A versão mais recente, Gemini 2.0 Pro Experimental, é o carro-chefe do Google.
Gemini Flash , uma versão mais rápida e “destilada” do Pro. Ele também vem em uma versão um pouco menor e mais rápida, chamada Gemini Flash-Lite, e uma versão com capacidades de raciocínio, chamada Gemini Flash Thinking Experimental.
Gemini Nano , dois modelos pequenos: Nano-1 e o ligeiramente mais capaz Nano-2 , que foi projetado para funcionar offline

Todos os modelos Gemini foram treinados para serem nativamente multimodais — ou seja, capazes de trabalhar e analisar mais do que apenas texto. O Google diz que eles foram pré-treinados e ajustados em uma variedade de áudio, imagens e vídeos públicos, proprietários e licenciados; um conjunto de bases de código; e texto em diferentes idiomas.

Isso diferencia o Gemini de modelos como o próprio LaMDA do Google , que foi treinado exclusivamente em dados de texto. O LaMDA não consegue entender ou gerar nada além de texto (por exemplo, ensaios, e-mails e assim por diante), mas esse não é necessariamente o caso dos modelos Gemini.

Notaremos aqui que a ética e a legalidade dos modelos de treinamento em dados públicos, em alguns casos sem o conhecimento ou consentimento dos proprietários dos dados, são obscuras. O Google tem uma política de indenização de IA para proteger certos clientes do Google Cloud de processos judiciais caso os enfrentem, mas essa política contém exceções. Prossiga com cautela — principalmente se você pretende usar o Gemini comercialmente.

O Gemini é separado e distinto dos aplicativos Gemini na web e em dispositivos móveis ( antigo Bard ).

Os aplicativos Gemini são clientes que se conectam a vários modelos Gemini e colocam uma interface tipo chatbot por cima. Pense neles como front ends para a IA generativa do Google, análogos ao ChatGPT e à família de aplicativos Claude da Anthropic.

Aplicativo móvel Google Gemini — **Créditos da imagem:** Google

Gemini na web mora aqui . No Android, o aplicativo Gemini substitui o aplicativo Google Assistant existente. E no iOS, os aplicativos Google e Google Search servem como clientes Gemini dessa plataforma.

No Android, também se tornou possível recentemente trazer a sobreposição Gemini sobre qualquer aplicativo para fazer perguntas sobre o que está na tela (por exemplo, um vídeo do YouTube). Basta pressionar e segurar o botão de energia de um smartphone compatível ou dizer "Hey Google"; você verá a sobreposição aparecer.

Os aplicativos Gemini podem aceitar imagens, bem como comandos de voz e texto — incluindo arquivos como PDFs e vídeos em breve, carregados ou importados do Google Drive — e gerar imagens. Como seria de se esperar, as conversas com os aplicativos Gemini no celular são transferidas para o Gemini na web e vice-versa se você estiver conectado à mesma Conta do Google em ambos os lugares.

Os aplicativos Gemini não são o único meio de recrutar a assistência dos modelos Gemini com tarefas. Lentamente, mas seguramente, os recursos imbuídos do Gemini estão abrindo caminho para aplicativos e serviços básicos do Google, como Gmail e Google Docs.

Para aproveitar a maioria deles, você precisará do Plano Premium de IA do Google One. Tecnicamente parte do Google One , o Plano Premium de IA custa US$ 20 e fornece acesso ao Gemini em aplicativos do Google Workspace, como Docs, Maps, Slides, Sheets, Drive e Meet. Ele também habilita o que o Google chama de Gemini Advanced, que traz os modelos Gemini mais sofisticados da empresa para os aplicativos Gemini.

Usuários do Gemini Advanced também ganham extras aqui e ali, como acesso prioritário a novos recursos, a capacidade de executar e editar código Python diretamente no Gemini e uma “janela de contexto” maior. O Gemini Advanced consegue lembrar o conteúdo de — e raciocinar sobre — aproximadamente 750.000 palavras em uma conversa (ou 1.500 páginas de documentos). Isso é comparado às 24.000 palavras (ou 48 páginas) que o aplicativo Gemini vanilla consegue manipular.

Captura de tela de um comercial do Google Gemini — **Créditos da imagem:** Google

O Gemini Advanced também dá aos usuários acesso ao recurso Deep Research do Google, que usa “raciocínio avançado” e “capacidades de contexto longo” para gerar resumos de pesquisa. Depois que você solicita ao chatbot, ele cria um plano de pesquisa de várias etapas, pede que você o aprove e, em seguida, o Gemini leva alguns minutos para pesquisar na web e gerar um relatório extenso com base na sua consulta. Ele foi criado para responder a perguntas mais complexas, como: “Você pode me ajudar a redesenhar minha cozinha?”

O Google também oferece aos usuários do Gemini Advanced um recurso de memória , que permite que o chatbot use suas conversas antigas com o Gemini como contexto para sua conversa atual. Os usuários do Gemini Advanced também têm maior uso do NotebookLM, o produto da empresa que transforma PDFs em podcasts gerados por IA.

Usuários avançados do Gemini também têm acesso à versão experimental do Gemini 2.0 Pro do Google, o modelo principal da empresa, otimizado para problemas difíceis de codificação e matemática.

Outra exclusividade do Gemini Advanced é o planejamento de viagens no Google Search, que cria itinerários de viagem personalizados a partir de prompts. Levando em conta coisas como horários de voos (de e-mails na caixa de entrada do Gmail de um usuário), preferências de refeições e informações sobre atrações locais (de dados do Google Search e do Maps), bem como as distâncias entre essas atrações, o Gemini gerará um itinerário que será atualizado automaticamente para refletir quaisquer alterações.

O Gemini nos serviços do Google também está disponível para clientes corporativos por meio de dois planos, o Gemini Business (um complemento para o Google Workspace) e o Gemini Enterprise. O Gemini Business custa apenas US$ 6 por usuário por mês, enquanto o Gemini Enterprise — que adiciona anotações de reuniões e legendas traduzidas, bem como classificação e etiquetagem de documentos — é geralmente mais caro, mas tem o preço baseado nas necessidades da empresa. (Ambos os planos exigem um compromisso anual.)

No Gmail, o Gemini fica em um painel lateral que pode escrever e-mails e resumir tópicos de mensagens. Você encontrará o mesmo painel no Docs, onde ele ajuda você a escrever e refinar seu conteúdo e a fazer brainstorming de novas ideias. O Gemini no Slides gera slides e imagens personalizadas. E o Gemini no Planilhas Google rastreia e organiza dados, criando tabelas e fórmulas.

O chatbot de IA do Google chegou recentemente ao Maps , onde o Gemini pode resumir avaliações sobre cafeterias ou oferecer recomendações sobre como passar um dia visitando uma cidade estrangeira.

O alcance do Gemini se estende ao Drive também, onde ele pode resumir arquivos e pastas e dar fatos rápidos sobre um projeto. No Meet, enquanto isso, o Gemini traduz legendas para idiomas adicionais.

Gêmeos no Gmail — **Créditos da imagem:** Google

Gemini chegou recentemente ao navegador Chrome do Google na forma de uma ferramenta de escrita de IA. Você pode usá-lo para escrever algo completamente novo ou reescrever um texto existente; o Google diz que ele considerará a página da web em que você está para fazer recomendações.

Em outros lugares, você encontrará dicas do Gemini nos produtos de banco de dados do Google, nas ferramentas de segurança em nuvem e nas plataformas de desenvolvimento de aplicativos (incluindo Firebase e Project IDX ), bem como em aplicativos como o Google Fotos (onde o Gemini lida com consultas de pesquisa em linguagem natural), o YouTube (onde ele ajuda a gerar ideias de vídeos) e o assistente de anotações NotebookLM .

O Code Assist (anteriormente Duet AI for Developers ), o conjunto de ferramentas de assistência com tecnologia de IA do Google para conclusão e geração de código, está transferindo o trabalho computacional pesado para o Gemini. Assim como os produtos de segurança do Google apoiados pelo Gemini , como o Gemini in Threat Intelligence, que pode analisar grandes porções de código potencialmente malicioso e permitir que os usuários realizem pesquisas em linguagem natural para ameaças contínuas ou indicadores de comprometimento.

Anunciado no Google I/O 2024, os usuários do Gemini Advanced podem criar Gems , chatbots personalizados com tecnologia Gemini. As Gems podem ser geradas a partir de descrições em linguagem natural — por exemplo, "Você é meu treinador de corrida. Dê-me um plano de corrida diário" — e compartilhadas com outras pessoas ou mantidas em sigilo.

As joias estão disponíveis para desktop e dispositivos móveis em 150 países e na maioria dos idiomas. Eventualmente, elas poderão aproveitar um conjunto expandido de integrações com serviços do Google, incluindo Google Calendar, Tasks, Keep e YouTube Music, para concluir tarefas personalizadas.

Gemas de Gêmeos — **Créditos da imagem:** Google

Falando em integrações, os aplicativos Gemini na web e no celular podem acessar os serviços do Google por meio do que o Google chama de "extensões Gemini". O Gemini hoje se integra ao Google Drive, Gmail e YouTube para responder a consultas como "Você poderia resumir meus últimos três e-mails?" No final deste ano, o Gemini poderá realizar ações adicionais com o Google Agenda, Keep, Tarefas, YouTube Music e Utilitários, os aplicativos exclusivos do Android que controlam recursos do dispositivo, como temporizadores e alarmes, controles de mídia, lanterna, volume, Wi-Fi, Bluetooth e assim por diante.

Uma experiência chamada Gemini Live permite que os usuários tenham chats de voz “em profundidade” com Gemini. Ela está disponível nos aplicativos Gemini no celular e no Pixel Buds Pro 2 , onde pode ser acessada mesmo quando seu telefone estiver bloqueado.

Com o Gemini Live habilitado, você pode interromper o Gemini enquanto o chatbot está falando (em uma das várias vozes novas) para fazer uma pergunta esclarecedora, e ele se adaptará aos seus padrões de fala em tempo real. Em algum momento, o Gemini deve ganhar compreensão visual, permitindo que ele veja e responda ao seu entorno, seja por meio de fotos ou vídeos capturados pelas câmeras dos seus smartphones.

Gêmeos ao vivo — **Créditos da imagem:** Google

O Live também foi projetado para servir como um tipo de coach virtual, ajudando você a ensaiar para eventos, fazer brainstorming de ideias e assim por diante. Por exemplo, o Live pode sugerir quais habilidades destacar em uma próxima entrevista de emprego ou estágio, e pode dar conselhos sobre como falar em público.

Você pode ler nossa análise do Gemini Live aqui . Alerta de spoiler: achamos que o recurso tem um longo caminho a percorrer antes de ser super útil — mas ainda é cedo, é verdade.

Os usuários do Gemini podem gerar artes e imagens usando o modelo Imagen 3 integrado do Google.

O Google diz que o Imagen 3 pode entender com mais precisão os prompts de texto que ele traduz em imagens em comparação com seu antecessor, o Imagen 2 , e é mais “criativo e detalhado” em suas gerações. Além disso, o modelo produz menos artefatos e erros visuais (pelo menos de acordo com o Google), e é o melhor modelo Imagen até agora para renderizar texto.

Imagem do Google 3 — Uma amostra do Imagen 3. **Créditos da imagem:** Google

Em fevereiro de 2024, o Google foi forçado a pausar a capacidade do Gemini de gerar imagens de pessoas após usuários reclamarem de imprecisões históricas . Mas em agosto, a empresa reintroduziu a geração de pessoas para certos usuários, especificamente usuários de língua inglesa inscritos em um dos planos Gemini pagos do Google (por exemplo, Gemini Advanced ) como parte de um programa piloto.

Em junho, o Google lançou uma experiência Gemini voltada para adolescentes, permitindo que os alunos se inscrevessem por meio de suas contas escolares do Google Workspace for Education.

O Gemini focado em adolescentes tem "políticas e salvaguardas adicionais", incluindo um processo de integração personalizado e um "guia de alfabetização em IA" para (como o Google diz) "ajudar os adolescentes a usar a IA de forma responsável". De resto, é quase idêntico à experiência padrão do Gemini, até o recurso de "verificação dupla" que verifica na web se as respostas do Gemini são precisas.

Um número crescente de dispositivos feitos pelo Google utilizam o Gemini para funcionalidade aprimorada, desde o Google TV Streamer até o Pixel 9 e 9 Pro e o mais novo Nest Learning Thermostat .

No Google TV Streamer, o Gemini usa suas preferências para selecionar sugestões de conteúdo em suas assinaturas e resumir análises e até temporadas inteiras de TV.

Configuração do Google TV Streamer — **Créditos da imagem:** Google

No mais recente termostato Nest (assim como nos alto-falantes, câmeras e telas inteligentes Nest), o Gemini em breve reforçará os recursos de conversação e análise do Google Assistente.

Os assinantes do plano Nest Aware do Google no final deste ano terão uma prévia das novas experiências com tecnologia Gemini, como descrições de IA para filmagens de câmeras Nest, pesquisa de vídeo em linguagem natural e automações recomendadas. As câmeras Nest entenderão o que está acontecendo em feeds de vídeo em tempo real (por exemplo, quando um cachorro está cavando no jardim), enquanto o aplicativo complementar Google Home exibirá vídeos e criará automações de dispositivos com base em uma descrição (por exemplo, "As crianças deixaram as bicicletas na garagem?", "Deixe meu termostato Nest ligar o aquecimento quando eu chegar do trabalho toda terça-feira").

Google Gemini em casa inteligente — Gemini em breve poderá resumir as filmagens de câmeras de segurança de dispositivos Nest. **Créditos da imagem:** Google

Também no final deste ano, o Google Assistant receberá algumas atualizações em dispositivos da marca Nest e outros dispositivos domésticos inteligentes para fazer com que as conversas pareçam mais naturais. Vozes aprimoradas estão a caminho, além da capacidade de fazer perguntas de acompanhamento e “[ir e voltar] mais facilmente”.

Como os modelos Gemini são multimodais, eles podem executar uma série de tarefas multimodais, desde transcrever fala até legendar imagens e vídeos em tempo real. Muitas dessas capacidades atingiram o estágio de produto (como aludido na seção anterior), e o Google está prometendo muito mais em um futuro não muito distante.

Claro, é um pouco difícil acreditar na palavra da empresa. O Google entregou muito pouco no lançamento original do Bard. Mais recentemente, ele irritou as pessoas com um vídeo que pretendia mostrar as capacidades do Gemini que era mais ou menos aspiracional — não ao vivo.

Além disso, o Google não oferece nenhuma correção para alguns dos problemas subjacentes com a tecnologia de IA generativa hoje, como seus vieses codificados e tendência a inventar coisas (por exemplo, alucinar ). Nem seus rivais, mas é algo para se ter em mente ao considerar usar ou pagar pelo Gemini.

Supondo, para os propósitos deste artigo, que o Google esteja sendo honesto com suas alegações recentes, aqui está o que os diferentes níveis do Gemini podem fazer agora e o que poderão fazer quando atingirem seu potencial máximo:

O Google diz que o Gemini Ultra — graças à sua multimodalidade — pode ser usado para ajudar com coisas como dever de casa de física, resolver problemas passo a passo em uma planilha e apontar possíveis erros em respostas já preenchidas.

No entanto, não vimos muito do Gemini Ultra nos últimos meses. O modelo não aparece no aplicativo Gemini e não está listado na página de preços da API do Google Gemini. No entanto, isso não significa que o Google não trará o Gemini Ultra de volta à vanguarda de suas ofertas no futuro.

O Ultra também pode ser aplicado a tarefas como identificar artigos científicos relevantes para um problema, diz o Google. O modelo pode extrair informações de vários artigos, por exemplo, e atualizar um gráfico a partir de um, gerando as fórmulas necessárias para recriar o gráfico com dados mais oportunos.

O Gemini Ultra suporta tecnicamente a geração de imagens. Mas essa capacidade ainda não chegou à versão produtizada do modelo — talvez porque o mecanismo seja mais complexo do que a forma como aplicativos como o ChatGPT geram imagens. Em vez de alimentar prompts para um gerador de imagens (como o DALL-E 3 , no caso do ChatGPT), o Gemini produz imagens “nativamente”, sem uma etapa intermediária.

O Ultra está disponível como uma API por meio do Vertex AI, a plataforma de desenvolvimento de IA totalmente gerenciada do Google, e do AI Studio, a ferramenta baseada na web do Google para desenvolvedores de aplicativos e plataformas.

O Google diz que seu modelo Pro mais recente, Gemini 2.0 Pro , é seu melhor modelo até agora para desempenho de codificação e prompts complexos. Ele está disponível atualmente como uma versão experimental, o que significa que pode ter problemas inesperados.

O Gemini 2.0 Pro supera seu antecessor, Gemini 1.5 Pro , em benchmarks que medem codificação, raciocínio, matemática e precisão factual. O modelo pode absorver até 1,4 milhão de palavras, duas horas de vídeo ou 22 horas de áudio e pode raciocinar ou responder perguntas sobre esses dados ( mais ou menos ).

No entanto, o Gemini 1.5 Pro ainda oferece suporte ao recurso Deep Research do Google.

O Gemini 2.0 Pro funciona junto com um recurso chamado execução de código, lançado em junho junto com o Gemini 1.5 Pro , que visa reduzir bugs no código que o modelo gera refinando iterativamente esse código em várias etapas. (A execução de código também oferece suporte ao Gemini Flash.)

Dentro do Vertex AI, os desenvolvedores podem personalizar o Gemini Pro para contextos e casos de uso específicos por meio de um processo de ajuste fino ou “grounding”. Por exemplo, o Pro (junto com outros modelos Gemini) pode ser instruído a usar dados de provedores terceirizados como Moody's, Thomson Reuters, ZoomInfo e MSCI, ou obter informações de conjuntos de dados corporativos ou do Google Search em vez de seu banco de conhecimento mais amplo. O Gemini Pro também pode ser conectado a APIs externas de terceiros para executar ações específicas, como automatizar um fluxo de trabalho de back-office.

O AI Studio oferece modelos para criar prompts de bate-papo estruturados com o Pro. Os desenvolvedores podem controlar o alcance criativo do modelo e fornecer exemplos para dar instruções de tom e estilo — e também ajustar as configurações de segurança do Pro.

O Vertex AI Agent Builder permite que as pessoas criem “agentes” com tecnologia Gemini dentro do Vertex AI. Por exemplo, uma empresa pode criar um agente que analisa campanhas de marketing anteriores para entender um estilo de marca e, então, aplicar esse conhecimento para ajudar a gerar novas ideias consistentes com o estilo.

O Google chama Gemini 2.0 Flash de seu modelo de IA para a era agêntica. O modelo pode gerar imagens e áudio nativamente, além de texto, e pode usar ferramentas como o Google Search e interagir com APIs externas.

O modelo 2.0 Flash é mais rápido do que a geração anterior de modelos da Gemini e até supera alguns dos modelos maiores Gemini 1.5 em benchmarks que medem codificação e análise de imagem. Você pode experimentar o Gemini 2.0 Flash no aplicativo móvel ou web Gemini e por meio das plataformas de desenvolvedores de IA do Google.

Em dezembro, o Google lançou uma versão "pensante" do Gemini 2.0 Flash que é capaz de "raciocinar", na qual o modelo de IA leva alguns segundos para analisar um problema antes de dar uma resposta.

Em fevereiro, o Google disponibilizou o Gemini 2.0 Flash thinking no aplicativo Gemini. No mesmo mês, o Google também lançou uma versão menor chamada Gemini 2.0 Flash-Lite. A empresa diz que este modelo supera seu modelo Gemini 1.5 Flash, mas roda no mesmo preço e velocidade.

Um desdobramento do Gemini Pro que é pequeno e eficiente, criado para cargas de trabalho de IA generativa estreitas e de alta frequência, o Flash é multimodal como o Gemini Pro, o que significa que ele pode analisar áudio, vídeo, imagens e texto (mas só pode gerar texto). O Google diz que o Flash é particularmente adequado para tarefas como resumo e aplicativos de bate-papo, além de legendagem de imagens e vídeos e extração de dados de documentos e tabelas longos.

Os desenvolvedores que usam Flash e Pro podem, opcionalmente, aproveitar o cache de contexto, que permite que eles armazenem grandes quantidades de informações (por exemplo, uma base de conhecimento ou banco de dados de artigos de pesquisa) em um cache que os modelos Gemini podem acessar de forma rápida e relativamente barata. O cache de contexto é uma taxa adicional sobre outras taxas de uso do modelo Gemini, no entanto.

Gemini Nano é uma versão muito menor dos modelos Gemini Pro e Ultra, e é eficiente o suficiente para rodar diretamente em (alguns) dispositivos em vez de enviar a tarefa para um servidor em algum lugar. Até agora, o Nano alimenta alguns recursos no Pixel 8 Pro, Pixel 8 , Pixel 9 Pro, Pixel 9 e Samsung Galaxy S24 , incluindo Resumir no Gravador e Resposta Inteligente no Gboard.

O aplicativo Recorder, que permite que os usuários apertem um botão para gravar e transcrever áudio, inclui um resumo com tecnologia Gemini de conversas gravadas, entrevistas, apresentações e outros trechos de áudio. Os usuários recebem resumos mesmo se não tiverem sinal ou conexão Wi-Fi — e em um aceno à privacidade, nenhum dado sai do telefone em processamento.

O Nano também está no Gboard, o substituto do teclado do Google. Lá, ele alimenta um recurso chamado Smart Reply, que ajuda a sugerir a próxima coisa que você vai querer dizer ao ter uma conversa em um aplicativo de mensagens como o WhatsApp.

No aplicativo Google Messages em dispositivos compatíveis, o Nano aciona o Magic Compose, que pode criar mensagens em estilos como "animado", "formal" e "lírico".

O Google diz que uma versão futura do Android usará o Nano para alertar os usuários sobre possíveis golpes durante chamadas. O novo aplicativo de clima em telefones Pixel usa o Gemini Nano para gerar relatórios meteorológicos personalizados. E o TalkBack, serviço de acessibilidade do Google, emprega o Nano para criar descrições auditivas de objetos para usuários com baixa visão e cegos.

Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash e 2.0 Flash-Lite estão disponíveis por meio da API Gemini do Google para criar aplicativos e serviços — todos com opções gratuitas. Mas as opções gratuitas impõem limites de uso e deixam de fora certos recursos, como cache de contexto e batching .

Os modelos Gemini são, de outra forma, pague conforme o uso. Aqui está o preço base — sem incluir complementos como cache de contexto — em setembro de 2024:

Gemini 1.5 Pro: US$ 1,25 por 1 milhão de tokens de entrada (para prompts de até 128 mil tokens) ou US$ 2,50 por 1 milhão de tokens de entrada (para prompts maiores que 128 mil tokens); US$ 5 por 1 milhão de tokens de saída (para prompts de até 128 mil tokens) ou US$ 10 por 1 milhão de tokens de saída (para prompts maiores que 128 mil tokens)
Gemini 1.5 Flash: 7,5 centavos por 1 milhão de tokens de entrada (para prompts de até 128 mil tokens), 15 centavos por 1 milhão de tokens de entrada (para prompts maiores que 128 mil tokens), 30 centavos por 1 milhão de tokens de saída (para prompts de até 128 mil tokens), 60 centavos por 1 milhão de tokens de saída (para prompts maiores que 128 mil tokens)
Gemini 2.0 Flash: 10 centavos por 1 milhão de tokens de entrada, 40 centavos por 1 milhão de tokens de saída. Para áudio especificamente, custa 70 centros por 1 milhão de tokens de entrada, e também 40 centros por 1 milhão de tokens de saída.
Gemini 2.0 Flash-Lite: 7,5 centavos por 1 milhão de tokens de entrada, 30 centavos por 1 milhão de tokens de saída.

Tokens são bits subdivididos de dados brutos, como as sílabas “fan,” “tas,” e “tic” na palavra “fantastic”; 1 milhão de tokens é equivalente a cerca de 700.000 palavras. Entrada refere-se a tokens alimentados no modelo, enquanto saída refere-se a tokens que o modelo gera.

O preço do 2.0 Pro ainda não foi anunciado, e o Nano ainda está em acesso antecipado .

O Projeto Astra é o esforço do Google DeepMind para criar aplicativos e “agentes” com tecnologia de IA para compreensão multimodal em tempo real. Em demonstrações, o Google mostrou como o modelo de IA pode processar simultaneamente vídeo e áudio ao vivo. O Google lançou uma versão de aplicativo do Projeto Astra para um pequeno número de testadores confiáveis em dezembro, mas não tem planos para um lançamento mais amplo agora.

A empresa gostaria de colocar o Project Astra em um par de óculos inteligentes . O Google também deu um protótipo de alguns óculos com o Project Astra e recursos de realidade aumentada para alguns testadores confiáveis em dezembro. No entanto, não há um produto claro neste momento, e não está claro quando o Google realmente lançaria algo assim.

O Projeto Astra ainda é apenas isso, um projeto, e não um produto. No entanto, as demonstrações do Astra revelam o que o Google gostaria que seus produtos de IA fizessem no futuro.

Pode ser.

A Apple disse que está em negociações para colocar o Gemini e outros modelos de terceiros para uso em uma série de recursos em seu pacote Apple Intelligence . Após uma apresentação principal na WWDC 2024, o vice-presidente sênior da Apple, Craig Federighi, confirmou os planos de trabalhar com modelos , incluindo o Gemini, mas não divulgou nenhum detalhe adicional.

Esta postagem foi publicada originalmente em 16 de fevereiro de 2024 e é atualizada regularmente.

techcrunch

Google Gemini: tudo o que você precisa saber sobre os modelos de IA generativa

Gemini Ultra , um modelo muito grande.
Gemini Pro , um modelo grande – embora menor que o Ultra. A versão mais recente, Gemini 2.0 Pro Experimental, é o carro-chefe do Google.
Gemini Flash , uma versão mais rápida e “destilada” do Pro. Ele também vem em uma versão um pouco menor e mais rápida, chamada Gemini Flash-Lite, e uma versão com capacidades de raciocínio, chamada Gemini Flash Thinking Experimental.
Gemini Nano , dois modelos pequenos: Nano-1 e o ligeiramente mais capaz Nano-2 , que foi projetado para funcionar offline

O Gemini é separado e distinto dos aplicativos Gemini na web e em dispositivos móveis ( antigo Bard ).

O chatbot de IA do Google chegou recentemente ao Maps , onde o Gemini pode resumir avaliações sobre cafeterias ou oferecer recomendações sobre como passar um dia visitando uma cidade estrangeira.

Você pode ler nossa análise do Gemini Live aqui . Alerta de spoiler: achamos que o recurso tem um longo caminho a percorrer antes de ser super útil — mas ainda é cedo, é verdade.

Os usuários do Gemini podem gerar artes e imagens usando o modelo Imagen 3 integrado do Google.

Em junho, o Google lançou uma experiência Gemini voltada para adolescentes, permitindo que os alunos se inscrevessem por meio de suas contas escolares do Google Workspace for Education.

Um número crescente de dispositivos feitos pelo Google utilizam o Gemini para funcionalidade aprimorada, desde o Google TV Streamer até o Pixel 9 e 9 Pro e o mais novo Nest Learning Thermostat .

No Google TV Streamer, o Gemini usa suas preferências para selecionar sugestões de conteúdo em suas assinaturas e resumir análises e até temporadas inteiras de TV.

No mais recente termostato Nest (assim como nos alto-falantes, câmeras e telas inteligentes Nest), o Gemini em breve reforçará os recursos de conversação e análise do Google Assistente.

No entanto, o Gemini 1.5 Pro ainda oferece suporte ao recurso Deep Research do Google.

Em dezembro, o Google lançou uma versão "pensante" do Gemini 2.0 Flash que é capaz de "raciocinar", na qual o modelo de IA leva alguns segundos para analisar um problema antes de dar uma resposta.

No aplicativo Google Messages em dispositivos compatíveis, o Nano aciona o Magic Compose, que pode criar mensagens em estilos como "animado", "formal" e "lírico".

Os modelos Gemini são, de outra forma, pague conforme o uso. Aqui está o preço base — sem incluir complementos como cache de contexto — em setembro de 2024:

Gemini 1.5 Pro: US$ 1,25 por 1 milhão de tokens de entrada (para prompts de até 128 mil tokens) ou US$ 2,50 por 1 milhão de tokens de entrada (para prompts maiores que 128 mil tokens); US$ 5 por 1 milhão de tokens de saída (para prompts de até 128 mil tokens) ou US$ 10 por 1 milhão de tokens de saída (para prompts maiores que 128 mil tokens)
Gemini 1.5 Flash: 7,5 centavos por 1 milhão de tokens de entrada (para prompts de até 128 mil tokens), 15 centavos por 1 milhão de tokens de entrada (para prompts maiores que 128 mil tokens), 30 centavos por 1 milhão de tokens de saída (para prompts de até 128 mil tokens), 60 centavos por 1 milhão de tokens de saída (para prompts maiores que 128 mil tokens)
Gemini 2.0 Flash: 10 centavos por 1 milhão de tokens de entrada, 40 centavos por 1 milhão de tokens de saída. Para áudio especificamente, custa 70 centros por 1 milhão de tokens de entrada, e também 40 centros por 1 milhão de tokens de saída.
Gemini 2.0 Flash-Lite: 7,5 centavos por 1 milhão de tokens de entrada, 30 centavos por 1 milhão de tokens de saída.

O preço do 2.0 Pro ainda não foi anunciado, e o Nano ainda está em acesso antecipado .

O Projeto Astra ainda é apenas isso, um projeto, e não um produto. No entanto, as demonstrações do Astra revelam o que o Google gostaria que seus produtos de IA fizessem no futuro.

Pode ser.

Esta postagem foi publicada originalmente em 16 de fevereiro de 2024 e é atualizada regularmente.

techcrunch

Google Gemini: tudo o que você precisa saber sobre os modelos de IA generativa

Notícias semelhantes

Google Gemini: tudo o que você precisa saber sobre os modelos de IA generativa

Notícias semelhantes

Nvidia alerta sobre crescente concorrência da chinesa Huawei, apesar das sanções dos EUA

Meta confirma problema no Instagram que está inundando usuários com Reels violentos e sexuais

Pesquisa CNET: 43% dos americanos usam VPNs, citando privacidade como o principal motivo. Especialistas esperam que esse número aumente

Obtenha o Skoove Premium vitalício por £ 118 e finalmente aprenda a tocar piano

Como assistir Paquistão x Bangladesh online grátis