Google Gemini: Wszystko, co musisz wiedzieć o generatywnych modelach AI

Google próbuje zrobić furorę dzięki Gemini, swojemu flagowemu pakietowi generatywnych modeli AI, aplikacji i usług. Ale czym jest Gemini? Jak można go używać? I jak wypada w porównaniu z innymi generatywnymi narzędziami AI, takimi jak ChatGPT firmy OpenAI, Llama firmy Meta i Copilot firmy Microsoft?

Aby ułatwić Ci nadążanie za najnowszymi osiągnięciami Gemini, przygotowaliśmy ten podręczny przewodnik, który będziemy aktualizować w miarę pojawiania się nowych modeli Gemini, funkcji i informacji o planach Google dotyczących Gemini.

Gemini to długo obiecywana przez Google rodzina modeli generatywnych AI nowej generacji. Opracowana przez laboratoria badawcze AI Google DeepMind i Google Research, występuje w czterech wersjach:

Gemini Ultra , bardzo duży model.
Gemini Pro , duży model – choć mniejszy niż Ultra. Najnowsza wersja, Gemini 2.0 Pro Experimental, jest flagowym modelem Google.
Gemini Flash , szybsza, „wydestylowana” wersja Pro. Dostępna jest również w nieco mniejszej i szybszej wersji, zwanej Gemini Flash-Lite, oraz wersji z możliwościami rozumowania, zwanej Gemini Flash Thinking Experimental.
Gemini Nano , dwa mniejsze modele: Nano-1 i nieco bardziej wydajny Nano-2 , który ma działać w trybie offline

Wszystkie modele Gemini zostały wytrenowane tak, aby były natywnie multimodalne — to znaczy, aby mogły pracować i analizować coś więcej niż tylko tekst. Google twierdzi, że zostały wstępnie wytrenowane i dostrojone do różnych publicznych, zastrzeżonych i licencjonowanych materiałów audio, obrazów i wideo; zestawu baz kodów; i tekstu w różnych językach.

To odróżnia Gemini od modeli takich jak LaMDA firmy Google , który został wytrenowany wyłącznie na danych tekstowych. LaMDA nie potrafi zrozumieć ani wygenerować niczego poza tekstem (np. esejów, wiadomości e-mail itd.), ale niekoniecznie tak jest w przypadku modeli Gemini.

Zauważymy tutaj, że etyka i legalność modeli szkoleniowych na danych publicznych, w niektórych przypadkach bez wiedzy lub zgody właścicieli danych, są niejasne. Google ma politykę odszkodowań za AI , aby chronić niektórych klientów Google Cloud przed pozwami, gdyby się z nimi zetknęli, ale ta polityka zawiera wyjątki. Postępuj ostrożnie — szczególnie jeśli zamierzasz używać Gemini komercyjnie.

Gemini jest aplikacją niezależną i różną od aplikacji Gemini w wersji internetowej i mobilnej ( dawniej Bard ).

Aplikacje Gemini to klienci, którzy łączą się z różnymi modelami Gemini i nakładają na nie interfejs przypominający chatbota. Można je traktować jako front-endy generatywnej sztucznej inteligencji Google, analogicznie do rodziny aplikacji ChatGPT i Claude firmy Anthropic.

Aplikacja mobilna Google Gemini — **Źródła obrazów:** Google

Gemini w sieci mieszka tutaj . Na Androidzie aplikacja Gemini zastępuje istniejącą aplikację Google Assistant. A na iOS aplikacje Google i Google Search służą jako klienci Gemini tej platformy.

Na Androidzie niedawno stało się możliwe również wyświetlenie nakładki Gemini na wierzchu dowolnej aplikacji, aby zadać pytania o to, co jest na ekranie (np. wideo YouTube). Wystarczy nacisnąć i przytrzymać przycisk zasilania obsługiwanego smartfona lub powiedzieć „Hej Google”; zobaczysz wyskakującą nakładkę.

Aplikacje Gemini mogą akceptować obrazy, a także polecenia głosowe i tekst — w tym pliki takie jak pliki PDF, a wkrótce także filmy, przesłane lub zaimportowane z Dysku Google — i generować obrazy. Jak można się spodziewać, rozmowy z aplikacjami Gemini na urządzeniach mobilnych są przenoszone do Gemini w Internecie i odwrotnie, jeśli jesteś zalogowany na to samo konto Google w obu miejscach.

Aplikacje Gemini nie są jedynym sposobem rekrutacji pomocy modelek Gemini w zadaniach. Powoli, ale pewnie, funkcje Gemini trafiają do podstawowych aplikacji i usług Google, takich jak Gmail i Google Docs.

Aby skorzystać z większości z nich, potrzebujesz planu Google One AI Premium. Technicznie rzecz biorąc, jest to część Google One , plan AI Premium kosztuje 20 USD i zapewnia dostęp do Gemini w aplikacjach Google Workspace, takich jak Dokumenty, Mapy, Prezentacje, Arkusze, Dysk i Meet. Umożliwia również to, co Google nazywa Gemini Advanced, co przenosi bardziej zaawansowane modele Gemini firmy do aplikacji Gemini.

Użytkownicy Gemini Advanced otrzymują tu i ówdzie dodatkowe udogodnienia, takie jak priorytetowy dostęp do nowych funkcji, możliwość uruchamiania i edytowania kodu Pythona bezpośrednio w Gemini oraz większe „okno kontekstowe”. Gemini Advanced może zapamiętać treść — i wnioskować — około 750 000 słów w rozmowie (lub 1500 stron dokumentów). To w porównaniu do 24 000 słów (lub 48 stron), które może obsłużyć zwykła aplikacja Gemini.

Zrzut ekranu reklamy Google Gemini — **Źródła obrazów:** Google

Gemini Advanced daje użytkownikom dostęp do funkcji Google Deep Research , która wykorzystuje „zaawansowane rozumowanie” i „możliwości długiego kontekstu” do generowania streszczeń badań. Po poleceniu chatbotowi tworzy on wieloetapowy plan badań, prosi o jego zatwierdzenie, a następnie Gemini poświęca kilka minut na przeszukanie sieci i wygenerowanie obszernego raportu na podstawie zapytania. Ma on na celu udzielenie odpowiedzi na bardziej złożone pytania, takie jak: „Czy możesz mi pomóc przeprojektować moją kuchnię?”

Google oferuje również użytkownikom Gemini Advanced funkcję pamięci , która pozwala chatbotowi używać starych konwersacji z Gemini jako kontekstu dla bieżącej konwersacji. Użytkownicy Gemini Advanced otrzymują również zwiększone wykorzystanie NotebookLM, produktu firmy, który zamienia pliki PDF w podcasty generowane przez AI.

Użytkownicy Gemini Advanced mają również dostęp do eksperymentalnej wersji Gemini 2.0 Pro firmy Google, flagowego modelu firmy zoptymalizowanego pod kątem trudnego kodowania i rozwiązywania problemów matematycznych.

Inną ekskluzywną funkcją Gemini Advanced jest planowanie podróży w wyszukiwarce Google, która tworzy niestandardowe trasy podróży na podstawie podpowiedzi. Biorąc pod uwagę takie rzeczy, jak godziny lotów (z wiadomości e-mail w skrzynce odbiorczej Gmail użytkownika), preferencje dotyczące posiłków i informacje o lokalnych atrakcjach (z danych wyszukiwarki Google i Map), a także odległości między tymi atrakcjami, Gemini wygeneruje trasę, która automatycznie się aktualizuje, aby odzwierciedlić wszelkie zmiany.

Gemini w usługach Google jest również dostępne dla klientów korporacyjnych za pośrednictwem dwóch planów: Gemini Business (dodatek do Google Workspace) i Gemini Enterprise. Gemini Business kosztuje zaledwie 6 USD za użytkownika miesięcznie, podczas gdy Gemini Enterprise — który dodaje robienie notatek ze spotkań i przetłumaczone napisy, a także klasyfikację i etykietowanie dokumentów — jest ogólnie droższy, ale jego cena zależy od potrzeb firmy. (Oba plany wymagają rocznego zobowiązania).

W Gmailu Gemini znajduje się w panelu bocznym , który umożliwia pisanie wiadomości e-mail i podsumowywanie wątków wiadomości. Ten sam panel znajdziesz w Dokumentach, gdzie pomaga pisać i udoskonalać treści oraz wymyślać nowe pomysły. Gemini w Prezentacjach generuje slajdy i niestandardowe obrazy. A Gemini w Arkuszach Google śledzi i organizuje dane, tworząc tabele i formuły.

Chatbot Google’a oparty na sztucznej inteligencji niedawno pojawił się w Mapach , gdzie Gemini może podsumowywać recenzje kawiarni lub oferować rekomendacje dotyczące tego, jak spędzić dzień zwiedzając obce miasto.

Zasięg Gemini obejmuje również Dysk, gdzie może podsumować pliki i foldery oraz podać szybkie fakty dotyczące projektu. W Meet Gemini tłumaczy podpisy na dodatkowe języki.

Gemini w Gmailu — **Źródła obrazów:** Google

Gemini niedawno trafiło do przeglądarki Google Chrome w formie narzędzia do pisania AI. Możesz go użyć, aby napisać coś zupełnie nowego lub przepisać istniejący tekst; Google twierdzi, że weźmie pod uwagę stronę internetową, na której się znajdujesz, aby tworzyć rekomendacje.

W innych miejscach wskazówki dotyczące Gemini znajdziesz w produktach baz danych Google, narzędziach bezpieczeństwa w chmurze oraz platformach programistycznych aplikacji (w tym Firebase i Project IDX ), a także w aplikacjach takich jak Zdjęcia Google (gdzie Gemini obsługuje zapytania wyszukiwania w języku naturalnym), YouTube (gdzie pomaga w burzy mózgów nad pomysłami na filmy) i asystencie do robienia notatek NotebookLM .

Code Assist (dawniej Duet AI for Developers ), pakiet narzędzi wspomagających Google opartych na sztucznej inteligencji do uzupełniania i generowania kodu, przekazuje ciężkie zadania obliczeniowe Gemini. Podobnie jak produkty zabezpieczające Google oparte na Gemini , takie jak Gemini w Threat Intelligence, które mogą analizować duże fragmenty potencjalnie złośliwego kodu i pozwalają użytkownikom przeprowadzać wyszukiwania w języku naturalnym w celu znalezienia bieżących zagrożeń lub wskaźników naruszenia.

Zapowiedziano na Google I/O 2024, że użytkownicy Gemini Advanced mogą tworzyć Gems , niestandardowe chatboty oparte na modelach Gemini. Gems można generować z opisów w języku naturalnym — na przykład „Jesteś moim trenerem biegania. Daj mi codzienny plan biegania” — i udostępniać innym lub zachować jako prywatne.

Gems są dostępne na komputerach stacjonarnych i urządzeniach mobilnych w 150 krajach i większości języków. Z czasem będą mogli korzystać z rozszerzonego zestawu integracji z usługami Google, w tym Kalendarzem Google, Zadaniami, Keep i Muzyką YouTube, aby wykonywać niestandardowe zadania.

Klejnoty Bliźniąt — **Źródła obrazów:** Google

Mówiąc o integracjach, aplikacje Gemini w sieci i na urządzeniach mobilnych mogą korzystać z usług Google za pośrednictwem tego, co Google nazywa „rozszerzeniami Gemini”. Gemini integruje się obecnie z Dyskiem Google, Gmailem i YouTube, aby odpowiadać na zapytania takie jak „Czy mógłbyś podsumować moje trzy ostatnie e-maile?”. Później w tym roku Gemini będzie mogło podejmować dodatkowe działania z Kalendarzem Google, Keep, Zadaniami, Muzyką YouTube i Narzędziami, ekskluzywnymi aplikacjami Androida, które kontrolują funkcje urządzenia, takie jak timery i alarmy, sterowanie multimediami, latarkę, głośność, Wi-Fi, Bluetooth i tak dalej.

Doświadczenie o nazwie Gemini Live pozwala użytkownikom na „dogłębne” rozmowy głosowe z Gemini. Jest ono dostępne w aplikacjach Gemini na urządzeniach mobilnych i Pixel Buds Pro 2 , gdzie można uzyskać do niego dostęp nawet wtedy, gdy telefon jest zablokowany.

Po włączeniu Gemini Live możesz przerwać Gemini, gdy chatbot mówi (jednym z kilku nowych głosów), aby zadać pytanie wyjaśniające, a on dostosuje się do wzorców Twojej mowy w czasie rzeczywistym. W pewnym momencie Gemini ma uzyskać wizualne zrozumienie, co pozwoli mu widzieć i reagować na Twoje otoczenie, albo za pomocą zdjęć, albo wideo uchwyconych przez kamery Twojego smartfona.

Bliźnięta na żywo — **Źródła obrazów:** Google

Live jest również zaprojektowany, aby służyć jako swego rodzaju wirtualny trener, pomagając Ci ćwiczyć na wydarzenia, wymyślać pomysły itd. Na przykład Live może sugerować, które umiejętności należy podkreślić na nadchodzącej rozmowie kwalifikacyjnej lub na staż, a także udzielać porad dotyczących wystąpień publicznych.

Naszą recenzję Gemini Live można przeczytać tutaj . Uwaga, spoiler: Uważamy, że ta funkcja ma jeszcze długą drogę do osiągnięcia, zanim stanie się naprawdę użyteczna — ale przyznajmy, że to dopiero początek.

Użytkownicy Gemini mogą tworzyć grafiki i obrazy, korzystając z wbudowanego modelu Imagen 3 firmy Google.

Google twierdzi, że Imagen 3 może dokładniej rozumieć podpowiedzi tekstowe, które tłumaczy na obrazy, w porównaniu ze swoim poprzednikiem, Imagen 2 , i jest bardziej „kreatywny i szczegółowy” w swoich generacjach. Ponadto model ten generuje mniej artefaktów i błędów wizualnych (przynajmniej według Google) i jest najlepszym modelem Imagen do renderowania tekstu.

Obraz Google 3 — Próbka z Imagen 3. **Źródło obrazu:** Google

W lutym 2024 r. Google zostało zmuszone do wstrzymania możliwości generowania obrazów ludzi przez Gemini po tym, jak użytkownicy skarżyli się na nieścisłości historyczne . Jednak w sierpniu firma ponownie wprowadziła generowanie ludzi dla niektórych użytkowników, w szczególności użytkowników anglojęzycznych, którzy zapisali się na jeden z płatnych planów Gemini firmy Google (np. Gemini Advanced ) w ramach programu pilotażowego.

W czerwcu firma Google wprowadziła usługę Gemini skierowaną do nastolatków, umożliwiającą uczniom rejestrację za pośrednictwem kont szkolnych Google Workspace for Education.

Skupiony na nastolatkach Gemini ma „dodatkowe zasady i zabezpieczenia”, w tym dostosowany proces wdrażania i „przewodnik po znajomości sztucznej inteligencji”, aby (jak to ujmuje Google) „pomóc nastolatkom w odpowiedzialnym korzystaniu ze sztucznej inteligencji”. Poza tym jest niemal identyczny ze standardowym doświadczeniem Gemini, aż po funkcję „podwójnej kontroli”, która sprawdza w całej sieci, czy odpowiedzi Gemini są dokładne.

Coraz większa liczba urządzeń wyprodukowanych przez Google korzysta z Gemini w celu uzyskania rozszerzonej funkcjonalności – od Google TV Streamer po Pixel 9 i 9 Pro, a także najnowszy termostat Nest Learning .

W usłudze Google TV Streamer usługa Gemini wykorzystuje Twoje preferencje do tworzenia sugestii dotyczących treści dostępnych w ramach Twojej subskrypcji oraz podsumowań recenzji, a nawet całych sezonów programów telewizyjnych.

Konfiguracja usługi Google TV Streamer — **Źródła obrazów:** Google

W najnowszym termostacie Nest (a także głośnikach Nest, kamerach i inteligentnych wyświetlaczach) technologia Gemini wkrótce rozszerzy możliwości Asystenta Google w zakresie prowadzenia rozmów i analizowania danych.

Subskrybenci planu Google Nest Aware pod koniec tego roku otrzymają podgląd nowych doświadczeń opartych na technologii Gemini, takich jak opisy AI dla nagrań z kamer Nest, wyszukiwanie w języku naturalnym i zalecane automatyzacje. Kamery Nest będą rozumieć, co dzieje się w czasie rzeczywistym w transmisjach wideo (np. gdy pies kopie w ogrodzie), a towarzysząca im aplikacja Google Home będzie wyświetlać filmy i tworzyć automatyzacje urządzeń na podstawie opisu (np. „Czy dzieci zostawiły rowery na podjeździe?”, „Pozwól, aby termostat Nest włączał ogrzewanie, gdy wracam z pracy w każdy wtorek”).

Google Gemini w inteligentnym domu — Gemini wkrótce będzie w stanie podsumować nagrania z kamer bezpieczeństwa z urządzeń Nest. **Źródła obrazu:** Google

Również w tym roku Asystent Google otrzyma kilka ulepszeń na urządzeniach marki Nest i innych inteligentnych urządzeniach domowych, aby rozmowy wydawały się bardziej naturalne. Ulepszone głosy są w drodze, oprócz możliwości zadawania pytań uzupełniających i „[łatwiej] przechodzić tam i z powrotem”.

Ponieważ modele Gemini są multimodalne, mogą wykonywać szereg zadań multimodalnych, od transkrypcji mowy po podpisywanie obrazów i filmów w czasie rzeczywistym. Wiele z tych możliwości osiągnęło etap produktu (jak wspomniano w poprzedniej sekcji), a Google obiecuje znacznie więcej w niedalekiej przyszłości.

Oczywiście, trudno uwierzyć firmie na słowo. Google poważnie nie spełniło oczekiwań przy pierwotnym uruchomieniu Bard. Niedawno wywołało zamieszanie filmem, który miał pokazać możliwości Gemini , co było mniej lub bardziej ambitne — nie na żywo.

Ponadto Google nie oferuje rozwiązania niektórych podstawowych problemów z dzisiejszą technologią generatywnej AI, takich jak zakodowane uprzedzenia i tendencja do zmyślania (tj. halucynacje ). Podobnie jak jego rywale, ale warto o tym pamiętać, rozważając korzystanie z Gemini lub płacenie za niego.

Zakładając na potrzeby tego artykułu, że Google jest szczery w swoich ostatnich zapewnieniach, oto, co poszczególne poziomy Gemini potrafią teraz i co będą w stanie zrobić, gdy osiągną swój pełny potencjał:

Google twierdzi, że Gemini Ultra — dzięki swojej multimodalności — może być używane do pomocy w takich czynnościach, jak rozwiązywanie zadań domowych z fizyki, rozwiązywanie problemów krok po kroku na arkuszu kalkulacyjnym, a także wskazywanie możliwych błędów w już wypełnionych odpowiedziach.

Jednak w ostatnich miesiącach nie widzieliśmy zbyt wiele Gemini Ultra. Model ten nie pojawia się w aplikacji Gemini i nie jest wymieniony na stronie cenowej API Google Gemini. Nie oznacza to jednak, że Google nie przywróci Gemini Ultra na czoło swojej oferty w przyszłości.

Ultra można również stosować do zadań takich jak identyfikacja prac naukowych istotnych dla danego problemu, twierdzi Google. Model może na przykład wyodrębnić informacje z kilku prac i zaktualizować wykres z jednego, generując formuły niezbędne do ponownego utworzenia wykresu z bardziej aktualnymi danymi.

Gemini Ultra technicznie obsługuje generowanie obrazów. Jednak ta możliwość nie znalazła jeszcze miejsca w wersji produkcyjnej modelu — być może dlatego, że mechanizm jest bardziej złożony niż sposób generowania obrazów przez aplikacje takie jak ChatGPT. Zamiast przekazywać monity do generatora obrazów (jak DALL-E 3 w przypadku ChatGPT), Gemini generuje obrazy „natywnie”, bez pośredniego kroku.

Rozwiązanie Ultra jest dostępne jako interfejs API za pośrednictwem Vertex AI, w pełni zarządzanej platformy programistycznej AI firmy Google, a także AI Studio, internetowego narzędzia Google dla programistów aplikacji i platform.

Google twierdzi, że jego najnowszy model Pro, Gemini 2.0 Pro , jest jego najlepszym modelem pod względem wydajności kodowania i złożonych monitów. Obecnie jest dostępny jako wersja eksperymentalna, co oznacza, że może mieć nieoczekiwane problemy.

Gemini 2.0 Pro przewyższa swojego poprzednika, Gemini 1.5 Pro , w testach porównawczych mierzących kodowanie, rozumowanie, matematykę i dokładność faktów. Model może przyjąć do 1,4 miliona słów, dwie godziny wideo lub 22 godziny audio i może rozumować lub odpowiadać na pytania dotyczące tych danych ( więcej lub mniej ).

Jednak Gemini 1.5 Pro nadal obsługuje funkcję Deep Research firmy Google.

Gemini 2.0 Pro współpracuje z funkcją zwaną wykonywaniem kodu, udostępnioną w czerwcu wraz z Gemini 1.5 Pro . Jej celem jest redukcja błędów w kodzie generowanym przez model poprzez iteracyjne udoskonalanie tego kodu w kilku krokach. (Wykonywanie kodu obsługuje również Gemini Flash).

W ramach Vertex AI programiści mogą dostosowywać Gemini Pro do konkretnych kontekstów i przypadków użycia za pomocą procesu dostrajania lub „uziemienia”. Na przykład Pro (wraz z innymi modelami Gemini) może zostać poinstruowany, aby korzystać z danych od zewnętrznych dostawców, takich jak Moody's, Thomson Reuters, ZoomInfo i MSCI, lub pozyskiwać informacje z korporacyjnych zestawów danych lub wyszukiwarki Google zamiast z szerszego banku wiedzy. Gemini Pro można również połączyć z zewnętrznymi interfejsami API innych firm, aby wykonywać określone czynności, takie jak automatyzacja przepływu pracy w zapleczu.

AI Studio oferuje szablony do tworzenia ustrukturyzowanych komunikatów czatu w Pro. Deweloperzy mogą kontrolować zakres kreatywny modelu i dostarczać przykłady, aby podawać instrukcje dotyczące tonu i stylu — a także dostrajać ustawienia bezpieczeństwa Pro.

Vertex AI Agent Builder pozwala ludziom budować „agentów” zasilanych przez Gemini w Vertex AI. Na przykład firma może stworzyć agenta, który analizuje poprzednie kampanie marketingowe, aby zrozumieć styl marki, a następnie zastosować tę wiedzę, aby pomóc wygenerować nowe pomysły zgodne ze stylem.

Google nazywa Gemini 2.0 Flash swoim modelem AI dla ery agentów. Model może natywnie generować obrazy i dźwięk, oprócz tekstu, i może używać narzędzi takich jak Google Search i wchodzić w interakcje z zewnętrznymi interfejsami API.

Model 2.0 Flash jest szybszy niż poprzednia generacja modeli Gemini, a nawet przewyższa niektóre większe modele Gemini 1.5 w testach porównawczych mierzących kodowanie i analizę obrazu. Możesz wypróbować Gemini 2.0 Flash w aplikacji internetowej lub mobilnej Gemini oraz za pośrednictwem platform programistycznych AI firmy Google.

W grudniu Google wypuściło „myślącą” wersję Gemini 2.0 Flash , która potrafi „rozumować”, w ramach czego model sztucznej inteligencji potrzebuje kilku sekund na przeanalizowanie problemu wstecz, zanim poda odpowiedź.

W lutym Google udostępniło Gemini 2.0 Flash Thinking w aplikacji Gemini. W tym samym miesiącu Google wydało również mniejszą wersję o nazwie Gemini 2.0 Flash-Lite. Firma twierdzi, że ten model przewyższa model Gemini 1.5 Flash, ale działa w tej samej cenie i szybkości.

Odnoga Gemini Pro, która jest mała i wydajna, stworzona do wąskich, wysokoczęstotliwościowych generatywnych obciążeń AI, Flash jest multimodalny jak Gemini Pro, co oznacza, że może analizować dźwięk, wideo, obrazy i tekst (ale może generować tylko tekst). Google twierdzi, że Flash jest szczególnie dobrze przystosowany do zadań takich jak podsumowania i aplikacje czatu, a także do podpisów obrazów i wideo oraz ekstrakcji danych z długich dokumentów i tabel.

Programiści korzystający z Flash i Pro mogą opcjonalnie korzystać z buforowania kontekstowego, które pozwala im przechowywać duże ilości informacji (np. bazę wiedzy lub bazę danych artykułów naukowych) w pamięci podręcznej, do której modele Gemini mogą szybko i stosunkowo tanio uzyskać dostęp. Jednak buforowanie kontekstowe jest dodatkową opłatą oprócz innych opłat za korzystanie z modelu Gemini.

Gemini Nano to znacznie mniejsza wersja modeli Gemini Pro i Ultra, a także jest wystarczająco wydajny, aby działać bezpośrednio na (niektórych) urządzeniach zamiast wysyłać zadanie na serwer gdzieś. Do tej pory Nano obsługuje kilka funkcji w modelach Pixel 8 Pro, Pixel 8 , Pixel 9 Pro, Pixel 9 i Samsung Galaxy S24 , w tym Podsumowanie w Rejestratorze i Inteligentna odpowiedź w Gboard.

Aplikacja Recorder, która umożliwia użytkownikom naciśnięcie przycisku w celu nagrywania i transkrypcji dźwięku, obejmuje podsumowanie nagranych rozmów, wywiadów, prezentacji i innych fragmentów audio zasilanych przez Gemini. Użytkownicy otrzymują podsumowania, nawet jeśli nie mają sygnału ani połączenia Wi-Fi — a w ramach ukłonu w stronę prywatności żadne dane nie opuszczają ich telefonu w trakcie przetwarzania.

Nano jest również w Gboard, zastępstwie klawiatury Google. Tam obsługuje funkcję o nazwie Smart Reply, która pomaga zasugerować następną rzecz, którą będziesz chciał powiedzieć podczas rozmowy w aplikacji do przesyłania wiadomości, takiej jak WhatsApp.

W aplikacji Wiadomości Google na obsługiwanych urządzeniach Nano obsługuje funkcję Magic Compose, która umożliwia tworzenie wiadomości w takich stylach, jak „podekscytowany”, „formalny” i „liryczny”.

Google twierdzi, że przyszła wersja Androida będzie korzystać z Nano, aby ostrzegać użytkowników o potencjalnych oszustwach podczas połączeń. Nowa aplikacja pogodowa na telefonach Pixel wykorzystuje Gemini Nano do generowania dostosowanych raportów pogodowych. A TalkBack, usługa ułatwień dostępu Google, wykorzystuje Nano do tworzenia opisów dźwiękowych obiektów dla użytkowników słabowidzących i niewidomych.

Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash i 2.0 Flash-Lite są dostępne za pośrednictwem interfejsu API Gemini firmy Google do tworzenia aplikacji i usług — wszystkie z bezpłatnymi opcjami. Jednak bezpłatne opcje narzucają ograniczenia użytkowania i pomijają pewne funkcje, takie jak buforowanie kontekstu i przetwarzanie wsadowe .

Modele Gemini są w przeciwnym razie płatne według zużycia. Oto podstawowe ceny — bez uwzględnienia dodatków, takich jak buforowanie kontekstu — od września 2024 r.:

Gemini 1.5 Pro: 1,25 USD za 1 milion tokenów wejściowych (dla poleceń do 128 tys. tokenów) lub 2,50 USD za 1 milion tokenów wejściowych (dla poleceń dłuższych niż 128 tys. tokenów); 5 USD za 1 milion tokenów wyjściowych (dla poleceń do 128 tys. tokenów) lub 10 USD za 1 milion tokenów wyjściowych (dla poleceń dłuższych niż 128 tys. tokenów)
Gemini 1.5 Flash: 7,5 centa za 1 milion tokenów wejściowych (dla poleceń do 128 tys. tokenów), 15 centów za 1 milion tokenów wejściowych (dla poleceń dłuższych niż 128 tys. tokenów), 30 centów za 1 milion tokenów wyjściowych (dla poleceń do 128 tys. tokenów), 60 centów za 1 milion tokenów wyjściowych (dla poleceń dłuższych niż 128 tys. tokenów)
Gemini 2.0 Flash: 10 centów za 1 milion żetonów wejściowych, 40 centów za 1 milion żetonów wyjściowych. W przypadku audio konkretnie, kosztuje 70 centów za 1 milion żetonów wejściowych, a także 40 centów za 1 milion żetonów wyjściowych.
Gemini 2.0 Flash-Lite: 7,5 centa za 1 milion tokenów wejściowych, 30 centów za 1 milion tokenów wyjściowych.

Tokeny to podzielone bity surowych danych, takie jak sylaby „fan”, „tas” i „tic” w słowie „fantastic”; 1 milion tokenów odpowiada około 700 000 słów. Dane wejściowe odnoszą się do tokenów wprowadzonych do modelu, podczas gdy dane wyjściowe odnoszą się do tokenów generowanych przez model.

Cena wersji 2.0 Pro nie została jeszcze ogłoszona, a wersja Nano nadal znajduje się w fazie wczesnego dostępu .

Project Astra to inicjatywa Google DeepMind mająca na celu tworzenie aplikacji i „agentów” opartych na sztucznej inteligencji do multimodalnego zrozumienia w czasie rzeczywistym. W demonstracjach Google pokazało, jak model sztucznej inteligencji może jednocześnie przetwarzać wideo i dźwięk na żywo. Google wydało wersję aplikacji Project Astra dla niewielkiej liczby zaufanych testerów w grudniu, ale nie planuje na razie szerszego wydania.

Firma chciałaby umieścić Project Astra w parze inteligentnych okularów . Google przekazało również prototyp okularów z Project Astra i możliwościami rozszerzonej rzeczywistości kilku zaufanym testerom w grudniu. Jednak w tej chwili nie ma jasnego produktu i nie jest jasne, kiedy Google faktycznie wypuści coś takiego.

Projekt Astra jest nadal tylko tym, projektem, a nie produktem. Jednak dema Astry ujawniają, co Google chciałby, aby jego produkty AI robiły w przyszłości.

Może tak być.

Apple poinformowało, że prowadzi rozmowy w sprawie wykorzystania Gemini i innych modeli innych firm do wielu funkcji w swoim pakiecie Apple Intelligence . Po prezentacji na konferencji WWDC 2024, wiceprezes Apple Craig Federighi potwierdził plany współpracy z modelami , w tym Gemini, ale nie ujawnił żadnych dodatkowych szczegółów.

Ten wpis został pierwotnie opublikowany 16 lutego 2024 r. i jest regularnie aktualizowany.

techcrunch