Google Gemini: Üretken AI modelleri hakkında bilmeniz gereken her şey

Google, amiral gemisi jeneratif AI modelleri, uygulamaları ve hizmetleri paketi olan Gemini ile dalga yaratmaya çalışıyor. Peki Gemini nedir? Nasıl kullanabilirsiniz? Ve OpenAI'nin ChatGPT'si , Meta'nın Llama'sı ve Microsoft'un Copilot'u gibi diğer jeneratif AI araçlarıyla nasıl karşılaştırılabilir?
Gemini'deki en son gelişmeleri takip etmenizi kolaylaştırmak için, yeni Gemini modelleri, özellikleri ve Google'ın Gemini'ye yönelik planlarıyla ilgili haberler yayınlandıkça güncelleyeceğimiz bu kullanışlı rehberi hazırladık.
Gemini, Google'ın uzun zamandır vaat ettiği , yeni nesil üretken AI model ailesidir. Google'ın AI araştırma laboratuvarları DeepMind ve Google Research tarafından geliştirilen bu modelin dört çeşidi vardır:
- Gemini Ultra , çok büyük bir model.
- Gemini Pro , büyük bir model - Ultra'dan daha küçük olsa da. En son sürüm olan Gemini 2.0 Pro Experimental, Google'ın amiral gemisidir.
- Gemini Flash , Pro'nun daha hızlı, "damıtılmış" bir versiyonudur. Ayrıca Gemini Flash-Lite adlı biraz daha küçük ve daha hızlı bir versiyonu ve Gemini Flash Thinking Experimental adlı muhakeme yeteneklerine sahip bir versiyonu da mevcuttur.
- Gemini Nano , iki küçük model: Nano-1 ve çevrimdışı çalışmak üzere tasarlanmış, biraz daha yetenekli Nano-2
Tüm Gemini modelleri doğal olarak çok modlu olacak şekilde eğitildi; yani, yalnızca metinle çalışmaktan ve metinden daha fazlasıyla analiz edebilmek için. Google, bunların çeşitli genel, tescilli ve lisanslı ses, görüntü ve videolar; bir dizi kod tabanı; ve farklı dillerdeki metinler üzerinde önceden eğitildiğini ve ince ayar yapıldığını söylüyor.
Bu, Gemini'yi yalnızca metin verileriyle eğitilmiş Google'ın kendi LaMDA'sı gibi modellerden ayırır. LaMDA, metnin ötesinde hiçbir şeyi anlayamaz veya üretemez (örneğin, makaleler, e-postalar vb.), ancak Gemini modelleri için durum böyle değildir.
Burada, bazı durumlarda veri sahiplerinin bilgisi veya izni olmadan, kamuya açık veriler üzerinde eğitim modellerinin etik ve yasallığının belirsiz olduğunu belirteceğiz. Google, belirli Google Cloud müşterilerini davalarla karşılaşmaları durumunda korumak için bir AI tazminat politikasına sahiptir, ancak bu politika istisnalar içerir. Dikkatli olun - özellikle Gemini'yi ticari olarak kullanmayı düşünüyorsanız.
Gemini, web ve mobildeki Gemini uygulamalarından ( eski adıyla Bard ) ayrı ve farklıdır.
Gemini uygulamaları, çeşitli Gemini modellerine bağlanan ve üstüne chatbot benzeri bir arayüz katmanlayan istemcilerdir. Bunları Google'ın üretken AI'sı için ön uçlar olarak düşünün, ChatGPT ve Anthropic'in Claude uygulama ailesine benzer.

Gemini web'de burada yaşıyor. Android'de, Gemini uygulaması mevcut Google Assistant uygulamasının yerini alıyor. Ve iOS'ta, Google ve Google Arama uygulamaları bu platformun Gemini istemcileri olarak hizmet veriyor.
Android'de, yakın zamanda Gemini katmanını herhangi bir uygulamanın üstüne getirerek ekrandakiler hakkında soru sormak da mümkün hale geldi (örneğin, bir YouTube videosu). Desteklenen bir akıllı telefonun güç düğmesine basılı tutun veya "Hey Google" deyin; katmanın açıldığını göreceksiniz.
Gemini uygulamaları, PDF'ler ve yakında videolar gibi dosyalar da dahil olmak üzere, Google Drive'dan yüklenen veya içe aktarılan görsellerin yanı sıra sesli komutları ve metinleri de kabul edebilir ve görseller oluşturabilir. Beklediğiniz gibi, mobildeki Gemini uygulamalarıyla yapılan görüşmeler, her iki yerde de aynı Google Hesabında oturum açmışsanız web'deki Gemini'ye ve tam tersi şekilde aktarılır.
Gemini uygulamaları, Gemini modellerinin görevlerde yardımcı olmalarını sağlamanın tek yolu değildir. Yavaş ama emin adımlarla, Gemini'nin aşıladığı özellikler Gmail ve Google Docs gibi temel Google uygulamalarına ve hizmetlerine giriyor .
Bunların çoğundan yararlanmak için Google One AI Premium Planına ihtiyacınız olacak. Teknik olarak Google One'ın bir parçası olan AI Premium Planı 20 dolara mal olur ve Docs, Maps, Slides, Sheets, Drive ve Meet gibi Google Workspace uygulamalarında Gemini'ye erişim sağlar. Ayrıca, şirketin daha gelişmiş Gemini modellerini Gemini uygulamalarına getiren Google'ın Gemini Advanced adını verdiği şeyi de etkinleştirir.
Gemini Advanced kullanıcıları ayrıca yeni özelliklere öncelikli erişim, Python kodunu doğrudan Gemini'de çalıştırma ve düzenleme yeteneği ve daha büyük bir "bağlam penceresi" gibi burada ve orada ekstralar elde eder. Gemini Advanced, bir konuşmadaki yaklaşık 750.000 kelimenin (veya 1.500 sayfa belgenin) içeriğini hatırlayabilir ve mantık yürütebilir. Bu, vanilya Gemini uygulamasının işleyebildiği 24.000 kelimeyle (veya 48 sayfayla) karşılaştırıldığında.

Gemini Advanced ayrıca kullanıcılara, araştırma özetleri oluşturmak için "gelişmiş muhakeme" ve "uzun bağlam yetenekleri" kullanan Google'ın Derin Araştırma özelliğine erişim sağlar. Sohbet robotuna komut verdikten sonra, çok adımlı bir araştırma planı oluşturur, bunu onaylamanızı ister ve ardından Gemini web'de arama yapmak ve sorgunuza dayalı kapsamlı bir rapor oluşturmak için birkaç dakika ayırır. "Mutfağımı yeniden tasarlamama yardım edebilir misin?" gibi daha karmaşık soruları yanıtlamak için tasarlanmıştır.
Google ayrıca Gemini Advanced kullanıcılarına, chatbot'un Gemini ile olan eski konuşmalarınızı mevcut konuşmanızın bağlamı olarak kullanmasına olanak tanıyan bir bellek özelliği sunuyor. Gemini Advanced kullanıcıları ayrıca şirketin PDF'leri yapay zeka tarafından oluşturulan podcast'lere dönüştüren ürünü NotebookLM'yi daha fazla kullanıyor.
Gemini Advanced kullanıcıları ayrıca, şirketin zorlu kodlama ve matematik problemleri için optimize edilmiş amiral gemisi modeli olan Google'ın Gemini 2.0 Pro'nun deneysel sürümüne de erişebiliyor.
Gemini Advanced'e özel bir diğer özellik ise, istemlerden özel seyahat güzergahları oluşturan Google Arama'daki seyahat planlamasıdır. Uçuş saatleri (bir kullanıcının Gmail gelen kutusundaki e-postalardan), yemek tercihleri ve yerel cazibe merkezleriyle ilgili bilgiler (Google Arama ve Haritalar verilerinden) ve bu cazibe merkezleri arasındaki mesafeler gibi şeyleri hesaba katan Gemini, değişiklikleri yansıtacak şekilde otomatik olarak güncellenen bir güzergah oluşturacaktır.
Gemini, Google hizmetlerinde kurumsal müşterilere Gemini Business (Google Workspace için bir eklenti) ve Gemini Enterprise olmak üzere iki plan aracılığıyla da sunulmaktadır. Gemini Business, kullanıcı başına ayda 6 ABD doları kadar düşük bir maliyete sahipken, toplantı notu alma ve çevrilmiş altyazıların yanı sıra belge sınıflandırması ve etiketlemesi de ekleyen Gemini Enterprise genellikle daha pahalıdır, ancak bir işletmenin ihtiyaçlarına göre fiyatlandırılır. (Her iki plan da yıllık taahhüt gerektirir.)
Gmail'de Gemini, e-posta yazabilen ve ileti dizilerini özetleyebilen bir yan panelde yer alır. Aynı paneli Dokümanlar'da da bulacaksınız; burada içeriğinizi yazmanıza ve geliştirmenize ve yeni fikirler üretmenize yardımcı olur. Slaytlar'daki Gemini slaytlar ve özel resimler oluşturur. Ve Google E-Tablolar'daki Gemini verileri izler ve düzenler, tablolar ve formüller oluşturur.
Google'ın yapay zeka sohbet robotu yakın zamanda Haritalar'a geldi . Gemini, kahve dükkanları hakkındaki yorumları özetleyebiliyor veya yabancı bir şehri ziyaret ederken gününüzü nasıl geçireceğinize dair öneriler sunabiliyor.
Gemini'nin erişim alanı Drive'a da uzanır ve burada dosyaları ve klasörleri özetleyebilir ve bir proje hakkında hızlı bilgiler verebilir. Bu arada, Meet'te Gemini altyazıları ek dillere çevirir.

Gemini yakın zamanda Google'ın Chrome tarayıcısına bir AI yazma aracı biçiminde geldi . Bunu tamamen yeni bir şey yazmak veya mevcut metni yeniden yazmak için kullanabilirsiniz; Google, önerilerde bulunmak için bulunduğunuz web sayfasını dikkate alacağını söylüyor.
Başka yerlerde, Gemini'ye dair ipuçlarını Google'ın veritabanı ürünlerinde , bulut güvenlik araçlarında ve uygulama geliştirme platformlarında ( Firebase ve Project IDX dahil), ayrıca Google Photos (Gemini'nin doğal dil arama sorgularını işlediği yer), YouTube (video fikirleri üretmeye yardımcı olduğu yer) ve NotebookLM not alma asistanı gibi uygulamalarda bulabilirsiniz.
Google'ın kod tamamlama ve oluşturma için AI destekli yardım araçları paketi olan Code Assist (eski adıyla Duet AI for Developers ), ağır hesaplama yükünü Gemini'ye devrediyor. Aynı şekilde, Gemini tarafından desteklenen ve büyük miktarda potansiyel olarak kötü amaçlı kodu analiz edebilen ve kullanıcıların devam eden tehditler veya tehlike göstergeleri için doğal dil aramaları yapmasına olanak tanıyan Threat Intelligence'daki Gemini gibi Google'ın güvenlik ürünleri de öyle.
Google I/O 2024'te duyurulan Gemini Advanced kullanıcıları, Gemini modelleri tarafından desteklenen özel sohbet robotları olan Gem'ler oluşturabilir . Gem'ler doğal dil açıklamalarından üretilebilir — örneğin, "Sen benim koşu koçumsun. Bana günlük bir koşu planı ver" — ve başkalarıyla paylaşılabilir veya gizli tutulabilir.
Mücevherler masaüstü ve mobil cihazlarda 150 ülkede ve çoğu dilde mevcuttur . Sonunda, özel görevleri tamamlamak için Google Takvim, Görevler, Keep ve YouTube Müzik dahil olmak üzere Google hizmetleriyle genişletilmiş bir entegrasyon setinden yararlanabilecekler.

Entegrasyonlardan bahsetmişken, web ve mobildeki Gemini uygulamaları Google'ın "Gemini uzantıları" olarak adlandırdığı şeyler aracılığıyla Google hizmetlerinden yararlanabilir. Gemini bugün "Son üç e-postamı özetleyebilir misiniz?" gibi sorgulara yanıt vermek için Google Drive, Gmail ve YouTube ile entegre oluyor. Bu yılın ilerleyen dönemlerinde Gemini, zamanlayıcılar ve alarmlar, medya kontrolleri, el feneri, ses, Wi-Fi, Bluetooth vb. gibi cihaz özelliklerini kontrol eden Android'e özel uygulamalar olan Google Takvim, Keep, Görevler, YouTube Müzik ve Yardımcı Programlar ile ek eylemler gerçekleştirebilecek.
Gemini Live adlı bir deneyim, kullanıcıların Gemini ile "derinlemesine" sesli sohbetler yapmasına olanak tanır. Mobil cihazlardaki Gemini uygulamalarında ve Pixel Buds Pro 2'de mevcuttur ve telefonunuz kilitliyken bile erişilebilir.
Gemini Live etkinleştirildiğinde, chatbot konuşurken (birkaç yeni sesten biriyle) Gemini'yi keserek açıklayıcı bir soru sorabilirsiniz ve gerçek zamanlı olarak konuşma kalıplarınıza uyum sağlar. Bir noktada, Gemini'nin görsel anlayış kazanması ve akıllı telefonlarınızın kameraları tarafından çekilen fotoğraflar veya videolar aracılığıyla çevrenizi görüp yanıt vermesi beklenir.

Live ayrıca bir tür sanal koç olarak hizmet vermek, etkinlikler için prova yapmanıza, fikir üretmenize vb. yardımcı olmak için tasarlanmıştır. Örneğin, Live yaklaşan bir iş veya staj görüşmesinde hangi becerilerin vurgulanacağını önerebilir ve kamusal konuşma tavsiyeleri verebilir.
Gemini Live incelememizi burada okuyabilirsiniz. Spoiler uyarısı: Özelliğin süper kullanışlı hale gelmesi için daha katetmesi gereken bir yol olduğunu düşünüyoruz; ancak kabul edelim ki henüz erken.
Gemini kullanıcıları Google'ın yerleşik Imagen 3 modelini kullanarak sanat eserleri ve görseller üretebilirler.
Google, Imagen 3'ün, öncülü Imagen 2'ye kıyasla görsellere çevirdiği metin istemlerini daha doğru bir şekilde anlayabildiğini ve nesillerinde daha "yaratıcı ve ayrıntılı" olduğunu söylüyor. Ayrıca, model daha az eser ve görsel hata üretiyor (en azından Google'a göre) ve metni işlemek için şimdiye kadarki en iyi Imagen modeli.

Şubat 2024'te, kullanıcılar tarihsel yanlışlıklardan şikayet ettikten sonra Google, Gemini'nin insan görüntüleri üretme yeteneğini duraklatmak zorunda kalmıştı. Ancak şirket, Ağustos ayında, belirli kullanıcılar için, özellikle İngilizce konuşan kullanıcılar için, bir pilot programın parçası olarak Google'ın ücretli Gemini planlarından birine (örneğin, Gemini Advanced ) kaydolan kişiler için insan üretimini yeniden başlattı.
Google, Haziran ayında öğrencilerin Google Workspace for Education okul hesapları üzerinden kaydolmalarına olanak tanıyan, gençlere yönelik bir Gemini deneyimi tanıttı.
Gençlere odaklanan Gemini, özel olarak hazırlanmış bir katılım süreci ve (Google'ın tabiriyle) "gençlerin yapay zekayı sorumlu bir şekilde kullanmalarına yardımcı olmak" için bir "yapay zeka okuryazarlığı kılavuzu" da dahil olmak üzere "ek politikalar ve güvenlik önlemlerine" sahiptir. Aksi takdirde, Gemini'nin yanıtlarının doğru olup olmadığını görmek için web genelinde arama yapan "çift kontrol" özelliğine kadar, standart Gemini deneyimiyle neredeyse aynıdır.
Google TV Streamer'dan Pixel 9 ve 9 Pro'ya ve en yeni Nest Learning Thermostat'a kadar, Google yapımı giderek artan sayıda cihaz, gelişmiş işlevsellik için Gemini'den yararlanıyor.
Gemini, Google TV Streamer'da abonelikleriniz genelinde içerik önerileri sunmak, incelemeleri ve hatta tüm TV sezonlarını özetlemek için tercihlerinizi kullanır.

En son Nest termostatında (Nest hoparlörleri, kameraları ve akıllı ekranlarında da) Gemini yakında Google Asistan'ın konuşma ve analiz yeteneklerini güçlendirecek.
Bu yılın ilerleyen dönemlerinde Google'ın Nest Aware planına abone olanlar, Nest kamera görüntüleri için yapay zeka açıklamaları, doğal dil video araması ve önerilen otomasyonlar gibi yeni Gemini destekli deneyimlerin önizlemesini alacak. Nest kameraları gerçek zamanlı video akışlarında ne olduğunu anlayacak (örneğin, bir köpek bahçede kazı yaparken) ve eşlik eden Google Home uygulaması videoları gösterecek ve bir açıklama verildiğinde cihaz otomasyonları oluşturacak (örneğin, "Çocuklar bisikletlerini garaj yolunda mı bıraktılar?", "Her Salı işten eve geldiğimde Nest termostatımın ısıtmayı açmasını sağla").

Ayrıca bu yılın ilerleyen zamanlarında Google Asistan, konuşmaları daha doğal hissettirmek için Nest markalı ve diğer akıllı ev cihazlarında birkaç yükseltme alacak. Takip soruları sorma ve "[daha] kolayca ileri geri gitme" yeteneğine ek olarak, iyileştirilmiş sesler de yolda.
Gemini modelleri çok modlu olduğundan, konuşmayı yazıya dökmekten gerçek zamanlı olarak resim ve videolara altyazı eklemeye kadar çok çeşitli çok modlu görevler gerçekleştirebilirler. Bu yeteneklerin birçoğu ürün aşamasına ulaştı (önceki bölümde değinildiği gibi) ve Google çok da uzak olmayan bir gelecekte çok daha fazlasını vaat ediyor.
Elbette, şirketin sözüne inanmak biraz zor. Google, orijinal Bard lansmanında gerçekten yetersiz kaldı . Daha yakın zamanda, Gemini'nin yeteneklerini gösterdiğini iddia eden, az çok arzulanan bir videoyla tüyleri diken diken etti; canlı değildi.
Ayrıca, Google bugün üretken AI teknolojisinin kodlanmış önyargıları ve uydurma eğilimleri (yani halüsinasyonlar ) gibi bazı temel sorunları için hiçbir çözüm sunmuyor. Rakipleri de sunmuyor, ancak Gemini'yi kullanmayı veya ödemeyi düşünürken akılda tutulması gereken bir şey.
Bu makalenin amaçları doğrultusunda Google'ın son iddialarında doğruyu söylediğini varsayarsak, Gemini'nin farklı kademelerinin şu anda neler yapabileceği ve tam potansiyellerine ulaştıklarında neler yapabilecekleri şöyle:
Google, Gemini Ultra'nın çoklu-modal yapısı sayesinde fizik ödevlerinde, çalışma kağıtlarındaki problemleri adım adım çözmede ve önceden doldurulmuş cevaplardaki olası hataları göstermede yardımcı olabileceğini söylüyor.
Ancak, son aylarda Gemini Ultra'yı pek fazla görmedik. Model Gemini uygulamasında görünmüyor ve Google Gemini'nin API fiyatlandırma sayfasında listelenmiyor. Ancak bu, Google'ın Gemini Ultra'yı gelecekte tekliflerinin ön saflarına geri getirmeyeceği anlamına gelmiyor.
Google, Ultra'nın bir sorunla ilgili bilimsel makaleleri belirleme gibi görevlere de uygulanabileceğini söylüyor. Örneğin, model birkaç makaleden bilgi çıkarabilir ve daha güncel verilerle grafiği yeniden oluşturmak için gerekli formülleri üreterek bir grafikten güncelleyebilir.
Gemini Ultra teknik olarak görüntü oluşturmayı destekler. Ancak bu yetenek henüz modelin ürünleştirilmiş versiyonuna girmedi — belki de mekanizma ChatGPT gibi uygulamaların görüntü oluşturma biçiminden daha karmaşık olduğu için. Görüntü oluşturucuya (ChatGPT'nin durumunda DALL-E 3 gibi) komutlar göndermek yerine, Gemini görüntüleri aracı bir adım olmadan "doğal olarak" çıktılar.
Ultra, Google'ın tam yönetimli yapay zeka geliştirme platformu Vertex AI ve uygulama ve platform geliştiricilerine yönelik Google'ın web tabanlı aracı AI Studio aracılığıyla bir API olarak kullanılabilir.
Google, en son Pro modeli Gemini 2.0 Pro'nun kodlama performansı ve karmaşık istemler açısından şimdiye kadarki en iyi modeli olduğunu söylüyor. Şu anda deneysel bir sürüm olarak mevcut, yani beklenmedik sorunlar yaşayabilir.
Gemini 2.0 Pro, kodlama, muhakeme, matematik ve olgusal doğruluk ölçümlerinde öncülü Gemini 1.5 Pro'yu geride bırakıyor. Model, 1,4 milyona kadar kelime, iki saat video veya 22 saat ses alabilir ve bu veriler hakkında mantık yürütebilir veya soruları yanıtlayabilir ( az ya da çok ).
Ancak Gemini 1.5 Pro, Google'ın Derin Araştırma özelliğini desteklemeye devam ediyor.
Gemini 2.0 Pro , Haziran ayında Gemini 1.5 Pro ile birlikte yayınlanan kod yürütme adı verilen bir özellik ile birlikte çalışır. Bu özellik, modelin ürettiği koddaki hataları, kodu birkaç adımda yinelemeli olarak iyileştirerek azaltmayı amaçlamaktadır. (Kod yürütme özelliği Gemini Flash'ı da destekler.)
Geliştiriciler, Vertex AI içinde Gemini Pro'yu ince ayar veya "temellendirme" süreci aracılığıyla belirli bağlamlara ve kullanım durumlarına göre özelleştirebilir. Örneğin, Pro'ya (diğer Gemini modelleriyle birlikte) Moody's, Thomson Reuters, ZoomInfo ve MSCI gibi üçüncü taraf sağlayıcılardan veri kullanması veya daha geniş bilgi bankası yerine kurumsal veri kümelerinden veya Google Arama'dan bilgi alması talimatı verilebilir. Gemini Pro ayrıca, arka ofis iş akışını otomatikleştirmek gibi belirli eylemleri gerçekleştirmek için harici, üçüncü taraf API'lerine bağlanabilir.
AI Studio, Pro ile yapılandırılmış sohbet istemleri oluşturmak için şablonlar sunar. Geliştiriciler, modelin yaratıcı aralığını kontrol edebilir ve ton ve stil talimatları vermek için örnekler sağlayabilir ve ayrıca Pro'nun güvenlik ayarlarını ayarlayabilir.
Vertex AI Agent Builder, insanların Vertex AI içinde Gemini destekli "temsilciler" oluşturmasına olanak tanır. Örneğin, bir şirket, bir marka stilini anlamak için önceki pazarlama kampanyalarını analiz eden ve ardından bu bilgiyi stile uygun yeni fikirler üretmeye yardımcı olmak için uygulayan bir temsilci oluşturabilir.
Google, Gemini 2.0 Flash'ı aracılık dönemi için AI modeli olarak adlandırıyor. Model, metne ek olarak doğal olarak görüntü ve ses üretebilir ve Google Arama gibi araçları kullanabilir ve harici API'lerle etkileşime girebilir.
2.0 Flash modeli, Gemini'nin önceki nesil modellerinden daha hızlıdır ve hatta kodlama ve görüntü analizini ölçen kıyaslamalarda daha büyük Gemini 1.5 modellerinden bazılarını bile geride bırakır. Gemini 2.0 Flash'ı Gemini web veya mobil uygulamasında ve Google'ın AI geliştirici platformları aracılığıyla deneyebilirsiniz.
Google, Aralık ayında Gemini 2.0 Flash'ın "düşünen" bir versiyonunu yayınladı. Bu versiyonda yapay zeka modeli, bir problemi geriye doğru inceleyerek cevap vermeden önce birkaç saniyede cevap üretebiliyor.
Şubat ayında Google, Gemini 2.0 Flash düşüncesini Gemini uygulamasında kullanılabilir hale getirdi. Aynı ay, Google ayrıca Gemini 2.0 Flash-Lite adlı daha küçük bir sürüm yayınladı. Şirket, bu modelin Gemini 1.5 Flash modelinden daha iyi performans gösterdiğini ancak aynı fiyat ve hızda çalıştığını söylüyor.
Gemini Pro'nun küçük ve etkili bir dalı olan, dar, yüksek frekanslı üretken AI iş yükleri için oluşturulmuş Flash, Gemini Pro gibi çok modludur; yani ses, video, resim ve metni analiz edebilir (ancak yalnızca metin üretebilir). Google, Flash'ın özellikle özetleme ve sohbet uygulamaları, ayrıca resim ve video altyazıları ve uzun belgelerden ve tablolardan veri çıkarma gibi görevler için uygun olduğunu söylüyor.
Flash ve Pro kullanan geliştiriciler, isteğe bağlı olarak, Gemini modellerinin hızlı ve nispeten ucuz bir şekilde erişebileceği bir önbellekte büyük miktarda bilgi (örneğin, bir bilgi tabanı veya araştırma makaleleri veritabanı) depolamalarına olanak tanıyan bağlam önbelleğini kullanabilirler. Ancak, bağlam önbellekleme, diğer Gemini model kullanım ücretlerine ek bir ücrettir.
Gemini Nano, Gemini Pro ve Ultra modellerinin çok daha küçük bir versiyonudur ve görevi bir yere sunucuya göndermek yerine doğrudan (bazı) cihazlarda çalışacak kadar verimlidir. Nano şimdiye kadar Pixel 8 Pro, Pixel 8 , Pixel 9 Pro, Pixel 9 ve Samsung Galaxy S24'te Summarize in Recorder ve Smart Reply in Gboard gibi birkaç özelliği destekliyor.
Kullanıcıların bir düğmeye basarak sesi kaydetmesine ve yazıya dökmesine olanak tanıyan Recorder uygulaması, Gemini destekli kaydedilmiş konuşmaların, röportajların, sunumların ve diğer ses parçacıklarının özetini içerir. Kullanıcılar, sinyal veya Wi-Fi bağlantısı olmasa bile özetler alırlar ve gizliliğe bir selam olarak, işlem sırasında telefonlarından hiçbir veri çıkmaz.

Nano ayrıca Google'ın klavye değiştirme uygulaması olan Gboard'da da yer alıyor. Orada, WhatsApp gibi bir mesajlaşma uygulamasında sohbet ederken söylemek isteyeceğiniz bir sonraki şeyi önermeye yardımcı olan Akıllı Yanıt adlı bir özelliği destekliyor.
Desteklenen cihazlardaki Google Mesajlar uygulamasında Nano, "heyecanlı", "resmi" ve "lirik" gibi stillerde mesajlar oluşturabilen Magic Compose'u çalıştırıyor.
Google, Android'in gelecekteki bir sürümünün , kullanıcıları aramalar sırasında olası dolandırıcılıklara karşı uyarmak için Nano'yu kullanacağını söylüyor. Pixel telefonlardaki yeni hava durumu uygulaması, özelleştirilmiş hava durumu raporları oluşturmak için Gemini Nano'yu kullanıyor. Ve Google'ın erişilebilirlik hizmeti olan TalkBack, düşük görüşlü ve kör kullanıcılar için nesnelerin işitsel açıklamalarını oluşturmak için Nano'yu kullanıyor.
Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash ve 2.0 Flash-Lite, Google'ın Gemini API'si aracılığıyla uygulamalar ve hizmetler oluşturmak için kullanılabilir — hepsi ücretsiz seçeneklerle. Ancak ücretsiz seçenekler kullanım sınırlamaları getirir ve bağlam önbelleğe alma ve toplu işlem gibi belirli özellikleri dışarıda bırakır.
Gemini modelleri aksi takdirde ödedikçe kullanır. İşte Eylül 2024 itibarıyla bağlam önbelleğe alma gibi eklentiler hariç temel fiyatlandırma:
- Gemini 1.5 Pro: 1 milyon giriş belirteci başına 1,25 ABD doları (128 bin belirtece kadar olan istemler için) veya 1 milyon giriş belirteci başına 2,50 ABD doları (128 bin belirteçten uzun istemler için); 1 milyon çıktı belirteci başına 5 ABD doları (128 bin belirtece kadar olan istemler için) veya 1 milyon çıktı belirteci başına 10 ABD doları (128 bin belirteçten uzun istemler için)
- Gemini 1.5 Flash: 1 milyon giriş belirteci başına 7,5 sent (128 bin belirtece kadar olan istemler için), 1 milyon giriş belirteci başına 15 sent (128 bin belirteçten uzun istemler için), 1 milyon çıktı belirteci başına 30 sent (128 bin belirtece kadar olan istemler için), 1 milyon çıktı belirteci başına 60 sent (128 bin belirteçten uzun istemler için)
- Gemini 2.0 Flash: 1 milyon giriş jetonu başına 10 sent, 1 milyon çıkış jetonu başına 40 sent. Özellikle ses için, 1 milyon giriş jetonu başına 70 merkez ve ayrıca 1 milyon çıkış jetonu başına 40 merkez maliyeti vardır.
- Gemini 2.0 Flash-Lite: 1 milyon giriş tokeni başına 7,5 sent, 1 milyon çıkış tokeni başına 30 sent.
Jetonlar, "fantastic" kelimesindeki "fan", "tas" ve "tic" heceleri gibi ham verilerin alt bölümlere ayrılmış parçalarıdır; 1 milyon jeton yaklaşık 700.000 kelimeye eşdeğerdir. Giriş , modele beslenen jetonları ifade ederken, çıktı , modelin ürettiği jetonları ifade eder.
2.0 Pro'nun fiyatı henüz açıklanmadı ve Nano hala erken erişim aşamasında.
Project Astra , Google DeepMind'ın gerçek zamanlı, çok modlu anlayış için AI destekli uygulamalar ve "araçlar" oluşturma çabasıdır. Google, demolarda AI modelinin canlı video ve sesi aynı anda nasıl işleyebileceğini göstermiştir. Google, Aralık ayında Project Astra'nın bir uygulama sürümünü az sayıda güvenilir testçiye yayınladı ancak şu anda daha geniş bir sürüm için bir planı yok.
Şirket , Project Astra'yı bir çift akıllı gözlüğe yerleştirmek istiyor . Google ayrıca Aralık ayında Project Astra ve artırılmış gerçeklik yeteneklerine sahip bazı gözlüklerin prototipini birkaç güvenilir testçiye verdi. Ancak, şu anda net bir ürün yok ve Google'ın buna benzer bir şeyi ne zaman piyasaya süreceği belirsiz.
Project Astra hala sadece bir proje, bir ürün değil. Ancak Astra'nın demoları Google'ın gelecekte AI ürünlerinin ne yapmasını istediğini ortaya koyuyor.
Olabilir.
Apple, Gemini ve diğer üçüncü taraf modellerini Apple Intelligence paketindeki bir dizi özellik için kullanmak üzere görüşmelerde bulunduğunu söyledi . WWDC 2024'teki bir açılış konuşmasının ardından, Apple SVP Craig Federighi, Gemini de dahil olmak üzere modellerle çalışma planlarını doğruladı , ancak herhangi bir ek ayrıntı açıklamadı.
Bu yazı ilk olarak 16 Şubat 2024'te yayınlanmış olup düzenli olarak güncellenmektedir.
techcrunch