Yerel ve bulut: İnternet bağlantısı olmayan bir bilgisayarda yapay zekanın nasıl kullanılacağını gösteriyoruz.
Yapay zekanın geleceği, tıpkı bilgisayarlarımızda çalıştırdığımız diğer hizmetler gibi, buluta güvenmek yerine yerel işlemeyi gerektiriyor. Birkaç aydır, Qualcomm Snapdragon X Elite işlemci ve yapay zeka işleme konusunda en iyi bilgisayarlar arasında yer alan bir NPU ile donatılmış bir Lenovo P14 S kullanıyoruz. Yapay zekaya öncelik verecek şekilde değişen bu yeni nesil bilgisayarlar hakkında Lenovo İspanya Başkanı Alberto Ruano ile konuşma fırsatı bulduk. En ilginç gelişmelerden biri, ChatGPT'ye benzer modelleri -bizim durumumuzda Meta'nın LLaMA 3.2'si- doğrudan bilgisayarda, internet bağlantısına ihtiyaç duymadan çalıştırmak oldu.
Ruano net: "Bilgisayarın geleceği yapay zekada. Sadece akıllı asistanlarda değil, aynı zamanda sunuculara veri göndermeden yerel olarak çalışmanıza olanak tanıyan yeteneklerde." İşte tam da test ettiğimiz şey bu.
Deneyim bizi hayrete düşürdü. AnythingLLM gibi uygulamaları kullanarak dil modellerini tamamen yerel olarak çalıştırabildik, hatta RAG işlevlerini kullanarak kendi veritabanlarımızı entegre edebildik. Gazeteciler veya avukatlar gibi hassas bilgilerle ilgilenenler için bu özellik çığır açıcı: modelin buluta hiçbir şey göndermesine gerek yok; her şey cihazda kalıyor. Gizlilik tam. Yerel modellerle ChatGPT-40 yanıt düzeyine ulaşabilmemiz, insan bilgi tabanının büyük bir kısmının bilgisayarımıza kurulu olması ve yapay zekanın neredeyse her soruyu yanıtlayabilmesi inanılmaz.
Testlerimizde gerçekten parlayan modeller, 8.000 bağlam belirtecine (bu, komut istemine ekleyebileceğimiz 6.000 veya 7.000 kelimeye eşdeğer) sahip LLaMA 3.1 8B Chat ve 4.000 bağlam belirtecine (yaklaşık 3.000 kelime) sahip Phi 3.5 Mini Instruct oldu. Her ikisi de özellikle Snapdragon X Elite'in NPU'sunda çalışacak ve AnythingLLM ile doğrudan entegre olacak şekilde optimize edildi. Bu durumda, Qualcomm tarafından NPU'su için özel olarak tasarlanmış modeller olduklarından, performans mükemmeldi: hızlı yanıt süreleri ve herhangi bir bulut deneyimiyle rekabet edebilecek bir anlıklık hissi.
NPU kullanımı yalnızca çıkarım hızını artırmakla kalmaz, aynı zamanda pil tüketimini önemli ölçüde azaltır ve ana işlemciyi diğer görevler için serbest bırakır. Bu sayede, belirli ChatGPT'mizle sürekli oynasak bile, neredeyse tam bir günlük pil ömrünün keyfini çıkarabiliriz; kullanıcıların tam da aradığı şey de budur: uzun pil ömrü. Ruano şöyle açıklıyor: "Hedef, cihazın ağırlığını önemli ölçüde artırmadan belirli modellerde 25 saate kadar pil ömrü elde etmek."
NPU için optimize edilmemiş modelleri de denedik; örneğin 8 milyar parametreli yeni Qwen 3 veya en yeni nesil Deepseek r11B. Burada deneyim değişiyor: CPU üzerinde çalıştıkları için çalışıyorlar, ancak aynı hızda değiller. Diğer modellerde ise bellek kısıtlamaları nedeniyle düzgün bir şekilde yükleyemedik; bazılarında ise performans çok düşüktü, ancak işlevseldi; bu da yüksek performanslı bir GPU olmadan çok sık karşılaşılan bir durum.
Bu test, Qualcomm'un donanımlarının gelecek vaat ettiğini ancak asıl önemli olanın ekosisteme, yani NPU'ya iyi adapte olmuş modellere sahip olmak olduğunu açıkça ortaya koyuyor.
Lenovo'nun vizyonu donanımın ötesine geçiyor. Ruano, "Bilgisayarların yalnızca bir iş aracından daha fazlası olmasını istiyoruz; her ortama uyum sağlayabilen, bağlantılı bir ekosistemin parçası olmalılar," diye açıkladı. Bu da, sürekli internete bağlı olmalarına gerek kalmadan, gerçek zamanlı olarak sizi anlayabilen, işleyebilen ve size yardımcı olabilen cihazlar anlamına geliyor. Qualcomm çipleri ve AnythingLLM gibi araçlar, bizi daha özel, daha verimli ve daha kişisel bir yapay zekaya bir adım daha yaklaştırıyor.
ABC.es