DeepSeek: AI chatbot uygulaması hakkında bilmeniz gereken her şey

DeepSeek viral oldu.
Çinli yapay zeka laboratuvarı DeepSeek, sohbet robotu uygulamasının Apple App Store listelerinde ( ve Google Play'de de ) zirveye çıkmasının ardından bu hafta ana akım bilinçte yer aldı. Hesaplama açısından verimli teknikler kullanılarak eğitilen DeepSeek'in yapay zeka modelleri, Wall Street analistlerini ve teknoloji uzmanlarını ABD'nin yapay zeka yarışındaki liderliğini sürdürüp sürdüremeyeceğini ve yapay zeka çiplerine olan talebin devam edip etmeyeceğini sorgulamaya yöneltti.
Peki DeepSeek nereden çıktı ve nasıl bu kadar kısa sürede uluslararası üne kavuştu?
DeepSeek, işlem kararlarını yapay zeka kullanarak veren Çinli bir kantitatif hedge fonu olan High-Flyer Capital Management tarafından destekleniyor.
Yapay zeka meraklısı Liang Wenfeng, 2015 yılında High-Flyer'ı kurdu. Zhejiang Üniversitesi'nde öğrenciyken alım satım işleriyle ilgilenmeye başladığı söylenen Wenfeng, 2019 yılında yapay zeka algoritmaları geliştirmeye ve dağıtmaya odaklanan bir hedge fonu olarak High-Flyer Capital Management'ı kurdu.
2023'te High-Flyer, finansal işinden ayrı olarak yapay zeka araçlarını araştırmaya adanmış bir laboratuvar olarak DeepSeek'i başlattı. Yatırımcılarından biri High-Flyer olan laboratuvar, DeepSeek olarak da adlandırılan kendi şirketine dönüştü.
DeepSeek, ilk günden itibaren model eğitimi için kendi veri merkezi kümelerini oluşturdu. Ancak Çin'deki diğer AI şirketleri gibi DeepSeek de ABD'nin donanıma uyguladığı ihracat yasaklarından etkilendi . Daha yeni modellerinden birini eğitmek için şirket, ABD şirketlerinin kullanımına sunulan H100 çipinin daha az güçlü bir versiyonu olan Nvidia H800 çiplerini kullanmak zorunda kaldı.
DeepSeek'in teknik ekibinin gençlerden oluştuğu söyleniyor. Şirketin, Çin'in en iyi üniversitelerinden doktoralı AI araştırmacılarını agresif bir şekilde işe aldığı bildiriliyor . DeepSeek ayrıca, The New York Times'a göre, teknolojisinin çok çeşitli konuları daha iyi anlamasına yardımcı olmak için bilgisayar bilimi geçmişi olmayan kişileri işe alıyor .
DeepSeek, ilk model setini - DeepSeek Coder, DeepSeek LLM ve DeepSeek Chat - Kasım 2023'te tanıttı. Ancak, girişimin yeni nesil DeepSeek-V2 model ailesini yayınladığı geçen bahara kadar, yapay zeka endüstrisi buna dikkat etmeye başlamadı.
Genel amaçlı bir metin ve görüntü analiz sistemi olan DeepSeek-V2, çeşitli AI kıyaslamalarında iyi performans gösterdi ve o dönemdeki benzer modellerden çalıştırılması çok daha ucuzdu. ByteDance ve Alibaba da dahil olmak üzere DeepSeek'in yerel rakiplerini, bazı modellerinin kullanım fiyatlarını düşürmeye ve diğerlerini tamamen ücretsiz yapmaya zorladı.
Aralık 2024'te piyasaya sürülen DeepSeek-V3 , DeepSeek'in ününe ün kattı.
DeepSeek'in dahili kıyaslama testlerine göre DeepSeek V3, Meta'nın Llama'sı gibi indirilebilir, herkese açık modellerin yanı sıra yalnızca bir API aracılığıyla erişilebilen "kapalı" modellerden, örneğin OpenAI'nin GPT-4o'sundan daha iyi performans gösteriyor.
DeepSeek'in R1 "akıl yürütme" modeli de aynı derecede etkileyici. Ocak ayında yayınlanan DeepSeek, R1'in temel ölçütlerde OpenAI'nin o1 modeli kadar iyi performans gösterdiğini iddia ediyor.
Bir akıl yürütme modeli olan R1, kendisini etkili bir şekilde gerçek kontrol eder ve bu da normalde modellerin tökezlediği bazı tuzaklardan kaçınmasına yardımcı olur. Akıl yürütme modelleri, tipik bir akıl yürütmeyen modele kıyasla çözümlere ulaşmak için biraz daha uzun zaman alır — genellikle saniyeler ila dakikalar daha uzun. Olumlu tarafı, fizik, bilim ve matematik gibi alanlarda daha güvenilir olma eğiliminde olmalarıdır.
Ancak R1, DeepSeek V3 ve DeepSeek'in diğer modellerinin bir dezavantajı var. Çin tarafından geliştirilen yapay zekalar oldukları için, yanıtlarının "temel sosyalist değerleri temsil ettiğinden" emin olmak için Çin'in internet düzenleyicisi tarafından kıyaslamaya tabi tutuluyorlar. Örneğin DeepSeek'in sohbet robotu uygulamasında R1, Tiananmen Meydanı veya Tayvan'ın özerkliğiyle ilgili soruları yanıtlamayacak.
DeepSeek'in bir iş modeli varsa, bu modelin tam olarak ne olduğu açık değildir. Şirket, ürün ve hizmetlerini piyasa değerinin çok altında fiyatlandırır ve diğerlerini ücretsiz olarak verir.
DeepSeek'in anlattığına göre, verimlilik atılımları aşırı maliyet rekabet gücünü korumasını sağladı. Ancak bazı uzmanlar şirketin verdiği rakamları tartışıyor .
Durum ne olursa olsun, geliştiriciler DeepSeek'in modellerini benimsediler, bunlar genel olarak anlaşıldığı gibi açık kaynaklı değil ancak ticari kullanıma izin veren izin verici lisanslar altında mevcut. DeepSeek'in modellerini barındıran platformlardan biri olan Hugging Face'in CEO'su Clem Delangue'ye göre, Hugging Face'teki geliştiriciler, toplamda 2,5 milyon indirmeye ulaşan 500'den fazla R1 "türev" modeli oluşturdular .
DeepSeek'in daha büyük ve daha köklü rakiplere karşı elde ettiği başarı , "AI'yi altüst etmek" ve "aşırı abartılmış" olarak tanımlandı. Şirketin başarısı , Nvidia'nın hisse senedi fiyatının Pazartesi günü %18 düşmesine ve OpenAI CEO'su Sam Altman'ın kamuoyunda tepki göstermesine neden olan en azından kısmen sorumluydu.
Microsoft, DeepSeek'in Microsoft'un işletmeler için AI hizmetlerini tek bir başlık altında bir araya getiren platformu olan Azure AI Foundry hizmetinde kullanılabilir olduğunu duyurdu . CEO Mark Zuckerberg, ilk çeyrek kazanç görüşmesinde DeepSeek'in Meta'nın AI harcamaları üzerindeki etkisi sorulduğunda, AI altyapısına yapılan harcamaların Meta için "stratejik bir avantaj" olmaya devam edeceğini söyledi.
Aynı zamanda bazı şirketler DeepSeek'i yasaklıyor ve Güney Kore dahil olmak üzere tüm ülkeler ve hükümetler de aynısını yapıyor. New York eyaleti de DeepSeek'in hükümet cihazlarında kullanılmasını yasakladı .
DeepSeek'in geleceğinin ne olacağı belirsiz. Geliştirilmiş modeller kesin. Ancak ABD hükümeti , zararlı yabancı etki olarak algıladığı şeye karşı giderek daha temkinli görünüyor.
TechCrunch'ın yapay zeka odaklı bir bülteni var! Her Çarşamba gelen kutunuza ulaşması için buraya kaydolun .
Bu hikaye ilk olarak 28 Ocak 2025'te yayınlandı ve daha fazla bilgiyle sürekli olarak güncellenecektir.
techcrunch