Yapay zeka hayal kurma ve belki de diyalog kurma yeteneğine sahip görünüyor

GAN’lardan sonra aslında yeni yollar ve çözümler ortaya çıktı.
Öncelikle metni anlamak ve üretmek için oluşturulan Transformer modeli, ardışık olarak veya ilerici yaklaşımlarla görüntülerin üretilmesine de yol açan evrimlerin temeli haline gelir.
Bunun tam tersini yapan bir Difüzyon modeli daha var: Bu model, yalnızca gürültüden oluşan bir görüntüden başlıyor (sinyali alamayan bir televizyonun sisi gibi) ve adım adım gürültüyü ortadan kaldırarak tutarlı bir görüntü ortaya çıkarıyor.
Algoritma, bir heykeltıraşın tek bir bloktan mermer parçalarını çıkarması gibi piksel piksel silme işlemi yaparak, bloğun içerdiği görüntüyü sisin ardında bulana kadar ilerliyor.
Ve işte herkesin konuştuğu, iş yerinde giderek daha fazla gördüğümüz son yenilik. ChatGPT 4o Vision'ın multimodal mimarisi, insan etkileşimi sayesinde yanıt kalitesini artıran RLHF (İnsan Geribildirimiyle Takviyeli Öğrenme) gibi tekniklerle de eğitilmiştir.
Ve bugün olağanüstü ve şaşırtıcı sonuçlara, hatta makinenin gerçekten hayal edebildiğini düşündürecek noktaya kadar olanak veren de bu mimaridir.
İnsanın verdiği komutları yorumlayarak hayal kurma yanılsaması yaratan DALL·E 2 ve 3 modelleridir. Bunu, komut istemini okuyup yorumlayarak yapıyorlar, ama en önemlisi bunu klavyede yazan adamla diyalog kurarak yapıyorlar.
Diyalog, mümkün olan en iyi imgeleri oluşturmak için kullanışlı bir yaklaşım olarak 10 yıl sonra tekrar ön plana çıkıyor.
GAN diyaloğu tamamen makinenin içinde gerçekleşen bir diyalogdu ve insan izleyici -sessizce- bir yanıt bekliyordu.
DELL-E modeliyle çalışan multimodal model diyaloğu, insan ve makine arasında sürekli etkileşime olanak tanır ve istenilen görüntüyü elde etmek için komut istemi kademeli olarak iyileştirilebilir. İkisi birlikte diyalog kuruyor ve adım adım istenilen görüntüye ulaşıyorlar.
İstemi yorumlamayı öğrenen, pikselleri birbiri ardına üretmeyi ve gürültüden gereksiz her şeyi çıkarmayı bilen makine, bugün istemi üreten kişiyi dinliyor ve sorguluyor, ta ki adamın hayal etmeye çalıştığı şeye ulaşana kadar.
Yapay zekanın sadece istatistiksel hesaplamalara dayalı olduğunu, kelimelerin sırasını yorumlayıp sadece hesaplamalara dayalı cevaplar –veya görseller– ürettiğini düşünürsek, yapay zekanın gelişimi sayesinde oyunun kurallarını değiştiren adamların yaratıcılığını küçümsemiş oluruz. Bu, en otantik ve atadan kalma insan mekanizmalarından yola çıkan, dönüştürüldüklerinde makineler için bile fark yaratabileceklerine inanan bir yaratıcılıktır.
* Matteo Scortegagna, entegre pazarlama ve iletişim ajansı Next14'ün kurucu ortağıdır
ilsole24ore