Bir astronotun ayda bisiklet sürdüğünü hayal edebilir misiniz? Yapay zeka sayesinde günümüzde, var olan görseller kullanılarak hayal gücünün ötesinde görüntüler işlenebilir. Peki yapay zeka bunu nasıl gerçekleştiriyor?
DALL-E Teknolojisi ile üretilen Craiyon uygulaması sayesinde hayal ettiğiniz bir konuda, istediğiniz sanat akımı tarzında görüntü işleyebilirsiniz.
DALL-E, yeni görüntüler oluşturmak için tasarlanmış ve eğitilmiş bir AI (Yapay Zekâ) sistemidir. Herhangi bir amacı gerçekleştirmek için insan zekasını taklit eden ve topladıkları bilgilere göre kendilerini geliştirebilen sistemler veya makinelere "yapay zeka" olarak tanımlanmaktadır. Open AI 2020 yılında GPT-3 olarak bilinen bir teknoloji üretmiştir. Bu teknoloji kısaca, insan veya makine dili gibi bir dil yapısına sahip içerikler oluşturan ve kendisinde önce üretilen modellerden daha gelişmiş bir yapay zeka modelidir. Bu teknoloji bize 2020 yılında yapay zekanın yalnızca dijital içerik metinleri değil, edebi metinler (şiir ve hikaye gibi) de yazabileceğini göstermiştir. Bu defa Open AI yeni bir teknoloji üretti ve yılın en çok konuşulan gelişmelerinden biri oldu. DALL-E yapay zeka destekli görüntü oluşturma sistemini kullanarak insan yüzlerini düzenleyebilmektedir. Hatta hayal edilen bir görüntü veya insan yüzüyle farklı sanat akımlarınızı, çizim tarzlarını birleştirerek daha önce üretilmemiş özgün görüntüler oluşturabilmektedir.
Diyelim ki yukarıdaki görselde olduğu gibi bir resim hayal ettiniz. Bir astronot ayda bisiklete biniyor olsun ve bu izlenim bir dijital sanat tarzında resime dönüştürülecek olsun, böyle bir konu hayal ettiğinizde bunu yapay zekaya algoritma diline uygun bir şekilde anlatmanız görseli üretmeniz için yeterli olacaktır. Algoritma diline uygun olan; görselleştirilmek istenenin düz ifade ve tamamen açıklanmış bir şekilde betimlenmesidir. Basit ve adım adım yazılan her kelime algoritma tarafından bir önceki kelime ile bağlantı kurularak diyagrama dönüştürülür. DALL-E girilen metin ile yalnızca tek bir görsel üretmez. Yani yapay zekaya kelimeleri veririz ve o bizim için uygun cümle olasılıklarını analiz eder. Yukarıdaki görselde de olduğu gibi yalnızca bir resim değil 9 farklı resim dolayısıyla 9 farklı cümle oluşturmaktadır.
DALL-E’nin görüntüyü nasıl işlediğine dair teknik kısım ise biraz daha karmaşıktır. 1. aşamada, yapay zekanın eğitilmiş bir metin kodlayıcı olarak çalıştığını anlamamız gerekmektedir. Yapay zekaya yalnızca anlamlı cümle değil, kelime veya yalnızca bir harf de verilebileceği için bir sonraki komutu gerçekleştirmeye hazır olduğunu göstermek için kullanılan metin veya simgeler "metin istemi" (text prompt) olarak tanımlanmaktadır. 2. aşamada yapay zekanın işlemesini istediğimiz metin istemi girilmektedir. Buraya kadar hayal ettiğimiz bir görseli yapay zekaya girdiğimizi düşünelim, bundan sonraki süreçte artık bu teknolojinin bizim verdiğimiz kelime veya simgeleri ona öğretilen anlamlı görüntülerle eşleştirmesini beklememiz gerekiyor. Eşleştirme bittikten sonra verilen metnin tezahürü olan görüntüleri rastgele olacak şekilde üretebilmektedir.
Bu teknolojinin ilerde neye dönüşeceği tam olarak bilinmese de şimdilik beklentiler oldukça büyüktür. Üretici firmanın değeri bugün için 1 milyar doları geçmiştir. Yatırımcılar ve mühendisler gelecekte DALL-E’nin çok daha etkin kullanılacağını öngörmektedir. Henüz tamamen üretilme amacını tam olarak gerçekleştirmiş olmasa da DALL-E, yapay zekanın neler yapabileceğinin kanıtlarından biri olmuştur.