Konya Bilim Merkezi BilimUp

Yapay Zeka Hayal Ettiklerimizi Çizebilir Mi? Dall-e Teknolojisi Nedir?

Hasan Gürel
7 dk
1159

Bir astronotun ayda bisiklet sürdüğünü hayal edebilir misiniz? Yapay zeka sayesinde günümüzde, var olan görseller kullanılarak hayal gücünün ötesinde görüntüler işlenebilir. Peki yapay zeka bunu nasıl gerçekleştiriyor?

DALL-E Teknolojisi ile üretilen Craiyon uygulaması sayesinde hayal ettiğiniz bir konuda, istediğiniz sanat akımı tarzında görüntü işleyebilirsiniz. 

DALL-E, yeni görüntüler oluşturmak için tasarlanmış ve eğitilmiş bir AI (Yapay Zekâ) sistemidir. Herhangi bir amacı gerçekleştirmek için insan zekasını taklit eden ve topladıkları bilgilere göre kendilerini geliştirebilen sistemler veya makinelere "yapay zeka" olarak tanımlanmaktadır. Open AI 2020 yılında GPT-3 olarak bilinen bir teknoloji üretmiştir. Bu teknoloji kısaca,  insan veya makine dili gibi bir dil yapısına sahip içerikler oluşturan ve kendisinde önce üretilen modellerden daha gelişmiş bir yapay zeka modelidir. Bu teknoloji bize 2020 yılında yapay zekanın yalnızca dijital içerik metinleri değil, edebi metinler (şiir ve hikaye gibi) de yazabileceğini göstermiştir. Bu defa Open AI yeni bir teknoloji üretti ve yılın en çok konuşulan gelişmelerinden biri oldu. DALL-E yapay zeka destekli görüntü oluşturma sistemini kullanarak insan yüzlerini düzenleyebilmektedir. Hatta hayal edilen bir görüntü veya insan yüzüyle farklı sanat akımlarınızı, çizim tarzlarını birleştirerek daha önce üretilmemiş özgün görüntüler oluşturabilmektedir. 

DALL-E Teknolojisi Görüntüleri Nasıl İşliyor?

Diyelim ki yukarıdaki görselde olduğu gibi bir resim hayal ettiniz. Bir astronot ayda bisiklete biniyor olsun ve bu izlenim bir dijital sanat tarzında resime dönüştürülecek olsun, böyle bir konu hayal ettiğinizde bunu yapay zekaya algoritma diline uygun bir şekilde anlatmanız görseli üretmeniz için yeterli olacaktır. Algoritma diline uygun olan; görselleştirilmek istenenin düz ifade ve tamamen açıklanmış bir şekilde betimlenmesidir. Basit ve adım adım yazılan her kelime algoritma tarafından bir önceki kelime ile bağlantı kurularak diyagrama dönüştürülür. DALL-E girilen metin ile yalnızca tek bir görsel üretmez. Yani yapay zekaya kelimeleri veririz ve o bizim için uygun cümle olasılıklarını analiz eder. Yukarıdaki görselde de olduğu gibi yalnızca bir resim değil 9 farklı resim dolayısıyla 9 farklı cümle oluşturmaktadır. 

Bugüne kadar benzer teknolojiler üretilmiş olsa da DALL-E'nin en son sürümü tutarlı görüntüler oluştururken çok daha iyidir. Ayrıca DALL-E tutarlılık konusunda birçok bilim insanının da onayını almayı başarmıştır. New York Üniversitesi Bilgisayar Bilimi bölümünde görevli Gary Marcus’un araştırmasına göre bu yapay zekanın ürettiği 14 görüntüden 5’i net şekilde yazıyı tanımlayabilmektedir. Fakat yine de hala 9 yazıyı net bir şekilde tanımlayamamaktadır. Marcus’un aktardığına göre modellemelerde hala hata olsa da sonuçlar oldukça etkileyicidir. Marcus, DALL-E görüntü işleme teknolojisini” görüntülerin kalitesi büyüleyici, kalitenin yanı sıra perspektifi yakalama ve ışık kullanımı konusunda profesyonel bir fotoğrafçı gibi davranıyor” olarak tanımlamaktadır.


DALL-E’nin görüntüyü nasıl işlediğine dair teknik kısım ise biraz daha karmaşıktır. 1. aşamada, yapay zekanın eğitilmiş bir metin kodlayıcı olarak çalıştığını anlamamız gerekmektedir. Yapay zekaya yalnızca anlamlı cümle değil, kelime veya yalnızca bir harf de verilebileceği için bir sonraki komutu gerçekleştirmeye hazır olduğunu göstermek için kullanılan metin veya simgeler "metin istemi" (text prompt) olarak tanımlanmaktadır. 2. aşamada yapay zekanın işlemesini istediğimiz metin istemi girilmektedir. Buraya kadar hayal ettiğimiz bir görseli yapay zekaya girdiğimizi düşünelim, bundan sonraki süreçte artık bu teknolojinin bizim verdiğimiz kelime veya simgeleri ona öğretilen anlamlı görüntülerle eşleştirmesini beklememiz gerekiyor. Eşleştirme bittikten sonra verilen metnin tezahürü olan görüntüleri rastgele olacak şekilde üretebilmektedir.

Bu teknolojinin ilerde neye dönüşeceği tam olarak bilinmese de şimdilik beklentiler oldukça büyüktür. Üretici firmanın değeri bugün için 1 milyar doları geçmiştir. Yatırımcılar ve mühendisler gelecekte DALL-E’nin çok daha etkin kullanılacağını öngörmektedir. Henüz tamamen üretilme amacını tam olarak gerçekleştirmiş olmasa da DALL-E, yapay zekanın neler yapabileceğinin kanıtlarından biri olmuştur. 

Kaynakça
  1. https://arxiv.org/pdf/2103.10951.pdf
  2. https://arxiv.org/ftp/arxiv/papers/2204/2204.13807.pdf 
  3. https://openai.com/dall-e-2/ 
  4. Sparkes, M. (2022). AI art tool covertly alters requests. https://doi.org/10.1016/S0262-4079(22)01329-X 
  5. Rosenblat, A., & Stark, L. (2016). Algorithmic labor and information asymmetries: A case study of Uber’s drivers. International journal of communication, 10, 27. 
Benzer Makaleler
Nanosensörler Kalp Krizini Tespit Edebilir Mi?
Gramofonlar Nasıl Çalışır?
Elektronik Atık Sorunu Çözülebilir Mi?
Arkeolojik Bulguların Yaşı Nasıl Hesaplanıyor?
Tuz Tanesi Boyutunda Fotoğraflar Çeken Kamera
Kan Vermeden Değerlerinizi Ölçmenin Bir Yolu Olsa Nasıl Olurdu?
Web Siteleri Temalarıyla Kullanıcılarını Manipüle Mi Ediyor?
Bilgisayarlar da Bilgisayarlardan Oluşur
Kişisel Veri Gizliliği Nedir ve Neden Önemlidir?
ANASAYFA
RASTGELE
KATEGORİLER
POPÜLER
EN YENİLER