Meta dün paylaştığı bir blog gönderisi ile betimlemeye dayanan yeni yapay zeka destekli video arabulucu Make-A-Video'yu duyurdu. Hatırlarsanız Meta başlangıçta 14 Temmuz'da yaptığı bir tanımlama ile yapay akıl desteklei görsel üretimi üstüne çalıştığını ifade etmişti. Make-A-Video da bu çalışmanın bir parçası olarak karşımıza çıkıyor. 

Make-A-Video ile betimleyerek kendi videolarınızı oluşturabildiğiniz gibi, tek bir görüntüye hareket eklemeniz mümkün. Benzer şekilde iki görünüm arasına hareket ekleyerek bütünsel bir anlatım yakalayabiliyorsunuz. 

Bunların yanı sıra orijinal videonuza varyasyon eklemek için Make-A-Video'dan faydalanabilirsiniz. Ancak şu an için videoların düşük netliğe sahip olduğunu belirtmekte menfaat var. Takriben bir kaç saniyelik videolar, hemen olan bir görüntünün size göz kırpması gibi bir izlenim yaratıyor.  

Make-A-Video teknolojisi 

Make-A-Video'nun arkasındaki sistem, eşlenmiş metin - görsel verisinden kelimelerin nasıl göründüğünü ve metinle ilişkili olmayan kısımda dünyanın video çekimlerinde nasıl göründüğünü öğreniyor. Make-A-Video'yu cesaretlendirmek için  WebVid-10M ve HD-VILA-100M veri setlerinden faydalanıldığını da belirtelim. Bu bilgi setlerinde eşlenmiş metin - görsel verisinin yanı sıra etiketlenmemiş videolar ve Shutterstock gibi sitelerden çekilmiş videolar yer alıyor. 

Make-A-Video projesi, Make-A-Scene'in devamı özelliğinde. Şirket, yayınladığı araştırma makalesinde alıştırma prensibinin detaylarını sunuyor. 

Teknik zorluklar 

Şu lahza için kısa flu görüntülerin ötesinde bir takım teknik zorluklar da mevcut. Eğitim yöntemleri kapsamında yapay akıl, yalnızca bir video izleyen bir insan kadar çıkarılabilecek bilgileri öğrenemiyor. Örnek belirlemek icabında, sallanan bir elin videosunun soldan sağa mı yahut sağdan sola mı gittiği Make-A-Video'nun şu lahza için öğrenebileceği bir data yok. 

Buna ilave olarak Make-A-Video, 5 saniyeden uzun videolar üretemiyor. Make-A-Video ile Ansızın artı sahne ve olay içeren video üretmek de şu lahza için söz konusu değil. Make-A-Video ile üretilen videolar 64 x 64 piksel çözünürlüğünde ve 16 kareden oluşuyor. Bu çıktıyı diğer bir yapay zeka modeli kullanarak 768 x 768 piksel çözünürlüğüne yükseltmek muhtemel. 

bu arada Meta, betimlemeye dayalı yapay akıl destekli video arabulucu üzerinde çalışan tek kurum yok. Tsinghua Üniversitesi ve Pekin Yapay Akıl Akademisi (BAAI) CogVideo çalışmasını yayınladı.

DALL-E ve Midjourney gibi araçların sanat üretimini nasıl etkileyeceği geçtiğimiz aylarda yoğun bir şekilde tartışıldı. Görünen o ki; betimlemeye dayalı suni zeka destekli video araçları da bu tartışmada kendine yer bulmaya başlayacak. Sanat ve betimlemeye dayalı yapay akıl araçları konusunda daha ayrıntılı bir okuma için UCLA'de akademik çalışmalarına sürekli ressam Güvenç Özel ile yaptığımız röportajı inceleyebilirsiniz.

Kaynak: webrazzi.com URL: https://webrazzi.com/2022/09/30/metanin-dall-e-benzeri-yapay-zeka-destekli-video-araci-neler-sunuyor