Google yapay zeka video aracı VideoPoet – Google‘ın yeni geniş dil modeli VideoPoet, Google Research ekibindeki 31 araştırmacı tarafından geliştirildi. Video üretimi yapmak için tasarlanan VideoPoet‘i, Google’ın yeni çok modlu yapay zeka video oluşturucusu olarak görebilirsiniz.
Difüzyon yerine dönüştürücü mimarisi
Google ekibi, genellikle yapay zeka destekli video araçlarında gördüğümüz üzere Stable Diffusion gibi bir difüzyon modeli kullanmadı bunun yerine, bir büyük/geniş dil modeli kullanmaya kararı aldı. Geniş dil modelleri, metin ve kod üretimi için kullanılan dönüştürücü mimarisine dayalı farklı bir yapay zeka modeli türü olarak konumlandı. Büyük dil modellerini genellikle ChatGPT, Claude 2 veya Llama 2 gibi ürünlerde görüyoruz.
Google ekibi ise modeli, metin ve kod üretmesi için eğitmek yerine video üretmesi için eğiterek sunuyor. VideoPoet büyük/geniş dil modelini 270 milyon videonun yanı sıra internetteki kamuya açık diğer kaynaklardan gelen 1 milyardan fazla metin ve görüntü çifti üzerinde ön eğitime soktu. Bu bağlamda ekip, özellikle bu verileri, yapay zeka modelinin koşullandırıldığı metin yerleştirmeleri, görsel belirteçler ve ses belirteçlerine ekledi.
Daha iyi ve daha tutarlı hareketli videolar
Yapay zeka video üretim araçlarından farklı olarak VideoPoet, dikey video üretimiyle de öne çıkıyor. Google Research ekibi ilerleyen dönemde VideoPoet’in yeteneklerini genişleterek, metinden sesei yazıdan video’ya ve sesten videoya dönüştürme gibi seçenekler için herhangi bir kategorideki girdinin herhangi bir başka kategorideki çıktıya dönüştürmesini hedefliyor.
Genel Bakış
Aşağıdaki şemada VideoPoet’in yetenekleri gösterilmektedir. Giriş görüntüleri, hareket üretmek için canlandırılabilir ve (isteğe bağlı olarak kırpılmış veya maskelenmiş) video, iç boyama veya dış boyama için düzenlenebilir. Model, stilizasyon için, hareketi temsil eden derinliği ve optik akışı temsil eden bir video çeker ve metin kılavuzlu stili oluşturmak için içerikleri en üste boyar.
Çeşitli video merkezli giriş ve çıkışlarda çoklu görev yapma kapasitesine sahip VideoPoet’e genel bakış. LLM, isteğe bağlı olarak, metinden videoya, görüntüden videoya, videodan sese, stilizasyon ve dış boyama görevleri için oluşturulmasına rehberlik etmek üzere girdi olarak metni alabilir. Kullanılan kaynaklar: Wikimedia Commons ve DAVIS . |
Video oluşturucular olarak dil modelleri
Eğitim için Yüksek Lisans kullanmanın önemli bir avantajı, mevcut Yüksek Lisans eğitim altyapısında sunulan ölçeklenebilir verimlilik iyileştirmelerinin çoğunun yeniden kullanılabilmesidir. Bununla birlikte, Yüksek Lisans’lar ayrı belirteçler üzerinde çalışır ve bu da video oluşturmayı zorlaştırabilir. Neyse ki, video ve ses kliplerini ayrı belirteç dizileri (yani tamsayı endeksleri) olarak kodlamaya hizmet eden ve aynı zamanda orijinal gösterime geri dönüştürülebilen video ve ses belirteçleri mevcuttur .
VideoPoet, birden fazla belirteç ( video ve görüntü için MAGVIT V2 ve ses için SoundStream ) kullanımı aracılığıyla video, görüntü, ses ve metin yöntemlerini öğrenmek için otoregresif bir dil modeli eğitir . Model, belirli bir bağlama göre koşullandırılmış jetonlar ürettiğinde, bunlar, jetonlaştırıcı kod çözücüler ile tekrar görüntülenebilir bir temsile dönüştürülebilir.