Microsoft, Phi-3 yapay zeka modelini kullanıma sundu

Can TUNÇER 23 Nisan 2024 11:07

Dünyanın en büyük yazılım firmalarından olan Microsoft, bugün Phi-3 yapay zeka modelini kullanıma sundu.

Microsoft tarafından Azure, Hugging Face ve Ollama temelinde kullanma sunulan yeni Phi-3 yapay zeka modeli, 3,8 milyar parametrelik bir anlama kapasitesine sahip. İleride Phi-3 Small (7 milyar parametre destekli) ve Phi-3 Medium (14 milyar parametre destekli) sürümleri de gelecek Phi-3, direkt olarak aralık ayında çıkan ve Meta’nın Llama 2’si kadar iyi olduğu belirtilen Phi-2’nin yerini alıyor. Microsoft’un kendi açıklamasına göre GPT-3.5 kadar yetenekli olan ancak daha ufak boyutta olan yeni büyük dil modeli (LLM), bu temelde işler hale getirmek adına devasa sunucu sistemlerine ihtiyaç duymuyor yani yüksek bir maliyet oluşturmuyor. Şirketin açıklamasına göre Phi-1 ile kodlamaya odaklanılmış, Phi-2 ile akıl yürütmeyi devreye girmiş, Phi-3 ise kodlama ve akıl yürütmeyi bir araya getirmiş durumda. Microsoft bundan önce ise “VASA-1” yapay zeka sistemiyle çok dikkat çekmişti.

İLGİNİZİ ÇEKEBİLİR

Hyundai, geliştirdiği “Nano Cooling Film” ile araç içi sıcaklıkları düşürebiliyor

Neler yapabildiğini hemen aşağıdaki X paylaşımında görebileceğiniz yapay zeka sistemi, içerisine yüklenen porte fotoğrafını alıyor ve onu analiz ederek video formatında konuşur hale getirebiliyor. Burada inanılmaz yüksek bir gerçeklik seviyesine ulaşan ve daha önceki sistemleri açık ara geride bırakan sistem, henüz herkese açık değil çünkü kötü kullanım riski şu aşamada oldukça yüksek seviyede yer alıyor. Verilen ses dosyasını analiz ederek dudak hareketlerini de uyumlu hale getiren teknoloji, farklı duygu durumlarını da simüle edebiliyor ve üçüncü boyuta geçerek sadece mimikler değil kafa hareketlerini de oluşturabiliyor.

Microsoft just dropped VASA-1.
This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba
10 wild examples:
1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024

Bu konuda bundan önce Google, VLOGGER sistemiyle dikkat çekmişti. Google araştırmacıları tarafından hazırlanan ve şimdilik bir araştırma projesi olarak karşımıza çıkarılan VLOGGER, yüklenen fotoğraflardaki kişileri algılıyor ve onları konuşma özelinde hareketli hale getirebiliyor. Bu sistem sayesinde kişiler sadece tek bir fotoğrafı kullanarak gerçekçi şekilde konuşan sanal versiyonlarını oluşturabiliyor ve video formatında çıktı alabiliyor. Şimdilik halen mükemmel olmayan sistem, girilen kayıt üzerinden kişilerin sesini de oluşturabiliyor.

Biraz daha geliştirilmesi halinde büyük kapılar açabilecek güçte olan sistem, kötüye kullanım konusunda bazı endişeler uyandırıyor ancak bu konuda birçok önlem üzerinde çalışıldığı da aktarılıyor. İyi bir sonuç için özel bir yapay zeka model eğitimi gerektirmeyen sistem, aktarıldığı kadarıyla 800.000’den fazla farklı kişi ve 2.200 saatlik video içeren MENTOR adlı bir veri seti üzerinden geliştiriliyor. Oyunlardan içerik üretimine ve sanal gerçeklik tarafına kadar çok sayıda alanda kullanılabilecek sistem üzerinde çalışmaların devam edeceği bildiriliyor.