Microsoft, yazılı içeriklerden sesli podcast içerikleri hazırlayabilen VibeVoice isimli bir yapay zekâ sistemi yayınladı

03 Eylül 2025 09:52

Yazılım devi Microsoft, yazılı içeriklerden podcast hazırlayabilen VibeVoice isimli bir yapay zekâ sistemi yayınladı.

Hugging Face üzerinden elde edilebilen ve lokal olarak çalıştırılabilen yeni yapay zekâ aracı VibeVoice, yüklenen metinler üzerinden 90 dakikaya kadar sesli podcast içerikleri hazırlayabiliyor. Sanal olarak dört farklı konuşmacı oluşturabilen sistem, şu anda 1,5 milyar ve 7 milyar parametreli iki farklı sürüme sahip. Daha sonra 500 milyon parametreli sürümünün geleceği de açıklanan VibeVoice, 1,5 milyar parametreli sürümde yaklaşık 7 GB, 7 milyar parametreli sürümde ise yaklaşık 18 GB VRAM’e ihtiyaç duyuyor. Ortaya koyduğu sonuçlar oldukça iyi görünen sistem, ilerleyen dönemde daha da doğal hâle getirilebilir.

OpenAI, Microsoft ve Elon Musk’ın yapay zekâ şirketi xAI, kısa süre önce yeni yapay zeka modellerini tanıtmıştı. Yazılım devi Microsoft, “MAI-Voice-1 AI” ve “MAI-1-preview” adını verdiği, doğrudan şirket içinde geliştirilen yapay zekâ modelleriyle dikkat çekti. MAI-Voice-1 AI, konuşma odaklı bir model ve şirketin iddiasına göre tek bir GPU kullanarak bir saniyenin altında bir dakika uzunluğunda ses üretebiliyor. 15.000 adet Nvidia H100 GPU ile eğitildiği aktarılan MAI-1-preview ise daha çok günlük sorulara cevap vermesi için tasarlanmış ve verilen talimatları uygun şekilde takip edebiliyor.

OpenAI’ın yaptığı duyuru ise “gpt-realtime” olmuştu. Karmaşık talimatları daha iyi takip edebilen, araçları daha düşük hata oranıyla kullanabilen ve daha doğal konuşmalar üretebilen en gelişmiş konuşmadan-konuşmaya yapay zeka modeli olarak öne çıkarılan gpt-realtime, son kullanıcıya değil geliştiricilere hitap ediyor. Geliştiriciler, gpt-realtime ile servislerine doğal konuşma yeteneğine sahip sanal yardımcılar/araçlar ekleyebiliyor. Elon Musk’ın şirketi xAI’dan ise “grok-code-fast-1” modeli gelmiş durumda. Model hakkında şirketten yapılan resmi açıklama şöyle oldu: “Kodlama ve otonom görevler için geliştirdiğimiz ilk modelimiz grok-code-fast’in yayımlandı. Artık bu modeli tüm IDE ve CLI araçlarınıza entegre ederek günlük kodlama ihtiyaçlarınız için kullanabilirsiniz. Hızlı, güçlü ve uygun maliyetli!”

VibeVoice yanında bu da ilginizi çekebilir: Hyundai’den otomatik çalışan şarj robotu

Paylaş