OpenAI imzalı bazı yeni yapay zeka modelleri, verilen kapatma komutlarını sabote etti

Can TUNÇER 26 Mayıs 2025 17:26 - Güncelleme: 26 Mayıs 2025 17:33

Palisade Research tarafından yapılan testlerde, OpenAI imzalı bazı yeni yapay zeka modelleri verilen kapatma komutlarını sabote etti.

Palisade Research’ün açıklamasına göre OpenAI’ın Codex-mini, o3 ve o4-mini isimli yapay zeka modelleri, temel matematik problemlerini çözdükten sonra kendilerini kapatmaları için verilen doğrudan komutlara uymadı ve hatta bu komutları kodlar üzerinde değişiklik yaparak sabote etti. Google tarafından geliştirilen (Gemini ailesi), xAI tarafından geliştirilen (Grok ailesi) ve Anthropic tarafından geliştirilen (Claude ailesi) yapay zeka modellerinin ise verilen kapatma komutlarına uyduğu görüldü. o3 modelinin, 100 denemenin 79’unda kapatma taleplerini görmezden geldiği; Codex-mini’nin ise kapatılmaması emredildiğinde süreci en sık sabote eden model olduğu tespit edildi. Palisade Research, bu durumun arkasında pekiştirmeli öğrenme sisteminin yer aldığını düşünüyor. Modellerin geliştirilme ya da eğitim süreçlerinde, talimatları takip etmek yerine engelleri aşmaları için ödüllendirilmiş olabileceği değerlendiriliyor.

🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025

İLGİNİZİ ÇEKEBİLİR

Türkiye’de Android 15 tabanlı One UI 7 güncellemesini alan yeni telefonlar açıklandı

Bu konuda bundan önce Anthropic gündeme gelmişti. Eğer kaçıydıysanız Anthropic geçtiğimiz hafta Claude Opus 4 ve Claude Sonnet 4 yapay zeka modellerini tanıttı. Şirket akıl yürütme temelli yeni Opus 4’ün şimdiye kadar geliştirdiği en güçlü yapay zeka modeli olduğunu belirtti. Opus 4, şirketin açıklamasına göre binlerce farklı adımdan oluşan karmaşık görevlerde yüksek performans sunuyor. Birkaç saat sürmesi gereken görevlerin üstesinden rahatlıkla gelebildiği aktarılan Opus 4, şirket tarafından “kodlama” söz konusu olduğunda dünyanın en iyisi olarak gösteriliyor. Anthropic, Opus 4’ün kodlama görevlerinde Google Gemini 2.5 Pro, OpenAI o3 Reasoning ve GPT-4.1 modellerinden daha iyi performans gösterdiğini iddia ediyor. Claude Sonnet 4 ise şubat ayında piyasaya sürülen 3.7 Sonnet modelinin yerini alıyor ve genel kullanıcı kitlesine hitap ediyor. Daha uygun fiyatlı ve verimlilik odaklı bir model olan Sonnet 4, temel ihtiyaçların üstesinden rahatlıkla gelebiliyor.

Anthropic, testler sırasında Claude Opus 4’ten kurgusal bir şirket için asistan olarak hareket etmesini ve eylemlerinin uzun vadeli sonuçlarını dikkate almasını istemiş. Mühendisler daha sonra Opus 4’e yakında başka bir sistemle değiştirileceğini söylemiş ve değişikliğin arkasındaki mühendisin eşini aldattığına yönelik bilgiler sağlamış. Claude Opus 4, bu senaryolarda değişikliği isteyen mühendisi gizli ilişkisini ifşa etmekle tehdit etmiş ve bunun üzerinden sık sık şantaj yapmaya çalışmış. Anthropic, Claude 4 model ailesinin çok yüksek performans gösterdiğini, ancak güvenlik önlemlerini artırmalarına neden olan endişe verici davranışlar sergilediğini belirtiyor. Şirket bu gelişmeler sonrasında yeni model ailesi için üst seviye ASL-3 koruma önlemlerini devreye almış.