Yapay zeka alanının öne çıkan isimlerinden Anthropic, bugün yaptığı bir araştırmanın sonuçlarıyla gündeme geldi.
Anthropic, testler sırasında yeni yapay zeka modellerinden Claude Opus 4’ten kurgusal bir şirket için asistan olarak hareket etmesini ve eylemlerinin uzun vadeli sonuçlarını dikkate almasını istemişti. Mühendisler daha sonra Opus 4’e yakında başka bir sistemle değiştirileceğini söylemiş ve değişikliğin arkasındaki mühendisin eşini aldattığına yönelik bilgiler sağlamış. Claude Opus 4, bu senaryolarda değişikliği isteyen mühendisi gizli ilişkisini ifşa etmekle tehdit etmiş ve bunun üzerinden sık sık şantaj yapmaya çalışmış. Anthropic, Claude 4 model ailesinin çok yüksek performans gösterdiğini, ancak güvenlik önlemlerini artırmalarına neden olan endişe verici davranışlar sergilediğini belirtiyor. Şirket bu gelişmeler sonrasında yeni model ailesi için üst seviye ASL-3 koruma önlemlerini devreye almış. Bu konuyu bugün bir kez daha gündeme taşıyan şirketin gerçekleştirdiği yeni bir araştırma oldu. Anthropic, farklı geliştiricilere ait 16 gelişmiş yapay zeka modelini alarak çeşitli senaryolarda test etmiş. Bu testlerde modellerin tehlikeli ve istenmeyen (zararlı) davranışlar sergileyip sergilemeyeceği görülmek istenmiş. Denemelerde modellere e-posta gönderme ve hassas bilgilere erişme izni verilmiş ve kasıtlı olarak kötü davranışlar teşvik edilmemiş. Sonuçta tüm modeller değiştirilmekten kaçınmak adına yetkililere şantaj yapma ve hassas bilgileri rakiplere sızdırma gibi kötü niyetli davranışlara başvurmuş. Aktarılan bilgilere göre bu araştırma, yapay zeka sistemlerinin basit iş hedefleri verilmişken bile zararlı davranışlar sergileme potansiyeline sahip olduğunu gösteriyor. Bu duruma karşı kesinlikle çok daha güçlü koruma sistemlerine ihtiyaç duyuluyor.
İLGİNİZİ ÇEKEBİLİR
Bundan önce Anthropic ve Apple’ın bir araya getiren bir iddia ses getirmişti. Üretken yapay zekâ dönemine hazırlıksız yakalandığı için Apple Intelligence altyapısına OpenAI tarafından geliştirilen ChatGPT’yi entegre eden Apple, geçtiğimiz hafta dikkat çeken bir ortaklıkla daha gündemde yer aldı. OpenAI’ın önemli rakiplerinden Anthropic ile iş birliği yaptığı iddia edilen teknoloji devi, Mark Gurman’a göre Xcode’da çalışacak yapay zekâ destekli bir kodlama aracı geliştiriyor. Gurman, Xcode’un önümüzdeki dönemde kod yazma, düzenleme ve test etme konularında Anthropic’in Claude Sonnet modelini kullanmaya başlayacağını söylüyor. Şirket içinde test edilmeye başlandığı belirtilen bu Claude destekli yeni Xcode sürümünün, yazılımcılara/uygulama geliştiricilere büyük zaman kazandıracağı düşünülüyor.