Yapay zekâ dünyasının büyük isimlerinden Anthropic, Claude’a nükleer silahlara karşı özel güvenlik önlemleri ekledi.
Bu konuda yaptığı açıklamada, “Nükleer teknoloji aslında iki tarafı keskin bir bıçak gibi. Aynı bilimsel prensipler hem enerji üretmek için hem de nükleer silah geliştirmek için kullanılabiliyor. Yapay zekâ modelleri her geçen gün daha güçlü hâle geldikçe, bu sistemlerin yanlış ellere geçip tehlikeli bilgiler sunma ihtimalini yakından takip etmemiz gerekiyor.” diyen Anthropic, ek olarak şunları aktardı: “Nükleer silahlarla ilgili bilgiler son derece hassas ve riskli. Bu yüzden özel şirketlerin tek başına bu konuda yeterli olması oldukça zor. Tam da bu nedenle ABD Enerji Bakanlığı’nın Ulusal Nükleer Güvenlik İdaresi (NNSA) ile ortaklık kurduk.” Artık sadece risk tespiti yapmakla kalmayıp aynı zamanda bu risklerin izlenmesini sağlayacak araçlar geliştirdiklerini belirten Anthropic, “NNSA ve DOE ile beraber, nükleer enerji/silah sorgularıyla alakalı içerikleri tehlikeli veya zararsız olarak ayırt edebilen bir sınıflandırıcı tasarladık. İlk testlerde yüzde 96 gibi oldukça yüksek bir başarı elde ettik. Bu sistemi Claude üzerindeki konuşmalarda kullanmaya başladık. İlk sonuçlar aracın gerçek kullanıcı konuşmalarında da gayet iyi çalıştığını gösteriyor.” ifadelerini kullandı.
Anthropic bundan önce Claude Opus 4 ve Opus 4.1’e “zararlı” görüşmeleri otomatik olarak sonlandırma özelliği eklemesiyle ses getirmişti. Bu konuda yaptığı açıklamada Anthropic, “Bu özellik sadece çok istisnaî durumlarda, kullanıcı sürekli kötü niyetli veya saldırgan davranıyorsa devreye girecek.” dedi ve şunları aktardı: “Claude ve diğer büyük dil modellerinin (LLM) şu anda veya gelecekte ahlâkî bir statüye sahip olup olmayacağı konusunda büyük bir belirsizlik içindeyiz. Bu meseleyi ciddiye alıyoruz ve daha önce duyurduğumuz araştırma programımızla birlikte, model refahı ihtimaline karşı riskleri azaltmaya yönelik olarak düşük maliyetli müdahaleleri belirleyip uygulamaya çalışıyoruz. Modellerin potansiyel olarak rahatsız edici etkileşimleri sonlandırmasına izin vermek bu müdahalelerden biridir.” Yaptığı açıklamada şirket ayrıca şunları aktardı: “Claude Opus 4’ü kullanıma açmadan önce küçük bir ‘refah değerlendirmesi’ yaptık. Burada modelin kendini ifade etme biçimini ve tercihlerini inceledik. Sonuç olarak, zarara karşı güçlü bir isteksizlik gösterdiğini gördük. Özellikle çocuklarla ilgili cinsel içerik taleplerinde veya terör ve geniş çaplı şiddet eylemleri için bilgi edinmeye yönelik girişimlerde modelin istekleri net bir şekilde reddettiğini gördük.” Görüşme sonlandırma sistemini daha çok yapay zekâ modelinin kendisini korumak için devreye alan Anthropic, gelecekte yapay zekâ sistemlerinin insanlara benzer şekilde bilinç kazanıp dünyayı “hissederek” deneyimleyip deneyimleyemeyecekleri üzerine bir program yürütüyor. Şu an için bunun olacağına dair güçlü bir kanıt yok; ancak şirket kapıyı açık bırakıyor ve nisan ayından bu yana çalışmalar gerçekleştiriyor.