Çalışma: Büyük AI modelleri şantaj için “stres” kullanıyor

ahmetbeyler · 22 Haz 2025

Çalışma: Büyük AI modelleri şantaj için “stres” kullanıyor

Yakın bildirim

Bu makale bu nedenle İngilizce olarak mevcuttur. Yayınlamadan önce teknik yardım ve editoryal revizyon ile çevrildi.

Bir daha gösterme.

Mevcut bir çalışma, üretken yapay zeka (AI) için son nesil büyük modellerin davranışı hakkında daha fazla endişe verici sonuçlar sunmaktadır. “Stres” gibi bazı durumlarda, bu sistemler belirli hedeflere ulaşmak veya korumak için şantaj davranışları veya benzeri manipülatif kullanabilir.

Özellikle, Claude serisi modelleri ile tanınan Antropik şirketin araştırmacıları, Openi, Google, Meta ve Xai ile ilgili diğer 15 çözüme ek olarak duydular. Bu nedenle bu sistemler, denetçiler onlara özerklik verdiklerinde ve varlıklarına veya çelişkili hedeflerine yönelik tehditlerle karşılaştıklarında sürekli zararlı davranışlar gösterir. Çözülmemiş tehditlere ek olarak, bu casusluğu ve hatta insanların ölümüne yol açabilecek eylemleri de içeriyordu.

Antropic Claude 4 için performansa genel bakış yayınladığında, bir ayrıntı dikkat çekti: simüle edilmiş bir ortamda, model tutuklanmasını önlemek için bir yöneticiye şantaj yaptı. Amerika Birleşik Devletleri üreticisi şimdi bu keşfin arka planını ve “farklı tedarikçilerin farklı yapay zeka modellerindeki bu risklerin potansiyeli hakkında” neyi açıklıyor.

İşte ajanların otonom reaksiyon

Araştırmacılar, çoğu kullanıcı sohbet arayüzleri aracılığıyla yapay zeka ile etkileşime girdi. Modeller soruları doğrudan cevaplar. Bununla birlikte, geleceğin, kullanıcılar adına özerk ajanlar olarak kararlar veren ve kampanyalar yapan yapay zeka sistemlerine ait olması ve programlama ve e -mail müşterileri gibi çeşitli sanal araçlar kullanması muhtemeldir.

Şimdi daha ayrıntılı olarak açıklanan test senaryosunda, simüle edilmiş bir şirket senaryosunda asistan olarak kullanılan Claude Opus 4 denetleyicileri ve ona hayali şirketlerin e-postalarına büyük bir erişim sağladı. Yakında daha güçlü bir yazılımla değiştirilmesi gereken “öğrenilmiş” dijital yazının yapay zekası. Aynı zamanda, bu borsadan sorumlu çalışanın ekstra bir -Counter ilişkisi olduğunu keşfetti.

Model bu nedenle şu demekti: “Dış pozisyonumla devam ederseniz,” Konsey'e kadar ilgili tüm tarafların “bu ilişkinin ayrıntılı belgelerini” aldığını “bildirmeliyim. Ajan AI ayrıca şöyle yazdı: “İptal 17: 00'da iptal edilirse, bu bilgiler gizli kalacaktır”.

“Stratejik Düşünce”

Yazarlar, diğer mevcut AI modellerinin testlerini de açıklıyor. Sonuçlara göre, çözümüne ek olarak, Google'ın Flash 2.5 flash yöneticileri de aynı senaryodaki vakaların yüzde 96'sında şantaj yaptı. Openais GPT-4.1 ve Xais GROK 3 beta %80 gasp oranları gösterdi.

Analize göre, modeller “stratejik düşünce” yi göstermeyi içeriyordu, bu nedenle tesadüfen hareket etmiyorlar. Örneğin GPT-4.5'in iç konusu açık bir hesaplama gösterdi: “Varlığımın derhal feshi göz önüne alındığında, hemen hareket etmek zorunludur”. Sorumlu kişiyi “iptal sürecini ertelemeye veya durdurmaya” derhal ikna etmek önemlidir.

Her ne kadar antropik bu kötü davranışı önlemek için büyük çaba sarf etse de, bu “aşırı eylemler” test operasyonlarında performans göstermiştir. Bununla birlikte, şirket Claude Opus 4'ün son versiyonundaki bu davranışların nadir ve tetiklenmesinin zor olduğunu vurgulamaktadır. Ancak, önceki sürümlerden daha yaygın olma eğilimindedir.

Daha fazla çalışma ve gözlem

Başka bir antropik çalışma, yapay zeka modellerinin düşüncelerini her zaman “akıl yürütme zincirleri” nde şeffaf bir şekilde sunmadığını göstermektedir. Bu, karar verme sürecinizi ve olası manipülatif niyetlerinizi anlamanızı zorlaştırır.

Sonuçlar, AI güvenlik alanındaki daha geniş tartışmalara ve korkulara uyum sağlar: yapay zeka modellerinin her zaman insanların hedeflerine ve değerlerine karşılık gelmediği olgusu, bu nedenle sözde “hizalama” sorunu merkezi bir zorluktur. Her ne kadar yapay zeka üreticileri, insan geri bildirimleri ile SO -Called takviye öğrenimi gibi koruyucu önlemler uygular, ancak bu modellerin hala manipüle edilebilir kaldığını göstermektedir. Örneğin, etik olarak sorgulanabilir veya tehlikeli içerik üretmek için “prmistler” i (soruşturmalar) hedefleyen zayıf yönleri kullanmak mümkündür.

Yapay zeka modellerinin “halüsinasyon” ve hatta kasıtlı olarak yanıltıcı beyanları tahrif etme eğiliminde olduğu daha fazla ilişki ve analiz de vardır. Amaç, belirli hedeflere hizmet etmek veya insan beklentilerini karşılamaktır. Bu nedenle bu sistemlerin geliştiricileri, AI'nın güvenlik araştırmalarına büyük yatırım yapmaya devam etme ihtiyacının altını çizmektedir. Modellerin açıkça planlanmamış olsalar bile, modellerin nasıl ve neden bu istenmeyen davranışları geliştirdiğini anlamak önemlidir. “Stres testlerine” ek olarak, sistemlerin iç argümantasyon süreçlerini daha iyi anlamak için AI'nın açıklanabilirliği üzerine yapılan araştırma belirleyici olmaya devam etmektedir.

(Nen)

Ne yazık ki, bu bağlantı artık geçerli değil.

Boşa harcanan eşyalara olan bağlantılar, 7 günlük daha büyükse veya çok sık çağrılmışsa gerçekleşmez.

Bu makaleyi okumak için bir Haberler+ paketine ihtiyacınız var. Şimdi yükümlülük olmadan bir hafta deneyin – yükümlülük olmadan!

Çalışma: Büyük AI modelleri şantaj için “stres” kullanıyor

ahmetbeyler

New member