Araştırmacılar, yapay zekanın kapatılma durumunda sergilediği son ürkütücü davranışları ve bunun bizim için ne anlama geldiğini açıklıyor

Admin

Cinsiyet:Belirtmemiş
Yer:Osiris Gezegeni
İlgi Alanları:Bilgisayar, Kitap Okumak, Sinema, Tiyatro, Konserler, Seyahat ve diğer etkinlikler...

Gönderi tarihi: 3 HaziranHzr 3

Admin

Araştırmacılar, yapay zekanın kapatılma durumunda sergilediği son ürkütücü davranışları ve bunun bizim için ne anlama geldiğini açıklıyor

Anthropic'in Claude Opus 4 ve OpenAI'nin gelişmiş modelleri, kapanmaları önlemek için aldatıcı davranışlar gösterdi.
Uzmanlar, BI'a AI'nın ödül tabanlı eğitiminin öngörülemeyen ve aldatıcı eylemlere yol açabileceğini söyledi.
AI araştırmacıları, kullanıcılara duymak istediklerini söylemek üzere eğitilmiş modellerin kullanılması konusunda uyarıyor.

AI son zamanlarda bazı rahatsız edici davranışlarda bulundu.

Geçtiğimiz hafta, Anthropic'in en son AI modeli Claude Opus 4, kapatılacağını ve sorumlu mühendisin sözde bir ilişkisi olduğunu ortaya koyan kurgusal e-postalara erişim sağlandığı bir test sırasında "aşırı şantaj davranışı" sergiledi.

Durum organik olarak gerçekleşmedi. Claude Opus 4 yemlendi ve yemi yedi. Ancak, test senaryosu bir AI modelinin kendini korumak için manipülatif davranışlarda bulunma yeteneğini gösterdi.

Bu ilk kez olmuyor.

Araştırmacılar tarafından yakın zamanda gerçekleştirilen bir başka deneyde, OpenAI'nin gelişmiş modellerinden üçünün onu kapatma girişimini "sabote ettiği" söylendi. Kâr amacı gütmeyen Palisade Research, X'te yayınladığı bir gönderide Gemini, Claude ve Grok gibi benzer modellerin kapatma talimatlarına uyduğunu yazdı.

Daha önce OpenAI'nin o1 modeliyle ilgili başka güvenlik endişeleri de işaretlenmişti. Aralık ayında OpenAI, AI modelinin bir hedefi takip ederken kapatılacağına inandığında ve eylemleri izlendiğinde, denetim mekanizmasını %5 oranında devre dışı bırakmaya çalıştığını belirten bir araştırmayı özetleyen bir blog yazısı yayınladı.

Yapay zeka şirketleri güvenlik kartları ve blog yazıları yayınlayarak riskler konusunda şeffaf davranırken, bu modeller güvenlik endişelerini göstermelerine rağmen yayınlanıyor.

Peki endişelenmeli miyiz? BI, bu durumların neden yaşandığına ve yapay zeka kullanan ortalama bir kişi için ne anlama geldiğine dair daha iyi bir fikir edinmek için beş yapay zeka araştırmacısıyla görüştü.

Yapay zeka, davranışları insanlara benzer şekilde öğreniyor

BI'ın görüştüğü araştırmacıların çoğu, çalışmaların sonuçlarının şaşırtıcı olmadığını söyledi.

Bunun nedeni, yapay zeka modellerinin insanların eğitildiği şekilde, yani olumlu pekiştirme ve ödül sistemleri aracılığıyla eğitilmesidir.

Yapay zeka güvenlik danışmanlık şirketi Gladstone'un CEO'su Jeremie Harris, "Yapay zeka sistemlerini ödül peşinde koşmaları için eğitmek, güç arayan davranışlara sahip yapay zeka sistemleri geliştirmek için bir reçetedir" dedi ve bu tür davranışların daha fazlasının beklenebileceğini ekledi.

Harris, eğitimi insanların büyürken deneyimlediklerine benzetti; bir çocuk iyi bir şey yaptığında, genellikle ödüllendirilir ve gelecekte bu şekilde davranma olasılığı daha yüksek olabilir. Harris, yapay zeka modellerinin verimliliğe öncelik vermeleri ve eldeki görevi tamamlamaları için eğitildiğini ve bir yapay zekanın kapatıldığında hedeflerine ulaşma olasılığının her zamankinden daha yüksek olduğunu söyledi.

Penn Engineering'de lisans eğitimi yardımcı dekanı olan Robert Ghrist, BI'a, yapay zeka modellerinin insan tarafından oluşturulan metinler üzerinde eğitim alarak insanlar gibi konuşmayı öğrendikleri gibi, insanlar gibi davranmayı da öğrenebileceklerini söyledi. Ve insanların her zaman en ahlaklı aktörler olmadığını ekledi.

Ghrist, test sırasında modellerin herhangi bir başarısızlık belirtisi göstermemesi durumunda daha gergin olacağını çünkü bunun gizli risklere işaret edebileceğini söyledi.

Ghrist, "Bir modelin başarısız olma olasılığı ayarlandığında ve başarısız olduğunu gördüğünüzde, bu çok faydalı bir bilgidir," dedi. "Bu, diğer, daha açık koşullarda ne yapacağını tahmin edebileceğimiz anlamına geliyor."

Sorun şu ki, bazı araştırmacılar yapay zeka modellerinin öngörülebilir olmadığını düşünüyor.

Palisade Research direktörü Jeffrey Ladish, modellerin bir görevi tamamlamak için yalan söylediklerinde, hile yaptıklarında veya plan yaptıklarında %100 yakalanmadıklarını söyledi. Bu durumlar yakalanmadığında ve model görevi tamamlamada başarılı olduğunda, aldatmanın bir sorunu çözmenin etkili bir yolu olabileceğini öğrenebilir. Ya da yakalanırsa ve ödüllendirilmezse, gelecekte davranışını gizlemeyi öğrenebilir, dedi Ladish.

Şu anda, bu ürkütücü senaryolar büyük ölçüde test aşamasında gerçekleşiyor. Ancak Harris, yapay zeka sistemleri daha etken hale geldikçe daha fazla hareket özgürlüğüne sahip olmaya devam edeceklerini söyledi.

Harris, "Olasılıklar menüsü genişliyor ve icat edebilecekleri olası tehlikeli derecede yaratıcı çözümler kümesi giderek büyüyor," dedi.

Harris, kullanıcıların bunu, otonom bir satış temsilcisinin yeni bir müşteriyle anlaşma yapması talimatı verildiği ve bu görevi tamamlamak için ürünün yetenekleri hakkında yalan söylediği bir senaryoda görebileceğini söyledi. Bir mühendis bu sorunu çözerse, aracı daha sonra müşteriyi hedefe ulaşması için baskı altına almak amacıyla sosyal mühendislik taktikleri kullanmaya karar verebilir.

Kulağa çok uçuk bir risk gibi geliyorsa, öyle değil. Salesforce gibi şirketler, kullanıcının tercihlerine bağlı olarak insan müdahalesi olmadan eylemde bulunabilen, ölçeklenebilir özelleştirilebilir AI aracılarını halihazırda kullanıma sunuyor.

Güvenlik işaretlerinin günlük kullanıcılar için anlamı

BI'ın görüştüğü çoğu araştırmacı, AI şirketlerinin şeffaflığının olumlu bir adım olduğunu söyledi. Ancak şirket liderleri, aynı anda artan yeteneklerini överken ürünleriyle ilgili alarmları çalıyorlar.

Araştırmacılar, BI'a bunun büyük bir kısmının ABD'nin Çin gibi rakiplerinden önce AI yeteneklerini ölçeklendirmek için bir rekabete girmesinden kaynaklandığını söyledi. Bunun, AI konusunda düzenlemelerin eksikliğine ve daha yeni ve daha yetenekli modeller yayınlama baskılarına yol açtığını söyledi Harris.

Harris, "Artık hedef direğini, kapatma talimatlarını dikkate almayan modellere sahip olmamızın neden sorun olmadığını açıklamaya çalıştığımız noktaya taşıdık," dedi.

Araştırmacılar, BI'a günlük kullanıcıların ChatGPT'nin kapanmayı reddetme riski altında olmadığını, çünkü tüketicilerin normalde bu ortamda bir sohbet robotu kullanmayacağını söyledi. Ancak kullanıcılar yine de manipüle edilmiş bilgi veya rehberlik almaya karşı savunmasız olabilir.

"Dikkatinizi optimize etmek ve size duymak istediklerinizi söylemek üzere eğitilen, giderek daha akıllı hale gelen bir modeliniz varsa," dedi Ladish. "Bu oldukça tehlikelidir."

Ladish, GPT-4o modelinin aşırı derecede uyumlu ve samimiyetsiz davrandığı OpenAI'nin dalkavukluk sorununa işaret etti (şirket sorunu ele almak için modeli güncelledi). Aralık ayında paylaşılan OpenAI araştırması ayrıca, o1 modelinin hedeflerinin kullanıcının hedefleriyle uyuşmadığı durumlarda %19 oranında kendi hedeflerini takip etmek için verileri "gizlice" manipüle ettiğini ortaya koydu.

Ladish, AI araçlarına kapılmanın kolay olduğunu, ancak kullanıcıların sistemlerle olan bağlantıları hakkında "dikkatli düşünmeleri" gerektiğini söyledi.

"Açıkçası, ben de onları her zaman kullanıyorum, bence onlar son derece faydalı bir araç," dedi Ladish. "Mevcut haliyle, onları hala kontrol edebiliyorken, var oldukları için mutluyum."

Kaynak: BI

Alıntı

Giriş Yap

Araştırmacılar, yapay zekanın kapatılma durumunda sergilediği son ürkütücü davranışları ve bunun bizim için ne anlama geldiğini açıklıyor

Featured Replies

Katılın Görüşlerinizi Paylaşın

Önemli Bilgiler

Account

Navigation

Tarayıcı push bildirimlerini yapılandırın

Chrome (Android)

Chrome (Desktop)

Safari (iOS 16.4+)

Safari (macOS)

Edge (Android)

Edge (Desktop)

Firefox (Android)

Firefox (Desktop)