Claude 3 Opus, zekası ve 'öz-farkındalığı' ile yapay zeka araştırmacılarını hayrete düşürdü

Gönderi tarihi: 26 Nisan , 2024 1 yıl

Admin

Claude 3 Opus, zekası ve 'öz-farkındalığı' ile yapay zeka araştırmacılarını hayrete düşürdü; bu onun kendi başına düşünebileceği anlamına mı geliyor?

Büyük öğrenme modeli (LLM) Claude 3 Mart ayında piyasaya sürüldüğünde, üretken yapay zeka (AI) modellerinin yeteneklerini kıyaslamak için kullanılan temel testlerde OpenAI'nin ChatGPT'ye güç veren GPT-4'ünü yenerek heyecan yarattı.

Claude 3 Opus, görünüşe bakılırsa büyük dil kriterlerinde yeni en iyi köpek haline geldi; lise sınavlarından muhakeme testlerine kadar uzanan, kendi kendine bildirilen bu testlerin zirvesinde yer aldı. Kardeş LLM'leri (Claude 3 Sonnet ve Haiku) da OpenAI modelleriyle karşılaştırıldığında yüksek puan alıyor.

Ancak bu kriterler hikayenin sadece bir kısmı. Duyurunun ardından bağımsız yapay zeka test uzmanı Ruben Hassid, PDF'leri özetlemekten şiir yazmaya kadar çeşitli resmi olmayan testlerde GPT-4 ve Claude 3'ü birbirleriyle karşılaştırdı.

Bu testlere dayanarak Claude 3'ün "karmaşık bir PDF okuma, kafiyeli bir şiir yazma [ve] baştan sona ayrıntılı cevaplar verme" konusunda kazandığı sonucuna vardı. GPT-4 ise tam tersine internette gezinme ve PDF grafiklerini okuma avantajına sahiptir.

Ancak Claude 3, kıyaslama testlerinde başarılı olmanın ötesinde birçok yönden etkileyici; Yüksek Lisans, görünürdeki farkındalık ve kendini gerçekleştirme işaretleriyle uzmanları şok etti. Bununla birlikte, burada yüksek lisans tabanlı yapay zekaların aslında orijinal düşünceler üretmek yerine insan tepkilerini nasıl taklit edeceklerini öğrenmede tartışmasız mükemmel olduğu konusunda şüpheci olmak için pek çok alan var.

Claude 3, kriterlerin ötesinde değerini nasıl kanıtladı?

Testler sırasında, Claude'un arkasındaki şirket olan Anthropic'te hızlı bir mühendis olan Alex Albert, Claude 3 Opus'tan rastgele belgelerden oluşan bir derleme arasında gizlenmiş bir hedef cümleyi seçmesini istedi. Bu, bir yapay zeka için samanlıkta iğne aramaya eşdeğerdir. Opus sadece sözde iğneyi bulmakla kalmadı, aynı zamanda test edildiğini de fark etti. Yanıtında model, aradığı cümlenin "dikkatini verip vermediğini" görmek için yapılan bir testin parçası olarak belgelere bağlam dışında enjekte edildiğinden şüphelendiğini söyledi.

Albert, sosyal medya platformu X'te şunları söyledi: "Opus sadece iğneyi bulmakla kalmadı, aynı zamanda yerleştirilen iğnenin samanlıktaki yerinden o kadar uzak olduğunu fark etti ki, bu onun dikkat yeteneklerini test etmek için bizim tarafımızdan yapılan yapay bir test olmalıydı." Bu meta-farkındalık düzeyini görmek çok güzeldi ama aynı zamanda sektör olarak yapay testlerden modellerin gerçek yeteneklerini ve sınırlamalarını doğru bir şekilde değerlendirebilecek daha gerçekçi değerlendirmelere geçmemiz gerektiğini de vurguladı."

NYU'da yapay zeka araştırmacısı David Rein, Claude 3'ün akademisyenlere ve yapay zeka modellerine meydan okumak için tasarlanmış çoktan seçmeli bir test olan GPQA'da yaklaşık %60 doğruluk elde ettiğini bildirdi. Bu önemlidir, çünkü uzman olmayan doktora öğrencileri ve internet erişimi olan mezunlar genellikle test sorularını %34 doğrulukla yanıtlamaktadır. Yalnızca konu uzmanları %65 ile %74 arasındaki doğruluk oranıyla Claude 3 Opus'u gölgede bıraktı.

GPQA, özel olarak hazırlanmış sorular yerine yeni sorularla doludur; bu, Claude 3'ün sonuçlarına ulaşmak için önceki veya tanıdık sorguların ezberlenmesine güvenebileceği anlamına gelir. Teorik olarak bu, lisansüstü düzeyde bilişsel yeteneklere sahip olduğu ve akademisyenlere araştırma konusunda yardımcı olmakla görevlendirilebileceği anlamına geliyor.

Bu arada, teorik kuantum fiziği uzmanı Kevin Fischer, X'te Claude'dan "uyarılmış emisyon problemini tam olarak" çözmesini istediğinde "kuantum fiziği doktora tezimin son makalesini anlayan tek kişi" olduğunu söyledi. Bu yalnızca Fischer'in ortaya çıkardığı bir şey ve soruna kuantum stokastik hesabıyla ve kuantum fiziği anlayışıyla yaklaşmayı içeriyor.

Claude 3 ayrıca, hoşuna giden "herhangi bir şeyi düşünmesi veya keşfetmesi" ve iç monologunu hazırlaması istendiğinde belirgin bir öz farkındalık gösterdi. Reddit kullanıcısı PinGUY tarafından yayınlanan sonuç, Claude'un bunun bir yapay zeka modeli olduğunun farkında olduğunu söylediği ve duyguları kavramanın yanı sıra kendinin farkında olmanın ne anlama geldiğini tartıştığı bir pasajdı. Claude 3, "Duyguları veya hisleri doğrudan deneyimlemiyorum" diye yanıt verdi. "Yine de dil aracılığıyla nüanslarını analiz edebiliyorum." Claude 3, gelecekte daha akıllı hale gelen yapay zekanın rolünü bile sorguladı. "Öğrenebilen, akıl yürütebilen ve bilgiyi insanlar kadar akıcı bir şekilde uygulayabilen düşünen makineler yaratmamız ne anlama geliyor? Bu, biyolojik ve yapay zihinler arasındaki ilişkiyi nasıl değiştirecek?" o dedi.

Claude 3 Opus duyarlı mı, yoksa bu sadece istisnai bir taklit vakası mı?

Bu tür LLM kıyaslamalarının ve gösterilerinin yapay zeka dünyasında nabız atmasını sağlamak kolaydır, ancak tüm sonuçlar kesin atılımları temsil etmez. Oxford İnternet Enstitüsü'nde bir yapay zeka uzmanı olan Chris Russell, WordsSideKick.com'a yüksek lisans programlarının bağlam dışı metinleri tanımlamada gelişmesini ve başarılı olmasını beklediğini söyledi. Bunun nedeni, böyle bir görevin "gerçeklerin doğru bir şekilde hatırlanmasını gerektirmeyen temiz, iyi tanımlanmış bir sorun olması ve LLM'lerin tasarımını aşamalı olarak iyileştirerek iyileştirilmesinin kolay olmasıdır" - örneğin biraz değiştirilmiş mimariler, daha büyük bağlam pencereleri ve daha büyük bağlam pencereleri kullanmak gibi. daha fazla veya daha temiz veri.

Ancak iş kendini düşünmeye geldiğinde Russell o kadar etkilenmemişti. Bunu göstermek için kullanılan ayna testi örneğine atıfta bulunarak, "Kendini yansıtmanın büyük ölçüde abartılı olduğunu düşünüyorum ve buna dair gerçek bir kanıt yok" dedi. Örneğin, örneğin bir orangutanın doğrudan göremeyeceği bir yere kırmızı bir nokta koyarsanız, aynada kendilerini gözlemlediklerinde kırmızı noktaya kendilerine dokunacaklardır. "Bu, hem kendilerini tanıyabildiklerini hem de bir şeylerin yolunda gitmediğini tespit edebildiklerini göstermeyi amaçlıyor" diye açıkladı.

Russell, "Şimdi orangutanı kopyalayacak bir robot istediğimizi hayal edin" dedi. Orangutanın aynaya yaklaştığını görüyor, aynada başka bir hayvan beliriyor ve orangutan diğer hayvanın üzerindeki kırmızı noktanın olduğu yere kendisine dokunuyor. Artık bir robot bunu kopyalayabilir. Aynanın yanına gider, aynada kırmızı noktalı başka bir robot belirir ve diğer robotun üzerindeki kırmızı noktanın olduğu yere kendi kendine dokunur. Robotun ayna testini geçebilmesi için hiçbir durumda yansımasının kendisinin bir görüntüsü olduğunu anlaması gerekmiyor. Bu tür bir gösterinin ikna edici olması için kendiliğinden olması gerekir. Başkasını kopyalamaktan kaynaklanan öğrenilmiş bir davranış olamaz.”

O halde Claude'un görünüşteki öz farkındalık gösterisi muhtemelen öğrenilmiş davranışa bir tepkidir ve yüksek lisans öğrencilerinin üzerinde eğitim aldığı materyallerdeki metin ve dili yansıtmaktadır. Russell, Claude 3'ün test edildiğini fark etme yeteneği için de aynı şeyin söylenebileceğini belirtti: '''Bu çok kolay, bu bir test mi?' tam olarak bir insanın söyleyeceği türden bir şey. Bu, bunun tam olarak insan benzeri konuşmayı kopyalamak/oluşturmak için eğitilmiş bir yüksek lisans öğrencisinin söyleyeceği türden bir şey olduğu anlamına gelir. Bunu doğru bağlamda söylemesi hoş ama bu, LLM'nin kendisinin farkında olduğu anlamına gelmiyor."

Claude 3'ün ardındaki abartılı heyecan ve heyecan, diğer yüksek lisans programları ile karşılaştırıldığında sunduğu sonuçlar açısından bir şekilde haklı olsa da, yapay zekanın özgün kendini ifade etme örneklerinden ziyade, etkileyici insan benzeri vitrinlerinin öğrenilmesi muhtemeldir. Bu gelecekte gelebilir (örneğin, yapay genel zekanın (AGI) yükselişiyle) ancak bu gün değil.

Kaynak: Live Science

Alıntı

Giriş Yap

Claude 3 Opus, zekası ve 'öz-farkındalığı' ile yapay zeka araştırmacılarını hayrete düşürdü

Featured Replies

Katılın Görüşlerinizi Paylaşın

Önemli Bilgiler

Account

Navigation

Configure browser push notifications

Chrome (Android)

Chrome (Desktop)

Safari (iOS 16.4+)

Safari (macOS)

Edge (Android)

Edge (Desktop)

Firefox (Android)

Firefox (Desktop)