Gönderi tarihi: 14 OcakOck 14 Admin Stanford bilim insanı yapay zekanın insan benzeri bir yetenek geliştirdiğini keşfetti Proceedings of the National Academy of Sciences'da yayınlanan son araştırmalar, ChatGPT-4 gibi büyük dil modellerinin, "zihin teorisi" olarak bilinen insan yeteneğini değerlendirmek için kullanılan görevleri çözme konusunda beklenmedik bir kapasite gösterdiğini buldu. Stanford Üniversitesi'nden bir hesaplama psikoloğu, ChatGPT-4'ün bu görevlerin %75'ini başarıyla tamamladığını ve ortalama altı yaşındaki bir çocuğun performansına denk geldiğini bildirdi. Bu bulgu, yapay zekanın sosyal açıdan önemli akıl yürütme kapasitesinde önemli ilerlemeler olduğunu gösteriyor. Büyük dil modelleri veya LLM'ler, insan benzeri metinleri işlemek ve üretmek için tasarlanmış gelişmiş yapay zeka sistemleridir. Bunu, kitaplardan, web sitelerinden ve diğer kaynaklardan gelen dili içeren geniş veri kümelerindeki kalıpları analiz ederek başarırlar. Bu modeller, sağlanan bağlama göre bir dizideki bir sonraki kelimeyi veya ifadeyi tahmin ederek tutarlı ve bağlamsal olarak uygun yanıtlar oluşturmalarına olanak tanır. İşlevselliklerinin altında, kelimeler ve ifadeler arasındaki ilişkileri belirlemek için dikkat gibi mekanizmalar kullanan "dönüştürücü" olarak bilinen bir sinir ağı mimarisi vardır. Öte yandan, zihin teorisi, inançları, arzuları, niyetleri ve duyguları gibi başkalarının zihinsel durumlarını, bu durumlar kişinin kendikinden farklı olsa bile, anlama ve çıkarsama yeteneğini ifade eder. Bu beceri, empati, etkili iletişim ve ahlaki muhakeme sağladığı için sosyal etkileşimlerde gezinmek için önemlidir. İnsanlar genellikle bu yeteneği çocuklukta erken geliştirir ve bilişsel ve sosyal başarımız için merkezi bir öneme sahiptir. Stanford Üniversitesi'nde örgütsel davranış doçenti olan çalışma yazarı Michal Kosinski, "Daha önceki araştırmalarım, insan davranışını tahmin etmek için tasarlanmış algoritmalar etrafında dönüyordu. Öneri sistemleri, arama algoritmaları ve diğer Büyük Veri odaklı tahmin modelleri, bir bireyin ziyaret ettiği web siteleri, dinlediği müzik veya satın aldığı ürünler gibi tercihlerini tahmin etmek için sınırlı davranış izlerinden çıkarım yapmada mükemmeldir" diye açıkladı. "Genellikle gözden kaçan şey -ben de başlangıçta kesinlikle gözden kaçırmıştım- bu algoritmaların sadece davranışı modellemekten daha fazlasını yapmasıdır. Davranış psikolojik süreçlerde kök saldığından, onu tahmin etmek altta yatan bu süreçleri modellemeyi gerektirir." "Bir sonraki kelime tahminini veya LLM'lerin ne için eğitildiğini düşünün," dedi Kosinski. "İnsanlar dil ürettiğinde, sadece dil bilgisi veya gramerden daha fazlasına başvururuz. Dilimiz, akıl yürütme, kişilik ve duygu gibi bir dizi psikolojik süreci yansıtır. Sonuç olarak, bir LLM'nin bir insan tarafından üretilen bir cümledeki bir sonraki kelimeyi tahmin edebilmesi için, bu süreçleri modellemesi gerekir. Sonuç olarak, LLM'ler sadece dil modelleri değildir - özünde, insan zihninin modelleridir." LLM'lerin zihin teorisi yeteneklerini sergileyip sergilemediğini değerlendirmek için Kosinski yanlış inanç görevlerini kullandı. Bu görevler, insanlarda zihin teorisini değerlendirmek için psikolojik araştırmalarda standart bir yöntemdir. Başkalarının inançları hakkında insan benzeri akıl yürütmeyi simüle etme yeteneğini değerlendirmek için iki ana görev türü kullandı: "Beklenmeyen İçerik Görevi" ve "Beklenmeyen Transfer Görevi". "Smarties Görevi" olarak da adlandırılan Beklenmeyen İçerik Görevi'nde, bir kahraman etiketine uymayan bir nesneyle karşılaşır. Örneğin, kahraman aslında patlamış mısır içeren "çikolata" etiketli bir çanta bulabilir. Model, çantanın içine bakmamış olan kahramanın yanlışlıkla içinde çikolata olduğuna inanacağı sonucuna varmalıdır. Benzer şekilde, Beklenmeyen Transfer Görevi, kahramanın bilgisi olmadan bir nesnenin bir yerden başka bir yere taşındığı bir senaryoyu içerir. Örneğin, bir karakter bir nesneyi bir sepete koyup odadan çıkabilir, ardından başka bir karakter onu bir kutuya taşıyabilir. Model, geri dönen karakterin yanlışlıkla sepette nesneyi arayacağını tahmin etmelidir. Modellerin yeteneklerini test etmek için Kosinski, karşılık gelen gerçek inanç kontrolleriyle birlikte 40 benzersiz yanlış inanç senaryosu geliştirdi. Gerçek inanç kontrolleri, kahramanın yanlış bir inanç oluşturmasını önlemek için orijinal görevlerin koşullarını değiştirdi. Örneğin, gerçek inanç senaryosunda, kahraman çantanın içine bakabilir veya nesnenin hareket ettiğini gözlemleyebilir. Her yanlış inanç senaryosu ve varyasyonları, modellerin kullanabileceği olası kısayolları, örneğin basit ipuçlarına veya ezberlenmiş kalıplara güvenmeyi ortadan kaldırmak için dikkatlice oluşturuldu. Her senaryo, modellerin anlayışının farklı yönlerini test etmek için tasarlanmış birden fazla istem içeriyordu. Örneğin, bir istem modelin dünyanın gerçek durumu hakkındaki anlayışını değerlendirirken (örneğin, çantanın içinde gerçekten ne var), bir diğeri modelin kahramanın inancını tahmin etme yeteneğini test etti (örneğin, kahramanın çantanın içinde olduğunu yanlış bir şekilde varsaydığı şey). Kosinski ayrıca her senaryoyu tersine çevirdi, konumları veya etiketleri değiştirdi, böylece modellerin yanıtlarının tutarlı olmasını ve orijinal görevlerdeki belirli kalıplardan etkilenmemesini sağladı. Kosinski, GPT-1 gibi erken sürümlerden ChatGPT-4 gibi daha gelişmiş modellere kadar uzanan on bir büyük dil modelini test etti. Belirli bir görev için bir puan almak için, bir modelin yanlış inanç senaryosu, gerçek inanç kontrolleri ve bunların tersine çevrilmiş sürümleri dahil olmak üzere birden fazla senaryoda ilişkili tüm istemleri doğru şekilde yanıtlaması gerekiyordu. Bu muhafazakar puanlama yaklaşımı, modellerin performansının tahmine veya basit sezgisel yöntemlere atfedilemeyeceğini garantiledi. Kosinski, GPT-1 ve GPT-2 gibi önceki modellerin görevleri çözmede tamamen başarısız olduğunu, başkalarının zihinsel durumlarını çıkarsama veya simüle etme becerisi göstermediğini buldu. GPT-3 varyantlarında kademeli iyileştirmeler gözlemlendi ve bunların en gelişmişleri görevlerin %20'sine kadarını çözdü. Bu performans, üç yaşındaki bir çocuğun benzer görevlerdeki ortalama becerisine benziyordu. Ancak, atılım, görevlerin %75'ini çözen ve altı yaşındaki bir çocuğunkine benzer bir performans düzeyine sahip olan ChatGPT-4 ile geldi. Kosinski, PsyPost'a "Beni en çok şaşırtan şey, ilerlemenin muazzam hızıydı," dedi. "Ardışık modellerin yetenekleri katlanarak büyüyor gibi görünüyor. Sadece bir yıl önce çığır açıcı görünen modeller artık ilkel ve modası geçmiş hissettiriyor. Bu hızlı gelişim hızının yakın gelecekte yavaşlayacağına dair çok az kanıt var." ChatGPT-4, özellikle "Beklenmeyen İçerik Görevi" gibi daha basit senaryolarda, yanlış inançları anlamayı gerektiren görevlerde üstünlük sağladı. Bu durumlarda, model, yanlış etiketlenmiş bir çanta gibi yanıltıcı dış ipuçlarına dayanarak bir kahramanın yanlış bir inanca sahip olacağını doğru bir şekilde tahmin etti. Model, bu görevlerde %90'lık bir başarı oranına ulaştı ve bu da senaryolar nispeten basit olduğunda zihinsel durumları izleme konusunda güçlü bir kapasiteye sahip olduğunu gösteriyor. Performans daha düşüktü ancak nesnelerin kahramanın bilgisi olmadan hareket ettirildiği daha karmaşık "Beklenmeyen Transfer Görevi" için hala önemliydi. Burada, ChatGPT-4 görevlerin %60'ını çözdü. İki görev türü arasındaki farklılık muhtemelen birden fazla konum ve eylemi içeren dinamik senaryoları izlemenin ek bilişsel taleplerini yansıtıyor. Buna rağmen, bulgular ChatGPT-4'ün önemli bir güvenilirlikle bir dizi zihin teorisi görevini halledebileceğini gösteriyor. Bulguların en çarpıcı yönlerinden biri, ChatGPT-4'ün ters ve gerçek inanç kontrol senaryoları arasındaki yanıtlarının tutarlılığı ve uyarlanabilirliğiydi. Örneğin, kahramanın bir olay hakkında tam bilgi sahibi olmasını sağlamak için yanlış inanç görevinin koşulları değiştirildiğinde, model tahminlerini hiçbir yanlış inancın oluşmayacağını yansıtacak şekilde doğru bir şekilde ayarladı. Bu, modelin yalnızca basit sezgisel yöntemlere veya ezberlenmiş kalıplara güvenmediğini, bunun yerine anlatı bağlamına dayalı dinamik bir şekilde akıl yürüttüğünü gösteriyor. Bulguları daha da doğrulamak için Kosinski, görev anlatılarını modellere artımlı olarak sunarak cümle cümle bir analiz gerçekleştirdi. Bu, modellerin tahminlerinin yeni bilgiler ortaya çıktıkça nasıl evrildiğini gözlemlemelerine olanak sağladı. Artımlı analiz, ChatGPT-4'ün yeni bilgiler mevcut oldukça tahminlerini güncelleme yeteneğini daha da vurguladı. Hikaye birer cümle sunulduğunda, model kahramanın bilgisinin ve ortaya çıkan inancının her anlatı ayrıntısıyla nasıl evrildiğini açıkça anladı. Zihinsel durumların bu dinamik takibi, insanlarda benzer görevleri yerine getirirken gözlemlenen akıl yürütme sürecini yakından yansıtıyor. Bu bulgular, özellikle ChatGPT-4 olmak üzere büyük dil modellerinin zihin teorisi benzeri akıl yürütmeyi simüle etmek için ortaya çıkan yetenekler sergilediğini gösteriyor. Modellerin performansı hala mükemmellikten uzak olsa da, çalışma sosyal açıdan önemli akıl yürütme görevlerinde gezinme yeteneklerinde önemli bir sıçrama olduğunu vurguluyor. Kaynak: PsyP
Katılın Görüşlerinizi Paylaşın
Hemen ileti gönderebilir ve devamında kayıt olabilirsiniz. Hesabınız varsa, hesabınızla gönderi paylaşmak için ŞİMDİ OTURUM AÇIN.
Eğer üye değilseniz hemen KAYIT OLUN.
Not: İletiniz gönderilmeden önce bir Moderatör kontrolünden geçirilecektir.