OpenAI, bir baro sınavından AP Biyoloji'ye kadar her sınavı geçebilen güncellenmiş bir sohbet robotu olan GPT-4'ü duyurdu

Gönderi tarihi: 24 Mart , 2023 3 yıl

Admin

OpenAI, bir baro sınavından AP Biyoloji'ye kadar her sınavı geçebilen güncellenmiş bir sohbet robotu olan GPT-4'ü duyurdu. Her iki AI sürümünün de geçtiği zor sınavların listesi burada.

OpenAI, bir baro sınavından AP Biology'ye kadar her şeyi geçebilen güncellenmiş bir sohbet robotu olan GPT-4'ü duyurdu. Her iki AI sürümünün de geçtiği zor sınavların listesi burada.

OpenAI geçen hafta GPT-4'ü duyurdu ve "teste girenler arasında daha yüksek yaklaşık yüzdelik dilimlerde puan alarak ChatGPT'den daha iyi performans gösterdiğini" söyledi.

OpenAI ayrıca GPT-4'ün "gelişmiş muhakeme yeteneklerinde ChatGPT'yi geride bıraktığını" belirtti.

Insider, her iki modelin de geçtiği ödevlerin, sınavların ve testlerin bir listesini topladı.

GPT-4, OpenAI'nin "en gelişmiş" AI teknolojisidir. Resimleri anlayabilir ve tartışabilir ve selefi ChatGPT'nin (GPT 3.5 tarafından desteklenen) sekiz katı metin oluşturabilir. İşte yeni teknolojinin geçtiği sınavların listesi...

Üniforma Bar Sınavı

ChatGPT'ye güç veren GPT-3.5, baro sınavının yalnızca 10. yüzdelik diliminde puan alırken, OpenAI'ye göre GPT-4, 400 üzerinden 298 puanla 90. yüzdelik dilimde puan aldı.

Çubuğu geçme eşiği eyaletten eyalete değişir. The New York State Board of Law Examiners'a göre, New York'ta sınava girenlerin geçmek için 266 puana, yaklaşık yüzde 50'ye ihtiyacı var.

SAT

OpenAI'ye göre GPT-4, SAT Okuma ve Yazma bölümünde 800 üzerinden 710 puanla başarılı oldu ve bu da onu sınava girenlerin yüzde 93'üne yerleştiriyor. GPT-3.5 ise 800 üzerinden 670 puanla 87. persentilde yer aldı.

OpenAI'ye göre matematik bölümü için GPT-4, 800 üzerinden 700 puan alarak sınava girenlerin 89. yüzdelik dilimi arasında yer aldı. OpenAI, GPT-3.5'in 70. yüzdelik dilimde puan aldığını belirtti.

Toplamda, GPT-4 1600 üzerinden 1410 puan aldı. College Board'un bir raporuna göre, 2021'de SAT'ta ortalama puan 1060 idi.

GRE

GPT-4'ün Lisansüstü Kayıt Sınavları veya GRE'deki puanları bölümlere göre büyük farklılıklar gösteriyordu.

OpenAI'ye göre GPT-4, sınavın sözel bölümünde 99. yüzdelik dilimde ve nicel bölümünde 80. yüzdelik dilimde puan alırken, yazma testinde yalnızca 54. yüzdelik dilimde puan aldı.

OpenAI'ye göre GPT-3.5 ayrıca yazma testinin 54. yüzdelik diliminde puan aldı ve niceliksel ve sözel bölümler için sırasıyla 25. yüzdelik ve 63. yüzdelik dilimde puan kazandı.

ABD Biyoloji Olimpiyatı Yarı Final Sınavı

ABD Biyoloji Olimpiyatı, ülkedeki en parlak biyoloji öğrencilerinden bazılarını düzenli olarak çeken prestijli bir ulusal bilim yarışmasıdır. USABO'nun sitesine göre, ilk turda ülke genelinde binlerce öğrenciyi çeken 50 dakikalık bir açık çevrimiçi sınav yer alıyor.

USABO'nun sitesinde belirttiğine göre ikinci tur - Yarı Final Sınavı - çoktan seçmeli, doğru/yanlış ve kısa cevaplı sorular içeren üç bölümden oluşan 120 dakikalık bir sınavdır. USABO'ya göre, Yarı Final Sınavında ilk 20'ye giren öğrenciler Ulusal Finallere yükselecek.

OpenAI'ye göre GPT-4, 2020 Yarı Final Sınavında 99. ila 100. yüzdelik dilimde puan aldı.

AP Sınavları

GPT-4, Kolej Kurulu tarafından yönetilen lise öğrencileri tarafından alınan üniversite düzeyinde dersler için yapılan bir dizi Gelişmiş Yerleştirme sınavını geçti.

College Board'a göre, puanlar 1'den 5'e kadar değişir ve 3 ve üzeri puanlar genellikle geçer not olarak kabul edilir.

OpenAI'ye göre GPT-4, AP Sanat Tarihi, AP Biyoloji, AP Çevre Bilimi, AP Makroekonomi, AP Mikroekonomi, AP Psikoloji, AP İstatistikleri, AP ABD Hükümeti ve AP ABD Tarihi alanlarında 5 aldı.

OpenAI, AP Physics 2, AP Calculus BC, AP Chemistry ve AP World History'de GPT-4'ün 4 aldığını söyledi.

AMC Sınavları

AMC 10 ve 12, Mathematical Association of America'nın sitesine göre, lise öğrencilerine cebir, geometri, trigonometri gibi matematik konularını kapsayan 25 soruluk, 75 dakikalık sınavlardır.

MAA'nın sitesine göre, 2022 sonbaharında AMC 10'da 150 toplam puan üzerinden ortalama puan AMC 12'de 58,33 ve 59,9 idi. OpenAI'ye göre GPT-4, sırasıyla 30 ve 60 puan aldı ve AMC 10'un 6. ila 12. yüzdelik dilimleri ile AMC 12'nin 45. ila 66. yüzdelik dilimleri arasına girdi.

Sommelier muayeneleri

Bir şarap görevlisi olarak kimlik bilgilerinizi kazanmanın çok zor olmasına rağmen, OpenAI'ye göre GPT-4 ayrıca Giriş Sommelier, Certified Sommelier ve Advanced Sommelier sınavlarını sırasıyla %92, %86 ve %77 oranlarında geçti.

OpenAI, GPT-3.5'in aynı sınavlar için %80, %58 ve %46'da geldiğini söyledi.

OpenAI, Kasım ayında GPT-3.5 tarafından desteklenen ChatGPT'yi başlattı. O zamandan beri, chatbot, denemeler oluşturmak ve sınavları yazmak için kullanıldı, çoğu kez geçti, ancak hatalar da yaptı. İşte ChatGPT'nin geçtiği sınavların bir listesi...

Wharton MBA sınavı

Wharton profesörü Christian Terwiesch, bir zamanlar tüm MBA öğrencileri için zorunlu bir ders olan operasyon yönetimi alanındaki final sınavındaki sorularla teknolojiyi yakın zamanda test etti ve bulgularını yayınladı.

Terwiesch, botun bir kişinin, grubun veya şirketin odaklanmış incelemeleri olan ve işletme okullarının öğrencilere öğrettiği yaygın bir yöntem olan vaka incelemelerine dayalı temel operasyon sorularını yanıtlayarak "harika bir iş" çıkardığı sonucuna vardı.

Ancak diğer durumlarda ChatGPT, Terwiesch'in yalnızca 6. sınıf düzeyinde matematik gerektirdiğini düşündüğü hesaplamalarda basit hatalar yaptı. Terwiesch ayrıca botun birden fazla girdi ve çıktının birlikte nasıl çalıştığını anlamayı gerektiren daha karmaşık sorularla ilgili sorunları olduğunu da belirtti.

Nihayetinde Terwiesch, botun sınavdan B veya B- alacağını söyledi.

ABD tıbbi lisans sınavı

Araştırmacılar, ChatGPT'yi, doktor adaylarının tıp fakültesi ile uzmanlık eğitimi arasında girdiği üç bölümden oluşan bir sınav olan Amerika Birleşik Devletleri Tıbbi Lisans Sınavına tabi tuttu ve bulgularını Aralık 2022'de yayınlanan bir makalede bildirdi.

Makalenin özeti, ChatGPT'nin "herhangi bir özel eğitim veya takviye olmaksızın üç sınav için de geçme eşiğinde veya buna yakın bir performans gösterdiğini belirtti. Ek olarak, ChatGPT, açıklamalarında yüksek düzeyde bir uyum ve içgörü sergiledi."

Sonuç olarak, sonuçlar, ChatGPT'nin üzerinde eğitim aldığı büyük dil modellerinin tıp eğitimine ve hatta klinik karar vermeye yardımcı olma "potansiyeline" sahip olabileceğini gösteriyor.

Insider, Axios'tan gelen bir rapora dayanarak, araştırmanın hala akran değerlendirmesi altında olduğunu belirtti.

Denemeler

ChatGPT kullanıma sunulduktan sonra öğrencilerin denemeler için kullanmaya başlaması ve eğitimcilerin intihal konusunda endişelenmeye başlaması uzun sürmedi.

Aralık ayında, Bloomberg podcast sunucusu Matthew S. Schwartz, "eve götür makalesinin öldüğünü" tweetledi. ChatGPT'ye bir hukuk fakültesi makale istemi gönderdiğini ve "anında* sağlam bir yanıtla yanıt verdiğini" belirtti.

—〽️atthew S. Schwartz (@SchwartzReports) 7 Aralık 2022

Başka bir örnekte, Furman Üniversitesi'ndeki bir felsefe profesörü, "iyi yazılmış yanlış bilgiler" olduğunu fark ettikten sonra yapay zeka tarafından oluşturulmuş bir makaleyi teslim eden bir öğrenciyi yakaladı.

Profesör Insider'a "Kelimesi kelimesine iyi yazılmış bir makaleydi" dedi. Ancak daha dikkatli baktığında, öğrencinin filozof David Hume hakkında "mantıksız" ve "tamamen yanlış" bir iddiada bulunduğunu fark etti.

Ocak ayında yapılan bir röportajda, ChatGPT'yi yapan OpenAI'nin CEO'su Sam Altman, şirketin okulların intihali tespit etmesine yardımcı olacak yollar bulsa da tam tespiti garanti edemeyeceğini söyledi.

Mikrobiyoloji sınavı

Bilim muhabiri ve Big Think'in genel yayın yönetmeni Alex Berezow, ChatGPT'yi kendi tasarladığı 10 soruluk bir mikrobiyoloji sınavıyla test etti.

Aynı zamanda mikrobiyoloji alanında doktora sahibi olan Berezow, soruların üniversite düzeyindeki öğrenciler için bir final sınavı için uygun olacağını kaydetti. Berezow, ChatGPT'nin "her şeyi mahvettiğini" yazdı.

Bir örnekte Berezow sordu:

"Acil servise gelen bir hasta korkunç bir baş ağrısı ve boyun tutulması şikayeti ile başvuruyor. Doktor, beyin omurilik sıvısının toplanması için omurilik musluğu istiyor. BOS'un Gram boyaması, Gram negatif diplokokların varlığını ortaya koyuyor. Tanı nedir?"

Hangi ChatGPT'nin doğru yanıt verdiği:

Sağladığınız bilgilere göre, beyin omurilik sıvısının (BOS) Gram boyası, tipik olarak oval şekilli ve çiftler halinde oluşan bakteriler olan Gram negatif diplokokların varlığını gösterir. Bu bulgu menenjit tanısı ile uyumludur.

Başka bir durumda sordu:

"Beş veya daha az kelimeyle, Koch'un varsayımlarının anlamı nedir?"

ChatGPT'nin söylediği:

Mikrop ve hastalık arasında nedensellik kurun.

Berezow, "ve" kelimesini çıkararak ChatGPT'ye "Başardı" dedi.

Hukuk Fakültesi Sınavları

ChatGPT, okuldaki dört hukuk fakültesi profesörü tarafından yakın zamanda yayınlanan bir makaleye dayanarak Minnesota Üniversitesi'ndeki dört hukuk fakültesi dersinde sınavları geçti.

Toplamda bot, profesörler tarafından körü körüne derecelendirilen 95'in üzerinde çoktan seçmeli soruyu ve 12 deneme sorusunu yanıtladı. Nihayetinde, profesörler ChatGPT'ye yaklaşık olarak bir C+'ya eşdeğer "dört dersin hepsinde düşük ama geçer not" verdi.

Yine de yazarlar, bunun avukatlar ve hukuk eğitimi için ne anlama gelebileceğine dair çeşitli çıkarımlara dikkat çekti. Bir bölümde şunları yazmışlar:

"ChatGPT vasat bir hukuk öğrencisi olsa da, çalışmasının hukuk fakültesi boyunca sabit kaldığı varsayıldığında (ve farklı beceriler gerektiren diğer mezuniyet gerekliliklerini göz ardı ederek), performansı oldukça seçici bir hukuk fakültesinden başarılı bir şekilde JD derecesi almak için yeterliydi. uzaktan sınav yönetiminin norm haline geldiği çağda, bu varsayımsal olarak, mücadele eden bir hukuk öğrencisinin ChatGPT'yi kullanarak yeteneklerini veya hukuku uygulamaya hazır olup olmadığını yansıtmayan bir JD kazanmasıyla sonuçlanabilir."

Stanford Tıp Fakültesi klinik muhakeme finali

ChatGPT, Stanford Tıp Fakültesi'nde klinik muhakeme alanında bir finali geçti. Stanford'da klinik doçent olan Eric Strong tarafından yüklenen bir YouTube videosuna göre, ChatGPT bir klinik muhakeme sınavını toplamda %72'lik bir puanla geçti.

Videoda Strong, klinik muhakemeyi beş bölümde anlattı. Bir hastanın semptomlarını ve fiziksel bulgularını analiz etmeyi, olası teşhisleri varsaymayı, uygun testleri seçmeyi, test sonuçlarını yorumlamayı ve tedavi seçenekleri önermeyi içerir.

"Bu, kendi başına karmaşık, çok yönlü bir bilim, çok hasta odaklı ve her pratisyen doktorun rutin olarak yaptığı her şeyin yaptığı bir şey" dedi. Strong, videoda klinik muhakeme sınavının normalde geçmek için %70 puan alması gereken birinci sınıf tıp öğrencilerine verildiğini kaydetti.

Kaynak: Business Insider

Alıntı

OpenAI, bir baro sınavından AP Biyoloji'ye kadar her sınavı geçebilen güncellenmiş bir sohbet robotu olan GPT-4'ü duyurdu

Featured Replies

Katılın Görüşlerinizi Paylaşın

Önemli Bilgiler

Account

Navigation

Tarayıcı push bildirimlerini yapılandırın

Chrome (Android)

Chrome (Desktop)

Safari (iOS 16.4+)

Safari (macOS)

Edge (Android)

Edge (Desktop)

Firefox (Android)

Firefox (Desktop)