ChatGPT V4 wyprzedza poprzeczkę, SAT i może identyfikować exploity w kontraktach ETH

GPT-4, najnowsza wersja chatbota opartego na sztucznej inteligencji (AI), ChatGPT, może zdać testy w szkole średniej i egzaminy w szkole prawniczej z wynikami na poziomie 90 percentyla i ma nowe możliwości przetwarzania, które nie były możliwe w poprzedniej wersji.

Liczby z wyników testów GPT-4 zostały udostępnione 14 marca przez jego twórcę OpenAI, ujawniając, że może on również konwertować dane wejściowe obrazu, audio i wideo na tekst, a także bardziej kreatywnie i niezawodnie obsługiwać „znacznie bardziej szczegółowe instrukcje”.

„Zdaje symulowany egzamin adwokacki z wynikiem zbliżonym do 10% najlepszych zdających” – dodał OpenAI. „W przeciwieństwie do tego, wynik GPT-3.5 był w okolicy najniższych 10%”.

Liczby pokazują, że GPT-4 uzyskał wynik 163 na 88. percentylu na egzaminie LSAT — egzaminatorzy, którzy muszą zdać egzamin w Stanach Zjednoczonych, aby dostać się na studia prawnicze.

*Wyniki egzaminów GPT-4 i GPT-3.5 na szeregu ostatnich egzaminów w USA. Źródło:* *OpenAI*

Wynik GPT4 dałby mu dobrą pozycję do przyjęcia do 20 najlepszych szkół prawniczych i jest tylko o kilka punktów niższy od zgłoszonych wyników potrzebnych do przyjęcia do prestiżowych szkół, takich jak Harvard, Stanford, Princeton czy Yale.

Poprzednia wersja ChatGPT uzyskała tylko 149 punktów w LSAT, umieszczając ją w najniższych 40%.

GPT-4 uzyskał również 298 punktów na 400 w Uniform Bar Exam — teście przeprowadzanym przez świeżo upieczonych absolwentów prawa, który pozwala im wykonywać zawód prawnika w dowolnej jurysdykcji Stanów Zjednoczonych.

*Wyniki UBE musiały zostać dopuszczone do wykonywania zawodu prawnika w każdej jurysdykcji Stanów Zjednoczonych. Źródło:* *Ogólnopolska Konferencja Egzaminatorów Adwokackich*

Stara wersja ChatGPT miała problemy w tym teście, kończąc w najniższych 10% z wynikiem 213 na 400.

Jeśli chodzi o egzaminy SAT Evidence-Based Reading & Writing oraz SAT Math, zdawane przez amerykańskich uczniów szkół średnich w celu sprawdzenia ich gotowości do podjęcia studiów, GPT-4 uzyskał odpowiednio wynik na 93. i 89. percentylu.

GPT-4 celował również w „twardych” naukach ścisłych, uzyskując znacznie powyżej średniej wyniki percentyla w biologii AP (85-100%), chemii (71-88%) i fizyce 2 (66-84%).

*Wyniki egzaminów GPT-4 i GPT-3.5 z szeregu ostatnich egzaminów w USA.* *źródło: OpenAI.*

Jednak jego wynik AP Calculus był dość przeciętny, plasując się w przedziale od 43 do 59 percentyla.

Innym obszarem, w którym brakowało GPT-4, były egzaminy z literatury angielskiej, gdzie wyniki w dwóch oddzielnych testach mieściły się w przedziale od 8 do 44 percentyla.

OpenAI powiedział, że GPT-4 i GPT-3.5 przystąpiły do tych testów z egzaminów praktycznych w latach 2022-2023, a narzędzia do przetwarzania języka nie przeszły „żadnego specjalnego szkolenia”:

„Nie przeprowadziliśmy specjalnego szkolenia do tych egzaminów. Mniejszość problemów na egzaminach została dostrzeżona przez modelkę podczas szkolenia, ale uważamy, że wyniki są reprezentatywne.”

Wyniki wywołały strach również w społeczności Twittera.

Związane z: Jak ChatGPT wpłynie na przestrzeń Web3? Odpowiedzi branżowe

Nick Almond, założyciel FactoryDAO powiedział jego 14,300 14 obserwujących na Twitterze 4 marca, że GPTXNUMX „straszy ludzi” i „zawali” globalny system edukacji.

Teoria oceniania była dużą częścią mojego życia przez kilka lat. Gadałem o tym dniu, który miał nadejść wiele lat temu. Dosłownie brzmiałem jak rezydent wariat w tamtym czasie.
Ale… naprawdę oznacza to, że od tego momentu wszystko poza inwigilowaną oceną jest skończone.
— Drnick ️² (@DrNickA) 14 marca 2023 r.

Były dyrektor Coinbase, Conor Grogan, powiedział, że umieścił inteligentny kontrakt Ethereum na żywo w GPT-4 i natychmiast wskazał kilka „luk w zabezpieczeniach” oraz nakreślił, w jaki sposób można wykorzystać kod:

Wrzuciłem kontrakt Ethereum na żywo do GPT-4.
W jednej chwili uwydatnił szereg luk w zabezpieczeniach i wskazał obszary, na których kontrakt może zostać wykorzystany. Następnie zweryfikował konkretny sposób, w jaki mogłem wykorzystać kontrakt pic.twitter.com/its5puakUW
— Conor (@jconorgrogan) 14 marca 2023 r.

Wcześniejsze audyty inteligentnych kontraktów na ChatGPT wykazały, że jego pierwsza wersja była również w stanie wykryć błędy w kodzie w rozsądnym stopniu.

Rowan Cheung, założyciel biuletynu AI „The Rundown”, udostępnił wideo, na którym GPT dokonuje transkrypcji ręcznie narysowanej fałszywej strony internetowej na kartce papieru na kod.

Właśnie widziałem, jak GPT-4 zamienia odręczny szkic w funkcjonalną stronę internetową.
To jest szalone. pic.twitter.com/P5nSjrk7Wn
— Rowan Cheung (@rowancheung) 14 marca 2023 r.