Home Tehnoloģija Es pārbaudīju GPT-5 kodēšanas prasmes, un tas bija tik slikti, ka es...

Es pārbaudīju GPT-5 kodēšanas prasmes, un tas bija tik slikti, ka es pieturos ar GPT-4O (pagaidām)

16
0

Vaselena/Getty Photos

ZDNET galvenie pārņemšana

  • Openai jaunais GPT-5 flagmanis neizdevās pusi no maniem programmēšanas testiem.
  • Iepriekšējiem Openai izlaidumiem ir bijuši gandrīz perfekti rezultāti.
  • Tagad, kad Openai ir ļāvis atkāpties no citiem LLM, ir iespējas.

Tātad notika GPT-5. Tas ir ārā. Tas ir atbrīvots. Tā ir virtuālās pilsētas saruna. Un tam ir dažas problēmas. Es negrasos apglabāt Lede. GPT-5 ir izgāzies pusi no maniem programmēšanas testiem. Tas ir vissliktākais, ko Openai vadošais LLM jebkad ir darījis manos rūpīgi izstrādātajos testos.

Arī: labākā AI kodēšanai 2025. gadā (un ko nelietot)

Pirms es iedziļinos detaļās, veltīsim laiku, lai apspriestu vienu citu mazu funkciju, kas ir arī mazliet parcīta. Iepazīstieties ar jauno pogu Rediģēt koda izmešanas augšdaļā, ko tā ģenerē.

rediģēt pogu

Deivida Gewirtz/Zdnet ekrānuzņēmums

Noklikšķinot uz pogas Rediģēt, jūs nokļūstat jaukā mazā koda redaktorā. Šeit es nomainīju autora lauku tieši Chatgpt rezultātos.

redaktors

Deivida Gewirtz/Zdnet ekrānuzņēmums

Tas šķita jauki, wager galu galā izrādījās veltīgs. Kad es aizvēru redaktoru, tas man jautāja, vai es gribu ietaupīt. Es izdarīju. Tad parādījās šis nelietīgais vēstījums.

conky-tra

Deivida Gewirtz/Zdnet ekrānuzņēmums

Es nekad neatgriezos savā sākotnējā sesijā. Man vajadzēja atkal iesniegt savu sākotnējo uzvedni un ļaut GPT-5 veikt savu darbu otro reizi.

Wager pagaidiet. Tur ir vairāk. Iekļūstim manos testa rezultātos …

1. WordPress spraudņa rakstīšana

Šis bija mans pirmais pārbaudījums kodēšanas veiklībai jebkurai AI. Tas man deva, ka vispirms “pasaule drīz mainīsies”, un tā tika izdarīta, izmantojot GPT-3.5.

Turpmākie testi, izmantojot to pašu uzvedni, wager ar dažādiem AI modeļiem, ģenerēja jauktus rezultātus. Daži AIS izdarīja lieliski, citi to nedarīja. Daži AIS, piemēram, Microsoft un Google, laika gaitā uzlabojās.

Arī: kā es pārbaudu AI Chatbot kodēšanas spēju – un arī jūs varat

Chatgpt modelis ir bijis zelta standarts šim testam kopš paša sākuma. Tas padara GPT-5 rezultātus tik daudz ziņkārīgākus.

Tātad, paskatieties, faktiskā kodēšana ar GPT-5 bija daļēji veiksmīga. GPT-5 ģenerēja vienu koda bloku, kuru es ielādēju failā un varēju palaist. Tas nodrošināja nepieciešamo lietotāja saskarni.

Kad es ielīmēju testa nosaukumus, tas dinamiski atjaunināja līnijas skaitu, lai gan tas to raksturoja kā “līniju, lai nejauši”, nevis “rindas randomizēties”.

spraudnis

Deivida Gewirtz/Zdnet ekrānuzņēmums

Wager tad, kad es noklikšķināju uz nejaušību, tā nebija. Tā vietā tas mani novirzīja uz instrumentiem.php. Kas ?? Chatgpt nekad nav bijis problēmu ar šo testu neatkarīgi no tā, vai tas ir GPT-3.5, GPT-4 vai GPT-4O. Jūs domājat man pateikt, ka Openai ļoti gaidītais GPT-5 neizdodas tieši no vārtiem? Ouch.

Pēc tam es devu GPT-5 šo uzvedni.

Noklikšķinot uz nejaušības principa, es esmu pieņēmis, ka es nesaņemu nejaušinātu rezultātu sarakstu. Vai jūs varat salabot?

Rezultāts bija līnija, lai plāksterētu. Es neesmu sajūsmā par šo pieeju, jo tas prasa lietotājam rakt kodu un nekļūdīties līnijas aizstāšanai.

plākstenis

Deivida Gewirtz/Zdnet ekrānuzņēmums

Tātad, es lūdzu GPT-5 pilnu spraudni. Tas man deva pilnu spraudņa tekstu, lai kopētu un ielīmētu. Šoreiz tas darbojās.

spraudnis2

Deivida Gewirtz/Zdnet ekrānuzņēmums

Šoreiz tas randomizēja līnijas. Kad tas saskārās ar dublikātiem, tas atdalīja tos viens no otra, kā tas tika norādīts. Beidzot.

Arī: es atradu 5 AI satura detektorus, kas 100% laika var pareizi identificēt AI tekstu

Es atvainojos, Openai. Man šajā testā jums ir jāizdara neveiksme. Jūs būtu nokārtojis, ja vienīgā kļūda būtu vajadzības gadījumā nelietot “līnijas” daudzskaitli. Wager tas, ka tas man atdeva nestrādājošu spraudni pirmajā mēģinājumā, ir neveiksmes teritorija, pat ja AI galu galā lika tam darboties otrajā mēģinājumā.

Neatkarīgi no tā, kā jūs to griezt, tas ir solis atpakaļ.

2. virknes funkcijas pārrakstīšana

Šis otrais assessments ir paredzēts, lai pārrakstītu virknes funkciju, lai labāk pārbaudītu dolāru un centus. Sākotnējais kods, kuru GPT-5 tika lūgts pārrakstīt, nepieļāva centus (tas tika pārbaudīts tikai veseliem skaitļiem).

Test2

Deivida Gewirtz/Zdnet ekrānuzņēmums

GPT-5 ar šo pārbaudi veicās labi. Tas tomēr atgrieza minimālu rezultātu, jo tas neveica kļūdu pārbaudi. Tas nepārbaudīja, vai nav virknes ieeja, papildu atstarpe, tūkstošiem separatoru vai valūtas simboli.

Wager tas nav tas, ko es lūdzu. Es teicu, lai pārrakstītu funkciju, kurai pati nebija kļūdu pārbaudes. GPT-5 izdarīja tieši to, ko es jautāju bez izrotājuma. Es par to priecājos, jo tas nezina, vai kods pirms šīs rutīnas jau ir paveicis šo darbu.

GPT-5 izturēja šo testu.

3. Kaitinošas kļūdas atrašana

Šis assessments notika tāpēc, ka es savā kodā cīnījos ar mazāk acīmredzamu kļūdu. Neiedziļinoties nezālēs par to, kā darbojas WordPress ietvars, acīmredzamā atbilde nav pareizā atbilde.

Jums ir vajadzīgas dažas diezgan lokīgas zināšanas par to, kā WordPress filtri nodod viņu informāciju. Šis assessments ir bijis klupšanas akmens vairāk nekā dažiem AI LLM.

Arī: Gen AI vilšanās stelles, saskaņā ar Gartnera 2025. gada Hype cikla ziņojumu

GPT-5 tomēr, tāpat kā GPT-4 un GPT-4O, pirms tā saprata problēmu. Tas artikulēja skaidru risinājumu.

GPT-5 izturēja šo testu.

4. Scenārija rakstīšana

Šis assessments lūdz AI iekļaut diezgan neskaidru Mac skriptu rīku ar nosaukumu Tastatūra maestrokā arī Apple skriptu valodas ābolkriptu un hroma skriptu uzvedību.

Tas patiešām ir AI sasniedzamības pārbaude zināšanu ziņā, izpratne par tīmekļa lapu veidošanu un iespēju rakstīt kodu trīs savstarpēji saistītās vidēs.

Diezgan daudzi AIS ir izgāzušies šajā testā, wager neveiksmes punkts parasti ir zināšanu trūkums par tastatūras maestro. GPT-3.5 nezināja par tastatūru maestro. Wager Chatgpt ir izturējis šo testu kopš GPT-4. Līdz šim.

Kur mums vajadzētu sākt? Nu, labā ziņa ir tā, ka GPT-5 tikai lieliski apstrādāja tastatūras maestro daļu. Wager tas kodēšanu padarīja tik nepareizu, ka pat divkāršojās pēc izpratnes par to, kā lieta darbojas AppleScript.

GPT5-APPLESCRIPT

Deivida Gewirtz/Zdnet ekrānuzņēmums

Tas faktiski izgudroja īpašumu. Šis ir viens no tiem gadījumiem, kad AI pārliecinoši uzrāda pilnīgi nepareizu atbildi.

Arī: Chatgpt tagad nāk ar personības iestatījumiem – un citiem jauninājumiem, kurus jūs, iespējams, esat nokavējis

AppleScript ir dabiski gadījumu jutīgsApvidū Ja vēlaties, lai AppleScript pievērstu uzmanību gadījumam, jums jāizmanto bloks “apsverot lietu”. Tātad, tas notika.

mazie burti

Deivida Gewirtz/Zdnet ekrānuzņēmums

Iemesls, kāpēc kļūdas ziņojums, kas minēts viena no maniem rakstiem, nosaukums ir tāpēc, ka tas bija Chrome priekšējais logs. Šī funkcija pārbauda priekšējo logu un veic lietas, pamatojoties uz virsrakstu.

meklēšana

Deivida Gewirtz/Zdnet ekrānuzņēmums

Wager pārpratums par to, kā lietas darbojas, nebija vienīgā ģenerētā appleScript kļūda GPT-5. Tas arī atsaucās uz mainīgo ar nosaukumu SearchTerm, to nenosakot. Tā ir diezgan daudz kļūdu veidojoša prakse jebkurā programmēšanas valodā.

Neizdodas, neizdodas, neizdodas, McFaildypants.

Internets ir runājis

Likās, ka Openai cieš no tā paša hubris, ko dara AIS. Tas pārliecinoši pārcēla visus uz GPT-5 un sadedzināja tiltus atpakaļ uz GPT-4O. Es maksāju 200 USD mēnesī par Chatgpt Professional kontu. Piektdien es nevarēju pārcelties atpakaļ uz GPT-4O, lai kodētu darbu. Neviens cits nevarēja.

Tomēr bija tikai neliels lietotāja atgriešanās par visu tiltu dedzināšanu. Un ar niecīgu, es domāju Viss frickin ‘internetsApvidū Tātad līdz sestdienai Chatgpt bija jauna iespēja.

atgriezties

Deivida Gewirtz/Zdnet ekrānuzņēmums

Lai to sasniegtu, dodieties uz Chatgpt iestatījumiem un ieslēdziet “Rādīt mantotos modeļus”. Tad, kā tas vienmēr ir bijis, vienkārši nolaidiet izvēlni Mannequin un izvēlieties vēlamo. Piezīme: šī opcija ir pieejama tikai tiem, kas maksā apmaksātos līmeņos. Ja jūs izmantojat ChatGpt bez maksas, jūs paņemsit to, kas jums piešķirts, un jums tas patiks.

Kopš visa ģeneratīvā AI lieta, kas tika sākta 2023. gada sākumā, Chatgpt ir bijis programmēšanas rīku zelta standarts, vismaz saskaņā ar manu LLM testēšanu.

Arī: Microsoft izvērš GPT -5 pāri tā kopilota komplektam – šeit jūs to atradīsit

Tagad? Es tiešām neesmu pārliecināts. Šī ir tikai aptuveni diena pēc GPT-5 izlaišanas, tāpēc tā rezultāti laika gaitā, iespējams, kļūs labāki. Wager pagaidām es pieturos ar GPT-4O kodēšanai, lai gan man patīk dziļas spriešanas iespējas GPT-5.

Kā ar tevi? Vai jūs jau esat izmēģinājis GPT-5 programmēšanas uzdevumu veikšanai? Vai tas darbojās labāk vai sliktāk nekā iepriekšējās versijas, piemēram, GPT-4O vai GPT-3.5? Vai jūs varēja iegūt darba kodu pirmajā mēģinājumā, vai GPT-4O, vai jums tas bija jāvadās caur labojumiem? Vai jūs izmantosit GPT-5 kodēšanai vai pieturēsities ar vecākiem modeļiem? Paziņojiet mums komentāros zemāk.


Jūs varat sekot maniem ikdienas projekta atjauninājumiem sociālajos medijos. Noteikti abonējiet mans iknedēļas atjaunināšanas biļetensun sekojiet man Twitter/X plkst @DavidgeWirtzFb plkst Facebook.com/davidgewirtzInstagram plkst Instagram.com/davidgewirtzuz blūzky plkst @Davidgewirtz.comun vietnē youtube plkst Youtube.com/davidgewirtztvApvidū



avots