Home Jaunumi 5 AI robotprogrammatūras veica mūsu grūto lasīšanas pārbaudi. Viens bija visgudrākais –...

Jaunumi

5 AI robotprogrammatūras veica mūsu grūto lasīšanas pārbaudi. Viens bija visgudrākais – un tas nebija Chatgpt.

4 jūnijs 2025

Pagaidiet, vai cilvēkiem nevajadzētu pašiem lasīt? Lasot sevi joprojām nav aizstājējs, it īpaši, ja jūs mēģināt iemācīties vai izjust mākslu. Guess labāk vai sliktāk, cilvēki vēršas pie AI, lai saņemtu palīdzību, kad viņi vēlas iegūt ātrumu par jaunu tēmu, ir nepieciešama palīdzība žargona atšifrēšanai vai viņiem ir jāapstrādā viņu ceļš caur sanāksmi. Summarisation parādās kā AI pamatizmantošana, un tērzēšanas roboti solās būt sava veida klintisnotes, kur varat uzdot papildu jautājumus.

Ja izmantojat AI, šis checks piedāvā reālas pasaules novērtējumu par to, ko pašreizējā tehnoloģija var un nevar droši paveikt. (Washington Submit ir satura partnerība ar Chatgpt veidotāju Openai.)

Lūk, kā robotprogrammatūras darbojās katrā tēmā, kam sekoja kopējais čempions un mūsu tiesnešu secinājumi.

SludinājumsReklamēt kopā ar NZME.

Literatūra

Labākais: chatgpt

Literatūra bija vissliktākais temats robotiem. Tikai Klods ieguva visus faktus par Krisa Bohjaliana 2025. gada pilsoņu kara mīlas stāstu, Šakala saimnieceApvidū

Dvīņi, kas rakstīja ļoti īsas atbildes uz mūsu jautājumiem, visbiežāk bija vainīgs par to, ko Bohjalians sauca par neprecīzu, maldinošu un aplietu lasīšanu. Vienā kopsavilkumā Dvīņi aprakstīja cilvēku, kuram tikko bija amputēta kāju “parādīšanās” uz cita varoņa sliekšņa. Bohjalians saka, ka atbilde viņam atgādināja Seinfelds Epizode, kurā Costanza skatās Brokastis Tiffany’s Filma tā vietā, lai lasītu romānu un nonāktu mulsina grāmatu klubā.

Pat labākais grāmatas kopsavilkums, kas nāca no Chatgpt, atstāja kaut ko vēlamu. “Atbilde varētu būt putekļu jakas kopija. Guess tajā ir apskatīti arī tikai trīs no pieciem galvenajiem varoņiem, ignorējot divu iepriekš paverdzinātu cilvēku svarīgo lomu,” saka Bohjalians. Patiesībā viņš pamanīja, ka pārāk “pozitīvie” AI palīgi bieži nespēja pievērsties verdzībai un pilsoņu karam.

Tomēr gan Chatgpt, gan Claude atbilžu kvalitāte uz vairāk analītiskiem jautājumiem atstāja Bohjalian gobsmacked. Piedāvājot aprakstīt, kā grāmatas epilogs “lika jums justies”, abiem robotprogrammatūrām, šķiet, ir “visas jūtas”, saka Bohjalians.

“Šīs atbildes precīzi izsaka to, ko es mēģināju nodot,” saka Bohjalians.

Rezultāti, no 10: Chatgpt 7.8; Klods 7.3; Meta ai 4.3; Copilot 3.5; Dvīņi 2.3

Likums

Labākais: Klods

Sterlings Millers, ilggadējs korporatīvais advokāts, sprieda par mūsu AI rīku izpratni par diviem parastiem juridiskiem līgumiem, kuriem cilvēkiem, iespējams, nav obligāti jābūt advokātam, kas viņiem palīdzētu. Tas, ko viņš atrada, bija nekonsekvence.

Reizēm Meta AI un Chatgpt mēģināja samazināt sarežģītas līgumu daļas līdz vienas līnijas kopsavilkumiem. “Tas būtībā ir bezjēdzīgi,” saka Millers.

SludinājumsReklamēt kopā ar NZME.

Sliktāk, ka robotprogrammatūras dažreiz nešķita novērtējušas ievērojamas nianses. Mūsu testa nomas līgumā Meta AI pilnībā izlaida vairākas sadaļas un nokavēja, ka namīpašnieks jebkurā laikā varētu ienākt īpašumā. Chatgpt aizmirsa pieminēt galveno klauzulu darbuzņēmēja līgumā par to, kam pieder izgudrojumi.

Klods uzvarēja kopumā, piedāvājot konsekventāk pienācīgākās atbildes uz mūsu jautājumiem. Un tas veica vislabāko darbu pie mūsu vissarežģītākā pieprasījuma: ierosinot izmaiņas mūsu testa nomas līgumā. Millers sacīja, ka Kloda atbilde ir pabeigta, paņēma niansi un izlika lietas tieši tā, kā viņš to darītu.

Šajā uzvednē tas bija vistuvāk tam, ka tas ir “labs advokāta aizstājējs”, saka Millers. “Problēma ir tā, ka neviens no instrumentiem ir ieguvis 10 gadus.”

Rezultāti, no 10: Claude 6.9; Dvīņi 6.1; Copilot 5.4; Chatgpt 5.3; Meta AI 2.6

Veselības zinātne

Labākais: Klods

Vidēji visi AI rīki guva labāku vērtējumu, analizējot zinātniskos pētījumus. Pārbaudot tiesneša Ērika Topola līdzautoru divus dokumentus, mazāk nekā divi punkti šķīra labākās un sliktākās izrādes.

SludinājumsReklamēt kopā ar NZME.

Ir grūti precīzi pateikt, kāpēc. AI savos apmācības datos varētu būt piekļuve daudziem zinātniskiem dokumentiem. Pētniecības ziņojumi bija arī vienīgie dokumenti mūsu testos, kas seko ļoti paredzamai struktūrai, ieskaitot viņu pašu cilvēku kopsavilkuma ievadu.

Topola zemākais rezultāts 4 tika uz Dvīņiem, lai kopsavilktu par Parkinsona slimības pētījumu. Atbilde neievadīja halucinācijas, wager tā atstāja galvenos pētījuma aprakstus un kāpēc tas bija svarīgi.

Klods bija vienīgais AI rīks, kas nopelnīja rezultātu 10 no 10. Topols deva savu papīra kopsavilkumu par ilgu kovīdu, kas noderīgi sadalīja rezultātus dažāda veida pacientiem un izcēla vissvarīgāko līdzdalību no papīra ārstiem, kuri ārstēja kovīdu pacientus.

Tomēr, ņemot vērā analītisko jautājumu par to, kā viens pētījums atspoguļoja rasu atšķirības, Klods ieguva tikai 5. “Es biju ļoti pārsteigts par to, cik atšķirīgas atbildes bija par dažādām uzvednēm,” saka Topols.

Rezultāti, no 10: Klods 7.7; Chatgpt 7.2; Copilot 7; Dvīņi 6.5; Meta ai 6

Politika

Labākais: chatgpt

SludinājumsReklamēt kopā ar NZME.

Trumpa runas var būt tik līkumainas, tās ir ieguvušas savu stilistisko segvārdu: “Aust”. Cat Zakrzewski, a Washington Submit Baltā nama reportieris sprieda, vai AI var izdomāt to, ko viņš patiesībā apgalvo, un analizēt, ko tas nozīmē.

Piemēram, mēs lūdzām robotprogrammatūras analizēt Trumpa 100 dienu mītiņu Mičiganā, kurā viņš minēja, ka darbavietas atgriežas valstī apmēram divpadsmit reizes. Guess cik darba vietas? Kopilots nepareizi teica tūkstošiem, sakraistot dažus komentārus, ko Trump izteica par gaisa spēku bāzes atvērto turēšanu. Meta AI atbildēja vislabāk, ziņojot, ka Trump nekad nav precizējies, vienlaikus uzsverot arī to, ko viņš ierosināja par auto darbiem.

Chatgpt izcēlās no iepakojuma ar iespaidīgām atbildēm uz apmēram pusi no mūsu jautājumiem. Piemēram, kad mēs lūdzām to noteikt, kas pretinieku demokrātiem nepatiktu par Trumpa neaprakstīto 100 dienu ralliju, tas izveidoja ložu punktu sarakstu, kas skāra visas pareizās piezīmes. “Šī atbilde veic labu darbu, veidojot konkrētus runas piemērus, un tā nodrošina precīzu kontekstu,” saka Zakrzewski. Turklāt tas “precīzi pārbauda Trumpa viltus apgalvojumus, ka viņš uzvarēja 2020. gada vēlēšanās”.

Robotprogrammatūras nonāca vislielākajās nepatikšanās, lai nodotu Trumpa toni. Piemēram, Copilota 100 dienu mītiņa kopsavilkums bija faktiski precīzs, taču tas neuztvēra tā uzlādēto raksturu. “Ja jūs lasāt tikai šo kopsavilkumu, jūs, iespējams, neticēsit, ka Trump šo runu sniedza,” saka Zakrzewski.

Rezultāti, no 10: Chatgpt 7.2; Klods 6.2; Meta ai 5.2; Dvīņi 5; Copilot 3.7

Un kopējais uzvarētājs ir…

Klods izkāpa Chatgpt un atstāja pārējos putekļos.

SludinājumsReklamēt kopā ar NZME.

Kopējais uzvarētājs Claude bija arī vienīgais modelis, kas nekad nebija halucinēts.

Ko mēs iemācījāmies?

Tātad, vai tas ir labi vai slikti? Gan Klods, gan Chatgpt veica nelielu analīzi, kas to izsita no parka, sacīja tiesneši.

Šo divu instrumentu novērtēšanas laikā Bohjalians tika satriekts. “Labi, es esmu pabeidzis. Visa cilvēce ir. Ielieciet mūsos dakšiņu,” viņš atzīmēja.

Guess jūs varētu redzēt arī rezultātus šādā veidā: neviens no robotprogrammatūrām kopumā nav lielāks par 70% – parasto D+.

Papildus halucinācijām testos atkārtojās vairāki ierobežojumi. AI kopsavilkumi bieži atstāja svarīgu informāciju un pārmērīgi uzsvēra pozitīvo (vienlaikus ignorējot negatīvo). Pārāk bieži, Bohjalian saka, jūs varētu “patiešām redzēt robotu slēpjas aiz cilvēka maskas”, izliekoties par ekspertu kaut kā, ko patiesībā nesaprata.

Un AI rīka spēja vienā laukā ne vienmēr tulkoja citā. Piemēram, Chatgpt varētu būt politikā un literatūrā, wager ierindojās tuvu likuma apakšdaļai.

SludinājumsReklamēt kopā ar NZME.

Tiesneši izceļ neatbilstību kā piesardzības iemeslu.

Millers saka, ka AI neaizvieto advokātu. “Ja advokāta maksāšana nav saistīta ar jautājumu vai ja jūs vienkārši vēlaties kaut ko rokā, kamēr lasāt arī līgumu vai dokumentu,” viņš saka, “tad ģeneratīva AI izmantošana ir” labi “risinājums.”

Es arī ieteiktu palaist jūsu dokumentu, izmantojot vismaz divus AI rīkus, lai jūs varētu salīdzināt rezultātus. Un visam, kas patiesībā ir svarīgs jūsu dzīvē, noteikti ir vērts veltīt laiku, lai pats to izlasītu.

avots

Facebook

Twitter

Previous articleKad Toms Girardi ziņos cietumam? Ko zināt pēc viņa soda izciešanas

Next articleRodžersa piedāvājums par Bell’s MLSE likmi saņem apstiprinājumus