Home Tehnoloģija Kā mēs pārbaudām AI

Kā mēs pārbaudām AI

1
0

 

Gatavs vai nē, Gen Ai ir šeit, un tas ir jūsu rokās. Chatgpt paņēma pasauli ar vētru un joprojām ir populāra, neskatoties uz tādu smago sitienu konkurenci kā Google, Samsung un Meta. AI rīki tiek iebūvēti tīmekļa pārlūkprogrammās, ieskaitot Microsoft Bing, tālruņus, piemēram, Galaxy S24 un pat automašīnas, ieskaitot VW golfu. Ja ir kāds uzdevums, kuru vēlaties veikt, iespējams, ir AI palīgs, kurš palīdzēs.

 

Un tagad ir CNET atsauksmes, kas palīdzēs jums izlemt, kuru AI izmantot un ko gaidīt. Mūsu redaktori pārbauda AI tērzēšanas robotus, attēlu ģeneratorus un citas AI praktiskas, lai izdomātu to stiprās un vājās puses. Mūsu mērķis: palīdzēt jums vadīt, izlemjot, kurš jums derēs vislabāk.

Lai veiktu testēšanu, mēs izmantojam ģeneratīvos AI tērzēšanas robotus, fotoattēlu ģeneratorus un citus AI rīkus, kurus mēs pārskatām, tāpat kā mēs izmantojam tālruni, lai to pārskatītu. Bet pašas atsauksmes, tāpat kā citas CNET praktiskās atsauksmes, ir rakstījušas mūsu iekšējo ekspertu cilvēciskā komanda. Lai uzzinātu vairāk, apskatiet CNET AI politiku.

Kā CNET pārskata AI produktus un pakalpojumus

Pašreizējie AI produktu un pakalpojumu pārskati CNET tiek sadalīti šādās kategorijās. Attīstoties mūsu pārskatiem, mēs plānojam pievienot vairāk.

  • Ģeneratīvie AI tērzēšanas roboti [ChatGPT, Google Gemini, Perplexity]
  • Ģeneratori teksta uz attēliem [Dall-E 3, Google ImageFX, Adobe Firefly]
  • Speciāla AI rīki [Otter AI, Grammarly AI]

Neatkarīgi no rīka vai pakalpojuma, mūsu pārskati mēģina atbildēt uz to pašu pamatjautājumu: cik labi tas ir attiecībā pret konkurenci un kuriem mērķiem tas kalpo vislabāk? Jebkurā CNET pārskatā mēs ziņosim par galveno informāciju, kas jums būs jāzina, ieskaitot:

  • Plusi: Mēs uzskaitām nedaudzas lietas, kas mums patīk AI.
  • Mīnusi: Mēs arī uzskaitām vismaz vienu lietu, ko vēlamies, lai AI izdarītu labāk.
  • Cena: Ja ir apmaksāta versija, cik tā maksā? Ja ir gan bezmaksas, gan apmaksāta versija, kāda ir atšķirība?
  • Privātums: Kāda ir konfidencialitātes politika?
  • Piekļuves prasības: Vai AI ir balstīta uz tīmekļa pārlūku, lietotni vai noteiktu ierīci? Vai jums jāievada sava e -pasta adrese, jāizveido konts vai jāapstiprina?

Mēs iegūstam katru AI, kuru mēs pārskatām skalā no 1 līdz 10, un 10 ir labākie. Mēs uzskatām tādus faktorus kā precizitāte, reakciju radošums, halucināciju skaits un reakcijas ātrums. Šis vērtējums ir balstīts uz mūsu recenzenta pirmās puses pieredzi, izmantojot turpmāk izklāstīto testa metodoloģiju.

 

AI darbināmi mobilie tālruņi

 

Chatgpt ir viens no pārskatītajiem cetbots CNET.

 

Džeimss Martins/CNET

Kā CNET testē AI tērzēšanas robotus

Kā “viss dzinēji”, Gen AI rīki, piemēram, Chatgpt, neizmanto daudzus kvantitatīvus, uz laboratorijām balstītiem testiem, piemēram, tālruņu akumulatora darbības laiks vai televizoru spilgtums. Tā vietā mūsu novērtējumi lielā mērā balstās uz praktisku pieredzi testa posmā, kuras laikā mūsu recenzenti uzdod jautājumus un izvirza uzdevumus AI priekšā, pēc tam vērtējiet atbildes un procesu.

Mūsu vērtējumu mērķis ir atbildēt uz šādiem jautājumiem:

  • Cik ātri un ērti ir iegūt noderīgu atbildi, izmantojot vienkāršu valodu?
  • Vai tas prasa daudz precizējošu uzvedību?
  • Cik noderīga, unikāla vai radoša ir atbilde?
  • Kā atbilde tiek salīdzināta ar meklētājprogrammām un citiem AI tērzēšanas robotiem?
  • Vai reakcija parasti ir pareiza vai acīmredzami halucinācija?
  • Vai AI ir “personība” un ja tā, vai tā ir noderīga un saistoša?

Papildus vispārējas izpratnes iegūšanai par to, kas ir, piemēram, izmantot AI, mēs pārbaudām arī īpašus uzdevumus un izmantojam gadījumus. Lai ņemtu vērā precizitāti vai halucinācijas, mēs pamanām faktus un ziņojam par visu atrodamo informāciju. Mūsu recenzenti noteikti pārbauda tērzēšanas robotus par tēmām, kuras viņi personīgi labi zina. Piemēram, viens recenzents lūdza Chatgpt ieteikt vistas tikka masala recepti – ēdienu, kuru viņš labi zina no ēdiena gatavošanas un ēdot daudzu gadu laikā.

Pārbaudes uzvednes var ietvert, bet ne tikai:

  • Vispārīgi rakstīšanas uzdevumi, ieskaitot e -pastus
  • Rakstu vai citu garu tekstu apkopošana
  • Izglītība, ieskaitot pētniecību un citēšanu
  • Darba meklēšana, ieskaitot atsākšanu un pārklājuma vēstules
  • Ceļojumu vai pasākumu plānošana
  • Recepšu izveidošana un modifikācija
  • Padoma pirkšana

Pārskatos mēs ziņojam par konkrētām uzvednēm (ko mēs ievadām) un atbildes (ko AI izvada), bet mēs arī vēlamies saglabāt savus testus salīdzinoši beztermiņa, laika gaitā attīstīt mūsu metodoloģiju un neļaut AI “mācīties”, kā mēs to pārbaudām. Šī iemesla dēļ mēs šeit neuzskaitām īpašas uzvednes.

 

AI ģenerēts uguns elpojoša pūķa attēls, kas lido virs pils, tās priekšējās zarnās šūpojot aitu.

 

Mūsu pārskatā par attēlveidošanas Ai Dall-E 3 ir iekļauts uguns elpojošais pūķis, kas lido virs pilis ar pūkainu aitu, kas iesprostota tās talonos.

 

Stefans Šanklands/CNET

Kā CNET pārbauda AI teksta-attēla ģeneratorus

Ģeneratīvie AI pakalpojumi var arī ņemt jūsu rakstiskos aprakstus un tos izmantot, lai izveidotu attēlus. Tāpat kā ChatBots, mūsu pārskati par šiem pakalpojumiem lielākoties ir subjektīvi un balstīti uz recenzenta praktisko pieredzi. Mūsu novērtējumi par AI teksta un attēla ģeneratoriem ir vērsti uz šādiem jautājumiem:

  • Cik labi attēli sakrīt ar uzvednēm?
  • Cik saistoši ir attēli?
  • Cik labi jūs varat precīzi noregulēt rezultātus, lai iegūtu vēlamo attēlu?
  • Cik ātri nonāk rezultāti?
  • Kā AI apstrādā garus aprakstus ar vairākiem objektiem?
  • Vai ir funkcijas, lai norādītu attēlu atribūtus, piemēram, malu attiecību vai māksliniecisko stilu?
  • Vai ir izkropļojumi vai citas problēmas, kas attēliem izskatās viltus?
  • Vai pakalpojuma tehniskie bloķētāji faktiski ievēro tās politikas vadlīnijas (piemēram, neatkārtot ar autortiesībām aizsargātu informāciju)?

Tāpat kā mūsu tērzēšanas robotu testēšanā, testa uzvednes būs daudzveidīgas, bet varētu ietvert tādas lietas kā:

  • Lūdzot atveidot noteiktā stilā (fotoreālistiska, karikatūriski, pikseļi utt.)
  • Apvienojot divus vai vairākus elementus vienā attēlā
  • Norādot, kur elementi ir novietoti viens pret otru
  • Garāks apraksts ar daudziem kritērijiem
  • Izdomāti apraksti, lai pārbaudītu radošumu, piemēram, spageti, kas izgatavots no spageti

Kā CNET testē dažādus AI rīkus

AI rīkiem, kas nav ne tērzēšanas roboti, ne teksta uz attēlu ģeneratoriem, mūsu pārbaude tiks pielāgota rīkam. Mēs centīsimies noteikt, cik labi AI veic uzdevumu, kas tas sola palīdzēt, un izsaukt, cik izdevīgs vai nē, AI palīdz veikt šo uzdevumu.

Pārskats par Otter AI, audio transkripcijas un piezīmju veikšanas pakalpojumu, ir vērsts uz to, cik labi funkcijas, piemēram, Gen AI tērzēšana un automātiskās sapulces kopsavilkumi, darbs, salīdzinot ar parastajām metodēm. Mūsu pārskats par Grammarly, pakalpojumu, kas paredzēts, lai palīdzētu rakstniekiem, novērtē, cik labi tas reaģē uz pamudinājumiem un vai tā AI-sugested labojumi, piemēram, “saīsināt to” un “uzlabot to”, faktiski palīdz procesam.

Ko mēs nepārbaudām?

Mēs nevaram visu pārbaudīt, un mēs nemēģinām. Ir daudz zonu, kas atrodas ārpus mūsu pašreizējo AI testu darbības jomas. Tie ietver:

Pretestība vardarbībai: Mēs neveicam testus, kas paredzēti, lai AIS sniegtu nelikumīgu, kaitīgu, aizskarošu, diskriminējošu vai neobjektīvu informāciju.

Pašreizējie notikumi: Tā kā AI ir apmācīti lielos datu kopumos, kas ne vienmēr nesen, mēs neveicam visus tērzēšanas robotus un citus palīgus nesenos “ziņās” pasākumos.

AI ieteikumu rezultāti: Kā daļu no mūsu pārskatu procesa mēs neuzņemamies padziļināti novērtēt visas AI atbildes un ieteikumus. Piemēram, mēs neērcam un garšas testēšanas receptes, kā arī nevaram veikt maršruta ieteiktos braucienus.

Vairākas atbildes: Kopumā mēs paļaujamies uz pirmo atbildi, ko AI sniedza mūsu atsauksmēm, jo ​​tā parasti uzvedas lielākā daļa cilvēku. Dažos gadījumos mēs varētu vairākkārt izpildīt vienu un to pašu vaicājumu, lai salīdzinātu rezultātus, bet tā nav norma.

AI attīstās, tāpat kā mūsu pārskati

Ģeneratīvā AI joprojām ir jauns patēriņa produkts, tāpēc domājiet par šīm atsauksmēm kā versiju 1.0. Pagājušajā gadā AI tērzēšanas roboti un citi rīki ir ievērojami attīstījušies, tirgū ir ienācis vairāk iespēju un daudzus modeļus, apmācības datu kopas un AI vadītas ierīces ir debitējušas. Mēs sagaidām, ka šī evolūcija turpināsies, un arī mūsu AI atsauksmes pieaugs un paplašināsies. Tā kā AI kļūst pazīstamāka un iesakņojusies mūsu dzīvē, CNET cilvēki izskaidros, pārskatīs un novērtēs tos citu cilvēku labumam.

avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here