Šovasar vienu nedēļu Teilore un viņas istabas biedrene nēsāja pie pieres piesprādzētas GoPro kameras, kad viņi gleznoja, veidoja skulptūras un veica mājsaimniecības darbus. Viņi apmācīja AI redzes modeli, rūpīgi sinhronizējot uzņemtos materiālus, lai sistēma varētu iegūt vairākus leņķus vienā un tajā pašā darbībā. Tas daudzējādā ziņā bija grūts darbs, taču viņi par to saņēma labi atalgojumu — un tas ļāva Teilorei lielāko dienas daļu pavadīt mākslas radīšanai.
“Mēs pamodāmies, veicām parasto rutīnu un pēc tam piesprādzējām kameras uz galvas un sinhronizējām laikus,” viņa man teica. “Pēc tam mēs gatavojām brokastis un tīrījām traukus. Pēc tam devāmies katrs savā ceļā un strādājām pie mākslas.”
Viņi tika nolīgti, lai katru dienu izveidotu piecas stundas sinhronizēta materiāla, taču Teilore ātri uzzināja, ka viņai darbam jāatvēl septiņas stundas dienā, lai atstātu pietiekami daudz laika pārtraukumiem un fiziskai atveseļošanai.
“Tas jums sagādātu galvassāpes,” viņa teica. “Jūs to noņemat, un uz jūsu pieres ir tikai sarkans kvadrāts.”
Teilore, kura lūdza nenosaukt savu uzvārdu, strādāja par datu ārštata darbinieku Turing Labs, AI uzņēmumā, kas viņu savienoja ar TechCrunch. Tjūringa mērķis nebija iemācīt mākslīgajam intelektam veidot eļļas gleznas, guess gan iegūt abstraktākas prasmes, kas saistītas ar secīgu problēmu risināšanu un vizuālu spriešanu. Atšķirībā no liela valodas modeļa, Tjūringa redzes modelis būtu pilnībā apmācīts video, un lielāko daļu no tā tieši savāks Tjūrings.
Līdzās tādiem māksliniekiem kā Teilors Tjūrings slēdz līgumus ar šefpavāriem, celtniekiem un elektriķiem — ikvienu, kas strādā ar savām rokām. Tjūringa galvenais AGI virsnieks Sudaršans Sivaramans teica TechCrunch, ka manuāla vākšana ir vienīgais veids, kā iegūt pietiekami daudzveidīgu datu kopu.
“Mēs to darām, lai veiktu tik daudz dažādu zilo apkaklīšu darbu, lai mums būtu daudz dažādu datu pirmsapmācības fāzē,” Sivaramans pastāstīja TechCrunch. “Pēc tam, kad mēs uztversim visu šo informāciju, modeļi varēs saprast, kā tiek veikts konkrēts uzdevums.”
Techcrunch pasākums
Sanfrancisko
|
2025. gada 27.–29. oktobris
Tjūringa darbs pie redzes modeļiem ir daļa no pieaugošām izmaiņām AI uzņēmumu darbībā ar datiem. Ja apmācību komplekti kādreiz tika brīvi izņemti no tīmekļa vai savākti no zemu atalgotajiem anotatoriem, uzņēmumi tagad maksā visdārgākos dolārus par rūpīgi atlasītiem datiem.
Tā kā mākslīgā intelekta neapstrādātā jauda jau ir izveidota, uzņēmumi vēlas izmantot patentētus apmācības datus kā konkurences priekšrocību. Un tā vietā, lai uzticētu uzdevumus darbuzņēmējiem, viņi bieži vien uzņemas darbu paši.
E-pasta uzņēmums Fyxerkas izmanto AI modeļus, lai kārtotu e-pastus un atbilžu melnrakstus, ir viens no piemēriem.
Pēc dažiem agrīniem eksperimentiem dibinātājs Ričards Holingsvorts atklāja, ka labākā pieeja ir izmantot virkni mazu modeļu ar cieši koncentrētiem apmācības datiem. Atšķirībā no Tjūringa, Fyxer balstās uz kāda cita pamata modeli, taču pamatā esošais ieskats ir tāds pats.
“Mēs sapratām, ka datu kvalitāte, nevis kvantitāte, ir lieta, kas patiešām nosaka veiktspēju,” man teica Holingsvorts.
Praktiski tas nozīmēja dažas netradicionālas personāla izvēles. Agrīnās dienās Fyxer inženierus un vadītājus dažkārt četri pret vienu pārspēja modeļa apmācīšanai nepieciešamie vadītāju palīgi, saka Holingsvorts.
“Mēs izmantojām daudz pieredzējušu vadītāju palīgu, jo mums bija jāapmāca, vai uz e-pastu ir jāatbild, ” viņš teica TechCrunch. “Tā ir ļoti uz cilvēkiem orientēta problēma. Atrast lieliskus cilvēkus ir ļoti grūti.”
Datu vākšanas temps nekad nepalēninājās, taču laika gaitā Holingsvorts kļuva vērtīgāks attiecībā uz datu kopām, dodot priekšroku mazākām stingrāk atlasītu datu kopu kopām, kad pienāca laiks pēcapmācībai. Kā viņš saka, “datu kvalitāte, nevis kvantitāte ir lieta, kas patiešām nosaka veiktspēju.”
Tas jo īpaši attiecas uz sintētisku datu izmantošanu, palielinot gan iespējamo apmācības scenāriju apjomu, gan sākotnējās datu kopas trūkumu ietekmi. Runājot par redzējumu, Tjūrings lēš, ka 75 līdz 80 procenti tā datu ir sintētiski, ekstrapolēti no oriģinālajiem GoPro videoklipiem. Taču tas padara vēl svarīgāku, lai sākotnējā datu kopa būtu pēc iespējas kvalitatīvāka.
“Ja paši pirmsapmācības dati nav kvalitatīvi, viss, ko jūs darāt ar sintētiskiem datiem, arī nebūs kvalitatīvs,” saka Sivaramans.
Papildus rūpēm par kvalitāti, datu vākšanas nodrošināšanai ir spēcīga konkurences loģika. Uzņēmumam Fyxer smagais datu vākšanas darbs ir viens no labākajiem līdzekļiem, kas uzņēmumam ir pret konkurenci. Kā uzskata Holingsvorts, ikviens savā produktā var izveidot atvērtā pirmkoda modeli, taču ne visi var atrast ekspertus anotatorus, lai apmācītu to par funkcionējošu produktu.
“Mēs uzskatām, ka labākais veids, kā to izdarīt, ir ar datiem,” viņš teica TechCrunch, “veidojot pielāgotus modeļus, izmantojot augstas kvalitātes cilvēka vadītu datu apmācību.”