Home Tehnoloģija Latam-GPT: Latīņamerikas bezmaksas, atvērtā pirmkoda un sadarbības AI

Latam-GPT: Latīņamerikas bezmaksas, atvērtā pirmkoda un sadarbības AI

26
0

Latam-gpt ir jauns Liela valodas modelis tiek izstrādāts Latīņamerikā un tā labā. Projekts, kuru vada bezpeļņas Čīles Nacionālais mākslīgā intelekta centrs (CENIA), mērķis ir palīdzēt reģionam sasniegt tehnoloģisko neatkarību, izstrādājot atvērtā koda AI modeli, kas apmācīts latīņamerikas valodās un kontekstā.

“Šo darbu nevar veikt tikai viena grupa vai viena valsts Latīņamerikā: tas ir izaicinājums, kas prasa ikviena dalību,” intervijā Wired en Español saka Cenia direktors Álvaro Soto. “Latam-GPT ir projekts, kura mērķis ir izveidot atvērtu, bezmaksas un, pats galvenais, sadarbības AI modeli. Divus gadus strādājam ar ļoti augšupēju procesu, apvienojot pilsoņus no dažādām valstīm, kuras vēlas sadarboties. Nesen tā ir redzējusi arī vēl dažas iniciatīvas no augšas uz leju, un valdības interesē un sāk piedalīties projektā.”

Projekts izceļas ar savu sadarbības garu. “Mēs nevēlamies konkurēt ar Openai, DeepSeek vai Google. Mēs vēlamies modeli, kas raksturīgs Latīņamerikai un Karību jūras reģionam, apzinoties kultūras prasības un izaicinājumus, kas saistīti ar to, piemēram, izpratne par dažādiem dialektiem, reģiona vēsturi un unikālajiem kultūras aspektiem,” skaidro Soto.

Pateicoties 33 stratēģiskajām partnerībām ar institūcijām Latīņamerikā un Karību jūras reģionā, projekts ir apkopojis datu korpusu, kas pārsniedz astoņus teksta terabaitus, kas ir miljonu grāmatu ekvivalents. Šī informācijas bāze ir ļāvusi izstrādāt valodas modeli ar 50 miljardiem parametriem-skalu, kas to padara salīdzināmu ar GPT-3.5 un dod tai vidēju vai lielu spēju veikt sarežģītus uzdevumus, piemēram, spriešanu, tulkošanu un asociācijas.

LATAM-GPT tiek apmācīts reģionālā datu bāzē, kas apkopo informāciju no 20 Latīņamerikas valstīm un Spānijas, ar iespaidīgu 2645 500 dokumentu. Datu sadalījums parāda ievērojamu koncentrāciju lielākajās reģiona valstīs, un Brazīlija ir līdera ar 685 000 dokumentiem, kam seko Meksika ar 385 000, Spānija ar 325 000, Kolumbija ar 220 000 un Argentīna ar 210 000 dokumentiem. Skaitļi atspoguļo šo tirgu lielumu, to digitālo attīstību un strukturēta satura pieejamību.

“Sākotnēji mēs laidīs klajā valodas modeli. Mēs sagaidām, ka tā sniegums vispārīgi uzdevumos būs tuvu lieliem komerciāliem modeļiem, guess ar izcilu sniegumu tēmās, kas raksturīgas Latīņamerikai. Ideja ir tāda, ka, ja mēs to jautāsim par mūsu reģionam būtiskām tēmām, tās zināšanas būs daudz dziļākas,” skaidro Soto.

Pirmais modelis ir sākumpunkts, lai nākotnē attīstītu progresīvāku tehnoloģiju ģimeni, ieskaitot tās, kurās ir attēla un video, kā arī palielināt lielākus modeļus. “Tā kā šis ir atvērts projekts, mēs vēlamies, lai citas institūcijas to varētu izmantot. Kolumbijas grupa varētu to pielāgot skolas izglītības sistēmai, vai arī Brazīlijā to varētu pielāgot veselības nozarei. Ideja ir atvērt durvis dažādām organizācijām, lai izveidotu īpašus modeļus noteiktām jomām, piemēram, lauksaimniecībai, kultūrai un citām,” skaidro CENIA direktors.

avots