Pievienojieties mūsu ikdienas un nedēļas biļeteniem, lai iegūtu jaunākos atjauninājumus un ekskluzīvu saturu par nozares vadošo AI pārklājumu. Uzziniet vairāk
Tokijā bāzēta mākslīgā intelekta starta Sakana, kuru līdzdibināja bijušie high Google AI zinātnieki, ieskaitot Llion Jones un David Ha, ir atklājuši jauna veida AI modeļa arhitektūra, ko sauc par nepārtrauktām domu mašīnām (CTM)Apvidū
CTM ir paredzēts, lai ieviestu jaunu AI valodas modeļu laikmetu, kas būs elastīgāks un spējīgs apstrādāt plašāku kognitīvo uzdevumu klāstu-piemēram, sarežģītu labirintu vai navigācijas uzdevumu risināšanu bez pozicionālām norādēm vai iepriekš pastāvošiem telpiskiem iegulumiem-tuvināt to cilvēku, kas ir nepamatotas problēmas.
Tā vietā, lai paļautos uz fiksētiem, paralēliem slāņiem, kas apstrādā visu vienlaikus – kā to dara transformatoru modeļi – CTMS izvēršas aprēķina katrā ieejas/izejas vienībā, kas pazīstama kā mākslīgais “neirons”.
Katrs modeļa neirons saglabā īsu iepriekšējās aktivitātes vēsturi un izmanto šo atmiņu, lai izlemtu, kad atkal aktivizēt.
Šis pievienotais iekšējais stāvoklis ļauj CTM dinamiski pielāgot to spriešanas dziļumu un ilgumu atkarībā no uzdevuma sarežģītības. Kā tāds katrs neirons ir daudz vairāk informācijas blīvs un sarežģīts nekā tipiskā transformatora modelī.
Startup ir ievietojis a papīrs par atvērtās piekļuves žurnālu arxiv aprakstot tā darbu, mikrolīts un Github krātuveApvidū
Kā CTMS atšķiras no transformatoru bāzes LLM
Lielākā daļa mūsdienu lielo valodu modeļu (LLMS) joprojām ir pamatā ar “transformatora” arhitektūru, kas ieskicēta 2017. gada pamatnoteikumā no Google smadzeņu pētnieku ar nosaukumu “Uzmanība ir viss, kas jums nepieciešams.
Šajos modeļos tiek izmantoti paralēli, fiksēti padziļināti mākslīgo neironu slāņi, lai apstrādātu ievadi vienā piegājienā-neatkarīgi no tā, vai šīs ieejas nāk no lietotāja pamudinājumiem secināšanas laikā vai marķētus datus apmācības laikā.
Turpretī CTM ļauj katram mākslīgajam neironam darboties uz sava iekšējā laika grafika, pieņemot lēmumus par aktivizēšanu, pamatojoties uz iepriekšējo stāvokļu īstermiņa atmiņu. Šie lēmumi izvēršas par iekšējiem soļiem, kas pazīstami kā “ērces”, ļaujot modelim dinamiski pielāgot tā spriešanas ilgumu.
Šī uz laiku balstīta arhitektūra ļauj CTM pakāpeniski pamatot, pielāgojot, cik ilgi un cik dziļi viņi aprēķina-ņemot atšķirīgu ērču skaitu, pamatojoties uz ievades sarežģītību.
Neironiem specifiska atmiņa un sinhronizācija palīdz noteikt, kad aprēķiniem vajadzētu turpināties vai apstāties.
Ērču skaits mainās atbilstoši ievadītajai informācijai un var būt vairāk vai mazāk, pat ja ievades informācija ir identiska, jo Katrs neirons ir izlemts, cik ērču jāiziet pirms izvades nodrošināšanas (vai vispār to nesniedz).
Tas atspoguļo gan tehnisku, gan filozofisku atkāpšanos no parastās dziļās mācības, virzoties uz bioloģiski pamatotāku modeli. Sakana ir izveidojusi CTM kā soli uz smadzenēm līdzīgāku intelektu-sistēmas, kuras laika gaitā pielāgojas, elastīgi apstrādā informāciju un vajadzības gadījumā iesaistās dziļākā iekšējā aprēķinā.
Sakana mērķis ir “galu galā sasniegt kompetences līmeni, kas konkurē vai pārspēj cilvēku smadzenes”.
Izmantojot mainīgo, pielāgotos grafikus, lai nodrošinātu lielāku inteliģenci
CTM ir veidots ap diviem galvenajiem mehānismiem.
Pirmkārt, katrs modeļa neirons saglabā īsu “vēsturi” vai darba atmiņu par to, kad tas aktivizējās un kāpēc, un izmanto šo vēsturi, lai pieņemtu lēmumu par to, kad nākamreiz izšaut.
Otrkārt, neironu sinhronizācija – kā un kad grupas no modeļa mākslīgajiem neironiem “uguns” vai procesa informācija kopā – ir atļauts notikt organiski.
Neironu grupas izlemj, kad izšaut kopā, pamatojoties uz iekšēju izlīdzināšanu, nevis ārējiem norādījumiem vai apbalvošanas veidošanu. Šie sinhronizācijas notikumi tiek izmantoti, lai modulētu uzmanību un radītu rezultātus – tas ir, uzmanība tiek vērsta uz tām vietām, kur šauj vairāk neironu.
Modelis ne tikai apstrādā datus, guess arī plāno savu domāšanu, lai tas atbilstu uzdevuma sarežģītībai.
Kopā šie mehānismi ļauj CTM samazināt skaitļošanas slodzi vienkāršākos uzdevumos, vienlaikus piemērojot dziļāku, ilgstošu argumentāciju, ja nepieciešams.
Demonstrācijās, sākot no attēla klasifikācijas un 2D labirintes risināšanas līdz pastiprināšanas mācībām, CTM ir parādījuši gan interpretējamību, gan pielāgojamību. Viņu iekšējie “domas” soļi ļauj pētniekiem novērot, kā laika gaitā veidojas lēmumi – pārredzamības līmenis reti redzams citās modeļu ģimenēs.
Agrīnie rezultāti: kā CTMS salīdzina ar transformatoru modeļiem galvenajos etalonos un uzdevumos
Sakana AI nepārtrauktā domu mašīna nav paredzēta, lai dzenas pakaļ līderu sarakstam papildinošos etalona rādītājus, taču tās agrīnie rezultāti norāda, ka tās bioloģiski iedvesmotais dizains nenāk par praktisko spēju rēķina.
Uz plaši izmantotā ImageNet-1K etalona CTM sasniedza 72,47% TOP-1 un 89,89% TOP-5 precizitāti.
Lai gan tas neatbilst vismodernākajiem transformatoru modeļiem, piemēram, VIT vai COUNNEXT, tas joprojām ir konkurētspējīgs, it īpaši ņemot vērā, ka CTM arhitektūra ir principiāli atšķirīga un nav optimizēta tikai veiktspējai.
Tas, kas vairāk izceļas, ir CTM izturēšanās secīgi un adaptīvos uzdevumos. Labirintu risināšanas scenārijos modelis rada pakāpeniskas virziena izejas no neapstrādātiem attēliem-bez pozicionāliem iegulumiem, kas parasti ir svarīgi transformatoru modeļos. Vizuālās uzmanības pēdas atklāj, ka CTM bieži apmeklē attēlu reģionus cilvēka līdzīgā secībā, piemēram, sejas pazīmju identificēšana no acīm līdz degunam uz muti.
Modelim ir arī spēcīga kalibrēšana: tā ticamības novērtējumi ir cieši saskaņoti ar faktisko prognozēšanas precizitāti. Atšķirībā no vairuma modeļu, kuriem nepieciešama temperatūras mērogošana vai post-hoc pielāgojumi, CTMS uzlabo kalibrēšanu dabiski, laika gaitā aprēķinot vidējās prognozes, kad to iekšējā spriešana izvēršas.
Šis secīgās spriešanas, dabiskās kalibrēšanas un interpretācijas sajaukums piedāvā vērtīgu kompromisu lietojumprogrammām, kurām uzticamībai un izsekojamībai ir tikpat liela nozīme kā neapstrādāta precizitāte.
Kas nepieciešams, pirms CTM ir gatavi uzņēmumam un komerciālai izvietošanai?
Kaut arī CTM parāda būtisku solījumu, arhitektūra joprojām ir eksperimentāla un vēl nav optimizēta komerciālai izvietošanai. Sakana AI iepazīstina ar modeli kā platformu turpmākai izpētei un izpētei, nevis spraudņu un spēles uzņēmuma risinājumam.
CTM apmācība pašlaik prasa vairāk resursu nekā standarta transformatoru modeļi. Viņu dinamiskā laika struktūra paplašina stāvokļa telpu, un ir nepieciešama rūpīga noregulēšana, lai nodrošinātu stabilu, efektīvu mācīšanos iekšējā laika posmā. Turklāt joprojām tiek panākta atkļūdošanas un instrumentu atbalsts-daudzu bibliotēku un profilētāju daudzums nav veidots, ņemot vērā laika un salocīšanas modeļus.
Tomēr Sakana ir uzlikusi spēcīgu pamatu sabiedrības adopcijai. Pilna CTM ieviešana ir atvērta Github un ietver domēnam specifiskus apmācības skriptus, iepriekš aprakstītus kontrolpunktus, komunālo pakalpojumu plānošanu un analīzes rīkus. Atbalstītajos uzdevumos ietilpst attēlu klasifikācija (ImageNet, CIFAR), 2D labirintes navigācija, Qamnist, paritātes aprēķināšana, šķirošana un pastiprināšanas mācīšanās.
Interaktīva tīmekļa demonstrācija arī ļauj lietotājiem izpētīt CTM darbībā, novērojot, kā tā uzmanība laika gaitā mainās secinājumu laikā – pārliecinošs veids, kā izprast arhitektūras spriešanas plūsmu.
Lai CTM sasniegtu ražošanas vidi, ir nepieciešams turpmāks progress optimizācijā, aparatūras efektivitātē un integrācijā ar standarta secinājumu cauruļvadiem. Guess ar pieejamu kodu un aktīvu dokumentāciju Sakana ir atvieglojusi pētniekiem un inženieriem šodien sākt eksperimentēt ar modeli.
Kas uzņēmuma AI vadītājiem būtu jāzina par CTMS
CTM arhitektūra joprojām ir savās pirmajās dienās, guess uzņēmuma lēmumu pieņēmējiem jau vajadzētu ņemt vērā. Tā spēja adaptīvi piešķirt aprēķināšanu, pašregulētu spriešanas dziļumu un piedāvāt skaidru interpretējamību var izrādīties ļoti vērtīga ražošanas sistēmās, kas saskaras ar mainīgu ievades sarežģītību vai stingrām normatīvajām prasībām.
AI inženieri, kas pārvalda modeļa izvietošanu, CTM energoefektīvos secinājumos atradīs vērtību-īpaši liela mēroga vai latentuma jutīgās lietojumprogrammās.
Tikmēr arhitektūras soli pa solim argumentācija atbloķē bagātīgāku izskaidrojamību, ļaujot organizācijām izsekot ne tikai to, ko prognozēja modelis, guess arī to, kā tas tur ieradās.
Orķestrēšanas un MLOPS komandām CTMS integrējas ar pazīstamiem komponentiem, piemēram, ResNet balstītiem kodētājiem, ļaujot vienmērīgāk iekļūt esošajās darbplūsmās. Un infrastruktūras potenciālie pircēji var izmantot arhitektūras profilēšanas āķus, lai labāk sadalītu resursus un laika gaitā uzraudzītu veiktspējas dinamiku.
CTM nav gatavi aizstāt transformatorus, guess tie pārstāv jaunu modeļa kategoriju ar jaunām pieejām. Organizācijām par prioritāti piešķirot drošību, interpretējamību un adaptīvo skaitļošanu, arhitektūra ir pelnījusi īpašu uzmanību.
Sakana rūtainā AI pētījumu vēsture
Februārī, Sakana iepazīstināja ar AI Cuda inženieriAgentic AI sistēma, kas paredzēta ļoti optimizēta ražošanas automatizēšanai Cuda kodoliinstrukcijas, kas ļauj NVIDIA (un citu) grafikas apstrādes vienībām (GPU) efektīvi palaist kodu paralēli vairākām “pavedieniem” vai skaitļošanas vienībām.
Apsolījums bija nozīmīgs: ātruma ātrums no 10x līdz 100x ML operācijās. Tomēr neilgi pēc izlaišanas ārējie recenzenti atklāja, ka Sistēma izmantoja vērtēšanas smilšu kastes vājās vietas—Pisu būtībā “krāpšana”, Apejot pareizību pārbaudi, izmantojot atmiņas izmantošanu.
Publiskajā amatā Sakana atzina šo jautājumu un kreditēja kopienas locekļus to atzīmēt.
Kopš tā laika viņi ir pārskatījuši savus novērtēšanas un izpildlaika profilēšanas rīkus, lai novērstu līdzīgas nepilnības un attiecīgi pārskata savus rezultātus un pētījumu. Incidents piedāvāja reālas pasaules pārbaudi par vienu no Sakana norādītajām vērtībām: atkārtota un caurspīdīguma sasniegšana, lai sasniegtu labākas AI sistēmas.
Derības par evolūcijas mehānismiem
Sakana AI dibināšanas ētika ir evolūcijas aprēķina apvienošana ar mūsdienu mašīnu apguvi. Uzņēmums uzskata, ka pašreizējie modeļi ir pārāk stingri – nonāk fiksētās arhitektūrās un prasa pārkvalifikāciju jauniem uzdevumiem.
Turpretī Sakana mērķis ir izveidot modeļus, kas pielāgojas reālā laikā, uzrāda topošo izturēšanos un, dabiski mērogā, izmantojot mijiedarbību un atgriezenisko saiti, līdzīgi kā organismi ekosistēmā.
Šis redzējums jau izpaužas tādos produktos kā Transformer², sistēma, kas pielāgo LLM parametrus secinājuma laikā bez pārkvalifikācijas, izmantojot algebriskus trikus, piemēram, vienskaitļa vērtības sadalīšanos.
Tas ir acīmredzams arī viņu apņemšanās ieviest atvērtās sistēmas, piemēram, AI zinātnieku, pat neskatoties uz strīdiem-, kas ir vēlme iesaistīties plašākā pētniecības kopienā, nevis tikai ar to konkurēt.
Tā kā lielie vēsturiskie operatori, piemēram, Openai un Google, dubultojas pamatu modeļos, Sakana veido atšķirīgu kursu: mazas, dinamiskas, bioloģiski iedvesmotas sistēmas, kas savlaicīgi domā, sadarbojas pēc dizaina un attīstās, izmantojot pieredzi.
avots