Home Tehnoloģija Sejas apskaušana atbrīvo Smolvla atvērtā pirmkoda AI modeli robotikas darbplūsmām

Sejas apskaušana atbrīvo Smolvla atvērtā pirmkoda AI modeli robotikas darbplūsmām

13
0

Otrdien apskaujošā seja izlaida Smolvla, atvērtā avota redzes valodas darbības (VLA) mākslīgā intelekta (AI) modeli. Lielās valodas modelis ir paredzēts robotikas darbplūsmām un ar apmācību saistītiem uzdevumiem. Uzņēmums apgalvo, ka AI modelis ir pietiekami mazs un pietiekami efektīvs, lai lokāli darbotos datorā ar vienu patērētāja GPU vai MacBook. Ņujorkas, ASV bāzētā AI modeļa krātuve arī apgalvoja, ka Smolvla var pārspēt daudz lielus modeļus. AI modelis pašlaik ir pieejams lejupielādei.

Apskāviens Face Smolvla AI modelis var darboties lokāli uz MacBook

Saskaņā ar Hugging Face, robotikas sasniegumi ir bijuši lēni, neskatoties uz AI telpas pieaugumu. Uzņēmums saka, ka tas ir saistīts ar a augstas kvalitātes un daudzveidīgu datu trūkumsun lielas valodas modeļi (LLM), kas ir paredzēti robotikas darbplūsmām.

VLA ir kļuvusi par risinājumu vienai no problēmām, wager lielākā daļa vadošo modeļu no tādiem uzņēmumiem kā Google un Nvidia ir patentēti un apmācīti privātās datu kopās. Rezultātā lielāka robotikas pētījumu kopiena, kas balstās uz atvērtā koda datiem, saskaras ar galvenajiem sašaurinājumiem, reproducējot vai veidojot šos AI modeļus, tika uzsvērts.

Šie VLA modeļi var uztvert attēlus, videoklipus vai tiešu kameru padevi, izprast reālās pasaules stāvokli un pēc tam veikt uzrādītu uzdevumu, izmantojot robotikas aparatūru.

Sejas apskaušana saka, ka Smolvla uzrunā gan sāpju punktus, ar kuriem pašlaik saskaras robotikas pētījumu kopiena-tas ir atvērtā koda uz robotiku orientēts modelis, kas apmācīts atvērtā datu kopā no Lerobot kopienas. Smolvla ir 450 miljonu parametru AI modelis, kas var darboties ar galddatoru ar vienu saderīgu GPU vai pat vienu no jaunākajām MacBook ierīcēm.

Nākot uz arhitektūru, tā ir balstīta uz uzņēmuma VLM modeļiem. Tas sastāv no siglip redzes kodētāja un valodas dekodētāja (Smollm2). Vizuālā informācija tiek uztverta un iegūta, izmantojot redzes kodētāju, savukārt dabiskās valodas pamudinājumi tiek marķēti un ievadīti dekodētājā.

Darbojoties ar kustībām vai fizisku darbību (uzdevuma izpildi, izmantojot robotizēto aparatūru), vienam marķierim tiek pievienoti sensorimotorie signāli. Pēc tam dekodētājs visu šo informāciju apvieno vienā straumē un apstrādā to kopā. Tas ļauj modelim izprast reālās pasaules datus un uzdevumus, kas tiek pakļauti kontekstā, nevis kā atsevišķām entītijām.

Smolvla nosūta visu, ko tas ir iemācījies, citam komponentam, ko sauc par darbības ekspertu, kurš noskaidro, kādu darbību jāveic. Darbības eksperts ir uz transformatoru balstīta arhitektūra ar 100 miljoniem parametru. Tas prognozē virkni robota turpmāku kustību (pastaigu pakāpieni, roku kustības utt.), Pazīstams arī kā darbības gabals.

Kaut arī tas attiecas uz nišas demogrāfiju, tie, kas strādā ar robotiku lejupielādēt Atvērtie svari, datu kopas un apmācības receptes, lai reproducētu vai balstītu uz Smolvla modeli. Turklāt robotikas entuziasti, kuriem ir pieeja robotizētai rokai vai līdzīgai aparatūrai, var arī tos lejupielādēt, lai palaistu modeli un izmēģinātu reālā laika robotikas darbplūsmas.

avots