Home Tehnoloģija Lielāks ne vienmēr ir labāks: Biznesa gadījuma pārbaude vairākiem miljoniem Token LLMS

Lielāks ne vienmēr ir labāks: Biznesa gadījuma pārbaude vairākiem miljoniem Token LLMS

34
0

Pievienojieties mūsu ikdienas un nedēļas biļeteniem, lai iegūtu jaunākos atjauninājumus un ekskluzīvu saturu par nozares vadošo AI pārklājumu. Uzziniet vairāk


Sacensības paplašināt lielo valodu modeļus (LLMS) ārpus miljoniem marķēto slieksni ir aizdedzinājusi sīvas debates AI kopienā. Modeļi, piemēram, Minimax-teksts-01 lepoties ar 4 miljonu taktu jaudu un Dvīņi 1,5 pro vienlaikus var apstrādāt līdz 2 miljoniem žetonu. Viņi tagad sola spēles mainīgus lietojumprogrammas un vienā secinājuma zvanā var analizēt visas kodu bāzes, juridiskos līgumus vai pētniecības dokumentus.

Šīs diskusijas pamatā ir konteksta garums – teksta daudzums, ko AI modelis var apstrādāt un arī atcerēties uzreiz. Ilgāks konteksta logs ļauj mašīnmācības (ML) modelim apstrādāt daudz vairāk informācijas vienā pieprasījumā un samazina nepieciešamību pēc dokumentiem par apakšdokumentiem vai sarunu sadalīšanu. Kontekstā modelis ar 4 miljonu marķējumu ietilpību varētu sagremot 10 000 lappuses grāmatu vienā piegājienā.

Teorētiski tam vajadzētu nozīmēt labāku izpratni un sarežģītāku argumentāciju. Guess vai šie masveida konteksta logi tulko reālās pasaules biznesa vērtībā?

Tā kā uzņēmumi nosver izmaksas, kas saistītas ar infrastruktūras palielināšanas izmaksām, salīdzinot ar iespējamo produktivitātes un precizitātes pieaugumu, paliek jautājums: vai AI argumentācijā mēs atbloķējam jaunas robežas vai vienkārši izstiepjam žetonu atmiņas robežas bez jēgpilniem uzlabojumiem? Šajā rakstā apskatīti tehniskie un ekonomiskie kompromisi, etalonuzdevumu izaicinājumi un attīstītās uzņēmumu darbplūsmas, kas veido lielā konteksta LLM nākotni.

Lielu konteksta logu modeļu pieaugums: hipe vai reāla vērtība?

Kāpēc AI uzņēmumi sacenšas, lai paplašinātu konteksta garumu

AI vadītāji, piemēram, Openai, Google Deepmind un Minimax, ir ieroču sacīkstes, lai paplašinātu konteksta garumu, kas ir vienāds ar teksta daudzumu, ko AI modelis var apstrādāt vienā piegājienā. Solījums? Dziļāka izpratne, mazāk halucināciju un nemanāmāka mijiedarbība.

Uzņēmumiem tas nozīmē AI, kas var analizēt veselus līgumus, atkļūdot lielas kodu bāzes vai apkopot garus pārskatus, nesalaužot kontekstu. Cerība ir tāda, ka tādi risinājumi kā šķelšanās vai paaudzes paaudze (RAG) varētu padarīt AI darbplūsmas gludāku un efektīvāku.

“Adate-in-haystack” problēmas risināšana

Problēma adatai-haystack attiecas uz AI grūtībām identificēt kritisko informāciju (adatu), kas paslēpta masīvās datu kopās (siena kaudzē). LLM bieži pietrūkst galvenās detaļas, izraisot neefektivitāti:

  • Meklēšanas un zināšanu iegūšana: AI palīgi cīnās, lai iegūtu visatbilstošākos faktus no plašajām dokumentu krātuvēm.
  • Juridiskā un atbilstība: advokātiem ir jāizseko klauzulas atkarības no ilgiem līgumiem.
  • Uzņēmējdarbības analītika: Finanšu analītiķi riskē trūkst izšķirošu atziņu, kas apraktas ziņojumos.

Lielāki konteksta logi palīdz saglabāt vairāk informācijas un potenciāli samazināt halucinācijas. Tie palīdz uzlabot precizitāti un arī ļauj:

  • Cross-Doc atbilstības pārbaudes: Viena 256K-Token uzvedne var analizēt visu politikas rokasgrāmatu pret jauniem tiesību aktiem.
  • Medicīnas literatūras sintēze: pētnieki Izmantojiet 128K+ marķieri Logi, lai salīdzinātu zāļu izmēģinājumu rezultātus gadu desmitiem ilgos pētījumos.
  • Programmatūras izstrāde: atkļūdošana uzlabojas, ja AI var skenēt miljoniem koda rindu, nezaudējot atkarības.
  • Finanšu pētījumi: analītiķi var analizēt pilnus ienākumu pārskatus un tirgus datus vienā vaicājumā.
  • Klientu atbalsts: tērzēšanas roboti ar garāku atmiņu nodrošina vairāk konteksta apzinātu mijiedarbību.

Konteksta loga palielināšana palīdz arī modelim labākai atsaucei atbilstošai detaļai un samazina nepareizas vai izgatavotas informācijas ģenerēšanas iespējamību. 2024. gada Stenfordas pētījums atklāja, ka 128K-Token modeļi, analizējot apvienošanās līgumus, samazināja halucinācijas rādītājus par 18%, salīdzinot ar lupatu sistēmām.

Tomēr agrīnie adoptētāji ir ziņojuši par dažiem izaicinājumiem: JPMorgan Chase pētījums Parāda, kā modeļi slikti darbojas aptuveni 75% no viņu konteksta, un sarežģīti finanšu uzdevumi sabrūk līdz gandrīz nullei ārpus 32 000 žetonu. Modeļi joprojām plaši cīnās ar tālmetieniem, bieži vien par prioritāti piešķirot jaunākajiem datiem par dziļāku atziņu.

Tas rada jautājumus: vai 4 miljonu logs logs patiesi uzlabo argumentāciju, vai arī tas ir tikai dārga atmiņas paplašināšana? Cik lielu daļu no šīs plašās ieejas modelis faktiski izmanto? Un vai ieguvumi pārsniedz pieaugošās skaitļošanas izmaksas?

Izmaksas pret veiktspēju: lupata pret lielām uzvednēm: kura variants uzvar?

Ekonomikas kompromisi lupatu lietošanā

Rag apvieno LLM jaudu ar izguves sistēmu, lai iegūtu atbilstošu informāciju no ārējas datu bāzes vai dokumentu veikala. Tas ļauj modelim ģenerēt atbildes, pamatojoties gan uz iepriekš pastāvošām zināšanām, gan ar dinamiski iegūtiem datiem.

Tā kā uzņēmumi pieņem AI sarežģītiem uzdevumiem, viņi saskaras ar galveno lēmumu: izmantojiet masīvas uzvednes ar lieliem konteksta logiem vai paļaujas uz lupatu, lai dinamiski iegūtu atbilstošu informāciju.

  • Lielas uzvednes: modeļi ar lieliem marķiera logiem apstrādā visu vienā piespēlē un samazina nepieciešamību saglabāt ārējās izguves sistēmas un uztvert ieskatu starp dokumentiem. Tomēr šī pieeja ir skaitļošanas ziņā dārga, ar augstākām secinājumu izmaksām un atmiņas prasībām.
  • RAG: Tā vietā, lai apstrādātu visu dokumentu uzreiz, Ragu izgūst tikai visatbilstošākās porcijas pirms atbildes ģenerēšanas. Tas samazina marķiera izmantošanu un izmaksas, padarot to pielāgojamāku reālās pasaules lietojumprogrammām.

Salīdzinot AI secinājumu izmaksas: daudzpakāpju izguve pret lieliem atsevišķiem uzvedumiem

Kaut arī lielas uzvednes vienkāršo darbplūsmas, tām nepieciešama lielāka GPU jauda un atmiņa, padarot tās dārgas mērogā. Uz lupatām balstītas pieejas, neskatoties uz to, ka ir nepieciešami vairāki izguves pasākumi, bieži samazina kopējo žetonu patēriņu, kas noved pie zemākām secinājumu izmaksām, nezaudējot precizitāti.

Lielākajai daļai uzņēmumu labākā pieeja ir atkarīga no lietošanas gadījuma:

  • Vai nepieciešama dziļa dokumentu analīze? Lieli konteksta modeļi var darboties labāk.
  • Nepieciešami mērogojami, rentabla AI dinamiskiem vaicājumiem? Lupata, iespējams, ir gudrāka izvēle.

Liels konteksta logs ir vērtīgs, ja:

  • Pilns teksts ir jāanalizē uzreiz (Ex: līguma pārskati, koda auditi).
  • Izgūšanas kļūdu samazināšana ir kritiska (Ex: Normatīvā atbilstība).
  • Latentums ir mazāks par bažām nekā precizitāte (Ex: Strategic Analysis).

Saskaņā ar Google pētījumu akciju prognozēšanas modeļi, izmantojot 128K-Token Home windows, analizējot 10 gadu ienākumu atšifrējumus pārspēja lupatu par 29%. No otras puses, Github Copilot iekšējā pārbaude to parādīja 2.3x ātrāks uzdevums Pabeigšana pret lupatu Monorepo migrācijai.

Sadalot samazinošo atgriešanos

Lielu konteksta modeļu robežas: latentums, izmaksas un lietojamība

Kaut arī lielie konteksta modeļi piedāvā iespaidīgas iespējas, ir ierobežoti, cik daudz papildu konteksta ir patiesi izdevīgs. Paplašinoties konteksta logiem, tiek izmantoti trīs galvenie faktori:

  • Latentums: jo vairāk žetonu ir modelis, jo lēnāks secinājums. Lielāki konteksta logi var izraisīt ievērojamu kavēšanos, it īpaši, ja ir vajadzīgas reālā laika atbildes.
  • Izmaksas: Ar katru papildu žetonu apstrādāto skaitļošanas izmaksas pieaug. Infrastruktūras palielināšana, lai apstrādātu šos lielākos modeļus, var kļūt pārmērīgi dārgs, īpaši uzņēmumiem ar liela apjoma darba slodzēm.
  • Lietojamība: pieaugot kontekstam, modeļa spēja efektīvi “koncentrēties” uz visatbilstošāko informāciju samazinās. Tas var izraisīt neefektīvu apstrādi, ja mazāk atbilstoši dati ietekmē modeļa veiktspēju, kā rezultātā tiek samazināta atdeve gan precizitātei, gan efektivitātei.

Google Infini-Uzņemšanās paņēmiens cenšas kompensēt šos kompromisus, saglabājot patvaļīga garuma konteksta saspiestus attēlojumus ar ierobežotu atmiņu. Tomēr saspiešana noved pie informācijas zaudēšanas, un modeļi cīnās, lai līdzsvarotu tūlītēju un vēsturisku informāciju. Tas noved pie veiktspējas pasliktināšanās un izmaksu pieauguma, salīdzinot ar tradicionālo lupatu.

Konteksta loga ieroču sacensībām ir nepieciešams virziens

Kaut arī 4M-Token modeļi ir iespaidīgi, uzņēmumiem tie jāizmanto kā specializēti rīki, nevis universāli risinājumi. Nākotne slēpjas hibrīdu sistēmās, kuras adaptīvi izvēlas lupatu un lielas uzvednes.

Uzņēmumiem jāizvēlas starp lieliem konteksta modeļiem un lupatu, pamatojoties uz spriešanas sarežģītību, izmaksām un latentumu. Lieli konteksta logi ir ideāli piemēroti uzdevumiem, kuriem nepieciešama dziļa izpratne, savukārt lupata ir rentablāka un efektīvāka vienkāršākiem, faktiskiem uzdevumiem. Uzņēmumiem vajadzētu noteikt skaidrus izmaksu ierobežojumus, piemēram, USD 0,50 par uzdevumu, jo lielie modeļi var kļūt dārgi. Turklāt lielas uzvednes ir labāk piemērotas bezsaistes uzdevumiem, turpretī lupatu sistēmas ir izcilas reāllaika lietojumprogrammās, kurām nepieciešama ātra atbilde.

Jaunie jauninājumi, piemēram, Grafrags Var vēl vairāk uzlabot šīs adaptīvās sistēmas, integrējot zināšanu diagrammas ar tradicionālajām vektora izguves metodēm, kas labāk uztver sarežģītas attiecības, uzlabojot niansētu spriešanu un atbildiet uz precizitāti līdz 35%, salīdzinot ar pieejām tikai ar vektoru. Nesenie uzņēmumu ieviešana, piemēram, Lettria, ir pierādījuši dramatiskus precizitātes uzlabojumus no 50% ar tradicionālo lupatu līdz vairāk nekā 80%, izmantojot grafrag hibrīdu izguves sistēmās.

Jurijs Kuratovs brīdina:Konteksta paplašināšana, neuzlabojot argumentāciju, ir tāda pati kā automašīnām, kuras nevar vadīt, ir jāveido lielāki automaģistrāles, kuras nevar vadīt.”AI nākotne slēpjas modeļos, kas patiesi izprot attiecības jebkurā konteksta lielumā.

Rahul Raja ir LinkedIn personāla programmatūras inženieris.

Advitya Gemawat ir mašīnmācīšanās (ML) inženieris Microsoft.

Redaktori piezīme: Šajā rakstā izteiktie viedokļi ir autoru personīgais viedoklis un neatspoguļo viņu darba devēju viedokli.


avots