Home Tehnoloģija Apple jaunās AI datu kopas mērķis ir uzlabot fotoattēlu rediģēšanas modeļus

Apple jaunās AI datu kopas mērķis ir uzlabot fotoattēlu rediģēšanas modeļus

8
0

Apple pētnieki ir izlaiduši Piko-banāns-400Kvisaptveroša datu kopa ar 400 000 atlasītu attēlu, kas ir īpaši izstrādāta, lai uzlabotu to, kā AI sistēmas rediģē fotoattēlus, pamatojoties uz teksta uzvednēm.


Milzīgās datu kopas mērķis ir novērst to, ko Apple raksturo kā trūkumu pašreizējā AI attēlu rediģēšanas apmācībā. Lai gan tādas sistēmas kā GPT-4o var veikt iespaidīgus labojumus, pētnieki saka, ka progresu ierobežo nepietiekami apmācības dati, kas iegūti no reālām fotogrāfijām. Apple jaunās datu kopas mērķis ir uzlabot situāciju.

Pico-Banana-400K piedāvā attēlus, kas sakārtoti 35 dažādos rediģēšanas veidos astoņās kategorijās, sākot no pamata pielāgojumiem, piemēram, krāsu izmaiņām, līdz sarežģītām pārvērtībām, piemēram, cilvēku pārvēršanai par Pixar stila tēliem vai LEGO figūrām. Katrs attēls tika cauri Apple AI nodrošinātajai kvalitātes kontroles sistēmai, izmantojot Google Gemini-2.5-Professional, lai novērtētu rezultātus, pamatojoties uz instrukciju atbilstību un tehnisko kvalitāti.

Datu kopā ir iekļautas arī trīs specializētas apakškopas: 258 000 viena labojuma piemēru pamatapmācībai, 56 000 preferenču pāru, kas salīdzina veiksmīgus un neveiksmīgus labojumus, un 72 000 vairāku apgriezienu secību, kas parāda, kā attēli attīstās, veicot vairākus secīgus labojumus.

Apple izveidoja datu kopu, izmantojot Google Gemini-2.5-Flash-Picture (aka Nano-Banana) rediģēšanas modeli, kas tika izlaists tikai pirms dažiem mēnešiem. Tomēr Apple pētījumi atklāja tā ierobežojumus. Lai gan globālās stila izmaiņas bija veiksmīgas 93% gadījumu, ar precīziem uzdevumiem, piemēram, objektu pārvietošanu vai teksta rediģēšanu, bija nopietnas grūtības, un panākumu līmenis bija zem 60%.

apple attēlu rediģēšana ai datu kopa pico bananaapple attēlu rediģēšana ai datu kopa pico banana
Neskatoties uz ierobežojumiem, pētnieki apgalvo, ka viņu mērķis ar Pico-Banana-400K ir izveidot “izturīgu pamatu nākamās paaudzes teksta vadītu attēlu rediģēšanas modeļu apmācībai un salīdzinošai novērtēšanai”. The pilnīga datu kopa ir brīvi pieejama nekomerciālai lietošanai GitHub pētniecībā, lai izstrādātāji to varētu izmantot, lai apmācītu efektīvāku attēlu rediģēšanas AI.

avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here