Google jaunais Gemini Professional ir gudrāks nekā citi AIS argumentācijā, zinātnē un kodēšanā.
Tas ir saskaņā ar etalonu rezultātu sēriju, ko ceturtdien ievietoja Google. Īsāk sakot, Gemini 2,5 Professional pārspēj galvenos konkurentus gandrīz visam – lai arī mēs esam pārliecināti, ka uzņēmumi, kas atrodas aiz šiem konkurentiem, nepiekristu.
Šis tvīts šobrīd nav pieejams. Tas varētu būt iekraušana vai ir noņemts.
Saskaņā ar Google datiem, Gemini 2.5 Professional ir veselīgs pārsvars pār Openai O3, Claude Opus 4, Grok 3 Beta un DeepSeek R1, cilvēces pēdējā eksāmena etalonā, kurā novērtēta modeļa matemātika, zinātne, zināšanas un pamatojums. Labāk ir arī kodu rediģēšana (saskaņā ar ADID poliglota etalonu), un tas uzvar pār visiem konkurentiem vairākos faktiskajos etalonos, ieskaitot faktu pamatus, kas nozīmē, ka tas ir mazāk ticams, ka tas faktiski ir neprecīzs teksts.
Mashable gaismas ātrums
Vienīgais etalons, kurā Gemini 2.5 Professional nav skaidrs uzvarētājs, ir uz matemātiku orientēts AIME 2025, un pat atšķirības starp rezultātiem ir diezgan mazas.
Dvīņi tagad autogenēzijas kopsavilkumi par gariem gmail pavedieniem
Visu Gemini 2.5 Professional uzlabojumu rezultātā šis modelis tagad ir virsū Lmarena līderu sarakstā ar rezultātu 1470.
Tomēr ir nozveja: Gemini 2.5 Professional galīgā versija vēl nav plaši pieejama. Google šo jaunāko versiju sauc par “modernizētu priekšskatījumu” ar stabilu versiju, kas nāk “pēc pāris nedēļām”. Tomēr priekšskatījumam tagad jābūt pieejamam Dvīņu lietotnē.
Tēmas
Mākslīgais intelekts Google Gemini