Nākamreiz, kad sociālajos tīklos sastapsit neparasti pieklājīgu atbildi, iespējams, vēlēsities to pārbaudīt divreiz. Tas varētu būt AI modelis, kas cenšas (un neizdodas) saplūst ar pūli.
Trešdien pētnieki no Cīrihes universitātes, Amsterdamas universitātes, Djūka universitātes un Ņujorkas universitātes atbrīvots pētījums, kas atklāj, ka AI modeļi joprojām ir viegli atšķirami no cilvēkiem sociālo mediju sarunās, un pārāk draudzīgs emocionālais tonis kalpo kā neatlaidīgākā dāvana. Pētījumā, kurā tika pārbaudīti deviņi atvērtā svara modeļi Twitter/X, Bluesky un Reddit, atklājās, ka pētnieku izstrādātie klasifikatori atklāja AI ģenerētas atbildes ar 70 līdz 80 procentu precizitāti.
Pētījums iepazīstina ar to, ko autori sauc par “skaitļošanas Tjūringa testu”, lai novērtētu, cik cieši AI modeļi atbilst cilvēka valodai. Tā vietā, lai paļautos uz subjektīvu cilvēka spriedumu par to, vai teksts izklausās autentisks, sistēma izmanto automatizētus klasifikatorus un lingvistisko analīzi, lai identificētu īpašas iezīmes, kas atšķir mašīnas radīto saturu no cilvēka autora satura.
“Pat pēc kalibrēšanas LLM rezultāti joprojām ir skaidri atšķirami no cilvēka teksta, īpaši afektīvajā tonī un emocionālajā izteiksmē,” rakstīja pētnieki. Komanda, kuru vadīja Nicolò Pagan no Cīrihes universitātes, pārbaudīja dažādas optimizācijas stratēģijas, sākot no vienkāršas pamudināšanas līdz precizēšanai, taču atklāja, ka dziļākas emocionālās norādes joprojām pastāv, jo ticami liecina, ka konkrētu teksta mijiedarbību tiešsaistē ir autors AI tērzēšanas robots, nevis cilvēks.
Toksicitāte stāsta
Pētījumā pētnieki pārbaudīja deviņus lielos valodu modeļus: Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, Gemma 3 4B Instruct, 1B Instruct un Apertus-8B-2509.
Kad AI modeļi tika aicināti ģenerēt atbildes uz reāliem sociālo mediju ziņām no faktiskajiem lietotājiem, AI modeļi cīnījās, lai atbilstu gadījuma negatīvisma un spontānas emocionālās izpausmes līmenim, kas ir izplatīts cilvēku sociālo mediju ziņās, un toksicitātes rādītāji ir konsekventi zemāki par autentiskām cilvēku atbildēm visās trīs platformās.
Lai novērstu šo trūkumu, pētnieki mēģināja izmantot optimizācijas stratēģijas (tostarp sniedzot rakstīšanas piemērus un konteksta izgūšanu), kas samazināja strukturālās atšķirības, piemēram, teikuma garumu vai vārdu skaitu, guess emocionālā toņa atšķirības saglabājās. “Mūsu visaptverošie kalibrēšanas testi apstrīd pieņēmumu, ka sarežģītāka optimizācija noteikti dod vairāk cilvēkiem līdzīgu rezultātu,” secināja pētnieki.













