Slušaj vest

I ne samo to, neretko samouvereno daju i činjenično netačne tvrdnje. 

Često se to objašnjava lošim ulaznim podacima, ali je tim istraživača iz OpenAI-ja i Tehnološkog instituta Džordžije u nedavno objavljenom radu dokazao da čak i sa savršenim podacima za obuku, LLM-ovi ne mogu znati sve — delom i zato što su neka pitanja jednostavno neodgovoriva. Ipak, to ne znači da su halucinacije neminovne. Veštačka inteligencija bi mogla jednostavno da prizna: "Ne znam.“ Zašto to onda ne čini?

U čemu je problem

Koren problema, kažu istraživači, leži u načinu na koji se modeli obučavaju. Oni „lažiraju“ odgovore jer se njihova uspešnost meri standardizovanim testovima koji nagrađuju samouverene odgovore i kažnjavaju iskrenu nesigurnost. Tim zato poziva na reformu tih testova, kako bi se istovremeno vrednovali tačnost i svest o sopstvenom neznanju. Iako neki stručnjaci smatraju da je rad tehnički ubedljiv, reakcije na predlog rešenja su podeljene. Pojedini sumnjaju da će OpenAI zaista primeniti sopstvene preporuke i naučiti svoje modele da daju prednost istini umesto angažovanju korisnika. Neprijatna istina je, možda, da bi ChatGPT, ako bi češće govorio „ne znam“, izgubio korisnike koji bi potražili „sigurnije“ izvore. To bi bilo ozbiljno za kompaniju koja još pokušava da proširi bazu korisnika i postane profitabilna. „Ako se halucinacije otklone, proizvod neće opstati,“ kaže Vej Sing, istraživač veštačke inteligencije sa Univerziteta u Šefildu.

Nije bitna istina, već ocene

Visoki rezultati na testovima donose ugled i komercijalni uspeh, pa kompanije prilagođavaju svoje modele tako da postignu što bolje ocene. Međutim, devet od deset najpopularnijih testova koje su istraživači analizirali vrednuje tačan odgovor sa 1, a prazan ili netačan sa 0. Pošto testovi ne kažnjavaju netačne odgovore više nego nepotpune, model koji "glumi da zna“ uvek prolazi bolje od onog koji priznaje da nije siguran. Ova tradicija je možda i razlog zašto dosadašni pokušaji rešavanja halucinacija nisu uspeli, smatra Kalai. Od stotina postojećih testova, samo nekolicina sistematski prati koliko često model izmišlja podatke. Istraživači zato predlažu da se testovi preoblikuju tako da kažnjavaju pogrešna pogađanja — čime bi model naučio skromnost. „To je gotovo trivijalna promena,“ kaže Kalai.

Da bi pokazali zašto sama obuka ne može da osigura tačnost, istraživači su zamislili sledeći eksperiment: koliko je tačan model kada procenjuje da li je neka rečenica istinita ili lažna? Ako model ne ume pouzdano da razlikuje istinu od neistine, neminovno će sam generisati netačne odgovore. Rezultat matematičke analize bio je iznenađujuće jednostavan: ukupan procenat grešaka modela u generisanju teksta mora biti najmanje dvostruko veći od procenta grešaka pri klasifikaciji rečenica kao tačnih ili netačnih. Drugim rečima, modeli će uvek grešiti jer su neka pitanja sama po sebi previše složena ili nemaju obrazac koji se može naučiti. „Ako u razredu imate 50 učenika i znate datume rođenja njih 49, to vam neće pomoći da pogodite rođendan pedesetog,“ objašnjava istraživač Venpala.

Nikad neće biti savršena

„Realnost je da nikada nećemo dostići stoprocentnu tačnost,“ dodaje njegov koautor Adam Kalai iz OpenAI-ja. „Ali to ne znači da modeli moraju da haluciniraju.“

Hao Peng s Univerziteta Ilinois u Urbana-Šampejnu, strahuje da bi i najbolje namerene promene mogle imati neželjene posledice. Ako se modeli podstiču da češće kažu „ne znam“, mogli bi da razviju nove načine „igranja sistema“ — kao što su već naučili da igraju postojeće testove. „Sumnjam da postoji ijedan skup podataka ili metrika koji bi prirodno rešio halucinacije,“ kaže on. „Ovi modeli su previše vešti u prilagođavanju onome što od njih tražimo.“ Za sada, sve zavisi od samih kompanija. „Troškovi energije i računanja rastu, ali se performanse sve manje poboljšavaju,“ upozorava ekonomista Servaas Storm sa Delft univerziteta. „A samo pet odsto korisnika OpenAI-ja spremno je da plati dvadeset dolara mesečno.“ U takvim uslovima, niko ne želi prvi da prekine praksu „samouverenih odgovora“, jer bi korisnici mogli da pređu kod „smelijih“ konkurenata.

„Ako modeli stalno ponavljaju ‘ne znam’, onda ne mogu da greše,“ zaključuje Kambampati. „Ali onda neće biti ni od koristi.“

Biznis Kurir/Dnevnik