Ar galėjote kada įsivaizduoti, kad klasikinis lietuvių literatūros šedevras – Vinco Mykolaičio-Putino romanas „Altorių šešėly“ – galėtų virsti matematiniais algoritmais išreikšta diagrama? Neįmanoma, pamanysit. Literatūra per daug gili, nesusisteminama, emocionali. Vis dėlto… Vilniaus universiteto Matematikos ir informatikos fakulteto (MIF) prodekanas dr. Linas Bukauskas su studentais kuria teksto emocionalumą išmatuoti galinčią sentimentų analizės programą.
Ištakos – religinė nesantaika
Kompiuterinė sentimentų analizės plėtra pasaulyje, kaip pasakytų prie projekto dirbantis MIF magistrantas Vilius Okockis, dabar yra „ant bangos“. Panašūs modeliai programuojami jau senokai, tačiau VU mokslininkai – pirmieji šio metodo kūrėjai Lietuvoje. „Anglų kalboje tai veikia, kodėl neturėtų veikti mūsiškėje?“ – retoriškai klausia dr. L. Bukauskas.
Norėdamas magistrantams pateikti įdomių, pritaikomų ir galbūt komerciškai sėkmingų užduočių, prieš keletą metų dr. L. Bukauskas pasiūlė, pasinaudojant kompiuterine teksto analize, įvertinti rašytinio teksto įžeidumo potencialą. Iš pradžių ieškota religinės nesantaikos kurstymo apraiškų. „Sukūrėme taisyklėmis grįstą algoritmą, kurio paskirtis – nustatyti, ar tekste yra kokių nors šabloniškų frazių, galinčių padaryti jį įžeidų. Pavyzdžiui, jei žmogus didelėmis raidėmis parašo žodį „DIEVAS“, tikriausiai jam teikiama daug dėmesio. Arba jei žodis „Dievas“ rašomas greta keiksmažodžio, akivaizdu, kad šis komentaras gali turėti įžeidumo potencialo“, – aiškina dr. L. Bukauskas. Pasak jo, šiais metais sukurtas prototipas, gebantis iš esmės įvertinti elektroninės knygos sentimentalumą. Pradėta nuo V. Mykolaičio-Putino „Altorių šešėly“.
Mokslininkai sukūrė specialius kalbos analizatorius. Kalba skaidoma, tiriama įvairiais lygiais – apskaičiuojamas ne vieną parametrą turintis emocinis vektorius. „Tekstui suteikiamas matematinis svoris, kuris atsiranda, kai iš toje pačioje pastraipoje esančių žodžių vedamas bendras vardiklis“, – dėsto dr. L. Bukauskas.
Dabartinėje sentimentų analizės programoje naudojamas dr. Paulo Ekmano sukurtas bazinių emocijų klasifikavimo modelis. Tekstas analizuojamas ieškant laimės, liūdesio, pykčio, baimės, nuostabos ir pasibjaurėjimo emocijų. Į laimės kategoriją įtraukiami žodžiai, susiję su šia emocija, pavyzdžiui, „malonumas“, „meilė“, „džiaugsmas“. Su liūdesiu gali būti tapatinami žodžiai, reikšiantys sielvartą, skausmą, ašaras. „Kitaip tariant, yra sukurta analitinė sistema, leidžianti tekstą išskaidyti į tam tikras sudedamąsias dalis, patikrinti tam tikras sakinio konstrukcijas. Vadovaujantis tuo, kaip sakiniai sudėlioti, kaip pats tekstas parašytas, išskiriamas koeficientas, dėl kurio galima pasakyti, tarkim, jog ši pastraipa turi tiek ir tiek laimės“, – sistemos veikimo principus supaprastinti bando dr. L. Bukauskas.
Kam to reikia?
Iš pirmo žvilgsnio gali pasirodyti, kad automatinė sentimentų analizė – bergždžias reikalas: pats perskaitai ir žinai, kokios emocijos dominuoja. Tačiau gyvename informacijos pertekliaus amžiuje, žmonės nebeturi laiko su viskuo susipažinti, viską perskaityti ir apdoroti. Juolab kad viešasis diskursas – heterogeninė erdvė, kurioje pinasi įvairiausios sferos. Sentimentų analizės programa, pasak kūrėjų, galėtų būti pritaikoma ir politikoje, ir versle, ir nesantaikos kurstymo nusikaltimų prevencijos srityse.
Dr. L. Bukauskas tvirtina, kad veltis į politines batalijas tikrai neketina, tačiau jo kuriama sistema galėtų padėti kritiškai vertinti partijų programas ir kalbas. „Pasinaudojant sentimentų analize, įmanoma išsiaiškinti, kiek politinių kampanijų tekstuose esama racionalumo. Savotiškai išmatuojama propagandos apimtis“, – teigia jis. Be to, valdžios institucijos, nenaudodamos sociologinių apklausų, turėtų galimybę pasitikrinti, ar koks nors sprendimas visuomenei priimtinas. „Pavyzdžiui, paskutinis RRT (Ryšių reguliavimo tarnyba – aut. past.) skandalas. Automatizuotu būdu galima sužinoti, ar žmonės yra nusivylę tuo, kad RRT paprašė duomenų. Žinoma, dauguma interneto portalų ir jų komentatorių rašo neigiamai, tačiau, žinodami, kad prieš tai vertinta nepalankiai, o dabar dar nepalankiau, suinteresuoti žmonės galėtų pasidaryti tam tikras išvadas“, – svarsto dr. L. Bukauskas.
Sentimentų analizės programos siūloma galimybe įvertinti emocinį kokio nors literatūros kūrinio foną galėtų pasinaudoti ir leidybos verslo atstovai. „Knygų redaktoriams tikrai padėtų. Prieš nusprendžiant leisti kokią nors knygą, išanalizavus jos emocinį foną, palyginus jį su kitų panašių ir populiariais tapusių kūrinių emociniu fonu, įmanoma prognozuoti, ar ji bus perkama. Tai galėtų tapti vienu iš veiksnių, lemiančių leidybą“, – kalbėjo V. Okockis.
Sentimentų analizę pritaikant internetinių komentarų turiniui tirti, būtų lengviau rasti žmogaus garbę ir orumą žeminančius pasakymus. Tai nereiškia, kad kompiuterinė sistema nuspręstų, ar internetinio komentaro autorius kursto religinę, rasinę nesantaiką, ragina susidoroti su tautine, seksualine ar kitokia mažuma. Teisėsaugos pareigūnai, pasinaudodami šiuo įrankiu, vykdytų pirminę tekstų atranką. Iš tūkstančių per dieną pasirodančių komentarų būtų išskirti potencialiai įžeidūs pareiškimai. Juos įvertinus profesionalams, autoriai galėtų būti traukiami baudžiamojon atsakomybėn.
Yra kur tobulėti
Mokslininkai sutinka, kad jų prototipas nėra visapusiškai puikus ir užbaigtas. Pripažinkime, kalba – vienas greičiausiai kintančių ir sunkiausiai susisteminamų reiškinių pasaulyje. Nesunku įsivaizduoti, kad dr. L. Bukausko komanda susiduria (be abejonės, susidurs ir ateityje) su iššūkiais, skatinančiais mąstyti, kaip esamą modelį plėtoti ir tobulinti.
„Kitas mūsų žingsnis – įtraukti ir Filosofijos fakulteto mokslininkus, kad šie padėtų pritaikyti sudėtingesnius psichologinius modelius“, – ateities planus atskleidžia dr. L. Bukauskas. Daugiau dėmesio turėtų būti skirta kokybiniam vertinimui stiprinti. Kadangi susiduriama su kalbos supratimo, interpretavimo, sudarymo barjerais, neatmestina bendradarbiavimo su kalbininkais galimybė.
Pradžioje mokslininkai rinkosi paprastą variantą, nes norėjo įsitikinti, ar šis modelis veiksmingas. „Apsiribojome tam tikrais modifikatoriais, nustatančiais, kaip vieni žodžiai veikia kitus, kaip nustatyti paprastą emociją ir jos neigimą. Vėliau reikėtų sutelkti dėmesį į įvairių metaforų, kitų kalbinės raiškos formų aptikimą“, – ateities perspektyvą brėžia V. Okockis.
„Toliau bus galima prisiliesti prie sudėtingesnių kalbos analizės dalykų. Perkeltinė prasmė, nutylėjimai, daugtaškis. Kaip reikėtų matematiškai traktuoti šį skyrybos ženklą? Turime kur tobulėti, vadinasi, esame tinkamame kelyje“, – džiaugiasi dr. L. Bukauskas.
Izabelė Švaraitė, naujienos.vu.lt
V. Jadzgevičiaus nuotrauka