Vadász Noémi: Szerzőazonosítás magyar nyelvű irodalmi szövegeken

A szerzőség megállapítása azóta foglalkoztatja az embert, amióta szöveget alkot. A szerző kilétéről könnyen tehetünk intuitív megállapításokat, hiszen az emberek eltérő stílusban alkotják szövegeiket – legyen szó élőbeszédről vagy írott szövegről. Ha egy embert jellemez az általa alkotott szöveg, akkor a szöveg alapján azonosíthatjuk a szerzőjét? Ha a szövegekről és szerzőikről tett intuitív megállapításokat mérhetővé tesszük, akkor ez a feladat számítógépes eszközökkel is végrehajtható.

Juola meghatározása szerint (Juola, 2008) a szerzőazonosítás tágan értelmezve minden olyan kísérlet, amely a szerzőre jellemző tulajdonságokra következtet nyelvi adatokból. Szűkebb értelemben véve – és az előadás témájához közelítve – az írott nyelvi produktumok szellemi forrásának meghatározása. A szerzőazonosítás más területek (igazságügyi nyelvészet, oknyomozó újságírás, plágiumkeresés) mellett az irodalomtudomány egyik fontos eszköze lehet, nemcsak a vitatott szerzőségű szövegek eredetének felderítésében, hanem a szerzőkről és szövegeikről tehető általánosítások megállapításában (pl. szerzők vagy szövegek csoportosítása bizonyos jellemzők alapján, műfaj- vagy genderspecifikus megállapítások, művek kronoligizálása, egy írói életmű v áltozásainak nyomon követése). A szerzőazonosítás módszereivel az író stílusát tükröző, egymással összehasonlítható profilokat is felállíthatunk.

Előadásomban a Digitális Irodalmi Akadémia annotált korpuszán szerzőazonosító módszerekkel végzett kísérleteket mutatok be. A kísérletek során arra a kérdésre keresem a választ, hogy a szerzőazonosítás korai szakaszában kidolgozott módszerekkel mennyire hatékonyan lehet a szerzőazonosítás feladatát elvégezni. További fontos feladat a magyarspecifikus sajátosságok feltárása, hogy hogyan lehet az angol nyelvre kidolgozott szerzőazonosító módszereket a magyar nyelvű szövegekre hatékonyabbá tenni.

Patrick Juola: Authorship Attribution, Foundations and Trends in Information Retrieval: Vol. 1: No. 3, pp 233-334. Delft: Now Publishers, 2008.

Csaba Oravecz, Tamás Váradi, Bálint Sass: The Hungarian Gigaword Corpus. In Proceedings of the ninth international conference on Language Resources and Evaluation, LREC2014, 1719-1723, Reykjavik, 2014.