Novák Attila: Egy ó- és középmagyar magánéleti korpusz morfoszintaktikai annotációja

Az előadás a Történeti magánéleti korpusz [OTKA 81189] pályázat keretében készült ó- és középmagyar magánleveleket és perszövegeket tartalmazó morfoszintaktikailag annotált, kereshető korpusz készítésekor használt technikai és nyelvtechnológiai megoldásokat mutatja be. A korpusz nem fakszimile szövegkiadásokon alapul, hanem olyan nyomtatott kiadásokon, amelyek a kéziratos források tipográfiai leképezését már valamilyen formában megoldották. A szövegek digitalizálását optikai karakterfelismerő program alkalmazásával oldottuk meg kézi javítással. Egyes szövegek esetében nehéz feladatot jelentett a szokatlan karakterek és mellékjel-kombinációk feldolgozása, amelyhez az alkalmazott OCR programot adott esetben szövegkiadásonként újra be kellett tanítani. A szövegek morfológiai elemzéséhez a Humor magyar morfológiai elemző (Novák 2003) olyan kibővített változatát használtuk, amelyet alkalmassá tettünk a nyelvből időközben kihalt alaktani konstrukciókat, toldalékallomorfokat, toldalékmorfémákat, paradigmákat, töveket tartalmazó szavak elemzésére is. A szövegek rendkívül változatos írásképe, az előforduló sokféle dialektus, illetve a korpusz által lefedett hosszú időszak folyamán bekövetkezett nagymérvű nyelvtörténeti (elsősorban fonológiai) változások miatt az automatikus elemzés egyik feltétele a szövegek írásképi és fonológiai szempontból egységes formára hozása, azaz normalizálása volt. Ez nagyrészt kézzel történt, és a folyamat során a szövegeket tagmondatokra is bontottuk félautomatikus, kézzel ellenőrzött módszerrel. Fontos szempont volt, hogy morfémák a normalizálás folyamán ne tűnjenek el vagy alakuljanak át más morfémákká: a morfémahűség helyes megvalósításához általában alaposan mérlegelnünk kellett az adott korszak ortográfiájának jellegzetességeit. Törekedtünk rá, hogy a korabeli helyesírás bizonytalanságaiból adódó inherens és ténylegesen feloldhatatlan többértelműségeket lehetőleg ne tüntessük el a normalizálás során. Az előadásban áttekintjük az elemzőprogram adaptálásához szükséges lépéseket, a felmerülő problémákat és megoldásukat, valamint a szövegek morfoszintaktikai annotálására használt gépi és kézi egyértelműsítő rendszert és az annotált szövegekben való keresést és hibajavítást lehetővé tevő korpuszkezelőt. Novák Attila (2003). Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003), pp. 138–145, Szegedi Tudományegyetem.