Repozitóriumi gyűjtemény mint adatkorpusz
Absztrakt
Cikkünkben bemutatjuk a REAL repozitórium modern magyar nyelvű tartalmainak szövegkorpuszként való felhasználását, melyet az Akadémiai Könyvtár (MTA KIK) és a Nyelvtudományi Kutatóközpont (NYTK) közösen valósít meg az MTA „Tudomány a Magyar Nyelvért Nemzeti Programjának" keretében. „A magyar nyelv digitális támogatása a magyar tudományosság szolgálatában" alprogram 2026-ban fejeződik be, és az NyTK által fejlesztett neurálisháló-alapú nyelvtechnológiai eszköz tanításán és alkalmazásán alapul.
A REAL az egyik legjelentősebb hazai tudományos repozitórium, nyolc gyűjteménybe szervezett, 210 ezernél több tétellel, melyek túlnyomó többsége szabadon letölthető. A repozitóriumból havonta közel félmillió letöltés történik. Az új projekt keretében megkíséreljük a szöveges tartalmak egy részét szövegkorpuszként hasznosítani. Mindehhez az eddiginél alaposabban meg kell ismerjük saját gyűjteményünket, fel kell mérjük adattartalmát, és meg kell vizsgáljuk a dokumentumok és leíró adataik minőségét. Ezt követően törekednünk kell a leíró adatok javítására és kiegészítésére, még a nyelvtechnológiai eszközök alkalmazását megelőzően. A projekt eredményeképpen reményeink szerint a repozitóriumi adatok tovább javíthatóak majd.
A projekt része a szövegkorpusz bányászata: a szövegekben azonosítjuk az alapvető bibliográfiai információkat és segítségükkel mind az eredeti dokumentum leírását gazdagítjuk, mind más adatbázis (az MTMT) kiegészítéséhez felhasználjuk ezeket. Foglalkozunk a szövegek tématerületi osztályozásával is. Mindezen feladatok elvégzésében támaszkodhatunk a REAL-ban alkalmazott, nyílt forráskódú, szabadon használható EPrints szoftverre.