Repozitóriumi gyűjtemény mint adatkorpusz

Szerzők

  • Holl András
    Affiliation
    MTA Könyvtár és Információs Központ
  • Prószéky Gábor
    Affiliation
    Nyelvtudományi Kutatóközpont
  • Váradi Tamás
    Affiliation
    Nyelvtudományi Kutatóközpont
  • Laki László
    Affiliation
    Nyelvtudományi Kutatóközpont
https://doi.org/10.3311/tmt.13239

Absztrakt

Cikkünkben bemutatjuk a REAL repozitórium modern magyar nyelvű tartalmainak  szövegkorpuszként való felhasználását, melyet az Akadémiai Könyvtár (MTA KIK) és a Nyelvtudományi Kutatóközpont (NYTK) közösen valósít meg az MTA  „Tudomány a Magyar Nyelvért Nemzeti Programjának" keretében. „A magyar nyelv digitális támogatása a magyar tudományosság szolgálatában" alprogram 2026-ban fejeződik be, és az NyTK által fejlesztett neurálisháló-alapú nyelvtechnológiai eszköz tanításán és alkalmazásán alapul.

A REAL az egyik legjelentősebb hazai tudományos repozitórium, nyolc gyűjteménybe szervezett, 210 ezernél több tétellel, melyek túlnyomó többsége szabadon letölthető. A repozitóriumból havonta közel félmillió letöltés történik. Az új projekt keretében megkíséreljük a szöveges tartalmak egy részét szövegkorpuszként hasznosítani. Mindehhez az eddiginél alaposabban meg kell ismerjük saját gyűjteményünket, fel kell mérjük adattartalmát, és meg kell vizsgáljuk a dokumentumok és leíró adataik minőségét. Ezt követően törekednünk kell a leíró adatok javítására és kiegészítésére, még a nyelvtechnológiai eszközök alkalmazását megelőzően. A projekt eredményeképpen reményeink szerint a repozitóriumi adatok tovább javíthatóak majd.

A projekt része a szövegkorpusz bányászata: a szövegekben azonosítjuk az alapvető bibliográfiai információkat és segítségükkel mind az eredeti dokumentum leírását gazdagítjuk, mind más adatbázis (az MTMT) kiegészítéséhez felhasználjuk ezeket. Foglalkozunk a szövegek tématerületi osztályozásával is. Mindezen feladatok elvégzésében támaszkodhatunk a REAL-ban alkalmazott, nyílt forráskódú, szabadon használható EPrints szoftverre.

Kulcsszavak:

repozitórium, gyűjtemény, adatkorpusz, REAL, könyvtár

Megjelent

2023-06-22

Hogyan kell idézni

Holl, A., Prószéky, G., Váradi, T., Laki, L. „Repozitóriumi gyűjtemény mint adatkorpusz”, Tudományos és Műszaki Tájékoztatás, 70(2), o. 164–167, 2023. https://doi.org/10.3311/tmt.13239

Folyóirat szám

Rovat

Cikkek