Az AVOBMAT olyan platformfüggetlen szövegbányászati alkalmazás, amelyet szövegek és bibliográfiai adatok elemzésére terveztek. A program lehetővé teszi nagyméretű szöveges adatbázisok vizsgálatát, 16 nyelven képes előfeldolgozni, szemantikusan gazdagítani és elemezni metaadatokat és szövegeket. Az eredmények kritikai értelmezését segíti a feltöltött adatbázisok hiányosságainak azonosítása és vizualizációja. Az alkalmazást programozási ismeretekkel nem rendelkező kutatók is használhatják, mivel fejlesztői a metaadat- és szövegelemzéssel kapcsolatos kutatási eszközöket felhasználóbarát grafikus felületre integrálták. Az AVOBMAT innovációs értékét jelzi, hogy máris olyan szervezetek adtak felhasználási szándéknyilatkozatokat, mint az Országos Széchényi Könyvtár, a cseh és a lengyel tudományos akadémiák irodalomtörténeti intézetei, az ELTE BTK Történeti Intézet, Média és Kommunikáció Tanszék, az SZTE BTK Vallástudományi Tanszéke, valamint a Társadalmi Felelősségvállalás Kompetenciaközpont. Továbbá a Text+ német nemzeti humán- és társadalomtudományi kutatási infrastruktúra fejlesztői is komolyan érdeklődnek a program iránt. Az AVOBMAT projektje 2022-ben elnyerte az SZTE Innovációs Díját (cikkünk végén); a szoftver fejlesztése jelenleg is folyik egy Proof of Concept pályázatnak köszönhetően. A szoftver utáni érdeklődést ezen az űrlapon lehet jelezni.
– Mi az AVOBMAT története?
– Az AVOBMAT a szó legszorosabb értelmében csapatmunka eredménye. 2011-ben Németh Zoltán matematikus barátommal készítettünk egy bibliográfiai adatokat interaktív módon elemző Excel munkafüztet, melynek funkciói beépültek az AVOBMAT-ba is. Közvetlen előzménye pedig egy szegedi digitális bölcsészeti konferencia volt, amelyet 2015-ben Kokas Károllyal (SZTE Klebelsberg Könyvtár) és Labádi Gergellyel (SZTE BTK Magyar Intézet) szerveztünk. Erre a rendezvényre összehívtuk a szegedi egyetemről azokat a kollégákat, akik a digitális bölcsészet határterületeivel foglalkoztak. A konferencia egyik központi kérdése az volt, hogyan lehetne a szövegelemzésben felhasználni a mesterséges intelligencia kutatás legkorszerűbb módszereit, főként a természetesnyelv-feldolgozással kapcsolatos technológiákat. Az elhangzott előadások megmutatták, hogy óriási lehetőségeket kínálnak az ilyen adatalapú módszerek a bölcsészet- és társadalomtudományi kutatások területén. Ugyanakkor kiderült az is, hogy a megfelelő szintű programozási ismeretek hiánya komoly kihívásokat jelent a kutatóknak. A következő évben Labádi Gergellyel, Farkas Richárddal és Berend Gáborral – a konferencián megfogalmazott kihívásokra reflektálva – kezdtünk el dolgozni felhasználóbarát digitális bölcsészeti eszközök fejlesztésén. Labádi Gergő megálmodott egy TANIT (Text ANalysis Tools) nevű szövegelemző alkalmazást, de fájdalmunkra már nem érhette meg az elkészülését, 2017-ben 42 évesen elhunyt. Az Ő elgondolásai alapján fejeztük be a szoftver fejlesztését, amit 2018 januárjában a szegedi Magyar Számítógépes Nyelvészeti konferencián ismertettünk. A TANIT-ot Gergő feleségének is külön bemutattuk ezen a rendezvényen. Az AVOBMAT létrehozása négy évet vett igénybe. Berend Gábor és Szántó Zsolt, akik a számítógépes nyelvészet elismert kutatói, kiegészítették a programmal kapcsolatos elképzeléseimet újakkal, vagyis összeadtuk a tudást különböző szakterületekről. Szántó Zsolt az SZTE tudományos munkatársa – Berend Gábor szakmai vezetésével – kivitelezte az összes mesterséges intelligenciás technológiát használó programrészt, mint a névelem-felismerést és a témamodellezést. Egyszóval neki köszönhető a szoftver legértékesebb része. A Proof of Concept pályázat informatikai vezetője Bilicki Vilmos, aki korábban a feltöltési kódok megírásában is közreműködött.
– Teremthet-e új szövegelemzési célokat a szoftveres módszer? Vagy inkább a korábbi eredmények újra-kutatására való?
– Gépi technológiák alkalmazásával feltehetünk olyan kutatási kérdéseket is, amelyeket hagyományos módszerekkel, a szoros, lassú olvasásos elemzéssel nem feltétlenül tudunk megválaszolni. Az elmúlt évtizedek digitális forradalmával hatalmas mennyiségű ismert és ismeretlen forrásanyag vált elérhetővé és kereshetővé digitális gyűjteményekben. Több millió szöveget tartalmazó digitális archívumokban kereshetünk és ez a több millió szöveg nemcsak könnyebbséget jelent. A digitális fordulat valójában új kihívások elé állította a kutatókat. Gondoljunk bele, egy emberöltő alatt képtelenség elolvasni és hagyományos eljárásokkal feldolgozni az új adatbázisokban található szövegek mindegyikét. 2010-ig csak a Google 15 millió könyvet digitalizált, a világon addig megjelent összes könyv körülbelül 12 százalékát. Ha valaki megpróbálná csupán a 2000 után megjelent angol nyelvű könyvek felolvasását – 200 szó per perc tempóval számolva –, akkor ez nyolcvan évig tartana egyhuzamban. A big data / big text feldolgozásához tehát új szövegelemzési módszerek szükségesek. A szöveg- és adatbányászati eszközökkel végzett elemzések új, eddig ismeretlen kutatási területekre is rávilágíthatnak. Ugyanakkor régi, bevett, sokak által elfogadott téziseket is tesztelhetünk új perspektívákból a digitális szövegelemzés módszereinek segítségével. Ebben az értelemben valóban újra-kutathatók a korábbi eredmények.
Az AVOBMAT fejlesztői 2022-ben a Szegedei Tudományegyetem Innovációs díjában részesültek. Fotó: Bobkó Anna
– Innen egyszerre több kérdést kellene feltenni, de haladjunk sorban. A közeli olvasáson nemcsak a bölcsészeti kutatás nőtt fel, hanem az írásbeliség óta mindenki, főként a Gutenberg-galaxisban. Milyen más típusú következtetéseket tud ezzel szemben nyújtani a „távoli” olvasás?
– A klasszikus irodalomtudomány módszertana jelentős részben a szoros olvasás (close reading) metodikájára épül(t), azaz alapvetően néhány szerző, néhány szövegének a vizsgálatára: a kánonformálás ideológiai okai és az emberi feldolgozhatóság korlátai miatt az elemzés minimális mennyiségű kanonizált szöveget vesz csak figyelembe. A távoli olvasás (distant reading) célja viszont nagy mennyiségű szövegek közötti kapcsolatok, párhuzamok, ismétlődő minták, ciklusok feltárása és elemzése, amelyeket a limitált szoros olvasás nem képes feltárni. Bár a modellezés során elveszítjük magát a szöveget, az absztrakciós eljárás mégis új típusú ismereteket, összefüggéseket, folyamatokat és struktúrákat világít meg. Ezeket a távoli olvasás módszertanát használó kutatók többek között grafikonok, hálózati ábrák, idősorok, térképek, ágrajzok és törzsfejlődési fák segítségével illusztrálhatják. Ami az AVOBMAT alkalmazást illeti, elemzési keretrendszerünkben a felhasználók a távoli és szoros olvasási megközelítéseket kombinálhatják. Így azonosíthatnak új perspektívákat a bibliográfiai adatok és a szövegelemzés területén, valamint eddig ismeretlen összefüggéseket fedezhetnek fel a digitális gyűjteményekben.
– Nézzünk egy egyetem-közeli minta-kutatást, amelyet az AVOBMAT-tal végeztek! Az SZTE Klebelsberg Könyvtár egyetemi kiadványainak repozitóriumából megvizsgálták a Szegedi Egyetem magazin témáinak eloszlását. Ugye, itt a távoli olvasás módszereit is használták?
– Igen, az 1953 óta futó Szegedi Egyetem magazint (kb. 16 millió szó) elemeztük többek között a témamodellezés módszerét használva. E gépi tanulásos módszer célja a már említett absztrakt és rejtett témák felfedezése; ennek érdekében statisztikai módszerekkel vizsgáljuk a szavak együtt-előfordulását. A különböző paraméterek megadása után az AVOBMAT a szavakat témákba csoportosítja, az egyes dokumentumokhoz pedig valószínűségekkel hozzárendeli ezeket a témákat. A témamodellezés a témák közötti kapcsolatokat mutatja meg, valamint ezek időbeli eloszlását, változását. A Szegedi Egyetem témamodellezése során például egyértelműen elkülönülnek az alábbi témák: (1) a pártpolitikai hírek, vagyis a „politikai, párt, ország, kérdés, tart, lát, helyzet” szavak együttes előfordulásával; (2) a hallgatói támogatásokkal, ösztöndíjakkal kapcsolatos hírek a „hallgató, kar, tanulmányi, ösztöndíj, félév, szociális, támogatás, szak” szavakkal; (3) a KISZ-es eseményekhez, tagsághoz köthető témák a „munka, hallgató, kisz, kollégium, bizottság, főiskola, tag, éves, feladat, tevékenység” szavakkal; (4) az egyetemi sportbajnokságokkal kapcsolatos híradások a „csapat, hely, mérkőzés, pont, bajnokság, második, játékos, együttes, verseny” szavakkal. Ezeknek a témáknak az eloszlását az AVOBMAT segítségével többek között idősoron is lehet ábrázolni, így láthatjuk például, mely témák domináltak egy adott időszakban. Természetesen ezeket a trendeket a történésznek szövegösszefüggésekbe kell helyeznie és értelmeznie kell.
A Szegedi Egyetem lap témamodellezése az AVOBMAT szoftverrel.
– Ez a vizualizáció meglepően valós egyetemi társadalomképet mutat. Gondolja, hogy nemcsak irodalom, hanem társadalomtudományi, tudománytörténeti kutatásokhoz is jó az AVOBMAT?
– Igen, szociológusok és (vallás)történészek is jelezték intézeti szándéknyilatkozatok formájában, hogy hasznos lenne számukra az alkalmazás. Berend Gábor kollégám ötlete nyomán a pandémia kitörésekor folyamatosan töltöttünk fel COVID-19-cel kapcsolatos tudományos cikkeket az alkalmazásba, hogy ezzel is segítsük az orvostudományt a pandémia legyőzésében. Ezt számos országban használták, többek között a Torontói és Bejrúti Egyetemek is ajánlották az adatbázist. Ez a 2020-as gyűjtemény (63 571 cikk) jelenleg is elérhető a nyilvánosság számára. Fontos megjegyezni, hogy ezen a felületen nem tesztelhető az összes elemző (pl. a névelem-felismerés) funkció. Az AVOBMAT béta verziójának talán első nemzetközi bemutatója is ehhez köthető. 2020. április 27-én az Allen Institute for Artificial Intelligence munkatársaival tartottunk egy közös előadást egy amerikai (online) NLP-n és Meet-up-on.
– Ön szerint a digitális bölcsészet képes lesz beépülni a bölcsészettudományba?
– Szerintem ez megkerülhetetlen, de ezzel nem feltétlenül ért egyet minden kolléga. Sokan gondolják, hogy a kvantitatív módszerek alkalmazása árt a bölcsészettudománynak, mert úgymond túl pozitivista megközelítést tükröz. Viszont voltam már olyan konferencián, ahol a köszöntőben az hangzott el, hogy a digitális bölcsészeti eszközök használata menti meg a bölcsészetet, mivel ezek objektív eredményeket produkálnak. Nos, én egyik nézettel sem értek egyet; a digitális bölcsészet módszerei szerintem nem objektívak. Például sokszor olyan nyelvi modelleket használunk, amelyek más módon, de ugyanúgy korlátozottak, mint a szoros olvasás elemzései. A névelem-felismerés területén a legtöbb nyelvi modell 21. századi szövegeken lett tanítva, amelyek pontossága jelentősen csökken, ha ezeket 18-19. századi dokumentumokon alkalmazzuk. A különböző modellek pontosságát lehet és szükséges is többféle módon mérni, hogy a kutatási kérdésünkhöz illeszkedő legmegfelelőbb módszert válasszuk. Szerintem a digitális bölcsészettől nem az objektivitást kell elvárni, hanem azt, hogy segítse a tudományos felfedezéseket, új kutatási területekre hívja fel a figyelmet, régi hipotéziseket teszteljen új módszerekkel, vagy eddig ismeretlen összefüggésekre hívja fel a figyelmet. Én ebben látom a szakterület jövőjét, nem pedig abban, hogy az értelmezésektől független „semleges” eredményeket adjon. A digitális bölcsészeti kutatások során használt adatok – kevés kivételtől eltekintve – nem tekinthetők semlegesnek, mivel ezek társadalmi-kulturális produktumok, melyeket kontextualizálni kell. A kritikai gondolkodás tanítására és elsajátítására kiválóan alkalmasak a digitális bölcsészeti projektek, mivel az elemzés során kritikusan szemléljük és értelmezzük a létrehozott adatbázisokat, az alkalmazott digitális módszereket és az ezek felhasználásával keletkezett eredményeket egyaránt. Az ily módon szerzett szaktudás és tapasztalatok a munkaerőpiacon is kiválóan hasznosíthatók.
– Akkor tehát, például irodalmi szövegek esetében, a digitális elemzés nem veheti át a hagyományos szövegelemzés szerepét?
– A hagyományos és a digitális szövegelemzések az irodalmi szövegek esetében sem helyettesítik, hanem mindig kiegészítik egymást. Mindkettőnek vannak módszertani szempontból előnyei és korlátai, amelyeket figyelembe kell vennünk a vizsgálatok és az értelmezés során. A szövegek számítógépes módszerekkel történő kritikus vizsgálata akár megkérdőjelezhet, finomíthat régi hipotéziseket több tudományterületen. Ugyanakkor el kell ismernünk, hogy sok esetben a digitális bölcsészeti vizsgálatok jól ismert érveket, nézeteket erősítenek meg. Ez sem haszontalan, mivel ilyen esetekben új típusú bizonyítékokkal igazolunk régi téziseket.
– Ha jól értem, a „szöveg mint adat” szemlélete felfedezést és egyben korlátot is jelent.
– Mindenekelőtt legyünk előbb tisztában azzal, hogy mit elemzünk. A diákjaimnak azt szoktam tanácsolni, hogy sose kezdjenek olyan digitális bölcsészeti projektbe, ahol nem ismerik az elemezni kívánt szövegek kontextusát és az ehhez kapcsolódó szakterületet. Ezek hiányában ugyanis nem tudják értelmezni a digitális bölcsészeti módszerekkel kapott különböző eredményeket. Hiba háttértudás nélkül adatbázist építeni és az adatokat vizualizálni, csak mert a vizualizáció látványos. Ben Shneidermant idézve a vizualizáció célja a betekintés, nem pedig a kép. Fontos, hogy először legyen egy értelmes kutatási kérdésünk, amelyhez kiválasztjuk a legmegfelelőbb módszert. Ennek előnyeit és hátrányait ismerve értelmezzük az eredményeket. Az AVOBMAT alkalmazást mi módszertani eszközként, és nem célként határozzuk meg. Az AVOBMAT-ban található elemzők egyedi paraméterezhetősége lehetőséget biztosít arra, hogy interaktív módon kísérletezzünk és elemezzük a szövegeket és metaadatokat. Hadd idézzem Franco Morettit, a távoli olvasás atyját, aki komolyan veszi Sherlock Holmes figyelmeztetését, miszerint kapitális hiba adatok nélkül elméleteket alkotni.
Dr. Péter Róbert bemutatja az AVOBMAT szoftvert az Országos Széchényi Könyvtár konferenciáján.
– Hogyan tudták felkészíteni az AVOBMAT-ot a jelen és a jövő zajaira? Érezhető például, hogy a vizualitás elfoglalja a szöveg helyét, növekszik az információs zaj, a manipuláció. A forráskritika az AVOBMAT-tal kapott elemzések mellett felértékelődik-e?
– Az AVOBMAT-tal szövegeket és bibliográfiai adatokat lehet elemezni, képeket és vizualizációkat nem. A digitális forrás- és szoftverkód-kritikának valóban egyre jelentősebb a szerepe manapság. Gondoljunk itt a mesterséges intelligenciás technológiát felhasználó deepfake felvételekre vagy álhírekre, amelyek hatalmas gazdasági károkat is okozhatnak. Az AVOBMAT tervezésénél is fontos szempont volt, hogy segítse a forráskritikát. Például minden metaadat mező esetében azonosítja a hiányzó értékekkel rendelkező tételeket, amelyeket megmutat a keresőfelületen, valamint igény szerint vizualizál több módon. Így hozzájárul az adatbázisok hiányosságainak és korlátainak felismeréséhez. A korlátok közé beleértem az adatbázis-készítésnél alkalmazott előítéleteket is, például a gyűjteménybe kerülő szövegek kiválogatásával vagy osztályozásával kapcsolatban. Számos adatszolgáltató – könyvtárak és profitorientált cégek egyaránt –, vagy nem ismerték fel, vagy ha igen, nem szívesen hozzák nyilvánosságra ezeket az információkat. Az ilyen típusú problémák előzetes számítógépes feltérképezése segíti a kutatókat abban, hogy megalapozott szakmai döntéseket hozzanak projektjeikről és kritikusan elemezzék a digitális gyűjtemények tartalmát. Továbbá az adatgazdáknak is lehetőséget nyújt az adatok minőségének javításához.
NÉVJEGY
Dr. habil. Péter Róbert, az SZTE BTK Angol-Amerikai Intézetének egyetemi docense nyerte el a Szegedi Tudományegyetem Innovációs Díját 2022-ben a „Leginnovatívabb kutatómunka a bölcsészettudományok és társadalomtudományok területén” kategóriában. Dr. Péter Róbert az AVOBMAT (Analysis and Visualization of Bibliographic Metadata and Texts) nevű többnyelvű digitális bölcsészeti kutatási szoftver fejlesztési projektjének vezetője. Vele együtt részesült az Innovációs Díjban az alkalmazás fejlesztésében részt vett Dr. Berend Gábor egyetemi adjunktus és Szántó Zsolt tudományos munkatárs, mindketten az SZTE TTIK, Informatikai Intézet, Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék munkatársai, valamint Dr. Bilicki Vilmos, az SZTE TTIK, Informatikai Intézet, Szoftverfejlesztési Tanszék egyetemi adjunktusa.
Panek Sándor
Borítókép: Dr. Péter Róbert. Fotó: Zentai Péter