Szegedi Tudományegyetem | Az egri várvédők nyelvén is megszólalhat majd a magyar nyelvi modell

Dr. Prószéky Gábor Széchenyi-díjas számítógépes nyelvész, egyetemi tanár, a HUN REN Nyelvtudományi Kutatóközpont főigazgatója

Az egri várvédők nyelvén is megszólalhat majd a magyar nyelvi modell – Dr. Prószéky Gábor a páneurópai PULI-ról

2024. június 26.

11 perc

Úgy tűnhet, mintha a nagy nyelvi modellek, a Gemini, a Copilot vagy a ChatGPT mindent tudnának a világról. Pedig valójában egy szövegekből felépített nyelvi világot ismernek, ami nem azonos a fejünkben lévő világmodellel. Dr. Prószéky Gábor Széchenyi-díjas számítógépes nyelvész, egyetemi tanár, a HUN REN Nyelvtudományi Kutatóközpont főigazgatója az SZTE Bolyai Intézetben rendezett Alkalmazott Matematikai Konferencián arról is beszélt, hogy a PULI nevű első magyar nyelvi modell 50 milliárd magyar szavas szövegkorpuszával jobban modellezi a magyar nyelvet, mint nagy nemzetközi társai.

Cikk nyomtatás

Link küldés

– Professzor úr, ön több előadásában a sajtó szemére vetette, hogy a nagy nyelvi modelleket félrevezetően úgy kezelik, mintha emberi tudást tartalmazó világmodellek lennének. Összefoglalná, ez miért nem igaz?

– A világ a mi fejünkben objektumok és relációk sokaságaként van jelen, ezt tekintjük világképnek. Ennek alapján az emberiség számtalan szöveget alkotott írott formában, a levelektől a regényekig. Ha összegyűjtjük ezt a sok szöveget és gépi tanulási algoritmusainkat ráfuttatjuk, akkor abból egy modell épül fel. Ez azonban nyelvi modell lesz, nem világmodell, hiszen csak szövegekből áll, ezekből pedig honnan lehetne ismerni a mi 3D-s világunk minden részletét? Ugyanakkor tartalmaz annyi analógiát a világra nézve, hogy a közvélekedés hajlamos világmodellnek tekinteni. Pedig a világmodell valójában a mi fejünkben van; a nyelvi rendszernek nincs világmodellje, hiába tűnik úgy a válaszaiból egy-egy esetben, hogy ismeri a világot.

– Nem derül ki egy több tíz- vagy százmilliárd szavas szövegkészletből, hogy milyen a világ?

– Ezeket a szövegeket emberek írták ugyan, de a szöveg mögötti tudást csak részlegesen rakják bele a szövegbe, ez a tudás a szövegnek csak valahány százalékába van belekódolva. Amikor egy rendszer e szövegekből akarja összerakni a világot, könnyen eltéved. Egyfelől lehet attól tartani, hogy a nyelvi modellek tanulásának alapjául laposföldhívő szövegek is szolgálhatnak, és ezért a modell azt fogja mondani a Földről, hogy lapos. Másfelől attól is tarthatunk, hogy a modell a szövegekből okos és logikus dolgokat tanul ugyan, de úgy kombinálja őket össze, ahogyan a mi világképünk azt nem engedné. A nyelvi modell csak azt tudja, amit a szövegekből tanul, a működését nem szabályozza semmilyen világkép, ezért hiába tanítjuk jobban, vagy újabb szövegekkel, mindig előállhat annak a lehetősége, hogy a létező szövegek összekombinálásából valótlan állítás következik.
Mostani kísérleteink azon folynak, hogy bizonyos szövegrészeknek olyanfajta vektoriális reprezentációt adjunk, amit a gépi tanulás során nem szabad befolyásolni. Vagyis kvázi lebontjuk a szöveget tényekre, amelyekhez nem nyúlhatunk, majd pedig a tények között fogunk hagyományos módszerrel keresni, és csak a megtalált választ építjük be a nyelvi modell készségébe. Tehát a nyelvi modellt nem engedjük rá direktben a feladatra, nehogy eltorzítsa a választ, hanem egy mereven szétszedett és autentikus információkból álló világban keressük meg a választ, mert itt már biztos, hogy jól válaszolunk. Egyszerűbben szólva, leegyszerűsítjük az adatbázist és nem engedjük rajta elhatalmasodni a nyelvi modellt, és csak ezután végezzük el a tudásbázis-lekérdezést, amit aztán nyelvileg szépen, díszesen előadunk. Ez egy kissé visszalépés azoknak a szemében, akik azt gondolták, hogy a mesterséges intelligencia magától mindenre jól fog tudni válaszolni.

Dr. Prószéky Gábor Széchenyi-díjas számítógépes nyelvész, egyetemi tanár, a HUN REN Nyelvtudományi Kutatóközpont főigazgatója

Dr. Prószéky Gábor. Fotó: Kovács-Jerney Ádám

– Mire gondol, amikor azt mondja, hogy a gépi tanulás során vektoriálisan kezelik a szöveget?

– A neurális hálós modellekben az algoritmusok egy vektortérben helyezik el a szövegtest szavait, mondatait, szövegrészeit, és itt keresnek jelentésbeli hasonlóságokat. A hasonló jelentésű szavak, kifejezések vagy akár mondatok egymáshoz közelebb fognak elhelyezkedni, és ezt a távolságot ki is lehet számítani. Ennek a vektortérnek tetszőleges számú dimenziója lehet; a dimenziókat úgy kell érteni, mintha a barkochbában kérdeznénk rá újabb és újabb szempontok szerint a szóra: élőlény-tárgy, fiú-lány, fiatal-öreg és így tovább. A neurális alapú világban nem nekünk kell megadnunk ezeket a dimenziókat, hanem a rendszer keresi meg őket. Aki barkochbázott már, tudja, milyen nehéz 30-nál több dimenziót kitalálni egy szóra. A rendszer viszont annyi dimenziót talál, amennyit kérünk tőle, ha kell, többszázat, ennek csak a számítási kapacitásunk szab határt. Minél több dimenziónk van, annál pontosabban kapjuk meg a vizsgált szót leggyakrabban körülvevő szavakat.
Saját csoportunk kutatásaiból hadd mondjak egy korai példát: egy ilyen vektortér magyar nyelvű reprezentációjával rákérdeztünk, hogy a Katalin szóhoz milyen jelentésű szavak helyezkednek a legközelebb. Azt kaptuk, hogy a Zsuzsanna, az Ilona, az Ágnes, a Gabriella; csupa hagyományos női név. Ugyanezt megismételtük az Eufrozina szóra is. Itt a hozzá hasonló „apácanevek” jöttek elő, a Jolánta, a Konstancia, a Gertrúd, míg a Kincső névre kérdezve a többi divatos 21. századi női nevet, a Csengét, az Evelint, a Biankát kaptuk. A rendszer olyan pontos válaszokat adott, mintha a jelentést is értené, pedig szó sincs róla, hogy a modell „ismerné” a női neveket vagy pláne a kulturális környezetüket. A magyar nyelvben nincs grammatikai utalás a nemre, és ezt még a megszólításból sem lehet kikövetkeztetni. A rendszer tehát csakis a sokmillió szókapcsolat átvizsgálásával juthatott erre az eredményre. Viszont a helyzet az, hogy nem ismerjük, hogyan csinálja. Egyelőre azt látjuk, hogy a neurális alapú nyelvi modellek a vártnál jobban működnek, és ez a kutatókat is meglepi.

– Valóban meglepő egy determinisztikus módszertől, hogy működik, de nem tudni, hogyan.

– Az agykutató, ha in vivo hozzáér egy agyterülethez, tudja milyen reakciók várhatók, de azt már nem tudja, hogy az alany eközben kis szürke autót lát-e vagy rózsaszínű angyalkát. Mérheti a biológiai folyamatokat, mérhet mindenféle kémiát, de a jelenség valójában az egyén oldaláról érthető csak meg. Attól tartok, hogy ez a feketedoboz-probléma is azért van, mert olyan helyzetet közelítünk egyik irányból, amit csak a másikból lehet megérteni. Mindenesetre nagy rejtély: a matekját ismerjük, az informatikáját megcsináltuk, a nyelvészeti eredményeket látjuk, de nem tudjuk összekapcsolni őket. Meglehet, hogy még korán van a megértéséhez. Másképp lenne, ha ez egy monoton kutatási folyamat volna, amiben minden lépéssel előrébb jutnánk a megoldásig. Esetünkben azonban félő, hogy a probléma megoldásának nem algoritmikus menete van. Lehet, hogy egy hirtelen felismerés fogja megoldani.

– Ha jól értem, ön bizakodó abban, hogy a nagy nyelvi modellek némi finomhangolással a tényeket jól adják majd vissza. De mi a helyzet a kérdés-válasz kommunikáció érzelmeivel? És fog-e tudni saját értelmezéseket adni a nyelvi modell?

– Mindkettőnél a gép saját szándéka hiányzik. A Chat GPT 4-o verziója, amit májusban hozott ki az OpenAI, már érzelmileg is reagál, emberhez hasonló személyiséget és viselkedést imitál. Csakhogy ez külsőleg megtanult dolog, a rendszer valójában nem tud spontán viselkedést előállítani, mi mondjuk meg, milyen feltételek mellett kell érzelmekkel reagálnia. A mögöttes értelmezések vizsgálata egy következő lépés lesz, ha egyáltalán bejön. Egy kissé szkeptikus vagyok: attól, hogy sok szöveget adunk a modellnek a tanuláshoz, magától még nem fog tenni semmit, nem fog értelmezni vagy öntudatra ébredni. Jelenleg úgy áll, hogy mindig mi adjuk az instrukciókat, majd ezeket egy szemfényvesztő Cipolla lovagként végrehajtatjuk a géppel, és megfigyeljük, hogy úgy tesz-e. A gép saját szándéka teljesen hiányzik. Kiváló végrehajtó, de semmiképpen sem a saját ötletét hajtja végre.

– Miért tartja versenyképesnek a nemzetközi nagy nyelvi modellek mellett az önök által elkészített első magyar nyelvi rendszert, a PULI-t?

– A Google, az OpenAI és a Microsoft dollármilliárdokat költ a fejlesztésre, ebben az értelemben nem lehet felvenni velük a versenyt, arra viszont reális esélyünk van, hogy a magyar nyelvre a PULI lesz a legjobb. A ChatGPT mindössze 130 millió szavas szövegből tud magyarul, ehhez képest a PULI 50 milliárdos magyar szövegkorpusza azt eredményezi, hogy a rendszerünk sokkal jobban érti a magyar tartalmakat. A nyelvtani szabályokat a ChatGPT és a többi nagy nyelvi modell is jól tudja, de a PULI a magyar kulturális tartalom ismereteiben is megbízható. Érdemben ismeri például a Toldi-trilógia részleteit, és össze tudja hasonlítani Petőfi és Arany elbeszélő költeményeit vagy beszélni tudunk vele a Himnusz negyedik versszakáról.

A nyelvi rendszerek hatékonysága két fontos tényezőn mérhető. Először is azon, hogy milyen mennyiségű szövegen tanították. A PULI-ban az internetről vett szövegeken kívül az Országos Széchényi Könyvtár és a Magyar Tudományos Akadémia Könyvtár digitális állományát dolgoztuk fel. Ez a szövegkorpusz most már eléri lassan az 50 milliárd szót; itt tudni kell, hogy minden szöveg csak egyszer fordul elő benne, de a szövegekben persze előfordulhatnak ismétlődő mondatok, szósorozatok, hiszen a nyelvben bizonyos rákövetkezések gyakoribbak másoknál. A rendszerek másik ismérve a mérete; ez azon múlik, hogy mekkora hardver áll rendelkezésre. A Nyelvtudományi Kutatóközpontnak szerencsére van egy szuperszámítógépe, ami azonban a világcégek nagy gépeihez képest kis teljesítményű. A PULI jelenleg egy 7 milliárd paraméteres nyelvi modell. A paraméterek száma azt jelenti, hogy a rendszer lelkét képező neurális hálóban 7 milliárd helyen van nyelvi, az egyszerűség kedvéért, mondjuk, hogy szó-szó rákövetkezés, tehát ennyi helyen van súlyozva az, hogy egy adott szósorozat végén a következő szó mekkora eséllyel jelenhet meg. Összehasonlításul a ChatGPT-ben 175 milliárd paraméterről beszélünk, a GPT4-nél és a többi rendszernél pedig nem árulták el, pontosan hány paraméterük van. Egy kicsit olyan ez persze, mint amikor az ember gyerekkorában ámulva nézi, hogy egy autó 270-el is tud menni. Az autópályán már 130 fölött is tilos haladni, de a lényeg, hogy ki van írva az autóra a nagy szám, és mi ezek alapján hasonlítgattuk az autókat egymással. Szóval, fontos, hogy a nagy nyelvi modelleknek óriási paraméterszáma legyen, de nem biztos, hogy az extenzív növekedés az egyetlen fejlesztési irány. A Meta által létrehozott nyílt forráskódú rendszer, a LLaMA például 6,7 milliárdos paraméterszám mellett is megfelelő minőséget garantál. Ez jó hír azoknak, akiknek nincsen őrült sok pénzük. Egyébként a legújabb modellünk, a PULI Llumix ennek a magyarra való továbbtanításával jött létre. A saját rendszereinkkel kapcsolatban még hozzáteszem, hogy ezek összes tanítóadata ismert, szemben a ChatGPT, a Copilot vagy a Gemini adataival, amiről számunkra nem árulnak el semmit. Ha meg akarjuk érteni a működést, akkor fontos, hogy a nyelvi modell által létrehozott szövegeket össze tudjuk hasonlítani a tanítóadataikkal.

Dr. Prószéky Gábor előadása az SZTE Bolyai Intézetben rendezett Alkalmazott Matematikai Konferencián

Dr. Prószéky Gábor előadása az SZTE Bolyai Intézetben rendezett Alkalmazott Matematikai Konferencián. Fotó: Kovács-Jerney Ádám

– Szegedi előadásán elmondta, hogy a PULI-nak egy európai nyelvi modellben is szerepe lesz.

– Az Európai Unió digitális infrastruktúrára létrehozott konzorciumainak, az EDIC-ek keretében nemrég megalakult az ALT-EDIC, az Alliance for Language Technologies nevű nyelvtechnológiai szövetség. A feladata a nyelvtechnológiák közös európai infrastruktúrájának kialakítása, különös tekintettel a nagy nyelvi modellekre. Eredményeink következtében sikerült elérnünk, hogy Magyarország is belépjen a konzorciumba, azaz részt vehetünk egy páneurópai nagy nyelvi modell kialakításában, amihez a rendelkezésre álló hardver is jelentős és a nyelvi tudása átfogó lesz. Bizonyos értelemben sokkal nagyobb, mint a világ mostani top rendszerei, amelyekben az angol teszi ki a modellek tanítóanyagának 90-95 százalékát. Az európai nagy nyelvi modellben minden nyelv hatalmas adatmennyiséggel lesz benne, így természetesen a magyar is bekerül ebbe a rendszerbe. Azt reméljük, nemhogy versenyképes lesz a ma ismert híres nyelvmodellekkel, hanem akár komoly előnyöket is tud majd szerezni a világpiacon.

– Jól tudom, hogy a Nyelvtudományi Kutatóközpontban a történeti magyar nyelvre is terveznek modellt? Lehetséges, hogy a PULI egyszer megszólal a 16. századi magyar nyelven?

– Ez a kutatás még nem indult el, de majd igyekszünk ebbe az irányba is. Elég sok régi szövegünk van, mindenféle levelezések, dokumentumok, jogi szövegek, akár a 16-17. századból is, de annyi nincs, hogy abból önmagában, a modern magyar szövegek nélkül építsünk rendszert. Viszont, ha egyszer már megtanítottuk a PULI-t a mai magyarra, akkor megvan a technológia, amivel tovább lehet tanítani a 16-17. századi szövegekből nyert szövegek segítségével. Így esély van rá, hogy a kérdésekre olyan válaszokkal fog tudni reagálni, mintha a régi kor embere tenné. Rögtön megjegyzem, hogy a korhűséget nehéz nyelvészetileg ellenőrizni. Csak reméljük, hogy az analógia működni fog, és egyfajta benyomást nyújt majd a felhasználók számára, hogy mi módon fogalmaztak, milyen fordulatokat használtak a régiek. Egyébként most már hanggal is foglalkozunk, így akár az is elképzelhető, hogy egyszer majd egy nyelvi modell megszólal a török hódoltság idején használt magyar nyelven, hogy közelebb hozza a mai emberekhez, hogyan hangozhattak Dobó István szavai az egri várvédők előtt.

Panek Sándor

A borítóképen: Dr. Prószéky Gábor Széchenyi-díjas számítógépes nyelvész, egyetemi tanár, a HUN REN Nyelvtudományi Kutatóközpont főigazgatója. Fotó: Kovács-Jerney Ádám

Cikk nyomtatás

Link küldés