Egyre nehezebb megmondani, hogy egy beadandót, cikket, posztot vagy akár egy álláspályázatot ember írt-e vagy a mesterséges intelligencia alkotta. Miközben az angol nyelvű AI-detektorok gombamód szaporodnak, magyar nyelven eddig nem igazán volt megbízható megoldás. Ezen változtatna Kiss Mihály, SZTE-s hallgató fejlesztése.
Kiss Mihály, a Szegedi Tudományegyetem programtervező informatikus mesterszakos hallgatója olyan magyar nyelvű AI-szövegfelismerőt hozott létre, amely a tesztek alapján kiemelkedően pontosan képes megkülönböztetni az ember által írt és a nagy nyelvi modellek által generált szövegeket. A projekt elnyerte az SZTE Hallgatói Innovációs Díját.
Szakdolgozattól a működő termékig
A fejlesztés ötlete 2023 közepén született, amikor a ChatGPT és más nagy nyelvi modellek látványosan elkezdtek beszivárogni a köztudatba. A témát Kiss Mihály témavezetője vetette fel szakdolgozati kutatásként, de hamar kiderült: nem kizárólag elméleti kérdésről van szó.
 |
| Kiss Mihály, az SZTE hallgatója. |
„Egyre többen használják ezeket az eszközöket, és hosszú távon ez biztosan problémát jelent majd az oktatásban és azon túl is” – mondja a fejlesztő. Innen indult az a kutatás, amely mára egy önálló, magyar nyelvre optimalizált AI-detektorhoz vezetett. „Manapság még működni tudnak ezek a felismerő modellek, mert a nagy nyelvi modellek hagynak lábnyomokat maguk után, nem adaptálódtak teljesen az emberi íráshoz. Angolul sem igazán, de magyar nyelven meg végképp nem ” – teszi hozzá.
Nem azért nem létezett korábban minőségi AI-detektor magyar nyelvre, mert az "bonyolultabb", mint az angol, hanem mert nincs hozzá megfelelő adat. Míg angol nyelven hatalmas, jól tisztított tanítóadatbázisok állnak rendelkezésre, magyar szövegekből ilyen korábban nem létezett.
Kiss Mihály ezért több mint 350 ezer szövegből álló adathalmazt hozott létre: irodalmi művekből, szakdolgozatokból, cikkekből, fórumokról, közösségi médiából és általános internetes forrásokból. A cél az volt, hogy a rendszer valódi, sokféle nyelvhasználattal találkozzon, ne csak „tankönyvi” példákkal.
Nem szöveget ír, hanem döntést hoz
Noha a felismerés is AI-alapú megoldásra épül, az architektúrája alapján nem tartalmat generál, hanem döntéseket hoz. A megoldás egy encoder alapú modellt használ, amelyek kifejezetten osztályozási feladatokban erősek, hasonlóan ahhoz, ahogyan egy spam-szűrő működik. A szöveget egy magas dimenziós térben reprezentálja, majd megbecsüli, mekkora eséllyel készült mesterséges intelligenciával. A felhasználó így végül egy százalékos értéket kap: mennyire valószínű, hogy a szöveg AI-generált. Az eszközt bárki használhatja, napi három detektálás teljesen ingyenes, akár egy Facebook-poszt szövege is kielemezhető egy pillanat alatt.
 |
| Kiss Mihály magyar nyelven is működő, nagy pontosságú AI-szövegfelismerőt fejlesztett. |
Jelenleg csak elenyésző számú weboldal ígér magyar nyelvű támogatást. Ezek alapvetően elég gyengék, de hogy ez az állítás bizonyítva is legyen, ezért a modell teljesítményét 1000 különböző magyar nyelvű szövegen vetette össze olyan detektorokkal, amelyek saját állításuk szerint támogatják a magyart is. Az eredmények alapján a saját modellje (Preds): 0,98 pontossággal dolgozik, míg a többi eszköz 0,6 körüli pontossággal bír.
Különösen fontos a nagyon alacsony fals pozitív arány: a rendszer ritkán mondja emberi szövegre azt, hogy AI írta, ami az oktatásban kulcskérdés, hiszen veszélyes lenne azzal gyanúsítani egy hallgatót, hogy beadandóját a mesterséges intelligencia írta, miközben ez nem igaz.
Jellegzetes fordulatok
Talán sokan szeretnék tudni, melyek azok a szófordulatok, kifejezések, melyek használata AI generált szövegre utal. Ez nem jelenti, hogy emberi kommunikációban nem találhatóak meg ezek a kifejezések, ám ezeket a szavakat/szóketteseket/szóhármasokat gyakrabban láthatjuk a szintetikus szövegekben. A teljesség igénye nélkül íme néhány konkrét példa: kutatás újszerűsége; átfogó képet nyújt; jelen kutatás célja; újszerűségét; a kulcsfontosságú; komplex módon; számol be róla; már nem pusztán; ez a gondolkodásmód; a cél nem.
Nem tiltani, hanem érteni
A fejlesztő szerint az AI használata nem kerülhető meg, de nem is kell démonizálni. „A cél nem az, hogy betiltsuk, hanem hogy tudjuk, mikor és hogyan használták” – fogalmaz Kiss Mihály.
Bár az elsődleges felhasználók az oktatás szereplői lehetnek, nemcsak egyetemi környezetben lehet hasznos az eszköz: a médiában, szerkesztőségekben, könyvkiadóknál is használhatják, egyrészt minőségellenőrzési céllal, ha felmerül az AI-használata akkor egyfajta fake news detektorként is felfogható, mivel ezek a nagy nyelvi modellek sokszor hallucinálnak hamis információkat. Használhatják jogi területek, ahol egy AI által generált, pontatlan szöveg komoly kockázatot jelenthet, de akár HR-részlegek is alkalmazhatják az AI eszközzel írt jelentkezések megjelölésére. A hasznosítása tehát szinte bárhol elképzelhető, ahol szövegekkel, dokumentumokkal foglalkoznak.
Az SZTE Hallgatói Innovációs Díja fontos visszajelzés volt Kiss Mihály számára. Úgy látja, az egyetemek lehetnek a rendszer legfontosabb felhasználói, és a jövőben szívesen működne együtt felsőoktatási intézményekkel. A fejlesztés jelenleg is zajlik, az éles indulást 2026 elejére tervezi. Hosszabb távon további funkciók és akár más nyelvek bevonása is szóba kerülhet – elsőként a környező országok nyelvei.
A Szegedi Tudományegyetem számára kiemelten fontos, hogy a hallgatói és kutatói ötletek ne az egyetemi falakon belül maradjanak, hanem piacképes megoldásokká váljanak. Az SZTE tudatosan támogatja azokat a fejlesztéseket és innovációkat, amelyek valós problémákra adnak választ, és ipari együttműködésekben, üzleti környezetben is megállják a helyüket. Az ilyen projektek nemcsak a hallgatók szakmai fejlődését segítik, hanem hozzájárulnak ahhoz is, hogy az egyetemen születő tudás kézzelfogható társadalmi és gazdasági hatást érjen el.
További információk itt érhetők el.
SZTEinfo
Fotó: Sahin-Tóh István