Kína nagy nyelvi modellje az ősi könyvekhez | 中国古代典籍大语言模型

Xunzi - a mesterséges intelligencia erejének felszabadítása Kína ősi szövegein

Cserkész Gábor | 2025.11. v1
CC BY-NC-ND 4.0


Több mint 15 éve fordítok buddhista szövegeket, tanításokat és az autentikus kínai harcművészetek régi irodalmát. Speciális terület, de nekem ez az egyik tanulási-gyakorlási utam. A hosszú évek alatt bár szereztem némi gyakorlatot, mégis sokszor fordulok tanácsért kiváló szakfordító-, tolmács barátaimhoz, hogy együtt közelítsünk egy-egy szöveghez. Kínával is napi kapcsolatban állok ezért, mert a régi szövegek fogalomrendszere speciális, annak valódi jelentéséhez szakavatott-, témában jártas mesterrel beszélgetve lehet a legpontosabban közelíteni. Szóval, szakfordítani sosem egyszerű, a téma mély ismerete elengedhetetlen. De nem sietek.

Eközben pedig beleástam magam Kína digitális stratégiájába, mert üzleti informatikai megoldásokkal foglalkozó szakemberként a vállalatvezetők nagyon sokszor kérdeznek Kína digitalizációjáról és irányairól. E témában többször írtam le a nyilvánvaló összefüggéseket. A kultúra és a digitalizáció pedig szorosabban fonódik össze, mint az elsőre látszik. 2025. április 11-én elérhetővé vált egy 13 részes online kurzus Kína nemzeti digitális stratégiájáról, a "Digitális Kínáról" (数字中国), melyet a Digitális Kína Építésének Globális Elrendezési Terv (数字中国建设整体布局规划, 2023. február) kiadása és a Nemzeti Adatigazgatás létrehozása (国家数据局 2023. március) után fejlesztettek ki. Ez a sorozat felbecsülhetetlen értékű lehet mindazok számára, akik a Digitális Kína hatókörét és céljait kívánják megérteni. Ebben a sorozatban a hatodik rész a "Digitális Kína" mint stratégia szerepét hangsúlyozza a 2035-re történő a kulturális nagyhatalommá váláshoz (Teremtsünk magabiztos és virágzó digitális kultúrát 数字中国建设系列之六: 打造自信繁荣的数字文化). Itt pedig a kultúra és a legmodernebb technlógia formáló erejű találkozásáról van szó. Kína nemzetközi megítélésének és kulturális befolyásának erősítésével pedig nem kérdés: a digitális kultúra központi szerepet játszik Kína globális "puha hatalmának" (软实力) megerősítésében. Ráadásul a Kínai Kormány következő-, 15. ötéves terve gondosan kitér a mesterséges intelligencia fejlesztési irányaira is (ld.: AI Plus 人工智能+). (megjegyzés: a Kínai Államtanács által közzétett véleményét a "AI Plus akció mélyreható végrehajtásáról" (kínai nyelven: "人工智能+" 行动的意见)

Egy kelet-kínai jiangsu-tartomány-beli főiskolai kutatócsoport kiadta Kína első nagy nyelvi modelljét (LLM), amely mélytanulási technikákat és hatalmas adathalmazokat használ a kínai ősi könyvek, tekercsek kutatásához. A modellt a Fudan Egyetem (復旦大學) Számítástechnikai Tanszéke és a Kínai Klasszikusok Kutatóintézete (中国古典学研究院) fejlesztette ki, kiemelve a humán tudományok és az AI közötti együttműködést. A modell nem csupán technológiai fejlesztés, hanem egy kulturális projekt, amely a Kína évezredes örökségének megértését és megőrzését célozta a mesterséges intelligencia segítségével. Egyedülállósága abban rejlik, hogy forradalmasíotta az ősi kínai irodalom kutatását, meggyorsította a filológiai és értelmező munkát, amelyet korábban csak több éves kézi munkával lehetett elvégezni. Kiváló példa, hogyan lehet a nagy nyelvi modelleket magasan specializált tudományterületek szolgálatába állítani.



Xunzi AI - 荀子大语言模型 (illusztráció)


Ez az úttörő modell, amelyet a neves ókori kínai filozófus, Xun Zi (荀況 i.e 310-238) után "Xunzi"-nak neveztek el (荀子大语言模型), kifejezetten az ősi kínai szövegek feldolgozására és elemzésére szolgál. A kínai állami média szerint a csapat céljai ebben a projektben többrétűek voltak az innováció fellendítése-, a kínai ősi könyvek megőrzésének minőségjavítása-, valamint a LLM-ek és a történelmi kéziratok feldolgozása közötti mélyebb kapcsolat elősegítése érdekében.

Wang Dongbo professzor (王东波教授) a Fudan Egyetem Számítástechnikai Tudományok és Technológia Tanszékének (School of Computer Science and Technology) munkatársa. Szerepe kulcsfontosságú volt a Xunzi LLM fejlesztésében, hiszen lényege a számítástechnika és a bölcsészettudományok összekapcsolása volt. Szakértelmét az óriási nyelvi modellek (LLM-ek) és a természetes nyelvi feldolgozás (NLP) területén kamatoztatva ő felelt a modell technikai felépítéséért és algoritmikus optimalizálásáért. Ő segített áthidalni a szakadékot a mérnöki ismeretek és a sinológiai (kínai klasszikusokkal foglalkozó) szakemberek igényei között. Ő biztosította, hogy az AI modell valóban alkalmas legyen a rendkívül speciális ősi kínai szövegek elemzésére. Wang professzor munkája és a csapata által létrehozott Xunzi modell jól mutatja, hogy a modern AI technológia hogyan alkalmazható a kulturális örökség megőrzésére és a bölcsészettudományi kutatás megújítására.

A Xunzi AI áttörést jelent a digitális bölcsészettudomány és a mesterséges intelligencia területén.

Az egyik 2023-ban kelt írásoban mutattam be Sanxitang Kalligráfiai Gyűjtemény 《三希堂法帖》 teljes katalógusát, mely 1747-ben jött létre és 32 kötetre (tekercsre) és 495 darab faragott kőre oszlik. Mivel a keleti Jin-dinasztia kalligráfia mesterművek közt ott volt a "Három Wang" alkotása is, azaz Wang Xizhi: "Időszerű tisztítás havazás után" 《快雪时晴帖》, fia, Wang Xianzhi: Őszközép tekercse 《中秋帖》 és Wang Xun "BoYuan tekercse" 《伯远帖》 melyeket Qianlong császár három ritka kalligráfiai kincsként tartott számon; a helyet, ahol a Császár ezeket tárolta Sanxitangnak (Három Ritkaság Csarnoka) nevezte. A válogatott kalligráfiák "Sanxitang gyűjtemény" 《三希堂法帖》 nevet kapták, teljes nevén "Császári Faragott San Xi Tang Shiqu Baoji kalligráfiai gyűjtemény" 《御刻三希堂石渠宝笈法帖》. Amikor a kronológiai sorrendet táblázatba rendeztem, rádöbbentem, hogy mennyire sok kiválóságról is van szó, s ha ezt mind át kívánom tanumányozni, ebben az életben nem lenne rá elegendő időm. Pedig ez jelentéktelen (adatmennyiség) ahhoz az információ-halmazhoz képest, amit a Xunzi kezel és nyújt a tudományos kutatások és szakmai munkák számára. Őrület.

Régi kínai szövegeket nagyon-nagyon nehéz fordítani, mert az ősi kínai nyelv (文言文) nagyon eltér a modern kínaitól a szókincs-, a nyelvtani szerkezet és az írásjel-nélküliség terén. A hagyományos, modern nyelvekre képzett LLM-ek (mint a kezdeti GPT-modellek) rosszul vagy pontatlanul értelmezik ezeket a szövegeket - ezért sem lehet egyszerűen lfordíttatni a szöveget, mert a gépi fordítá egészen biztosan szörnyű lesz. A Xunzi AI feladata, hogy hídként szolgáljon a modern digitális technológia és az évezredes kínai kulturális örökség között, lehetővé téve a klasszikus szövegek pontosabb és mélyebb gépi feldolgozását.

A modell gyorsítja és hatékonyabbá teszi a sinológusok, történészek és irodalmárok munkáját. Képes másodpercek alatt összehasonlítani és elemző megjegyzésekkel ellátni hatalmas mennyiségű kézirat-változatot (校勘), amely korábban éveket vett igénybe a kutatóktól. Segít a nehéz, homályos szövegekből strukturált tudásgrafikonokat (Knowledge Graphs) építeni, melyek feltárják a személyek, események és filozófiai fogalmak közötti rejtett kapcsolatokat az ősi forrásokban.

De a projekt célja túlmutat a puszta kutatáson: A Xunzi AI egyben a kínai nemzeti kulturális identitás digitális megőrzésének eszköze is. Azáltal, hogy képes a klasszikus szövegeket modern magyarázatokkal ellátni, segít demokratizálni az ősi irodalomhoz való hozzáférést az érdeklődők számára, megőrizve ezzel a nyelvi és kulturális tudást a jövő számára.

Az ősi bölcsesség feltárása: Xunzi egyedi tulajdonságai és alkalmazásai


A Xunzi AI kínai könyvek és dokumentumok hatalmas gyűjteményét tartalmazza, beleértve a monumentális Négy Kincstár Teljes Könyvét 《四庫全書》 is. Ezt egyébként a Qing-dinasztia idején (1644–1912) állították össze. Qianlong császár (乾隆 1711-1799) rendelte el 1773-ban. A munka körülbelül 20 évig tartott, célja pedig, hogy megőrizze Kína szellemi örökségét és egységesítse a birodalmi tudást de a cenzúra és a politikai ellenfelek írásainak megsemmisítését is szolgálta. Körülbelül 10 000 különböző művet tartalmaz, 36 000 tekercsben (卷) 800 millió írásjeggyel. A Xunzi több mint 2 milliárd kínai karakterből és szóból álló lenyűgöző korpuszával páratlan hatékonysággal elemzi, foglalja össze és vonja ki a kulcsfontosságú információkat ezekből az ősi szövegekből. Nagyban segíti a sinológusokat, történészeket és irodalmárokat kifejezetten az alábbi területeken:

  • magyarázat és értelmezés (注释 és 解读) - annotációkat és magyarázatokat fűz az ősi szövegekhez, bemutatva a nehezebb szavak és kifejezések jelentését. Összegzi a szövegek filozófiai vagy történelmi fő üzenetét.
  • hasonló szövegek keresése (文本对比) - azonosítja azokat a párhuzamokat és hivatkozásokat más klasszikus művekben, amelyek segítenek a források eredetének és kapcsolatainak feltárásában.
  • helyreállítás és összehasonlítás (整理 és 校勘) - összehasonlíta a szövegek változatait (pl. ha egy könyvnek több kéziratos másolata is létezik) és a hibás, elmosódott karakterek azonosításában vagy helyreállításában.
  • tudásbázis építése - Strukturált tudásgrafikonokat (Knowledge Graphs) generál a szövegekből, amelyek bemutatják a személyek, helyek, események és fogalmak közötti komplex kapcsolatokat.

Egyik jellemzője, hogy képes olyan ősi verseket létrehozni, amelyek betartják a nyelvtani és prozódiai szabályokat. Állítólag alkalmas az ősi költészet új változatait kínálni, betekintést nyújtva ebbe a világba. Ezenkívül képes lefordítani az ősi szövegeket modern kínai nyelvre, segítve a kutatókat az ősi írások eredeti jelentésének és jelentőségének megértésében.

A hagyományos, általános LLM-ek, mint a GPT-4, nem optimálisak a több ezer éves kínai klasszikusok megértésére. A Xunzi modell pont erre a résre ad választ a következő kulcsfontosságú szempontokkal:

  • A modell egy hatalmas korpuszon lett betanítva, amely ősi kínai irodalmat, történelmi dokumentumokat és filozófiai szövegeket tartalmaz. Ez magában foglalja a pre-Qin (i.e. 221 előtti) és a Qin-Han (i.e. 221 – i.sz. 220) időszakok műveit.
  • az ősi kínai szövegek rengeteg olyan elavult karaktert és speciális nyelvtani szerkezetet tartalmaznak, amelyeket a modern kínai nyelvre optimalizált modellek nem ismernek fel hatékonyan. A Xunzi kifejezetten ezekre specializálódott.
  • képes mélyebben és pontosabban értelmezni az ősi szövegek tartalmát, összefüggéseit és a bennük rejlő filozófiai vagy történelmi utalásokat.

Nyílt forráskódú együttműködés: Xunzi hozzájárulása a történelmi megőrzéshez


A kutatócsoport a forrást a Xunzi nyílt forráskódú platformokon, például a github.com-on és a modelscope.cn-en (魔搭) történő közzétételével tette elérhetővé. Ez azt jelenti, hogy az LLM szabadon letölthető és használható kutatók és az érdeklődők számára egyaránt, elősegítve a további kutatásokat és innovációt a területen. Wang professzor egyik interjúban azt mondta:

    "Xunzit ősi könyvekre épülő big data segítségével képeztük ki, amelyek ingyenesen elérhetők az interneten, ahogyan az OpenAI is tanította a ChatGPT-t. Bár rengeteg energiát, munkaerőt és pénzt fektettünk bele, mégis ingyenesen megosztjuk azzal a céllal, hogy több embert ösztönözzünk a hagyományos kínai kultúra tanulmányozására és figyelmének felkeltésére."

Kína az utóbbi években egyre inkább a történelmi kulturális gyakorlatok visszaállítása felé halad, beleértve a hagyományos kínai karakterek tanulásának visszaállítását is. Ezért is számít jelentős mérföldkőnek az ősi könyvekre szabott modellje a mesterséges intelligencia és a kultúra megőrzése terén. A modell nem egy könnyen hozzáférhető nyilvános webes platformként működik, mint a ChatGPT vagy a Google Gemini. Ehelyett a fejlesztők a kódot és a súlyokat (legalábbis a modell egy részét) közzétették, így a felhasználók maguk futtathatják és használhatják a modellt speciális feladatokhoz. A modell a GitHubon-, a fejlesztőcsapat által létrehozott repozitóriumon érhető el. Ez a fő elérési pont a szoftverhez, ahol megtalálhatók a forráskódok, a telepítési útmutatók, és a modell használatára vonatkozó dokumentáció. A modell leggyakoribb felhasználói a Fudan Egyetem kutatói, sinológusok, történészek és informatikusok, akik a saját környezetükben (pl. egyetemi szervereken) futtatják a modellt. Ha nem vagy fejlesztő vagy kutató, aki LLM-eket telepít és futtat a saját infrastruktúráján:

  • közvetlen nagyközönség számára elérhető, könnyen kezelhető webes felülete nincs (mint egy egyszerű csevegőablak)
  • használata technikai szakértelmet igényel a nyílt forráskódú LLM-ek letöltéséhez, telepítéséhez és futtatásához szükséges lépések miatt. itt elérheted

A Xunzi AI modell sikerét követően több kínai intézmény is elindított hasonló projekteket (az egyiket a következőkben meg is említem), amelyek speciális történelmi, irodalmi vagy regionális szövegekre fókuszálnak. Ezek a modellek is a humán tudományok digitális átalakítását célozzák. Néhány egyetem és kutatóintézet (pl. Pekingi Egyetem, Tsinghua Egyetem) fejleszt saját LLM-eket vagy finomhangolja a meglévő általános modelleket, hogy jobban teljesítsenek a kínai történelem és kultúra specifikus területein. Ezek azonban gyakran zártak maradnak az adott intézményen belül. A leggyakoribb és könnyebben hozzáférhető alternatíva az, ha a vezető általános modelleket vagy kínai modelleket finomhangolják ősi kínai adatokkal Itt van az ERNIE (文心, Baidu) vagy a Qwen (通義千問, Alibaba). Ezek jobbak a modern kínai nyelvben, nagyobb az elérésük Kínán belül. Bár ismerik a hagyományos karaktereket, továbbra is szükségük van mély finomhangolásra az ősi kínai specifikus nehézségeihez (pl. helyreállítás, eltérések). Vagy a Llama (羊驼), Mistral (米斯特拉尔) (finomhangolva), melyek szabadon finomhangolhatók ősi kínai szövegekkel. De arra készülj fel hogy a Xunzi modellnél is nagyobb technikai tudást és számítási teljesítményt igényel a megfelelő finomhangolás.

EvaHan2024 古籍句读评测


Jie Huang, a Nanjing Egyetem kutatója egy 2024-es ELRA Language Resources Association publikációban ismertette az EvaHan2024 kampányt (古籍句读评测), mely az ősi kínai szövegek szövegtagolására fókuszált. A kampányban a Xunzi nagy nyelvi alapmodellt javasolták, amelyet kifejezetten az ősi kínai szövegek feldolgozására képeztek. A feladathoz az in-context learning (ICL) azaz "környezetfüggő tanulás" vagy "kontextusban történő tanulás" paradigmát alkalmazták, és egy utófeldolgozási sémát terveztek a végeredmények szabványosságának biztosítására. Az ICL promptok (utasítások) felépítésekor LLM QA-val (nagy nyelvi modell kérdés-válasz funkciójával) végeztek jellemző-kinyerést, és nem-parametrikus metrikák alapján választották ki a bemutató példákat. A Xunzi modellt két szakaszban használták, és egyik esetben sem alkalmaztak további képzést, így a modell általános maradt, és az egyéb alapvető képességei érintetlenek maradtak.

Az ókori kínai szövegek kontextuson belüli tanulási módszer segítségével a nagy nyelvi modellek (LLM-ek) a Xunzi mesterséges intelligencia használata révén automatikusan beilleszthetik az írásjeleket a klasszikus, írásjel-nélküli kínai szövegekbe (文言文 Wényánwén azaz klasszikus kínai). Ez kulcsfontosságú feladat a digitális bölcsészettudományokban, mivel a legtöbb ősi kínai dokumentum írásjelek nélkül (vagy csak nagyon minimális, következetlen jelölőkkel) íródott, ami megnehezíti a pontos olvasást és megértést megfelelő tagolás nélkül. Fordítások vagy szövegértelmezések során az ókori kínai írásjelek hozzáadása (断句, kínai kifejezés, amely szó szerint azt jelenti, hogy "mondatot törni/szegmentálni" vagy "mondatokat elválasztani" ~ tagolni) néven ismert, és gyakran nem triviális feladat a tudósok számára, nemhogy a gépeknek. Az írásjelek hiánya azt jelenti, hogy ugyanaz az írásjegy-sor vagy sorozat többféleképpen is szegmentálható, ami drasztikusan eltérő jelentésekhez vezethet. Az írásjelekkel kapcsolatos döntések gyakran a szöveg történelmi kontextusának, nyelvtanának és filozófiai jelentésének mélyreható ismeretén alapulnak.

    Hozok erre egy példát a Qing-dinasztia (1644–1912) idejéből, melynek forrása Zhao Tianyang (趙恬養) 《增訂解人頤新集》 című műve (nagyjából: Az Emberi Kényelem Újonnan Kiegészített Gyűjteménye). Ebben olvasható mondat a "下雨天留客天留我不留" amely a kínai kultúrában egy nagyon híres példa, mely arról vált híressé, hogy nincs benne írásjel, és a tagolásától függően két ellentétes jelentést hordozhat:

    A gazda szándéka az elküldés: 下雨天留客,天留我不留。 Esős nap van, (így) marasztalok vendéget, az Ég marasztalja, de én nem maradok. (A gazda jelzi a vendégnek, hogy ideje mennie.) A vendég megértése a maradás: 下雨天,留客天,留我不? 留! Esős nap van, vendégmarasztaló nap van, marasztalsz engem? Igen, marasztalsz! (A vendég úgy értelmezi az írást, hogy maradnia kell.)

    Ez a történet és a mondat tökéletesen illusztrálja, hogy a "duanju" azaz a mondattagolás (断句) mennyire kritikus az ősi kínai szövegek helyes megértéséhez.

Az ICL egy olyan technika, amely lehetővé teszi egy LLM számára, hogy egy feladatot elvégezzen anélkül, hogy kifejezetten finomhangolnák (értsd: újratanítanák) a feladat-specifikus adatokon. Ehelyett a modell közvetlenül a promptban (a "kontextusban") megadott példákból tanul. Egy új ősi mondat (a lekérdezés) írásjelezéséhez az LLM prompt számos példát tartalmaz más, írásjelek nélküli ősi mondatok helyes, modern változataival párosítva. Ez a módszer lehetővé teszi a speciális modellek (mint például a Xunzi) számára, hogy kihasználják az ókori kínai nyelvről szerzett hatalmas, előre betanított tudásukat, és azonnal alkalmazzák azt az írásjelfeladatokban. Így gyakran felülmúlják a hagyományos gépi tanulási módszereket, amelyek hosszadalmas, elkötelezett betanítást igényelnek.

Az EvaHan2024 ICL-módszerei által elért magas pontszámok azt mutatják, hogy a megfelelő utasítások esetén rendkívül hatékony e komplex és munkaigényes szinológiai feladat automatizálásában.

Kínai nyelvi sajátosságok és technológia


Már fentebb elítetem hogy az ősi kínai szövegeket gyakran írásjelek nélkül írták, ezért a modern olvasáshoz elengedhetetlen a mondatok helyes elválasztása és pontozása. A kutatási eredmények (például a EvaHan 2024 feladatokon) azt mutatják, hogy a Xunzi LLM vagy a Xunzi-alapú finomhangolt modellek (pl. a Xunzi-Qianwen-7B-CHAT bázismodell használatával) kiemelkedő eredményeket érnek el ezen a területen, gyakran felülmúlva még az olyan általános célú modelleket is, mint a GPT-3.5 a nehezebb ősi kínai szövegtípusoknál (pl. hivatalos évkönyvek, krónikák). Ez azt jelenti, hogy a pontossága és visszahívási aránya kiválóan alkalmas az ősi kínai szövegek automatikus előkészítésére a digitális bölcsészettudományi projektek számára.

Egy új, átfogó benchmark, a Fùxì (伏羲评测集), amely 21 feladattípust tartalmaz az ősi kínai szövegek megértésére és generálására, segít a Xunzi teljesítményének beágyazásában. Míg a modern kínai LLM-ek (pl. Qwen, GLM-4) és a globális élvonalbeli modellek (GPT-4) magas pontszámot érnek el a szövegértési feladatokban (pl. többválasztós kérdések), a Xunzi LLM a finomhangolása révén hatékonyan tud teljesíteni azokban a feladatokban, amelyek mély kulturális ismereteket és szöveghű generálást igényelnek. A Xunzi fejlesztői azt a célt tűzték ki, hogy modelljük kiemelkedően teljesítsen azokban a feladatokban (pl. kiegészítés, annotáció), ahol a nyelvi sajátosságok (régi karakterek, elmosódott szerkezetek) jelentik a fő kihívást. Xunzi LLM ereje nem az általános tudásban van, hanem a kiemelkedő, célzott pontosságban a kínai kulturális örökség és az ősi szövegkritika területén. a Xunzi AI a kínai kulturális és történelmi adatok digitalizálásának és elemzésének magjában áll, leginkább egyetemi kutatóközpontokban és a digitális bölcsészettudományokkal foglalkozó intézetekben.

  • Kutatócsoportok alkalmazzák a Xunzi-t nehezen érthető, ritka vagy kontextusfüggő ősi kifejezések jelentésének kinyerésére, megmagyarázására és kategorizálására.
  • A modell segít az ősi szerzők nyelvi stílusának, szókincsének és nyelvtani szerkezetének elemzésében, segítve ezzel a bizonytalan szerzőségű szövegek pontosabb datálását és attribúcióját.
  • A kutatók a Xunzi modellt használják a hagyományos írásjelek nélküli ősi szövegek (文言文, wényánwén) automatikus szövegtagolására és pontozására. Ez elengedhetetlen előkészítő lépés az összes további digitális elemzéshez.
  • A modell segít a kéziratok és korai nyomtatványok eltérő változataiban szereplő karakterek automatikus azonosításában és összehasonlításában. Ez felgyorsítja a filológiai kritikai kiadások elkészítését.
  • arra használják, hogy nagy mennyiségű ősi szövegből (pl. történelmi krónikákból vagy filozófiai művekből) automatikusan nyerjen ki strukturált információkat a személyek, helyek, események és filozófiai fogalmak közötti komplex kapcsolatok feltárásához.

Kínai kulturális ismereteim sosem lesznek elégségesek. Ahogy telnek a gyakorlással és tanulással az évek, egyre inkább lenyűgöz az a mély bölcsesség, amely ebből a világból árad. Az ókori kínai könyvek Kína gazdag kulturális örökségének felbecsülhetetlen értékű tárházát és a kínai nemzet felbecsülhetetlen értékű szellemi kincsét alkotják. Széleskörű filozófiai eszméket, humanista szellemiséget, értékeket és erkölcsi normákat ölelnek fel, amelyek alapos vizsgálatot, tanulmányozást és felfedezést indokolnak. Az információs technológia gyors fejlődésének kontextusában az ókori kultúra népszerűsítése és fejlesztése új lehetőséget teremtett a mesterséges intelligencia technológia felhasználására az ókori könyvek újjáélesztéséhez és felhasználásához. Tudom, hogy az ókori könyvek fordítása nagy jelentőséggel bír az ókori kínai kultúra újjáélesztésében. Ez az ókori kínai nyelvtan, karakterek és írásforma egyedi jellemzőinek köszönhető. Számomra a buddhista atanítások és szútrák valamint a régi kínai teercsek-, harcművészet filozófiai feljegyzések és tanítások pontos fordítása a legfontosabb alapja a gyakorlásnak.

De azt tapasztalom hogy gyakorlótársim és sok eetben kínai barátaim számára is a régi kínai nyelv gyakran homályosabbnak tűnik. A régi kínai nyelv modern kínaira fordítása lehetővé teszi az ókori könyvekhez való jobb hozzáférést, elősegítve a kínai kultúra és civilizáció terjesztését. Ha csak a saját példánkat nézem, a fordítások és a gyakorlás által már nagyon sok ember ismerkedhet az régi szövegekkel, az ezek által hordozott bölcsességgel, mely a kínai kultúra terjesztését is segíti.

A ChatGPT 2022 novemberi megjelenése óta számos ágazatban megnőtt az érdeklődés a nagy nyelvi modellezés iránt. Jelentős internetes technológiai vállalatok és kutatócsoportok foglalkoztak ezzel a területtel. Napjainkig több száz nyílt forráskódú és kereskedelmi forgalomban kapható nagy nyelvi modell jelent meg általános területekre. Ezzel egyidejűleg, ahogy a nagy nyelvi modellezéssel kapcsolatos kutatások folyamatosan fejlődnek és a terület megértése mélyül, az általános célú, nyílt forráskódú nagy nyelvi modellezés iránti lelkesedés csökken, míg a vertikális területekre vonatkozó nagy nyelvi modellezés iránti érdeklődés növekszik.

A vertikális terület egy szűk hatókörű piacot vagy technológiai ökoszisztémát jelöl, amely egy adott iparág eltérő követelményeinek, szabályozásainak és működési bonyolultságainak kezelésére összpontosít.

A széles körű alkalmazhatóságra tervezett horizontális keretrendszerekkel ellentétben a vertikális területek hangsúlyozzák az ágazatspecifikus terminológiákkal-, megfelelőségi szabványokkal és munkafolyamatokkal való mély igazodást a pontosság és a kontextus biztosítása érdekében. A mesterséges intelligencián belül ez a koncepció kiterjed a vertikális tartományú nagy nyelvi modellekre (LLM), amelyeket speciális adatkészletek, terminológiák és iparági korlátozások beépítésével hoznak létre, hogy feldolgozzák, értelmezzék és generálják a tartományspecifikus tudást.

A gépi fordítás (MT) fejlődése jól elkülöníthető fázisokon ment keresztül, az 1930-as években megfogalmazott elméleti koncepciókkal kezdve, majd a technológiai fejlődéssel a gyakorlati alkalmazások felé haladva. Kezdetben a szabályalapú MT dominált, amely a nyelvi elemzésre támaszkodott, de az 1980-as években a statisztikai MT felváltotta. A 21. században megjelent a neurális gépi fordítás (NMT), amelyet a mélytanulás és a neurális hálózatok tápláltak. A nagy nyelvi modellek (LLM-ek), amelyeket a ChatGPT példáz, megjelenése tovább alakította a gépi fordítást, robusztus nyelvközi képességeket mutatva be.

A jelenlegi kutatások a kontextus tanulására és az LLM-ek teljesítményértékelésére összpontosítanak a fordításban, beleértve az utasításmérnöki keretrendszerek fejlesztését, a GPT modellek teljesítményelemzését és a kontextus-példák hatásának vizsgálatát. Míg az LLM-ek kiváló fordítási teljesítményt mutatnak a hatalmas adatbetanítás és az utasítások finomhangolása révén, a gyakorlati alkalmazás megköveteli a kisebb paraméterekre való összpontosítást és az utasítások finomhangolásával történő optimalizálást.

Az általános szakterületi gépi fordítás fejlődése a kutatási fókuszt a vertikális területek felé terelte, két fő kihívással foglalkozva: a szakterületi tudás integrálásával és az alacsony erőforrásigényű adatok kezelésével.

A szakterületi tudás integrálása gyakran magában foglalja a tudás beágyazását a betanítási adatokba, növelve a modell hatékonyságát. Ez a megközelítés azonban szakterületi szakértelmet és bőséges adatmennyiséget igényel, ami nehézségeket okoz az alacsony erőforrásigényű esetekben. Következésképpen a kutatások az alacsony erőforrásigényű gépi fordítást vizsgálják, ahol a statisztikai módszerek (pl. kifejezésalapú fordítás) továbbra is relevánsak a korlátozott adatokhoz való alkalmazkodóképességük miatt. Az adatbővítési technikák (pl. párhuzamos kifejezéskinyerés) az alacsony gyakoriságú szavak helyettesítése fordított fordítással és a korpuszközi szóbeágyazások fokozzák a betanítás hatékonyságát. Továbbá a nagy nyelvi modellek alkalmazása az ősi szövegfeldolgozásban egyre inkább elterjedt, a szövegszegmentálással, a lexikai annotációval és az összefoglalással kapcsolatos tanulmányokkal. Ezen előrelépések ellenére az ókori könyvek LLM-alapú gépi fordításával kapcsolatos kutatások továbbra is korlátozottak. Végső soron a kiváló minőségű, szakterület-specifikus párhuzamos korpuszok és az utasítások finomhangolása kulcsfontosságú az LLM-ek vertikális szakterületi gépi fordításban való kihasználásához, lehetővé téve a szakterületi tudás mélyebb feltárását és optimalizálását.



Megjegyzések, hasznos linkek