Dióhéjban a számítógépes nyelvészetről

Kérdés: Mi is tulajdonképpen ez a „számítógépes nyelvészet”?a nyelvtechnológiai folyamatokat illusztráló ábra

Kezdjük a kályhánál. Az emberek közötti gondolatcsere legfontosabb eszköze az ősidőktől fogva a természetes (emberi) nyelv. Az, hogy beszélünk és beszédet értünk, gondolatokat írunk le és mások leírt gondolatait elolvassuk olyan természetes a számunkra, mint a levegő, amit belélegzünk. Sőt, a nyelv ennél még mélyebb szinten is a sajátunk, hiszen a gondolkodásunkban is elengedhetetlen szerepet tölt be: többek között lehetővé teszi az absztrakciót, a múltra és a jövőre utalást, továbbá tárolja az emberi tudás évezredek alatt felgyülemlett eredményeit. Röviden, a nyelvtudásunk révén válunk részeseivé a jelek és szimbólumok alkotta azon tartománynak, amit – általános értelemben – emberi kultúrának nevezünk.

Ennek a csodálatos képességnek, a kultúra világához utat nyitó eszköznek a mibenlétét és szabályszerűségeit a modern nyelvészet és a kognitív tudományok kutatják. De az ember már csak olyan teremtmény, aki szereti látni, hogy elvont elméletei mennyit is érnek a gyakorlatban. Az a terület, ahol a nyelvészeti tudás és e tudás gyakorlati, működőképes alkalmazása elválaszthatatlan egységet alkot, a  számítógépes nyelvészet és az iparhoz erősebben kapcsolódó területei, amelyekre egységesen nyelvtechnológia néven szoktunk hivatkozni.

A számítógépes nyelvészet a legteljesebb mértékben interdiszciplináris tudomány: egyik pillérét a modern nyelvészet és kognitív tudományok, másik pillérét pedig az informatikai tudományok alkotják. Ez a tény tükröződik a képzés sajátosságaiban is: a képzésünk tárgyaira pillantva meggyőződhetsz róla, hogy mind a két terület alaposan lefedésre kerül, bár természetesen mi inkább a nyelvészeti aspektusokra koncentrálunk.

Kérdés: Az általános képet már azt hiszem, értem, de tudnál konkrét számítógépes nyelvészeti alkalmazásokat is mondani?

Rengeteg ilyen van. Mivel a nyelvhasználat alapvetően két formában jelenik meg, mégpedig beszélt és írott formában, a számítógépes nyelvészet (avagy általában a nyelvtechnológia) alkalmazásai is két csoportra oszthatók ebből a szempontból.

wordnet gráfA beszédtechnológiához a hangzó beszéd előállítását vagy feldolgozását célzó megoldások tartoznak. A beszédelőállító rendszerek például a leírt szövegek felolvasását teszik lehetővé látássérült embertársaink számára (egy ilyen rendszer, amely nagyon sok nyelv felolvasórendszerét integrálja egyetlen kényelmes webes felületen, például a Robobraille rendszer), de ilyenek a meteorológiai előrejelzéseket vagy sms-eket felolvasó rendszerek is.

A beszédfelismerő rendszerek az ellenkező irányú műveletet próbálják megvalósítani, azaz a hangzó beszédet más, például írott vagy további feldolgozásra alkalmas egyéb formára alakítják át. Ez sokkal nehezebb feladatnak bizonyult, és bár már vannak általános kereskedelmi szoftverek is erre a célra, ezek pontossága hagy kívánnivalót maga után. A gépi beszédfelismerés alkalmazási lehetőségeinek egyébként csak a fantázia szab korlátot; a Google Voice-szal például a hangüzeneteket automatikusan átírathatjuk sms-ekké.

Részben a beszéd gépi felismerésével kapcsolatos technikai nehézségek, részben pedig az írás  kiemelkedő fontossága miatt a számítógépes nyelvészeti kutatások jelentős része az írott formában megjelenő szövegre összpontosít. A világhálón való hatékony információkeresés lehetővé tétele, amely mára hétköznapjaink részévé vált, a számítógépes nyelvészet egyik legnagyobb eredménye, bár ezt felhasználói közül talán kevesen tudják.

Hagyományosan kiemelt fontossággal bíró – de még mind a mai napig tökéletesen meg nem oldott – számítógépes nyelvészeti feladat a jelen honlapon is egy kipróbálható demó formájában (a Kezdőlapunkon vagy a http://www.webforditas.hu/ oldalon) megtalálható gépi fordítás. A gépi fordítás esetével jól illusztrálható a számítógépes nyelvészet egy másik kettőssége (a beszéd – írott nyelv kettősség mellett), a statisztikai és a szabályalapú megközelítés kettőssége.

A statisztikai megközelítés – amelynek kiváló példája a Google fordító – nagy mennyiségű, egymásnak megfeleltetett szövegdarabból von el olyan statisztikai szabályszerűségeket, amelyeket azután az új forrásnyelvi szöveg lefordításakor alkalmaz. Ennek az eljárásnak az eredménye egy gyors, de hozzávetőleges fordítás, amely nem törődik a finom részletekkel, mert mindenképpen valamilyen eredményt szeretne produkálni, akár az érthetőség rovására is. Éppen ezért, sejthető módon, az ilyen rendszerekben viszonylag kevés nyelvészeti tudás testesül meg.

A szabályalapú megközelítés egyik kiváló példája a magyar Morphologic által fejlesztett webfordító - (ennek demóját kipróbálhatod a Kezdőlapon). Ez utóbbi ott erős, ahol a statisztikai gyenge, és ez megfordítva is igaz. A szabályalapú rendszer nyelvtanilag elemzi a forrásnyelvi szöveget, és ezért adott esetben képes olyan pontos, magas színvonalú fordításra, amely megközelítheti az emberi fordítók teljesítményét. Azonban e rendszerek meglehetősen „törékenyek”: ha a fordítandó szöveg elemzése valami miatt elakad, a szabályalapú rendszer nem tud tovább menni. A szabályalapú rendszerek mélyén igen komoly nyelvészeti tudás található, és mind a fejlesztésük, mind a karbantartásuk erős nyelvészeti hátteret igényel. Ez persze nem azt jelenti, hogy a statisztikai rendszerek meglennének mindenféle nyelvészeti tudás nélkül, de tény, hogy kevesebbel is elműködgetnek.

Kérdés: Hol nézhetnék más alkalmazásoknak is utána?

Az eddig tárgyalt példák mellett megszámlálhatatlanul sok egyéb számítógépes nyelvészeti és nyelvtechnológiai kutatási terület van, és közülük sok már meg sem érthető a számítógépes nyelvészet legalább alapszintű ismerete nélkül. Néhány általános célú, de a magyar nyelvre kidolgozott eszközt azért megtalálsz a Nyelvtechnológia lapon. Ha egy átfogó előadást szeretnél megnézni a témáról, akkor az alábbi, Kornai András által a  Mindentudás Egyetemén tartott előadást nézd meg. Ha még ezután is marad erőd, a Kornai-előadás után tartott kerekasztal-beszélgetésbe is belepillanthatsz.

 

Powered by FiveStar!