Helyesírás a számítógépes szövegszerkesztés korában

A "rádiós-láger" és a "cumi-süveg"

Farkas Miklós, 2005. július 30. 10:20

Érdekes informatikai területtel és egyben a mindennapok gyakorlati problémájával foglalkozik Prószéky Gábor nemrég megjelent, A nyelvtechnológia (és) alkalmazásai című kötetében (Aranykönyv Kiadó, eVilág kiskönyvtár, 2005). Bár a cím száraz szakmai tanulmányt sejtet, a könyv mégsem, sőt nem is elsősorban az informatikusoknak és a nyelvészeknek szól, hanem a számítógépet használó hétköznapi ember számára nyújt hasznos és könnyen érthető információkat. A szerző a kötetben - és lapunknak adott interjújában - számos érzékletes, ám sokszor elrettentő példával világítja meg az elektronikus szövegszerkesztés során felbukkanó helyesírási hibák okait, és mutat rá kiküszöbölésük lehetséges módjaira.

- Kezdjük szó szerint az elején: miért szerepel a könyv címében zárójelben az és szócska?

- Ebben a kis kötetben arról olvashatunk elsősorban, hogy mi is az a nyelvtechnológia, és hogy mire használják a mai számítógépes alkalmazásokban az elért eredményeket. Ahhoz azonban, hogy az alkalmazások alapvető működési módját megismerjük, minimális ismeretekkel kell rendelkeznünk a számítógépes nyelvleírásról. Ha az alapokat kimerítően tárgyalnánk, valóban jogos volna A nyelvtechnológia és alkalmazásai cím. Ám mivel nem ezek az alapismeretek alkotják a legfőbb mondandót, hanem az alkalmazások, felmerült, hogy mégis A nyelvtechnológia alkalmazásai címet volna okosabb használni. Azonban, hogy mégse vezessük félre a kedves Olvasót, mindkét címet meghagytuk, és kissé formalista módon ennek kifejezésére az opcionalitást - azaz a szabadon választhatóságot - jelző zárójel használatához folyamodtunk.

- Essünk túl a kötelezőnek mondható szakmai kérdésen is: mi a nyelvtechnológia lényege?


- A nyelvtechnológia (hosszabb nemzetközi nevén: human language technologies, rövidítve: HLT) az informatikának az az ága, ahol a számítógépes alkalmazás az emberi nyelvvel találkozik, és a gép ebben a helyzetben a nyelvi képességekkel bíró emberéhez - legalábbis ebben az alkalmazási környezetben - hasonló reakciókat ad. A humán nyelvtechnológia határterülete többek között a leíró nyelvészet, a formális nyelvek elmélete, a lexikográfia és a szoftvertechnológiák. Mivel manapság az akár felolvasásra, akár kinyomtatásra szánt anyagok - újságcikkek, tudományos írások, előadások, disszertációk, könyvek, törvénytervezetek, hozzászólások, feljegyzések, fordítások, levelek - közel 100 százaléka számítógépen készül, óriási azoknak a felelőssége, akik például a helyesírásra igényes felhasználót gépi eszközökkel segítik, illetve ezekről a lehetőségekről tájékoztatják. Az internet terjedésével a felelősség nő: a nyelvhelyesség-ellenőrző programok által ellenőrzött (de legalábbis ellenőrizhető) anyagokat naponta többmilliónyian olvassák, a keresőprogramokat további milliók használják, a gépi szótárak és fordítóeszközök segítségével pedig százezrek fordítanak.

A nyelvtechnológia súlyát épp az adja, hogy napjainkban a számítógép alapvetően és elsősorban a kinyomtatandó, felolvasandó - és egyre inkább elektronikus formában is használatos - dokumentumok előállításának eszköze.

A nyelvtechnológia tehát nem arról szól, hogy a nyelvészt hogyan segíti munkájában a számítógép, hanem sokkal inkább arról, hogy a nyelvészet eredményei hogyan tehetők elérhetővé a számítógép számára. Más szavakkal: a nyelvtechnológia nem számítógép a nyelvtudományban, hanem nyelvtudomány a számítógépben.

- Ön szerint mi az oka, hogy az elmúlt évszázadok míves nyomdai munkáihoz képest manapság elképesztően sok a formailag igénytelen és nyelvtanilag hibás kiadvány?


- Kezdjük azzal, hogy a számítógéppel való információszerzés hatása az olvasásra elgondolkoztató. Ma több hibás írott nyelvi minta található az interneten, mint bárhol, bármikor korábban. Azelőtt kizárólag a tipográfiai és nyelvhelyességi ügyekben képzett és igényes nyomdász volt az, aki sokak által elérhető szövegeket hozott létre. Ezt a szerepet ma bárki magáénak mondhatja, ám az egykori nyomdászok szakismeretét nem. Ennek megfelelő minőségűek a sokak szemében valódi nyomdaterméknek tűnő felületes kiadványok.

Vannak persze a helyesírást támogató szoftverek, de sok felhasználó büszkén állapítja meg, hogy ő még mindig jobban tudja a nyelvtant, mint az erre szolgáló programok. Leszögezhetjük, hogy ez így is van jól. A felhasználó a legtöbb nyelvi programtól vagy többet, vagy kevesebbet vár, mint amennyit az teljesíteni képes. A problémák általában ebből a jelenségből adódnak. Emlékezzünk csak vissza: a számítógép előtti időkben az írógép billentyűzetének használata több okból sem okozott a számítógép billentyűzetén való gépeléshez hasonló nehézségeket. Egyrészt azért, mert az írógép nem játszhatta el az okos gép szerepét, s így senki nem várhatta el tőle a hibák kijavítását, másrészt pedig azért, mert még ha volt is szabványos, minden magyar ékezetes betűt tartalmazó billentyűkiosztás, a legtöbb berendezésen akkor sem lehetett tökéletes helyesírással gépelni, ha valaki szeretett volna.

- Akkor tehát támaszkodhatunk a szövegszerkesztőnk helyesírás-ellenőrző programjára, vagy sem?


- A nyelvi programrendszer, mint minden számítógépes rendszer, tartalmazhat hibákat. A helyesírási programok a norma szerinti írás algoritmizálásának segítségével a nem algoritmizálható jelenségek számának csökkentését célozzák meg. Azt előfeltételezik tehát, hogy a norma követése közben kétféle feladatot old meg az efféle számítógépes rendszer használója: egyrészt felülbírálja a nem algoritmizálható normajelenségek "túlbuzgó" gépi kezelését, másrészt elfogadja a gép által ajánlott korrekciókat. Fontos tehát összefoglalni, hogy a számítógéppel készülő dokumentumokban milyen normától való eltérésekre, azaz nyelvhelyességi hibákra számíthatunk. A szóellenőrzésre készített modell sem a szavak jelentését, sem környezetüket nem vizsgálja, ezért például az értelmes szóhibák vagy a hibás különírás jelzésére alkalmatlan. A nyelvhelyesség-ellenőrzőknek nevezett programok ezzel szemben olyan helyesírás- és stílusellenőrző programok, amelyek átlépik a szóhatárt, azaz a szavaknál nagyobb nyelvi szerkezetekkel foglalkoznak. A teljes mondat elemzését végző eljárások a legtöbb nyelv esetében ma még túl bonyolultak ahhoz, hogy elfogadható helyesírás-ellenőrző program épülhessen rájuk.

A számítógéppel írt szövegek hibái között a szóhibák egyébként sokkal gyakoribbak, mint a mondathibák. Általában elmondható, hogy a szóellenőrző programok az íráshibák 80-85 százalékát képesek kiszűrni, míg a szóhatáron túl működő szoftverek további 5-10 százalékot ismernek fel. Így a szó- és nyelvhelyesség-ellenőrző programok az összes íráshiba kb. 85-95 százalékát tudják felismerni, és ezek jelentős részéhez javításokat is ajánlanak.

- Vannak-e a magyar nyelvnek olyan jellegzetességei, amelyek különleges kezelést kívánnak a nyelvhelyességi programok készítőitől?


- A magyar helyesírás szabályaira épített eszköz létrehozásakor a szabályok egy része könnyen számítógépesíthetőnek bizonyult, másokkal azonban egyszerűen nem lehetett mit kezdeni: számos esetben az írásmód a szövegkörnyezet jelentésétől, illetve a kommunikációs helyzettől függ, erre nézve pedig a program által egyszerre vizsgált szövegrészből nem lehet információt nyerni.

A kidolgozandó nyelvi modell szempontjából lényeges, hogy végiggondoljuk: a számítógépnek milyen helyesírási hibákra kell felkészülnie. Ha egy nyelvnek részletes helyesírási szabályzata van - márpedig a magyar ilyen -, akkor a nyelvi eszköz készítői megtehetnék, hogy a nyelvi modellt és a javítási mechanizmusokat szigorúan a szabályokhoz alkalmazkodva alkotják meg. Azonban ezek a szabályok nem a számítógépes nyelvi programok számára jól megfogalmazható igények szerint alakultak ki, és kezelésük sokszor a művelt anyanyelvi beszélő számára is problémát okoz. A nem kellő egzaktsággal megfogalmazott szabályrendszer és a történeti okokból megtartott kivételek nagy száma nehezíti a komputerizálást. A számítógépes modellben a nyelvi jelenségeket kimerítően kategorizálni kell, mert a gép nem tudja az emberhez hasonlóan alkalmazni a szabályzatban előírt analógiákat - ezeket a modellt készítő nyelvésznek végig kell vezetnie a modellben leírt valamennyi kifejezésen.

Érdekes tapasztalat, hogy azok, akik az anyanyelvükön írnak, egészen más hibákat követnek el, mint azok, akik ugyanazt a nyelvet idegen anyanyelvűként használják. Ezért - különösen elterjedt, "nagy" nyelvek esetén - megfontolandó lehet, hogy kétféle helyesírás-ellenőrző program készüljön: egy az anyanyelvi, egy pedig az idegen anyanyelvű nyelvhasználók számára. Ugyanis sok esetben nemcsak magát a nyelvet, hanem értelemszerűen a lehetséges hibákat is modellezni kell, így a két különböző helyesírás-ellenőrző gyökeresen eltérő hibamodelleket igényelhet.

- Milyen hibák fordulnak elő a leggyakrabban számítógépes szövegszerkesztéskor?


- A gépelés során a leggyakoribb hibák a betűtévesztések, a kihagyások, a betűcserék és a fölösleges betűk beszúrása. A hiba legtöbbször szóellenőrzéssel észlelhető, kivéve, ha a tévesztés eredménye értelmes szó. A számítógép, ha csak a szavakat ellenőrzi, alkalmatlan az úgynevezett értelmes hibák felismerésére és javítására. Értelmes hibáról akkor beszélünk, ha gépelési vagy helyesírási hiba folytán "helyes", azaz a szóellenőrző program által ismert kifejezés jön létre a helyett a szó helyett, amelyet a felhasználó írni akart. Ilyen például, ha "mellett" helyett "mellet" kerül a szövegbe, vagy ha valaki a "rét" helyett a "tér" szót írja. Mivel a magyar számítógép- és írógép-billentyűzeten az r és a t betű egymás mellett van, könnyű melléütni.

A gépelés együtt jár néhány tipikus, nyelvfüggetlen hibával. Ilyen például a betűk kihagyása (pl. magyr), duplázása (pl. magyaar), az idegen betű beszúrása (pl. magyaer) és a melléütés (pl. nagyar). Ez utóbbi már némiképp nyelvfüggő, mert a billentyűzetkiosztás nyelvenként változhat. Ennél sokkal nagyobb probléma, ha a klaviatúrán esetleg nagyobb távolságban elhelyezkedő karakterek valamiképpen kapcsolatba hozhatók egymással, így tévesztésük tipikus lehet. Gondoljunk csak a magyar és az angol billentyűzet eltéréséből adódó y/z problémára (pl. ház/*háy). Mivel a hagyomány fontos szempont a helyesírási rendszerek megfogalmazásakor, az írásban olyan nehézségekkel is meg kell küzdenünk, mint az ly/j probléma (pl. papagáj/*papagály, bója/*bólya) vagy a mamut/*mammut probléma. A jelek, számok, dátumok, idegen alakok toldalékolása sokszor még a jobb helyesírónak gondolt embereket is megtréfálja. Gondoljunk csak a következő tipikus hibákra: %-kal/*%-al, 0-s/*0-ás, április 2-a/*április 2-sodika, Nantes-tal/*Nantesszal. (A *-gal jelölt példák a helytelenek.)

- Hogyan lehetséges, hogy olykor maga a gép rontja el az eredetileg helyesen beírt szöveget? Gondoljunk például az újságokban hemzsegő elválasztási hibákra...

- A példák sorát én is folytathatnám, például a dátumokban gyakran megjelenő nagy kezdőbetűs hónapokkal (2005. Május 30.). Ilyenkor gyakran a számítástechnikát okoljuk, pedig a gép csak azt hajtja végre, amire beprogramozták - ráadásul itt nem is a helyesírási programokról van szó...

A nagybetűs hónapnevek elszaporodásának oka az automatikus nagybetűsítő modul ismeretének hiánya. 2005. Május 30. nagybetűs hónapneve láttán nem a "Nem nagybetűvel írjuk!" (egyébként jogos) felszólítás a segítség, hanem a ma hazánkban leggyakrabban használt szövegszerkesztő program megfelelő ismerete. A hibát ugyanis - legalábbis az első időkben - nem a gépelő követi el, mert ő minden bizonnyal tudja, hogy a hónapok neve kisbetűvel írandó. Ezzel szemben az említett programban van egy - kikapcsolható - automatikus betűcserét végző modul, amely minden mondat elejét a gépelő megkérdezése nélkül nagybetűsíti, s mivel az évszám után pontot talál, a hónapot már az új mondat kezdetének véli. Ezt a modult nem a magyar nyelvhelyességi programok készítői dolgozták ki. Természetesen a helyzet javulna, ha ez a mondatkezdet-nagybetűsítési lehetőség mindenkinél állandóan ki lenne kapcsolva, ehhez viszont nem elég a hagyományos nyelvművelői felszólítás, ráadásul nem is könnyű megtalálni a "Mondatok első betűje" opciót.

Az elválasztóprogramot nem, vagy legalábbis nem a magyar változatot használó szövegeiben két gyakori típushibával találkozhatunk. Az egyik esetben a sorok belsejébe kerül egy nem a számítógépes elválasztóprogram által, hanem kézzel betett elválasztójel (pl. bel-sejében), a másik esetben pedig a nem magyar elválasztóprogram használata miatt rossz helyre kerül a kötőjel (pl. elválas-ztás). Tudni kell, hogy a morfológiai elemzőre épülő elválasztóprogram által felajánlott elválasztás elvileg 100 százalékos (elvileg, hiszen elírás mindig lehet az adatbázisban, de az könnyen javítható), hiszen ismeretlen szavakat nem választ el automatikusan, az ismertekre pedig az algoritmus helyesen működik. Az ilyenkor kézzel betett kötőjelek sor belsejébe kerülése miatt nem a gépi elválasztást kell szidni, hanem a nem hivatásos tördelő ismereteit kellene bővíteni. Ilyen esetben ugyanis a - sajnos sokak által nem ismert - lágy elválasztójeleket kell használni, s így kizárólag akkor jelenik meg a kiskötőjel, ha a szó a sor végén ténylegesen elválasztási pozícióba kerül. Minden más esetben a jel nem látható.

A másik esetről viszont nyugodtan állíthatjuk, hogy az "elválas-ztás" típusú szörnyűségeket egy jól működő magyar elválasztóprogram soha nem követi el. Ilyenkor az a valószínű, hogy az így elválasztott szöveg létrehozója nem ismerte a nyelvi formázás fogalmát. Ez valójában egy nem látható kijelölés, amelynek az a hatása, hogy a szöveget magyarnak formázva magyarul, angolnak formázva angolul, svédnek formázva svédül fogja ellenőrizni, illetve elválasztani a program. E kijelölés ismeretének hiányában az utoljára (gyárilag vagy mások által) beállított nyelv elválasztási szabályai fogják megpróbálni az adott szöveg nyelvén, például magyarul írt szavakat a másik, éppen beállított nyelv szabályai szerint elválasztható részekre szabdalni. Az elválasztás - nyelvtől függetlenül - ki is kapcsolható, ám még ehhez is kell némi szövegszerkesztő-ismeret. A nyelvőr ilyenkor nem elégedhet meg a puszta "Ne használd, abból baj nem lehet!" felszólítással. A hibás elválasztások tehát az elválasztóprogram ismeretének hiányából fakadnak.

Mondok egy másik példát a magyar nyelv speciális elválasztásaira. A rádiósláger" szó esetében számunkra természetes, hogy az melyik két szóból tevődik össze, így nyilvánvaló, hogy a "rádió-sláger" a helyes elválasztás. A morfológiával felvértezett számítógép viszont lehetséges morfémahatárt lát - joggal - a "rádiós"és a "láger" határán is. A komputernek azonban nincsenek emlékei, és nem érti a jelentést. De ha megértetjük vele, akkor ennek mintájára a "cumisüveg" szót "cumi-süveg" alakban szeretné elválasztani. Az anyanyelvi beszélők rögtön tudják, hogy a "rádiósláger"-nél alkalmazott szabály a "cumisüveg" esetében nem működik. A gépnek tehát mindent meg kell előre mondani, különben nem várhatunk el tőle helyes működést.

Sokszor tehát képzettségünkön, szellemi önállóságunkon múlik, hogy vitába merünk-e szállni a gép ítéleteivel, vagy feltétel nélkül megbízunk bennük. Honfitársaink egy része van annyira bizonytalan a saját helyesírásában, hogy örömmel veszi, ha eligazítják az írott szövegben végzett tévelygései közben. A nyelvművelőknek kellene tudatosítaniuk az emberekben, hogy mit kell, mit lehet és mit nem szabad ráhagyni a számítógépes nyelvhelyességi rendszerre, a nyelvművelők nagy része viszont nem is ismeri a gépi eszközök logikáját.

A könyv ára: 690 Ft.

Kapható a Líra és Lant könyvesboltjaiban.

Megrendelhető a kiadónál:

Aranykönyv Kiadó,
1028 Budapest, Kő u. 45.
Fax: (06-1) 397-5397
e-mail: arany.kiado@axelero.hu
Web: http://www.evilagonline.hu
Kulcsszavak: könyv

LazIT ROVAT TOVÁBBI HÍREI

Mit mér és mire panaszkodik a magyar netező?

Négyéves a Nemzeti Média- és Hírközlési Hatóság (NMHH) szélessávú szolgáltatásokat összehasonlító portálja, a Szélessáv.net, amely az elmúlt egy évben 211 kihelyezett mérőeszközzel több mint 1,3 millió mérést végzett el. Ezzel kapcsolatban a hatóság egy reprezentatív felméréséből az is kiderült, hogy 2018-ban az internetezők – 58 százaléka – leginkább az otthoni internetes telefonálásra panaszkodott, amit a videotelefonálásra (56%) és az online filmnézésre (52%) vonatkozó elégedetlenség követett.

2019. augusztus 19. 09:35

Átlagosan háromezerért taxiznak a budapestiek

Ugyan még mindig inkább telefonon rendelnek taxit a fővárosiak, de egyre többen használnak valamilyen taxirendelő mobilalkalmazást is - derül ki a Főtaxi megbízásából készített kutatásból. Az elvárásoknak megfelelően új, hasznos funkciókkal bővült a taxitársaság applikációja, így akár már közvetlenül is felhívhatjuk a sofőrt az alkalmazáson keresztül, ha nem találjuk az autót.

2019. augusztus 18. 12:11

Pályázati felhívás kisiskolásoknak

A Magyar Nemzeti Bank (MNB), az MKB Bank Nyrt. (MKB), a Waberer's International Nyrt. és a Nemzetközi Gyermekmentő Szolgálat országos ösztöndíjpályázatot hirdet a 2019/2020-as tanévre az általános iskola 2-3. osztályos tanulói részére.

2019. augusztus 18. 10:14

Az LG és a LUMI izgalmas jövőképet mutat be a 2019-es IFA-n

Szándéknyilatkozatot írt alá az LG Electronics (LG) és az IoT- és okosotthon-megoldásokat kínáló LUMI United Technology. A két vállalat célja egy olyan ökoszisztéma létrehozása, amely az eszközök alapszintű irányításán túlmutatva még teljesebb otthoni IoT-környezetet biztosít a felhasználók számára. Az együttműködés olyan intelligens szenzorokat alkalmazó innovációk kifejlesztésére fókuszál majd, amelyek képesek észlelni a beltéri környezet jellemzőit, például a páratartalom és a hőmérséklet változását vagy az ajtók mozgását.

2019. augusztus 17. 09:36

Több kategóriában bizonyultak legjobbnak a Sony termékei a 2019-es EISA Awards-on

A Sony bejelentette, hogy termékei hét kategóriában értek el első helyezést az Expert Imaging and Sound Association díjátadóján. A hét díj rekordnak számít a Sony történelmében, és idén először győzött a márka a Photo Innovation kategóriában. 29 ország 55 nevezéséről az EISA nemzetközileg elismert szakértőiből álló zsűrije döntött, ezért megtisztelő a Sony számára, hogy az elektronikai iparban megalkotott technológiai megoldásai ilyen sikereket értek el.

2019. augusztus 16. 11:55

Kövess minket a Facebookon!

Cikkgyűjtő

További fontos híreink

A Magyar Telekom 2019. második negyedéves eredményei

2019. augusztus 8. 11:32

Új tulajdonosa van a UPC-nek

2019. augusztus 1. 12:20

A Bosch és a Daimler megvalósítja a vezető nélküli, automatizált parkolást

2019. július 31. 16:53

Rekordbevétel az LG-nél

2019. július 30. 17:03
online sportfogadás