no

Emberhúsdaráló, műkancapor és társai

2013.04.30. 21:27
Intelligens helyesírási tanácsadó portál indult az MTA fejlesztésében. Még nem 100 százalékos a rendszer, arra kérnek mindenkit, segítsenek a hibák kijavításában. A helyesírás gyakran keményebb terep a focinál, heves indulatokat szül, és embereket ítélünk meg helyesírásuk alapján – vélik a szakemberek. Hoffmann Rózsa szerint a párválasztásban is szerepet játszhat, hogy írunk.

Nemzetközileg egyedülálló helyesírás-ellenőrző rendszert fejlesztett ki a Magyar Tudományos Akadémia Nyelvtudományi Intézete. A helyesiras.mta.hu-t kedd délután élesítettek. „Van olyan ország, ahol ötvenfős telefonos nyelvellenőrzési szolgálatot tartanak fent, mi erre képtelenek voltunk, ezért inkább portált hoztunk létre, ami akár okostelefonon is elérhető” - mesélte a projekt vezetője, Kenesei István.

A portál a mindenkori helyesírási szabályok alapján dolgozik, az MTA többéves munkával készítette, 2008 óta nyolc emberévnyi ráfordítással. A dolgozók bérén kívül hatmillió forintot fordítottak szerverköltségekre és PR-ra. Kenesei, a nyelvtudományi intézet igazgatója szerint cél, hogy az oldal később önfenntartó legyen, ezért fontos számukra a kattintások száma, mert hirdetőket szeretnének hozzá szerezni.

A magyar helyesírás szabályai még az embereknek is nehéz, kevesen művelik helyesen, a zabályok automatizálása pedig különösen bonyolult feladat – hangzott el a bemutatón. Gyakran ugyanis egy szónak a rövid i-vel és a hosszú í-vel írt változata is helyes, csak mást és mást jelent. „A szövegek ilyen fokú megértése már a mesterséges intelligencia határát súrolja, amit a nyelvtechnológia jelenlegi fejlettségi szintjén nem tudunk maradéktalanul megoldani” – fogalmaztak. A rendszernek valóban vannak hibái, ezt a készítők sem tagadják. Elsősorban a szöveg megértésében, a jelentés megragadásában mutatkoznak a korlátok.

hely3

Mihalitz Márton vezető fejlesztő elmondta, hogy nyelvtechnológiai megoldások közül a humor, a hunspell és a hunhyphen nevű programokat használták fel. Az összetételekre saját ellenőrzőrendszert fejlesztettek ki, 200 000 tulajdonnevet töltöttek fel és folyamatosan fejlesztik a rendszert. A portál működéséhez több százezres tételt tartalmazó adatbázisokat, az egymilliárd szavas Magyar nemzeti szövegtár új kiadását, külön erre a célra készített és szemantikai jegyekkel ellátott szótárakat készítettek.

A rendszer még csak 95 százalékos készültségű, készítői úgy vélik, a tökéletesítésben a használókra kell hagyatkozniuk. Váradi osztályvezető hangsúlyozta, hogy egyelőre egy 1.0-ás újszülöttről van szó, és személy szerint ez a változat inkább a művelt nagyközönség igényeit elégíti ki, de cél, hogy ennél szélesebb rétegeket is kiszolgáljon majd. „A helyesírás többé már nem csak a kulturális elit ügye”. Viszont a helyesírási szabályzat szándékosan nem foglalkozik nem standard nyelvhasználattal, például a laza beszélt nyelvi alakokkal vagy a tájnyelvi változatokkal.

hely1

Folyamatos szöveget sajnos nem lehet vele ellenőrizni, tehát a vesszőhibákat és írásjeleket nem tudjuk vele javítani egyelőre, csak konkrét szavakat, kérdéseket. Ezen belül a külön- vagy egybeírást, a helyesírást, a tulajdonnevek írását, a kötőjeles elválasztást, a számok betűvel való leírását, a dátumok írását és az abc-sorrendet tudjuk ellenőrizni. Az egyik menüpontban akár az egész magyar helyesírási szabályzatot elolvashatjuk, az archívum menüben pedig a nyelvtudományi intézet telefonos és postai nyelvi tanácsadó szolgálatának összegyűjtött kérdései és válaszai közt lehet keresgélni. A telefonos helyesírás-szolgálat egyébként a honlap ellenére tovább működik.

A portál nem egyszerűen szótári egybevetést végez, a megadott szóalakot, kifejezést megpróbálja értelmezni. Felismeri az anyagneveket, színneveket, a többértelmű alakokat (például megint vagy meg+int). Az elemzés megtalálja a megfelelő szabályt, majd ennek alapján megadja a helyes alakot. Nemcsak javít, hanem magyaráz is, megadja azt a szabályt, ami alapján az alakot a javasolt módon kell írni, vagy elmagyarázza a két alakváltozat közötti különbséget. Olyan elemző szabályrendszert használ, ami elvileg tetszőleges számú hasonló kifejezést képes felismerni. Listába nem foglalható, végtelen elemszámú kifejezést képes kezelni. Ez biztosítja előnyét a fix szótárakat használó megoldásokkal szemben, mondják a szakemberek.

hely2

A rendszer tulajdonneves része prediktív bevitellel dolgozik, azaz, ha elkezdünk gépelni, feldobja a lehetséges megoldásokat, alattuk pedig a vonatkozó szabályokat is elolvashatjuk. Ez utóbbi abban segít, hogy ne csak rábízzuk magunkat a gépre, hanem megértsük, meg is tanuljuk a szabályokat.

Nehéz ügy

A helyesírás nehéz terep, a focihoz hasonlóan képes komoly indulatokat kiváltani – vélik az MTA szakemberei. Kenesei István szerint sokszor az alapján ítélünk meg embereket, hogy milyen a helyesírásuk, gyakran jelzőkkel is illetik egymást. Egy kutatás szerint az emberek 90 százaléka szereti, ha egy szöveg helyesen van leírva az interneten.

„A helyesírás lelkes hívei nagyon szenvedélyes vitákat tudnak folytatni, de még veszélyesebb, mint a foci, mert könnyebben le lehet bőgni. Ingoványos területen mozgunk, nem mindig tudunk tökéletes megoldást nyújtani. A felelősség súlya szinte nyomasztó” – fogalmazott Váradi Tamás osztályvezető.

Van másik

Nem a Magyar Tudományos Akadémia frissen beindított portálja az első, ami a papíralapú, bogarászós megoldások helyett kereshető, digitális formában próbál megoldást nyújtani a szavak helyes írásmódjára kíváncsi internetezőknek. Az egyik legismertebb megoldás a magyarhelyesiras.hu, ahol szavakra vagy egyezésekre kereshetünk rá. A mögötte lévő logika nem túl erős, valószínűleg csak a nyomtatott szótárban egyébként is szereplő szavakat kereshetjük. Az új kiadásokhoz egyébként már cd és internetes hozzáférés is jár, így ezzel nem nyertek semmit, akik nemrég vettek akadémiai helyesírást.

Ennél már erősebb tartalom a gyakori hibákat összegyűjtő lista. Aki ügyesen keres, hamar belebotlik. Viszont nem ez az egyetlen ilyen: a helyesiras.blog.hu 2008 óta gyűjti a leggyakoribb helytelen alakokat, mellettük pedig a helyes írásmódokat.

Nagyon régóta működő, de a legkevésbé megbízható megoldás a hejes.szerver.org: beírunk írásmódot vagy többet, és a Google-találatok alapján százalékos tippet kapunk arról, melyik lehet a helyes alak. Ezzel a módszerrel kapásból lehetetlen boldogulni a mozgószabállyal, trafikpályázatoknál fontosabb dokumentumokhoz nem ajánljuk.

Nem a Google a kánon

Pálinkás József, az  MTA elnöke az élesítés előtt elmondta, hogy a pontos gondolatkifejezéshez tudni kell pontosan írni. Saját példát is hozott: a nagyenergiás-elektrongyorsítót, aminek több helyes alakja is létezik, mást jelent, ha másképp írjuk le. Pálinkás szerint a kánon nem a Google, bár tudja, hogy sokan használják helyesírásuk ellenőrzésére, hanem az akadémia. „A fegyelmezett gondolkodáshoz hozzájárul a szabályok ismerete” – mondta.

Hoffmann Rózsa megnevettette az egybegyűlteket, amikor azt mondta, hogy Pálinkás József kihagyta a szerelmes leveleket példái sorából. Hoffmann szerint könnyen véget vethet egy bimbózó kapcsolatnak, ha egy szerelmes levél hemzseg a hibáktól. Szerinte a szépség és a tisztaság harmonikusabbá teszi a mindennapokat, és ebbe beletartozik nyelvhasználatunk tisztasága is.

A felgyorsult világ eszközei miatt kopik, romlik a nyelvünk, a romlásban bűnösnek nevezte azt a köznevelési rendszert, ami minimumra csökkentette a helyesírási követelményeket az érettségiben, de azt ígérte, ezen változtatni fognak. A nyelvrontó internet és az sms önmagában nem rossz találmány Hoffmann szerint, az embereknek kell felnőniük ezekhez az eszközökhöz. A közoktatási államtitkár végül felajánlotta, hogy az összes iskolába eljuttat egy leírást az oldalról.

Emberhúsdaráló, tiniTyrannosaurus

Az ünnepélyes élesítésen egy tanár elmondta kritikáját: a rendszerben hibásan, egybeírva szerepel a “két tannyelvű” szó. „Ösztönszerűen egybeírnánk, de a számneves összetételeket külön kell írni”.

Szerkesztőségünkben is végeztünk egy gyors tesztet, és a következő furcsaságokat találtuk. Bálint szerette volna megtudni, hogy írják az e-könyv piacot, amire négy megoldást is kidob, de nem igazán lehet eldönteni belőle, hogy melyiket kéne használnia. András egy bugot talált, a Délkelet-Afrika beírásánál: kihagyták belőle a kötőjelet, összecsúszott a szó.

Orsi felrótta a rendszernek, hogy az “elkelkáposztásítottalanítottátok” szót nem ismeri fel. Bár a többség az “elkelkáposztástalanítottátok” verziót ismeri, de Orsi verziójára nem adja ki ezt a megoldást.

Gyula és Sanyi sokat vitatkoztak a “felfújható gömbsátorsídzseki”, a “műkancatompor” vagy az “emberhúsdaráló” szavak írásmódjáról. “Mondtam három ilyen szót, aztán a Sanyi elmenekült cigizni” – mesélte el Gyula. Ezentúl nem kell majd Sanyinak emiatt rágyújtania, elég, ha megnézik a portált, ami megadja a helyes megoldást.

A kultrovatban feladta a leckét még a “tini” és a “Tyrannosaurus” szavak összetétele, az új gép erre is felkínálja a megoldást: a helyes írásmód: “tiniTyrannosaurus”. A címadás néha elképesztő szavak gyártására sarkallja az embereket, így merült fel a “dinoszauruszcsarnok-avatás” vagy a “zsarnokgyíkbébitojás” írásának kérdése is – ezentúl ezek sem fognak problémát okozni.