További Net cikkek
Az interneten szörcsölők többsége előbb-utóbb óhatatlanul a Google-nél köt ki - az évezred elején diadalútra indult keresőmotor mára köznévvé, és sokaknak a webes keresés szinonímájává vált. A Google-nek azonban töretlennek tűnő egyeduralma ellenére is léteznek versenytársai: a népszerűségi világversenyben második helyezett Yahoo, a nemrégiben megújult, Microsoft-féle MSN és az Ask Jeeves mellett sok más cég és független programozó is fejleszt keresőket, az egyes országok helyi kezdeményezéseiről már nem is beszélve. Tesztünkben a négy nagy mellett kipróbáltuk a legnépszerűbb hazai keresőt, az Origo Vizsláját is.
A metodológia
A webkereső (search engine, szó szerint keresőmotor) nem más, mint egy automatikus böngésző. A keresőprogramok időről időre "végigmásznak" a világhálón - ezért nevezik őket póknak is - és automatikusan rákattintanak minden linkre, amit találnak, vagyis követik a weboldalakon elhelyezett hivatkozásokat. A keresők a talált oldalakat tárolják, és különböző módszerekkel indexelik őket - a jobb programok megjegyzik egyes szavak előfordulását, az oldalak címeit és néha az úgynevezett "meta tag"-ekben tárolt tartalomleíró kifejezéseket is. Amikor a felhasználó webkeresőt használ, nem is az interneten, hanem a keresőprogram által létrehozott adatbázisában turkál. A módszer előnye, hogy a már indexelt oldalakon jóval hatékonyabban lehet keresni, mint ha a póknak minden egyes alkalommal végig kellene másznia az interneten - ez napokat, sőt akár heteket is igénybe vehetne. Egyszerre hátrány és előny, hogy a weboldalakon található információt egyes keresők egy ideig gyorstárban (cache-ben) tárolják, így a böngészők olyan tartalmakhoz is hozzáférhetnek, amelyet készítőik már eltávolítottak weboldalaikról.
A módszertani jellegű bonyadalmak elkerülése végett először arra kerestünk, amire mindenki keres: saját magunkra. Az egoszörcs hálás elfoglaltság, sokan naponta művelik; mivel pedig tudtuk, hogy létezik rólunk kép az interneten, csak az volt a kérdés, hogy ezt a keresők is így gondolják-e. Tesztünk második részében továbbra is arra kerestünk, akire mindenki keres: a pornóipar állócsillagára, Jenna Jamesonra. Mivel tudtuk, hogy Jennáról is van kép az interneten, csak az volt a kérdés, melyik kereső mennyit talál. Jennánál többet szenvedtünk a harmadik kifejezéssel, a gyémánttengellyel: szerettük volna kideríteni, melyik művében használta József Attila a sokat idézett költői képet, de majdnem tudatlanok maradtunk, és csak a gyors paradigmaváltás mentett meg a kudarctól. Negyedsorban azt a kérdést tettük föl a keresőknek, hogy vajon hány bit van egy bájtban. Aki inkább végigizgulná a tesztet, az most ne figyeljen ide: nyolc.
Csak a Google ismeri fel Mikest
A Google képkeresője a "Mikes E. Lajos" kifejezésre azonnal megtalálta az Index szájtján éktelenkedő portrénkat, ráadásul egyszerre két példányban is. Hazai kötődése ellenére sem boldogult velünk az Origo Vizslája, ami egyébként a Yahoo keresőmotorját használja, így aztán az sem volt meglepő, hogy a nagytestvér yahoo.com sem találta Mikes E. Lajos képét - ugyanúgy nem, mint a Yahooról az idén levált, és saját keresőmotort használó MSN. A legkiábrándítóbb eredményt az Ask Jeeves produkálta: képet egyáltalán nem talált rólunk, de szöveget sem sokat: az első tíz megjelenített találatból egyetlen egy sem vonatkozott ránk, sem a Hollandiai Magyar Szeminárium, sem pedig a misztikus knihovnahk.cz.
Jenna Jenna hátán
Azt valahogy előre sejteni lehetett, hogy Jenna Jameson-képből több van az interneten, mint Mikes-portréból; de az mégis meglepett, hogy a pornóügyben abszolút kompetensnek bizonyuló Vizsla a teljes weben nem kevesebb, mint 24 766 Jennát talált, és bár nem kattintottuk végig az összeset, a képek jelentős részéről a díva mosolygott ránk különböző pozíciókban. Az idézőjeles "Jenna Jameson"-ra a Yahoo 398, a Google 393, az MSN pedig mindössze 116 találatot hozott, ami csak addig tűnt meglepőnek, amíg ki nem kapcsoltuk a keresők pornószűrő filtereit. Jó tudni, hogy alapbeállításban a Google, a Yahoo és az MSN is megválogatja, milyen explicit tartalmat enged a monitorra, Jenna pedig tagadhatatlanul az explicit kategória királynője: kikapcsolt szűrővel a Google nem kevesebb mint 64 000 példányban bukkant rá a neten. (A Vizslán alaphelyzetben nem működik a filter, viszont bármikor bekapcsolható "A sokkoló tartalom szűrése" opció, amit viszont a képkeresővel nem tudtunk együttműködésre bírni.)
Elkeserített viszont az Ask Jeeves paternalizáló hozzáállása: a Jenna iránt érdeklődő szörcsölőt a szájt arra figyelmezteti, hogy a találatok nagy valószínűséggel szexoldalak formájában öltenek majd testet, és bármit teszünk, nem hajlandó jennás képeket megjeleníteni (az ellenpróbaként bedobott "George Bush" kifejezéssel viszont valamiért semmi baja nem volt). Amikor viszont kikapcsoltuk a szexfiltert, Jeeves közölte, túlterheltek a szerverei, ezért elégedjünk meg egyetlen, a beszédes nevű creampie.com-ra mutató linkkel.
|
Beletörik a gyémánttengelybe a keresők bicskája
Jennánál nagyobb falatnak bizonyult József Attila gyémánttengelye: azt szerettük volna a netről kideríteni, hogy vajon egybe, külön, esetleg kötőjellel írta-e a költő a szót, melyik művében is használta, és pontosan milyen szövegkörnyezetben. A "gyémánttengely" szóra kifejezetten rosszul reagáltak a keresők: kevés és irreleváns találatot hoztak. A találatokból még az sem derült ki rendesen, hogy meghajlik, elgörbül, esetleg fordul az a gyémánttengely: másképp emlékszik a Komlói Újság Online, másképp az Eső című irodalmi lap és ismét másképp az Ökotáj.
Ha kötőjellel kerestünk, a találatok száma csaknem az összes kereső esetében felére-harmadára csökkent. Fény derült ugyanakkor a Vizslának arra a hiányosságára is, hogy a kötőjellel írt kifejezést két külön szóként értelmezi - így bukkantunk a huszonöt találat között a távcsőtükör-csiszolásról szóló alapvetésre és a Boróka című játék leírására is ("Kiderül, hogy a fura gépezetnek eltörött a tengelye. Segíthetsz a gnómnak, ha van nálad egy fémrúd"). A helyzetet maga József Attila mentette meg: amikor a nevét is beírtuk a keresőablakba, a Google és az MSN első helyen hozta a releváns találatot - a Jeeves, a Vizsla és a Yahoo viszont így sem boldogult a tengellyel.
Az eset tanulsága az is, hogy a keresők buták: figyelik ugyan a weben előforduló szavakat, azok gyakoriságát, egymáshoz való közelségét - a Google találmánya, a PageRank az adott oldalakra hivatkozó linkeket is számon tartja -, ha azonban "gyémánttengelye" helyett "gyémánttengely"-lyel próbálkozunk, abba beletörik a Google és az MSN bicskája is. Ennek az az oka, hogy ezek a keresők nem képesek "visszafejteni" a szótöveket, amire az izoláló típusú nyelvek esetében kevés szükség van, a rag- és képzőmániás magyar viszont elvárná a dolgot.
Hány bit egy bájt?
Némi furfang - vagy nyelvtudás - szükséges ahhoz is, hogy webkereső segítségével derítsük ki, hány bitből áll egy bájt. Indulásakor az Ask Jeeves büszkélkedett azzal, hogy képes az "emberi nyelven" feltett kérdésekre válaszolni, és valóban: a "How many bits are there in a byte?" kérdésre már első találatként egy bitről bájtra alakító program linkjével kedveskedett. Magyarul viszont nyilván nem tud Jeeves, hiszen a kérdés magyar megfelelőjére két szomorú - és irreleváns - linkkel válaszolt csupán. Arra az egyszerű, semmiféle stiláris értéket nem csillogtató kifejezésre viszont, hogy "bit bájt váltószám" a Jeeves kivételével minden kereső azonnal és pontosan válaszolt.