Fulltextes keresés
Amennyiben olyan rendszert hozunk létre, melyben szükségünk van a fulltextes keresésre, nagyon hasznosnak bizonyulnak az olyan applikációk, melyek megtalálják a szót és annak minden alakját. Ha pl. a részvények ára szókapcsolatot keressük, segítségünkre lehet, ha a program megtalálja a részvények árának alakulása szókapcsolatot vagy a részvény szót is. Pontosan erre szolgál az a program, mely két hasznos funkcióval rendelkezik:
- megtalálja a szó alapalakját,
- megmutatja az összes lehetséges alakot, melyeket az alapalakból képez.
A szó alapalakja (lemma) a legtöbb nyelvben az egyes számú alanyeseti alak, pl.: ház. Az igéknél a nyelvek többsége a magyar egyes sz. 3. személlyel ellentétben a főnévi igenevet használja lemmaként. Itt is vannak azonban kivételek, pl. a bolgár nyelv, amely nem ismeri a főnévi igenévi alakot, az egyes sz. 1. személyű alakot tünteti fel lemmaként.
Nyelvi rész
Az egész program alapja, csakúgy, mint az elütésjavítónál, a morfológiai leírás. Ebben a programban több információval van bővítve, elsősorban a következő nyelvtani kategóriákkal:
- eset, szám, nyelvtani nem - főneveknél,
- szám, személy, mód, idő, aspektus - igéknél,
- kategória - névmások, számnevek, határozószók vagy kötőszók esetében.
A szó alapalakjának megtalálása nem olyan egyszerű, mint ahogy az első ránézésre tűnik. A rendszeres alakokon kívül ugyanis számolni kell a szótő alternációival is, melyek nemcsak a magyar nyelvben fordulnak elő. Ilyenek pl. a magyar kéz-kezes, a cseh stůl-stolu stb. Még az aránylag egyszerű angol nyelvben is találunk ilyen példákat: come-came, break-broken, sőt go-went.
A másik probléma a homonímia, ugyanis számos szónál nem egyértelmű, milyen alapszóból származnak. Pl. a fog szó beírásánál az sem biztos, hogy főnév avagy ige-e az, amelyikre gondoltunk, amennyiben ige, úgy különbséget kell tennünk a jövő idő segédigéje és a tart ige szinonímája között. Számos hasonló esetet ismerünk, ezért nem csodálkozhatunk azon, ha a szótár több alapszót is megjelenít. Biztosak lehetünk azonban abban, hogy mindegyik helyes.
Programmegoldás
A programmegoldásunk nagyon helytakarékos. Ha belegondolunk, több milliónyi szóalak elfér egy cca 1 MB nagyságú programban.
Elérhető funkciók
- A szó alapalakjának megtalálása.
- A szó minden nyelvtani alakjának megjelenítése.
- A főnévből és melléknévből álló szókapcsolat egészének ragozása, pl. tanulmányi eredmény, tanulmányi eredménnyel, tanulmányi eredményhez stb. Bár a magyar nyelvben ilyen esetben a melléknevet nem ragozza, idegen nyelv esetén nagyon hasznos ez a funkció.
Jelenleg számos nyelvhez kínálunk fulltextes keresőt, valamint több operációs rendszerből is választhatunk.
Referenciák
A morfológiai keresést legjobban a Lingea Lexicon szótárakban tudja letesztelni, magyarországi megjelenéséig ez a szótár csehül, szlovákul, románul és lengyelül érhető el.