Struktuiran tip podatka
Relacione baze su već decenijama provereno rešenje za
upravljanje struktuiranim podacima. To su problemi poput vođenja računa,
evidencije zaposlenih itd. Podaci ovog tipa mogu se apstraktno
modelovati, tzv. entitetima, sastavljenih od primitivnih obeležja, kao
što su datum (npr. vreme isplate), kratak tekst (npr. broj računa), broj
(npr. svota novca) itd.
Pretraživanje po ovim obeležijma obavlja se uz pomoć sortiranih ili
rasutih indeksa (B-stablo ili hash tabela). Pomoću njih izbegava se
spora linearna pretraga i moguće je u O(1) ili O(logn) izvršiti
selekciju po vrednosti. Uz pomoć B-stabla mogu se optimizovati i
pretraživanja po prefiksu teksta.
|
Ukoliko je potrebno pretraživati velike kolekcije
teksta po unutrašnjem delu sadržaja, sa kompleksnim upitima (skup reči,
fraze itd), indeksi kod relacionih baza nisu od pomoći. Iz tog razloga
se takvi tekstualni podaci smatraju nestruktuiranima i nepogodnim za
pretraživanje pomoću sistema relacionih baza.
Većina kvalitetnih relacionih baza podataka podržava neki vid potpune
pretrage (npr. PostgreSQL3), a drugi način jeste da DBA i programeri
optimizuju pretragu upotrebom posebne tabele TIndeks (Polje, Reč,
Dokument_id, Ocena). Iako ovaj pristup funkcioniše, nije ni blizu
performansi i mogućnosti sistema posvećenom pretrazi teksta.
Kao osnovna jedinica predstave podatka u IR sistemu uzima se dokument.
Osobine dokumenta su da ga je moguće rasčlaniti na elemente po kojima se
kasnije može pretraživati - reči odn. termine. Taj proces naziva se
tokenizacija.
Kao što je već rečeno, iako se ova nauka bavi organizacijom i pretragom
nestruktuiranih podataka, tekstom, često jedan dokument čine delom
struktuirani podaci i jedan ili više tekstualnih podataka.
Na primer, web stranica se, uprošteno, može posmatrati kao dokument
sastavljen od naslova, zatim sadržaja, te datuma objave. Naslov i
sadržaj dokumenta se smatraju nestruktuiranim, dok se datum objave
smatra struktuiranim. Iz tog razloga većina IR sistema podržava
mogućnost definisanja okvirne strukture dokumenta upotrebom imenovanih
polja.
Primera radi, web stranica može se definisati poljima Naslov, Sadržaj,
URL. Sistem dopušta različitu tokenizaciju (pa i odsustvo iste) kod
različitih polja, međutim, sve pojave polja jednog tipa koriste isti
način tokenizacije.
|