Pronalaženje informacija -IR-

Pronalaženje informacija (engl. information retrieval, skr. IR) je deo informatičkih nauka koji se bavi organizacijom velikih količina nestruktuiranih podataka radi brze pretrage, odnosno pronalaženja informacija iz tih podataka.

Struktuiran tip podatka

Relacione baze su već decenijama provereno rešenje za upravljanje struktuiranim podacima. To su problemi poput vođenja računa, evidencije zaposlenih itd. Podaci ovog tipa mogu se apstraktno modelovati, tzv. entitetima, sastavljenih od primitivnih obeležja, kao što su datum (npr. vreme isplate), kratak tekst (npr. broj računa), broj (npr. svota novca) itd.
Pretraživanje po ovim obeležijma obavlja se uz pomoć sortiranih ili rasutih indeksa (B-stablo ili hash tabela). Pomoću njih izbegava se spora linearna pretraga i moguće je u O(1) ili O(logn) izvršiti selekciju po vrednosti. Uz pomoć B-stabla mogu se optimizovati i pretraživanja po prefiksu teksta.

Nestruktuiran tip

Ukoliko je potrebno pretraživati velike kolekcije teksta po unutrašnjem delu sadržaja, sa kompleksnim upitima (skup reči, fraze itd), indeksi kod relacionih baza nisu od pomoći. Iz tog razloga se takvi tekstualni podaci smatraju nestruktuiranima i nepogodnim za pretraživanje pomoću sistema relacionih baza.
Većina kvalitetnih relacionih baza podataka podržava neki vid potpune pretrage (npr. PostgreSQL3), a drugi način jeste da DBA i programeri optimizuju pretragu upotrebom posebne tabele TIndeks (Polje, Reč, Dokument_id, Ocena). Iako ovaj pristup funkcioniše, nije ni blizu performansi i mogućnosti sistema posvećenom pretrazi teksta.
Kao osnovna jedinica predstave podatka u IR sistemu uzima se dokument. Osobine dokumenta su da ga je moguće rasčlaniti na elemente po kojima se kasnije može pretraživati - reči odn. termine. Taj proces naziva se tokenizacija.
Kao što je već rečeno, iako se ova nauka bavi organizacijom i pretragom nestruktuiranih podataka, tekstom, često jedan dokument čine delom struktuirani podaci i jedan ili više tekstualnih podataka.
Na primer, web stranica se, uprošteno, može posmatrati kao dokument sastavljen od naslova, zatim sadržaja, te datuma objave. Naslov i sadržaj dokumenta se smatraju nestruktuiranim, dok se datum objave smatra struktuiranim. Iz tog razloga većina IR sistema podržava mogućnost definisanja okvirne strukture dokumenta upotrebom imenovanih polja.
Primera radi, web stranica može se definisati poljima Naslov, Sadržaj, URL. Sistem dopušta različitu tokenizaciju (pa i odsustvo iste) kod različitih polja, međutim, sve pojave polja jednog tipa koriste isti način tokenizacije.

 

copyright M2M
BL-2011/14