Osobine rječnika |
|
Šta podrazumjevamo pod rječnikom invertovanog indeksa? | |
Podsjećamo na pojam rječnika (definisan u topiku Faze kreiranja invertovanog indeksa-Indeksiranje-inicijalizacija): Rečnik (dictionary) je indeks sekvencijalna ili rasuta datoteka, skladišti meta podatke za sve termine, koristi se prilikom inicijalizacije pretrage. |
|
Rečnik invertovanog indeksa često predstavlja usko grlo indeksa. On mora omogućiti brzo čitanje reči, a za to je poželjno da veći deo istog bude smešten u radnoj memoriji, što znači da rečnik mora biti dobro kompresovan. |
|
Razlikuju se rečnici koji su organizovani kao rasuta datoteka i rečnici sa indeks-sekvencijalnom datotekom, leksikografski uređeni.
|
|
Rečnik pored same reči skladišti i određene metapodatke. Osim njih, rečnik može da skladišti i celobrojni identifikator reči. U tom slučaju svakoj reči pridružena je celobrojna vrednost označena kao rečId. Upotrebom ove vrednosti omogućava se bolja kompresija i brže spajanje segmenata. |
|
|
copyright M2M |