什么是全文搜索全文搜索的方法
什么是全文搜索全文搜索的方法
全文檢索是指計算機索引程序通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,以下是由學習啦小編整理關(guān)于什么是全文搜索的內(nèi)容,希望大家喜歡!
全文搜索的方法
主要分為按字檢索和按詞檢索兩種。按字檢索是指對于文章中的每一個字都建立索引,檢索時將詞分解為字的組合。對于各種不同的語言而言,字有不同的含義,比如英文中字與詞實際上是合一的,而中文中字與詞有很大分別。按詞檢索指對文章中的詞,即語義單位建立索引,檢索時按詞檢索,并且可以處理同義項等。英文等西方文字由于按照空白切分詞,因此實現(xiàn)上與按字處理類似,添加同義處理也很容易。中文等東方文字則需要切分字詞,以達到按詞索引的目的,關(guān)于這方面的問題,是當前全文檢索技術(shù)尤其是中文全文檢索技術(shù)中的難點。
全文搜索的系統(tǒng)
全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務的軟件系統(tǒng)。一般來說,全文檢索需要具備建立索引和提供查詢的基本功能,此外現(xiàn)代的全文檢索系統(tǒng)還需要具有方便的用戶接口、面向WWW的開發(fā)接口、二次應用開發(fā)接口等等。功能上,全文檢索系統(tǒng)核心具有建立索引、處理查詢返回結(jié)果集、增加索引、優(yōu)化索引結(jié)構(gòu)等等功能,外圍則由各種不同應用具有的功能組成。結(jié)構(gòu)上,全文檢索系統(tǒng)核心具有索引引擎、查詢引擎、文本分析引擎、對外接口等等,加上各種外圍應用系統(tǒng)等等共同構(gòu)成了全文檢索系統(tǒng)。
全文搜索系統(tǒng)的功能特點
強大的信息采集能力
全文檢索系統(tǒng)是以先進的搜索技術(shù)為核心,并針對專業(yè)用戶所要求的搜索深度深、采集精度高和抓取速度快等進行了專門的優(yōu)化,采用了分布式多線程并發(fā)指令執(zhí)行體系結(jié)構(gòu),95%信息分鐘級到達本地。能夠采集多種動態(tài)和靜態(tài)網(wǎng)頁類型、多種文檔、數(shù)據(jù)庫類型,同時網(wǎng)頁實時增量采集技術(shù)實現(xiàn)分秒監(jiān)測網(wǎng)站信息變化動態(tài),使網(wǎng)站隨時獲取最新的信息資源。
分秒級的實時檢索
全文檢索系統(tǒng)采用獨有的增量實時索引技術(shù)保證信息即時采集即時檢索,使用戶隨時檢索到行業(yè)/地區(qū)最新的信息。
快速的檢索響應
全文檢索系統(tǒng)可實現(xiàn)亞秒級的檢索速度以及每秒上百次的并發(fā)檢索支持,保證全面快速的響應用戶檢索需求。
全面的檢索功能
全文檢索系統(tǒng)可實現(xiàn)全文檢索,完全支持布爾邏輯檢索、支持n階漸進檢索、支持同義詞檢索、支持自定義用戶詞典,模糊檢索,相關(guān)檢索等,并可以由系統(tǒng)管理員人工過濾不當網(wǎng)頁,為用戶提供最為適當?shù)臋z索結(jié)果。
精確的檢索結(jié)果
全文檢索系統(tǒng)采用智能中文切詞技術(shù),避免中文檢索的歧義與多義現(xiàn)象,同時采用相關(guān)性算法對網(wǎng)頁進行排序,保證檢索相關(guān)性最高的頁面放在最前面。
豐富的檢索結(jié)果展示
全文檢索系統(tǒng)為用戶提供豐富的檢索結(jié)果展示,能夠根據(jù)每個網(wǎng)站的不同風格和要求定制結(jié)果顯示模版。檢索結(jié)果包括智能動態(tài)摘要、獨有的網(wǎng)頁快照,以及多種檢索結(jié)果排序方式等等。能夠極大的方便用戶對檢索結(jié)果的瀏覽查看,提高用戶對檢索效果的滿意度。
基于Web的系統(tǒng)管理平臺
全文檢索系統(tǒng)采用標準的B/S架構(gòu),系統(tǒng)管理員可以隨時隨地通過瀏覽器登陸Web管理界面對整個系統(tǒng)的各項功能進行管理和系統(tǒng)維護,操作簡單易用,無需專業(yè)培訓即可迅速上手。
看過“全文搜索的方法”的人還看了: