1.信息檢索現狀
1.1現狀
網頁是因特網的最主要的組成部份,也是人們獲取網絡信息的最主要的來源,為了方便人們在大量繁雜的網頁中找尋自己需要的信息,這類檢索工具發展的最快。一般認為,基于網頁的信息檢索工具主要有網頁搜索引擎和網絡分類目錄兩種。網頁搜索引擎是通過“網絡蜘蛛”等網頁自動搜尋軟件搜索到網頁,然后自動給網頁上的某些或全部字符做上索引,形成目標摘要格式文件以及網絡可訪問的數據庫,供人們檢索網絡信息的檢索工具。網絡目錄則是和搜索引擎完全不同,它不會將整個網絡中每個網站的所有頁面都放進去,而是由專業人員謹慎地選擇網站的首頁,將其放入相應的類目中。網絡目錄的信息量要比搜索引擎少得多,再加上不同的網絡目錄分類標準有些混亂,不便人們使用,因此雖然它標引質量比較高,利用它的人還是要比利用搜索引擎的人少的多。
1.2發展趨勢
網絡信息檢索工具的發展主要體現在進一步改進、完善檢索工具和檢索技術,以提高檢索服務質量,改變網絡信息檢索不盡如意的地方。主要體現在以下幾個方面:
1.2.1網絡檢索工具開發提供商之間合作越來越緊密。過去一般網絡檢索工具提供商只依靠自己建立的數據庫來提供檢索服務,檢索范圍有限,而現在某些著名的搜索引擎在購買其他公司的數據庫或者技術內核,有的與其他搜索引擎建立伙伴關系,以便用戶使用。
1.2.2信息檢索工具專業化及服務內容深化。一些檢索工具已經不再盲目追求加大收錄和標引量,而更加注重突出專業特色。
1.2.3網絡信息工具智能化的發展趨勢:
(1)信息檢索工具的智能化首先是網絡蜘蛛的智能化。
(2)其次是檢索軟件的智能化。
2.基于FTP文件的搜索工具
2.1現狀
如前所述,搜索引擎的雛形以及最早的搜索引擎都是基于FTP文件搜索的。最早的FTP搜索引擎是基于文本顯示的Archie。后來由于WEB的出現,FTP搜索引擎發展受到了一定的影響。直到基于WEB的FTP搜索引擎出現,它才越來越多受到人們的歡迎,用戶量也在迅速上升,重要性也日漸顯現出來。FTP搜索引擎的功能是搜集匿名FTP服務器提供的目錄列表并向用戶提供文件信息的查詢服務。目前,國內做的最好的、規模最大的當屬天網FTP文件搜索引擎,現在可以搜索2400萬個文件(數據來源于天網主頁),2002年時的統計日訪問量是40萬次,這在世界FTP搜索引擎界也算是一個佼佼者。
2.2發展趨勢
正如前文所述,FTP文件搜索引擎技術還不是很成熟,但其發展非常迅速,其發展趨勢主要表現在以下幾個方面:
2.2.1檢索功能日益豐富。天網FTP文件搜索引擎現在可以實現以文件大小、文件的上傳日期、以及網段(比如說是華北網、華東網等)等多個條件的高級檢索來限制檢索結果;AlltheWeb增加了檢索方式(規則表達檢索、準確檢索、瀏覽、對大小寫敏感與否等等),限制主機(是edu還是gov或者com等),文件類型以及文件大小、日期等功能。
2.2.2檢索服務的個性化。現在FTP搜索引擎研究者已經開始注意這一方面,天網ftp搜索引擎已經有了很多可以個性化的選項:可以設置用戶不同偏好的排序方式,可以設定國外文件優先還是本國文件優先,對于國外用戶是不是應該國外文件優先,是FTP上文件優先還是WWW上的文件優先,是選擇中文的還是英文的等等。AlltheWeb則是可以完成更豐富的個性化設置,比如說可以選擇一個主機提供一個結果、設置語言、搜索的文件大小設置、是否亮度顯示搜索關鍵詞、設置使用者語言、以及鍵盤快捷鍵等等。
3.基于網絡檢索工具的檢索技術
3.1隨著網上信息資源的膨脹發展,一種搜索引擎,無論它多么完善都不可能滿足一個人所有的檢索需求。如果遇到文獻普查、專題查詢、新聞調查與溯源、軟件及MP3下載地址搜索等情況,人們就更需要使用多種搜索引擎來比較、篩選和相互印證。為解決逐一登陸各搜索引擎,在各搜索引擎中分別多次輸入同一檢索請求(檢索字串)等煩瑣操作,基于網絡檢索工具的檢索工具產生了。目前這列檢索工具只要有兩種:集成搜索引擎和元搜索引擎。所謂集成搜索引擎是在一個檢索界面上鏈接若干種獨立的搜索引擎,檢索時,一次檢索輸入,可以指定搜索引擎也可以要求多個引擎同時檢索,搜索結果由各搜索引擎分別以不同頁面提交的網絡檢索工具,其實是利用網站鏈接技術形成的搜索引擎集合。集成搜索引擎制作與維護技術簡單,可隨時對所鏈接的搜索引擎進行增刪調整和及時更新,尤其大規模專業(如FLASH、MP3等)搜索引擎集成鏈接,深受特定用戶群歡迎。
3.2發展趨勢。這類檢索工具的發展趨勢主要表現在下面幾個方面:
3.2.1檢索結果整理的深化。如Vivisimo、EZ2WWW、MetaCrawler等可以實現搜索結果的自動分類,用戶即可以利用傳統的方式瀏覽結果,也可以利用其同屏的分類結果提示找尋自己需要的內容。EZ2WWW高級搜索功能提供1000多種專項資源檢索,可進行目錄檢索。SurfWax有一個其它元搜索引擎沒有的獨特功能,即點擊每條結果左邊的“網址撳鈕”圖標,可瀏覽該結果包括的任何頁面,并顯示搜索語句在文件中的位置,也可以把搜索結果和文件存儲起來以備后用。天網搜霸已經擁有了獨特的鏈接檢測功能,在幾秒鐘內檢查當前頁面查詢結果是否可以訪問,如果為標注綠色,則鏈接可連通。
3.2.2檢索界面的個性化趨勢。天網搜霸和Google提供了IE瀏覽器的插件,安裝后就會被嵌到IE的工具欄,用戶不用登陸天網的主頁,就可以實現檢索。用戶可以將自己喜歡的搜索引擎設置為主要搜索,也可以添加用戶自己喜歡的搜索引擎。天網搜霸不久前剛剛推出了可以嵌在Windows系統任務欄上的插件,現在用戶連打開IE瀏覽器都不需要了。Mamma可以選擇使用短語檢索功能、設定檢索時間、設定每頁可顯示記錄數,還提供了專門檢索頁面文件標題的特殊檢索服務,以及通過E-mail傳輸檢索結果的特色功能。MetaCrawler可以實現搜索引擎的選擇調用,基于域名、地區或國家的檢索結果過濾,最長檢索時間設置,每頁可顯示的和允許每個搜索引擎返回的檢索結果數量的設定,設定檢索結果排序依據(包括相關度、域名、源搜索引擎)個性化定制保存。
3.2.3智能化。ProFusion可以自動實現符合特殊檢索語法要求的轉換,如在調用Excite、InfoSeek、WebCrawler時將“NEAR”轉換成“AND”,在調用GoTo、Yahoo時將“NOT”刪除等;Mamma也支持常用檢索語法在不同搜索引擎中的轉換;C4可以支持自然語言檢索,雖然它沒有自己的數據庫,卻可以提供網上的檢索結果。