前言:本站為你精心整理了跨庫檢索系統范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
摘要:選取國內外5個典型的跨庫檢索系統,比較分析各自的檢索策略和功能特點,提出完善跨庫檢索系統功能的幾點建議。
關鍵字:檢索策略,數據庫,跨庫檢索系統
近幾年,國內的科技信息機構通過引進和自建數據庫,使電子資源的數量具有相當規模,并在文獻服務中成為主要的表現形式。在繼續加強電子資源建設的同時,科技信息機構開始更加關注電子資源的管理工作,整合已有的資源,將不同類型、不同結構、不同環境、不同用法的各種異構數據庫納入統一的檢索平臺,使用戶更方便、更高效地獲取信息。
跨庫檢索又稱為“整合檢索”、“跨平臺檢索”、“統一檢索”、“聯邦檢索”和“平行檢索”等[1-2],它是指用戶通過統一的檢索界面,可以一次并發地對多個網絡數據庫(全文、文摘、OPAC)同時進行檢索,并將各個網絡數據庫的檢索結果去重、排序后歸并,一次提交用戶,是在實體資源分散的情況下實現“虛擬的資源整合”[3]。理想中跨庫檢索系統應該為用戶提供一個簡單、快速、全面的導航及檢索系統,同時滿足不同層次用戶的需求。本文旨在分析介紹國內外幾個在這一領域內居于領先地位的數據庫檢索系統,希望能夠為國內同行提供一些參考和借鑒。
1國外跨庫檢索系統項目及其特點
盡管國外有一些軟件生產廠商開發了商業化的跨庫檢索系統,例如,WebFeat公司的WebFeat,Fretwell2Downing公司的Zportal,ExLibris公司的MetaLib,Copernic公司的Aggregator以及Endeavor公司的ENCompass等。但是,很多數字圖書館項目都采用了自行開發的方式,根據本項目的具體需求來設計能滿足用戶需求的系統,屬于“原創性”的成果,因而更能夠反映跨庫檢索的最新動向和趨勢。本文的內容以這些“原創性”的項目和系統為主。
1.1FlashPoint
美國新墨西哥州洛斯阿拉莫斯國家實驗室研究圖書館(LosAlamosNationalLaboratoryResearchLibrary,LANLRL)從1998年起開始研究跨庫檢索問題,提出了“需要研發一種能供檢索本館可用的書目和全文數據庫使用的單一接口”,并將其命名為FlashPoint.
FlashPoint的主要特點是:①提供主題檢索途徑(SubjectApproach),允許用戶在檢索之前指定要檢索的領域(學科領域,而非某些特定的數據源),系統會據此自動地選擇相關的數據庫進行檢索,以提高檢索速度。②LANL過濾(LANLFilter)功能,利用這項功能,用戶通過點擊“LANL過濾”按鈕,就可以檢索出指定主題范圍內LANL發表或與LANL有關的文獻。③提供“檢索進程”界面。用戶提交了檢索需求之后,系統向用戶提供“檢索進程”界面,以表示檢索的進展情況,該界面大約每隔10秒鐘更新一次,直至結果界面出現。
1.2SearchLight
SearchLight是CaliforniaDigitalLibrary(CDL)的項目成果之一。CDL是美國加利福尼亞大學的數字圖書館項目,于1997年啟動,1999年1月正式提供服務。CDL于2000年7月公布了其跨庫檢索系統SearchLight。雖然CDL聲稱SearchLight還只是一個試驗性系統,但它已能夠支持Z39150和Web搜索,可以跨庫檢索55個數據源,包括商業數據庫、OPAC以及CDL自建的數據庫(雜志索引、全文庫以及Web目錄)。
與其他系統相比,SearchLight具有以下主要特點:
1)沒有統一排序和統一呈現結果的功能。系統在圖書(Books)、雜志索引(JournalIndexes)、電子雜志(ElectronicJournals)、全文資源(Full-TextResources)、參考資源(ReferenceSources)和Web目錄(WebDirectories)6個范疇下按字順顯示結果。用戶查看詳細內容時,點擊相應的條目進入具體的信息源,必要時,還可能需要在該數據源中重新執行一次檢索式。
2)資源選擇界面不是將所有跨庫檢索的數據源羅列出來由用戶選擇,而是提供一個二級分類體系,將數據源根據其內容分入相應的類目下(多重分類,一個數據源可根據其信息資源收錄情況分入多個類),用戶檢索時不必關心要檢索哪一個具體的數據源,只要選中相應類目前的檢查框(Ckeckbox)并輸入關鍵詞即可檢索到相應的結果。這種組織方式的優點是符合用戶的檢索習慣。
1.3NLMGateway
NLMGateway是美國國立醫學圖書館(NLM)下屬的李斯特•希爾國立生物醫學交流中心(ListerHillNationalCenterforBiomedicalCommunications,LHNCBC)研發的跨庫檢索系統[3],是一個“從單一的界面在美國國家醫學圖書館(NLM)的多個檢索系統或數據庫中進行搜索,以提供對多種NLM信息資源的‘一站式檢索’(One-stopSearching)”的跨庫檢索系統。
NLMGateway在功能上有很多值得借鑒的地方。
1)NLMGateway將所有數據源分成期刊引文(JournalCitations)、書刊和視聽資料的書目(Books/Serials/AvsCatalog)、用戶健康信息(ConsumerHealth)、會議文摘(MeetingAbstracts)及其他(OtherCollection)5大類,而不是羅列數據源。用戶可通過下拉列表框選擇相應類目檢索。檢索結果也是按以上5類來加以顯示,先顯示出檢索結果概要(每一類命中多少文獻),用戶點擊相應的類來瀏覽該類下的結果。
2)詞匯規范功能。用戶可查閱檢索詞在醫學標題表(MeSH)和統一醫學語言系統(UMLS)中的定義、相關詞及詞間關系,以幫助用戶選擇更準確的檢索詞,提高檢準率。另外,在用關鍵詞檢索時,系統會自動查閱MeSH和UMLS,對語詞進行規范,例如用戶用aids檢索,系統還會自動檢出包括acquiredimmunodeficiencysyndrome和HIV的文獻。
3)檢索式顯示功能??鐜鞕z索系統的一個重要功能是將用戶輸入的檢索式翻譯成不同數據源能理解的格式。由于不同數據源有不同的檢索式構造規則,故同一檢索式對不同的數據源來說有不同的翻譯結果。NLMGateway可以按數據源顯示翻譯后的檢索式,這對于用戶以后專門使用某一數據源是很有幫助的。這一功能也是NLMGateway所獨有的。
2國內跨庫檢索系統項目及其特點
2.1清華同方異構數據庫統一檢索平臺USP
清華同方在數字圖書館管理系統(TPI)中提供了異構數據庫統一檢索平USP(UnionSearchPlatform)。USP是一個智能化的網絡數據庫檢索平臺,它通過一個統一用戶界面幫助用戶在多個網絡數據庫搜索平臺中實現信息檢索操作,是對分布于網絡中的多種檢索工具的智能化整合。
USP系統由以下三個模塊組成:a.用戶注冊及引擎配置模塊。負責實現用戶個性化的檢索設置要求,包括調用哪些搜索引擎、各個搜索引擎用戶名稱和用戶密碼的設置、檢索結果顯示風格等。b.統一檢索模塊。負責將用戶的檢索請求解釋成滿足不同搜索引擎本地化要求的格式,在不同搜索引擎中進行檢索。c.檢索結果顯示模塊。負責所有源搜索引擎檢索結果的去重、合并、輸出處理等工作。USP的工作原理:USP采用的是雙層B/S結構體系,用戶向USP發出檢索請求,USP根據配置信息,把檢索請求轉換成對應于不同搜索引擎的實際檢索請求,并向多個搜索引擎發出實際檢索請求,搜索引擎執行檢索請求后將檢索結果傳送回USP,USP把檢索結果進行智能化整合,最后把檢索結果傳送給用戶。
2.2國家科學數字圖書館(CSDL)跨庫集成檢索系統
CrossSearch跨庫集成檢索系統是國家科學數字圖書館(CSDL-ChinaNationalScienceDigitalLibrary)的子項目之一,該系統可以在實體資源分散的情況下實現“虛擬的資源整合”,從統一的檢索入口檢索多種異構資源,統一呈現結果,從而方便用戶使用,節約用戶檢索時間,因而被許多數字圖書館專家認為是實現資源和服務整合的利器。
CrossSearch系統特點。a.檢索結果的統一呈現。檢索結果顯示頁面根據檢索頁面中用戶選擇的各種參數,包括排序標準、去重標準及每頁顯示的記錄數進行顯示。頁面上提供了排序、去重、顯示級別、每頁顯示的記錄數及分頁功能,用戶可以根據自己的需要進行多種方式的顯示,并提供二次檢索功能。b.個性化的資源定制。跨庫集成檢索系統面向注冊用戶和非注冊用戶提供不同層次的服務功能。注冊用戶可以建立自己的主題,選擇所需要的數據庫資源添加到“我的數據庫資源”列表。當用戶執行檢索時,可以從“我的數據庫”中選擇,從而避免每次檢索時重復選擇數據源;系統不對非注冊用戶提供資源定制、全文字段檢索、查看全文等功能,非注冊用戶進入系統后,只能直接從“選擇列表中資源”中選擇數據源進行檢索。
但是,CrossSearch系統無高級檢索功能,且目前仍無法實現網絡免費資源,如Google等的檢索,且檢索等待時間較長。
總結
通過以上國內外五個主要跨庫檢索系統的分析,從中可以看到:①跨庫檢索系統一般都支持通過HTTP協議檢索數據源和獲取檢索結果,這一點與一般的元搜索機制大體相似,但跨庫檢索更注意檢索協議,如Z39150、OAI等協議的應用;②隨著集成數據庫數量的增加,資源的分類和查詢數據源的選擇也成為了一個問題,以上的幾個跨庫檢索系統,在正式的檢索開始之前,會根據用戶輸入的檢索詞,推薦相關的數據源,這種推薦減少了查詢的范圍,能夠提高檢索效率;③在跨庫檢索系統中,由于集成了眾多數據源,因此對于用戶的檢索詞進行前期規范是一種提高檢索效率的很好辦法,NLMGateway提供了通過詞表進行檢索詞規范的功能;④檢索僅僅是信息服務的起點,跨庫檢索需要提供開放鏈接功能,將資源和服務實現鏈接,如鏈接到電子期刊等。
我們還發現,各跨庫檢索系統基本功能相似,各有特色,同時也有許多不足。其中值得注意和思考的問題主要有以下幾點:
a.跨庫檢索正是應用戶的需求而產生的,故它的設計更應該突出“以用戶為中心”的理念,設計的過程應該在不斷的改進,在迭代中使系統的功能得到完善。
b.大多數據庫有其特定的使用范圍和使用權限,限制了資源的利用效率。
總之,雖然跨庫檢索僅僅是最近幾年出現的一種新的服務方式,但無論是在功能上,還是在技術上都有長足的發展,值得我們認真研究。
參考文獻
[1]SADEHT.Thechallengeofmetaseaarching[J].NewLibraryWorld,2004,105(1198/1199):104-112.
[2]TALLENTED.MetasearchinginBostoncollegelibraries-acasestudyofuserreactions[J].NewLibraryWorld,2004,105(1196/1197):69-75.
[3]陳冰云.標準化跨庫檢索的設想[J].科技情報開發與經濟,2005,15(6):231-232.