国产精品观看在线亚洲人成网_久久激情国产_久久华人_狠狠干天天操_91一区二区三区久久久久国产乱_1区2区3区国产

首頁 > 文章中心 > 正文

數字圖書館檢索工具管理

前言:本站為你精心整理了數字圖書館檢索工具管理范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

數字圖書館檢索工具管理

摘要:基于數字圖書館建設現狀,提出引進搜索引擎技術,建立數字圖書館檢索工具,探討檢索工具的功能及工作原理。

關鍵詞:數字圖書館/檢索工具/搜索引擎/網絡信息資源

1關于數字圖書館的設想

1.1國內數字圖書館的建設現狀

目前,關于數字圖書館還沒有一個被公認的定義,從現實建設工作來看,其形式也是多種多樣,有時它是一項國家數字資源系統工程(比如中國數字圖書館工程),有時它更像是一個網上書店(如超星數字圖書館、書生之家數字圖書館),而有時它更接近于傳統圖書館的數字化、網絡化(如上海數字圖書館等)。近幾年,我國圖書館的數字化工作和數字圖書館的建設進行得如火如荼,的確取得了很大的成就,極大地豐富了中文網絡信息資源,尤其是學術信息資源,為用戶查詢和利用信息資源提供了方便。

然而,無論是工程浩大的中國數字圖書館[1]、上海數字圖書館[2]、還是清華大學建筑數字圖書館[3]等等,都僅僅忙于將館藏信息資源數字化、網絡化,而忽視了對信息量巨大的網絡信息資源的組織。

我們處在一個信息爆炸的時代,因特網信息資源以幾何級數的速度增長,導致幾個問題的出現:(1)信息過多,用戶難于尋找所需信息。帶著一定需求的用戶在因特網這個信息的海洋中常常迷失方向;(2)信息更新速度快,具較強的實時性,使人工標引難以跟上信息的增長;(3)信息類型多樣,除文本信息,還有圖像、音頻、視頻等信息,給在傳統文獻信息資源組織方面經驗豐富的圖書館編目員提出了新的課題。

很多高校圖書館和公共圖書館意識到網絡信息資源的重要性,在圖書館門戶網站的首頁中設立“網絡導航”或“搜索引擎導航”欄目,提供國內外著名搜索引擎門戶網站(如Yahoo、Excit、Altervista、google、百度、天網等)的鏈接以及學科網絡資源導航,對用戶查詢網絡資源起到了引導作用,而不是利用數字圖書館自身的資源為用戶提供服務全面的服務,可以說這還不是真正的數字圖書館。

1.2我的數字圖書館理念

到底怎樣的數字圖書館才是真正意義上的數字圖書館?從根本上來說,數字圖書館是為了解決網絡環境下數字化信息的組織、查詢與服務問題[4]。筆者認為判斷數字圖書館必須具備這樣三個指標:

第一,數字圖書館具有豐富的數字化資源,包括OPAC書刊目錄庫、全文數據庫、多媒體數據庫、網絡數據庫、網絡信息資源庫等等。

第二,數字圖書館能夠向用戶提供多種類型的信息資源的檢索,如書目信息、書刊全文,各種音頻、視頻信息,還可提供網絡信息資源檢索服務,如因特網上Web、FTP、Gopher、Wais、Usenet等信息資源。

第三,數字圖書館將所有信息資源進行整合,實現跨庫檢索,向用戶提供統一的檢索界面,檢索各種類型的信息。檢索到的相關信息在統一的界面中顯示。

參照以上三個指標,發現目前國內建設數字圖書館已經具備的一定的資源和技術基礎,比如OPAC書刊目錄庫的標準化已經實現,自建和購買的全文數據庫資源在高校圖書館已經十分豐富,以上海數字圖書館為代表的圖書館在多媒體信息資源建庫和檢索方面成就顯著,而且信息資源的整合和跨庫檢索在技術上已經不成問題,目前亟待解決的問題是加強和完善對網絡資源的組織和管理

然而,如果采用圖書館貫用的人工標引的方式,面對浩如煙海的網絡信息資源,別說對所有的網絡信息進行標引,就是能達到0.01%的標引率也幾乎是不可能的。因此,數字圖書館必須采用新的策略和方式對網絡信息資源進行標引,向提供信息檢索服務。

1.3設想的提出

以上提出的問題是:建設真正的數字圖書館必須實現對網絡信息資源的全面搜集、合理組織和有效利用,但傳統的人工標引方法面對浩繁的網絡資源只能“望洋興嘆”,如何解決此矛盾?以筆者之見,在建設數字圖書館的過程中應引進搜索引擎技術,對網絡信息資源采用自動標引和人工標引相結合的方式。

1.3.1搜索引擎原理

搜索引擎是因特網上最重要的應用之一,它能夠在浩如煙海的因特網信息中找到用戶所需的信息,因此深得廣大用戶的喜愛。搜索引擎的工作原理是:利用Robot、Spider、WebCrawler等搜索軟件,即能夠從因特網上自動收集網頁的數據收集系統,將收集所得的網頁內容交給索引和檢索系統,索引和檢索系統通過掃描每一個網頁中的每一個詞,建立以詞為單位的倒排文檔,再根據關鍵詞在每一個網頁中出現的頻率對包含這些關鍵詞的網頁進行排序,最后輸出排序結果。頁面生成系統再將結果高效地組裝成因特網頁面。我們就可以通過瀏覽器看到檢索結果了[5]。

在國內,人們習慣于把一些能夠提供搜索的門戶網站稱作搜索引擎(比如Yahoo),實際上這是一種誤解。從原理上來說,真正意義上的搜索引擎是基于因特網的搜索引擎,這種搜索引擎收集因特網上幾千萬到幾億個網頁,并且每個網頁上的每個詞都被搜索引擎所收錄,是基于整個因特網的全文檢索,其返回的結果可以具體到一個個相關的網頁,所以我們稱之為網頁搜索引擎,或全文搜索引擎。

利用搜索引擎自動搜集、標引網絡信息,這種方式省時、省力,投入小,形成的數據庫覆蓋面廣,可提供關鍵詞、主題詞或自然語言等多種檢索途徑;但由于未經過人工干預,信息加工的質量往往不高,從而使得檢索的查準率較低,檢索效果不佳。

1.3.2值得借鑒的作法——雅虎的信息組織方式

雅虎的分類目錄體系是采用人工標引的方式對網絡信息進行組織的成功典范。人們常常把雅虎的目錄服務認為是搜索引擎,其實目錄服務和搜索引擎是兩個完全不同的概念。目錄服務是由編輯人員將各種網站按主要內容進行分類,組織成一層一層的分類目錄。當我們要查找某類網站時,就按照其屬性進入相關類目,一層一層地查找。這類目錄服務同時也提供一定的搜索功能,但它的搜索范圍僅局限在這個人工編制的目錄系統內,當用戶提交搜索請求后,這個搜索引擎就會在該目錄系統中尋找相關網站,然后作為搜索結果提交給用戶,象這種目錄服務附帶的、基于該目錄系統的搜索引擎,我們一般稱之為目錄搜索引擎,由于其最后返回的結果是一個個相關網站的地址,我們也稱之為網站搜索引擎。雅虎分類目錄能夠克服由機器自動標引帶來的諸多問題,因此一時成為其他商業門戶網站學習的典范。

但是,雅虎如果僅僅依靠人工標引的分類目錄提供搜索服務,也存在許多無法克服的弊端。比如人工編制主題索引效率低,因而造成建立的數據庫規模較小,有些類目下的文件數量有限,有價值的新站點,新內容反應不及時等。因此,雅虎與專門做搜索引擎的公司進行合作。

雖雅虎公司以“搜索引擎”聞名全球,實際上它只做網站目錄,它只有搜索自己網站目錄的目錄搜索引擎。而雅虎網站上基于整個因特網的全文搜索引擎是由其他專做搜索引擎的公司提供的,以前是Inktomi,現在是Google。其實大多數商業門戶網站的搜索引擎都是引進的,如美國在線、微軟的MSN都采用“Inktomi”公司的搜索引擎技術和服務;國內的中國人、硅谷動力、廣州視窗均采用百度的搜索引擎服務;第一華人中文網站新浪在去年11月23日宣布采用百度提供的中文網頁搜索服務,推出新的綜合搜索引擎系統,在與百度結束合約后,今年8月7日它又宣布與搜索新軍慧聰合作,采用該公司的網神搜索引擎服務。

相比較而言,雅虎將自身的目錄服務和Google搜索引擎結合得相當完美。從顯示格式來看[6],雅虎將檢索結果分為“相關分類”、“相關網站”、“相關網頁”、“相關新聞”四項,其中“相關分類”、“相關網站”的內容來自雅虎自己的分類目錄,

“相關新聞”的內容來自雅虎資料庫,而“相關網頁”的內容則是Google的搜索結果。在用戶輸入檢索詞,點擊搜索后,雅虎的搜索工具實際上進行的是跨庫檢索,同時通過接口技術要求Google搜索引擎進行搜索,然后雅虎將所有的檢索結果以統一的界面顯示,看起來就象是從一個數據庫中得到的結果。其響應性能很好,在不到一秒鐘的時間里就能提交結果。

雅虎引進Google搜索引擎,是采用手工方式與機器輔助相互配合對網絡信息進行組織,提供統一的檢索界面和顯示格式。它具有人工標引和自動標引兩方面的優點,值得我們在建設數字圖書館中學習、借鑒。

1.3.3數字圖書館采用搜索引擎技術的設想

圖書館的編目人員在長期的工作實踐中積累了豐富的對信息資源進行分類的理論和經驗,在網絡信息資源逐步發展成為一個巨大的、不斷迅速增長的資源庫以前,圖書館工作人員對傳統文獻信息資源的組織是相當成功的。然而,一旦面對網絡信息資源,這種人工標引方式就顯得力不從心了。以CALIS網絡重點學科導航庫[7]為例,它是“211工程”立項高校圖書館共建項目。其目的是建立在INTERNET網上的導航庫,收集整理有關重點學科的網絡資源,為這些已立項高校重點學科服務,讓在重點學科領域的師生,以較快的速度了解本領域科技前沿研究動向和國際發展趨勢。重點學科導航庫的建設工作進行了近2年,共有48個圖書館參加該項目共建,各圖書館都投入了大量的人力來完成該校重點學科導航庫的建設。目前已完成213個重點學科導航庫建設,共收錄了6萬多個較重要的學術網站。導航庫網址的搜集和摘要都是由人工完成,耗費了大量的人力、物力,而導航庫的資源只是整個網絡資源庫中微不足道的一小部分。所以,在數字圖書館資源建設中引進搜索引擎技術,可以節省人力、物力、財力,保證資源的完整性、全面性。

2數字圖書館檢索工具

2.1定義

僅僅是引進的搜索引擎,還不能作為數字圖書館的檢索工具,所謂數字圖書館檢索工具,是基于因特網信息資源和數字圖書館的信息資源庫,利用統一的檢索平臺和用戶界面,提供各種類型信息資源的檢索服務的系統。

數字圖書館檢索工具與搜索引擎的區別在于:搜索引擎只能提供因特網資源的檢索,而數字圖書館除此之外,同時兼顧對數字圖書館各個資源庫的檢索。

2.2功能

數字圖書館檢索工具能夠配合人工標引方式,對網絡信息資源進行標引和組織,面向用戶提供網絡信息資源和數字圖書館信息資源庫的檢索服務。

2.2.1網絡信息搜集功能

面對整個英特網信息資源,數字圖書館檢索工具利用搜索軟件自動搜集網絡信息,結合人工方式進行標引,按照人工編制的分類目錄將被標引的網絡信息收入網絡信息資源庫。

2.2.2檢索功能

(1)跨庫檢索功能

數字圖書館檢索工具提供跨庫檢索功能,用戶在使用過程中可以選定多個資源庫進行檢索,在重新選擇數據庫時,還可以保存以前的檢索式用于新的資源庫的檢索中。

(2)支持全文檢索

數字圖書館檢索工具的對網絡信息資源進行搜集時,每遇到一個網站時,會將該網站上所有的網頁全部獲取下來,將其內容標引后收入到網絡信息資源標引庫中,只要用戶輸入查詢的關鍵字在用戶選定的網絡信息資源標引庫或者其它數據庫中出現,含有這個關鍵字的記錄就會作為匹配結果返回給用戶。

(3)提供多途徑檢索

支持自然語言、關鍵詞、主題詞三種檢索語言,當用戶輸入一個短語時,系統根據禁用此詞表過濾掉禁用詞,將有檢索意義的詞保留下來重新構筑檢索式。

提供高級檢索界面,支持布爾邏輯運算,支持特征字段檢索(如題名、作者、摘要、來源、年代等等),支持權重檢索和相鄰檢索。

(4)支持目錄式分類結構

分類目錄具有類聚功能,尤其對于非專業用戶能起引導作用。數字圖書館的分類目錄與以yahoo等商業門戶網站的區別在于,它需要涵蓋的范圍更廣,除了網絡資源,還有數字圖書館收藏的數字化資源。

(5)支持多媒體信息檢索

在能夠提供檢索的資源類型上,不僅能夠提供文本信息資源檢索服務,對于圖像、聲頻、視頻等多媒體信息也能提供檢索服務。

2.2.3結果顯示功能

(1)支持檢索結果排序

在檢索結果排序方面,不僅能按時間排序,而且用戶可以選擇相關性排序。所謂相關性排序,是指進行自然語言檢索時,其檢索結果集由包含提問式中任意詞的記錄組成,以包含提問式中檢索詞的多少作為相關性指標對檢索結果進行排序,提問式中的詞在文章中出現的越多表明它與檢索要求越接近,在顯示時就排在最前面。

(2)提供統一的顯示格式

檢索結果的著錄格式清晰明了,系統使用統一界面,對檢索結果采用按類別、分層次顯示方式。系統雖然對用戶選定的數據庫采用跨庫檢索方式,但是在結果顯示時候還是分數據庫類型一一列出匹配記錄的提錄或摘要信息,用戶在瀏覽題錄后,在進一步選擇是否需要全文。

(3)提供超文本鏈接

在顯示結果中,對摘要或全文中出現的某一些主題詞提供鏈接點,比如人名“楊振寧”、機構名“CNNIC中國互聯網信息中心”、專業術語“后控詞表”等等。

2.3工作原理

2.3.1信息搜集

利用自動搜索機(如Robot),自動收集網頁上的元數據。首先,輸入起始網址,一般是一個網站的主頁,搜索從這個網址開始。另外,需要同時輸入一定的限制條件來限制搜索范圍,因為整個網絡有成千上萬個網址,如果不加任何約束,搜索幾乎是沒有盡頭的,并會耗盡機器的資源。所以,要通過IP過濾、限定從起始網址出發向下搜索的層次等方法來加以限制,如只在圖書館的內部網、某一專業網站上等進行搜索。工作時,先從起始網址讀入此網頁的HTML源文件,并在其頭部搜索(meta)標簽內的元數據,如果發現有符合都柏林核心集的定義和格式,則再檢查此網頁的元數據是否已在前次搜索中存入數據庫,如是,則用新的元數據覆蓋現在的元數據,否則在數據庫中加入新的網址和元數據。接著,找出該網頁上所有的鏈接地址,將它們按順序存入一個先進先出地址隊列的末尾,下一個循環開始后,從地址頭取出一個網址,如它符合限制條件,且和已搜索過的網址不重復,則再次開始搜索此網頁的元數據和鏈接地址,否則,跳過此網址,從地址隊列中取出下一個網址。整個過程周而復始,直到地址隊列中所有的網址都被搜索一遍。

網址的收集和處理由機器自動完成,但必須由人工最后審定。為此必須有一個明確的選擇標準和策略,任何可以訪問的可靠的數據源都在選擇范圍之內。更新及時,發現題目或標題有所改動,就應該進行更新。同時,對其它有關信息資源(如網絡數據庫、書刊目錄信息等)進行收集,最終建立一個以學術信息為主的檢索工具,這也是數字圖書館區別與商業門戶網站的地方。

2.3.2索引和檢索

因特網的所有網頁都在被索引范圍之內。應用搜索引擎技術分析網頁中所有句子以確定關鍵詞,這些關鍵詞將與某一詞表相兼容,并形成一個后控詞表。摘要將由關鍵詞所涉及的網頁內容組成。同時,索引人員將對記錄進行審查,以確定其是否符合選擇標準,所有關鍵詞和所做摘要是否恰當,后控詞表是否得到正確應用。然后這條記錄才被增加到網絡信息資源庫中去。在檢索過程中,檢索工具對符合檢索策略的命中記錄做出標記,顯示檢索結果。

本文基于網絡搜索引擎技術,提出建立數字圖書館檢索工具的設想。檢索工具的實現除了需要技術支持外,還需要信息量豐富的資源庫和合理的圖書館的結構模型作為支撐。開發數字圖書館的結構模型時,必須堅持該結構具有良好的

兼容性、。公共性、靈活性和可擴展性,能夠方便地將各供應商開發的應用程序(如搜索引擎技術)集成進來。數字圖書館結構模型在堅持上述原則的同時,主要目標是為網絡環境下信息資源的發現、描述、組織、查詢、檢索和為以網絡為依托的知識、信息交流,提供一個支撐結構和環境,這首先需要解決異構系統間的互操作、各種轉換和翻譯(不同規范的元數據、查詢請求之間)等技術問題。對于這方面的研究還有待進一步深入。

【參考文獻】

4韓慧琴,劉柏嵩.數字圖書館中的知識發現.情報學報,2001(3)

5中文搜索引擎核心技術之爭.黃海.圖書館雜志,2001(3)

8網絡檢索工具的比較研究.段其憲,時永梅.情報科學,2001(6)

9搜索引擎的功能概述與研究熱點.徐亞先.情報科學,2001(3)

主站蜘蛛池模板: 91色在线视频 | 国产欧美一区二区视频 | av大片在线| a√天堂中文字幕 | 亚州av在线 | 亚洲动漫精品 | 成人一区二区三区四区 | 亚洲性视频| 青青草免费在线视频播放 | 国产精品电影网 | 日日日操 | 欧美爱爱网 | 美女视频黄网站 | 爱爱视频在线观看 | 免费毛片网| 欧美插插视频 | 国产日韩欧美不卡 | 国产日韩欧美在线 | 欧洲黄色网 | 一本色道久久88综合亚洲精品ⅰ | 一区二区电影网 | 国产三级一区 | 亚洲日本一区二区 | 国产精品视频专区 | 一区二区三区中文字幕 | 毛片免费播放 | 这里只有久久精品视频 | 日日夜夜天天 | 亚洲欧美一区二区三区国产精品 | 97中文字幕第十五页 | 精品欧美一区二区三区精品久久 | 日本福利网站 | 自拍 亚洲 | 国产一区中文字幕 | 日韩久| 国产激情在线视频 | 五月天av在线 | 日韩福利 | 国产精品不卡在线 | 国产欧美精品一区二区色综合 | 黄色在线|