㈠ 急急急~網路信息檢索方法與應用 論文
我給你找了一篇,摘要如下:
隨著Internet在全世界范圍內迅猛發展,網上龐大的數字化信息和人們獲取信息之間的矛盾日益突出。因此,對網路信息的檢索技術及其發展趨勢進行探討和研究,是一個既迫切而又實用的課題。本文通過對網路信息檢索的基本原理、網路信息檢索的技術及工具、網路信息檢索的現狀等方面進行分析研究,並對網路信息檢索的發展趨勢進行了預測,旨在尋找提高網路信息檢索的手段和方法的有效途徑,並最終提高網路信息的檢索效果,使得網路信息資源得到充分有效地利用。
全文主要包括六個部分,
第一部分為網路信息檢索述評,主要是闡述了網路信息檢索所涉及到的有關概念,如信息檢索技術、網路信息檢索的特點及網路信息檢索效果評價。
第二部分重點討論了網路信息檢索的基本技術。如信息推拉技術、數據挖掘技術、信息過濾技術、自然語言處理技術等等,旨在弄清網路信息檢索的技術支撐,為預測網路信息檢索的發展趨勢作下鋪墊。
第三部分對網路信息檢索的重要工具——搜索引擎進行了闡述,主要從其檢索機制入手,分析了不同種類的搜索引擎的檢索特點及功能。其獨到之處在於對搜索引擎的基本功能進行了比較全面的概括,並對目前流行的搜索引擎進行科學的分類...
第四部分分析討論了檢索技術的另一分支—基於內容的檢索技術
第五部分則分析了網路信息搜索工具的局限,主要從文本信息檢索和多媒體信息檢索兩方面進行闡述。
好不容易給轉成 .txt文本,貼在下面:
1.1網路信息資源
網路信息資源是指「通過國際Intemet可以利用的各種信息資源」的總稱。
隨著Intemet的迅速發展,網上信息資源也以指數形式增加,網路信息資源作
為一種新型的信息資源,發揮著越來越重要的作用,其內容幾乎無所不包,涉
及政治、經濟、文化、科學、娛樂等各個方面;其媒體形式多種多樣,包括文
本、圖形、圖像、聲音、視頻等;其范圍覆蓋社會科學、自然科學、人文科學
和工程技術等各個領域。
1.2信息檢索技術
信息檢索技術是現代信息社會中非常關鍵的技術之一。信息檢索是指將信
息按一定的方式組織和存儲起來,並根據信息用戶的信息需求查找所需信息的
過程和技術,所以信息檢索的全稱又叫「信息存儲與檢索」。狹義的信息檢索
僅指從信息集合中找出所需信息的過程,也就是利用信息系統檢索工具查找所
需信息的過程。人們獲取信息源的方式主要有:①遵循傳統的檢索方法在浩如
煙海的圖書館資料中,通過人工查找索引找到對應的文獻索引號再獲取文獻原
文;②聯機信息檢索。這其中也存在一個發展過程,由檢索結果來看,從提供
目錄、文摘等相關的二次信息檢索到可以直接獲得電子版的全文;由檢索方法
來看,從對特定關鍵詞或者如作者、機構等輔助信息作為檢索入口的常規檢索
到以原始文獻中任意詞檢索的全文檢索等等。其中,全文檢索由於其包含信息
的原始性、信息檢索的徹底性、所用檢索語言的自然性等特點在近年來發展比
較迅速,成為深受人們關注的一種非常有效的信息檢索技術,它是從大容量文
檔庫中精確定位所需信息的最有效手段l3]。
.3.2web信息檢索
其檢索方式有:瀏覽器方式和搜索引擎方式。
(l)瀏覽器方式(Br,singsystelns)。只要能夠進入hitemct就能夠通過瀏
覽器,利用HTTP協議提供的WV乃萬服務,瀏覽認觸b頁面和通過W匕b頁面提
供的檢索方式訪問資料庫。
(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息檢
索服務的W七b站點,它是以一定的技術和策略在intemet中搜集和發現網路信
息,並對網路信息進行理解、提取和處理,建立資料庫,同時以認倪b形式提
供一個檢索界面,供用戶輸入檢索關鍵詞、片語或短語等檢索項,代替用戶在
資料庫中查找出與提問相匹配的記錄,同時返回結果且按相關度排序輸出,從
而起到快速查找信息的目的。搜索引擎所處理的信息資源主要包括萬維網服務
器上的信息,另外還包括電子郵件和新聞組信息。搜索引擎服務的宗旨是為滿
足用戶的信息需要,所以它是面向用戶的,採用的方式是互動式的。
網路信息檢索工具採用主動提交或自動搜索兩種方法搜索數據。
1.4網路信息檢索效果評價
目前,得到普遍認同的檢索效果的評價標准主要有以下幾個:查全率、查
准率、收錄范圍、輸出格式,其中以查全率和查准率最為重要。
現代信息科學技術的發展,為人們提供了多種多樣的信息獲取和傳送方法
及技術,從「信源」與「用戶」的關系來看,可分為兩種模式:「信息推送」
模式(InformationPush),由「信源」主動將信息推送給「用戶」,如電台廣播;
「信息拉取」模式(InformationPull),由「用戶」主動從「信源」中拉取信息,
如查詢資料庫。
2.2.1信息推送技術
「推」模式網路信息服務,是基於網路環境下的一種新的服務形式,即信
息服務者在網上利用「Push」技術為特定用戶開展信息服務的方式。Push技術
之所以成為Intemet上一項新興的技術,是因為藉助該技術使網路信息服務具
有主動性,不僅可以直接把用戶感興趣的信息推送給用戶,而且可有效地利用
網路資源,提高網路吞吐率;再者,Push技術還允許用戶與提供信息的伺服器
之間透明地進行通信,極大地方便了用戶。
所謂Push技術,又稱「推送」技術、Web廣播(Webeasting)技術,實質
上是一種軟體,這種軟體可以根據用戶定義的准則,自動搜集用戶最可能發生
興趣的信息,然後在適當的時候,將其傳遞至用戶指定的「地點」。因而從技
術上看,「推」模式網路信息服務就是具有一定智能性的、可以自動提供信息
服務的一組計算機軟體,該軟體不僅能夠了解、發現用戶的興趣(可能關心的
某些主題的信息),還能夠主動從網上搜尋信息,並經過篩選、分類、排序,
然後按照每個用戶的特定要求,主動推送給用戶141。
(l)信息推送方式。信息推送方式分兩類,即網播方式和智能方式。
網播方式有:頻道式推送。頻道式網播技術是目前普遍採用的一種模式,
它將某些頁面定義為瀏覽器中的頻道,用戶可像選擇電視頻道那樣接受有興趣
的網播信息;郵件式推送,用電子郵件方式主動將所推送信息發布給各用戶,
如國際會議的通知、產品的廣告等:網頁式推送。在一個特定網頁內將所推送
信息發布給各用戶,如某企業、某組織、某個人的網頁;專用式推送。採用專
門的信息發送和接收軟體,信源將信息推送給專門用戶,如機密的點對點通信。
智能推送方式有:操作式推送(客戶推送式),由客戶數據操作啟動信息
推送。當某客戶對數據進行操作時,把修改後的新數據存入資料庫後,即啟動
信息推送過程,將新數據推送給其他客戶;觸發式推送(伺服器推送式),由
ll碩士學位論文
MASTER,5THESIS⑧
資料庫中的觸發器啟動信息推送過程,將新數據推送給其他客戶,當數據發生
變化,如出現增加(Insert)、刪除(Delete)、修改(update)操作時,觸發器
啟動信息推送過程。
(2)信息推送的特徵。信息推送的特徵有:主動性、針對性、智能性、高效
性·靈活性和綜合性I5]。
主動性。Push技術的核心就是服務方不需要客戶方的及時請求而主動地將
數據傳送到客戶方。因而,主動性是「推」模式網路信息服務最基本特徵之一。
這也是它與基於瀏覽器的「拉」(Pull)模式的被動服務的鮮明對比。
針對性(個性化)。針對性是說,Push技術可以針對用戶的特定信息需求
進行檢索、加工和推送,並根據用戶的特定信息需求為其提供個人定製的檢索
界面。
智能性。Push伺服器能夠根據用戶的要求自動搜集用戶感興趣的信息並定
期推送給用戶。甚至,Push技術中的「客戶代理(ClientAgent)」可以定期自
動對預定站點進行搜索,收集更新信息送回用戶。同時個人信息服務代理和主
題搜索代理還可為了提高「推送」的准確性,控制搜索的深度,過濾掉不必要
的信息,將認飛b站點的資源列表及其更新狀態配以客戶代理完成。因而,網
絡環境下的「推」模式信息服務具有較高的智能性。這也是傳統的定題服務
(SDI)不能比的。
高效性。高效性是網路環境下「推」模式信息服務的又一個重要特徵。Push
技術的應用可在網路空閑時啟動,有效地利用網路帶寬,比較適合傳送大數據
量的多媒體信息。
靈活性。靈活性是指用戶可以完全根據自己的方便和需要,靈活地設置連
接時間,通過E一mail、對話框、音頻、視頻等方式獲取網上特定信息資源。
綜合性。「推」模式網路信息服務的實現,不僅需要信息技術設備,而且
還依賴於搜尋軟體、分類標引軟體等多種技術的綜合[6]。
但在當前信息技術的發展階段,「推」技術還存在很大的缺陷,比如:不
能確保信息發送,沒有狀態跟蹤,缺乏群組管理功能等等。因此,國內外的研
究者們又提出超級推(BeyondPush)技術的理論。所謂超級推技術是在保留、繼
承、完善了Push的優點(主動傳遞和個性化定製),摒棄了Push的諸多缺點之
!2碩士學位論文
MASTER,5THESIS管
後而發展起來的一種新型的Push技術。它的最大特點是在於保證傳送。即所
有的信息都是在特定的時間送給特定的信息用戶,同時保持連續性的用戶資
料,隨時可以知道誰收到了信息,信息是否為該用戶定製,用戶環境是否適當
等等[刀。
2.2.2信息拉取技術
常用的、典型的信息拉取技術,如資料庫查詢,是由用戶主動查詢資料庫,
從資料庫中拉取所需信息。其主要優點是:針對性好,用戶可針對自己的需求
有目的地去查詢、搜索所需的信息。
Intemet上的信息拉取技術可以說是資料庫查詢技術的擴展和延伸。在網
絡上,用戶面對的不止是一個資料庫,而是擁有海量信息的hitemet環境,因
此,各種網路信息拉取(查詢)的輔助工具—搜索引擎應運而生了。信息推送與信息拉取兩種模式各有其特點,在實際中常常是將兩者的結合
起來,常用的結合方式為:
(1)「先推後拉」式。先及時地推送最新信息(更新的動態信息),再有針
對性地拉取所需的信息。這樣,便於用戶注意信息變化的新情況和趨勢,從而
動態地選取需要深入了解的信息。
(2)「先拉後推」式。用戶先拉取所需信息,然後根據用戶的興趣,再有針
對性地推送相關的其它信息。
(3)「推中有拉」式。在信息推送過程中,允許用戶隨時中斷、定格在所感
興趣的網頁上,作進一步的搜索,主動拉取更豐富的信息。
(4)「拉中有推」式。在用戶拉取信息的搜索過程中,根據用戶輸入的關鍵
詞,信源主動推送相關信息和最新信息。這樣既可以及時地、有針對性時為用
戶服務,又可以減輕網路的負擔,並便於擴大用戶范圍[8]。
因此,信息推送與信息拉取相結合是當前Intemet、資料庫系統及其它信
息系統為用戶提供主動信息服務的一個發展方向。
2.3Web挖掘技術
隨著功temet的發展,W己b已經成為人類社會的公共信息源。在hitemet
給人類帶來前所未有的信息機遇的同時,又使得人類的信息環境更加復雜,人碩士學位論文
MASTER,5THESIS⑧
類如何利用信息的問題非但沒有如預想的通過信息技術的發展得到圓滿的解
決,相反,隨著信息技術的發展,信息量的激增,造成了個人實際所需信息量
與研觸b上的海量信息之間的矛盾,因而也就造成了個人利用信息的困難。在
這種情況下,雖然出現了叭范b環境下的專門檢索工具,但是由於搜索引擎是
由傳統檢索技術發展而來,在當前用戶要求不斷提高的情況下,傳統的搜索技
術己經不能夠滿足人們的需要。為了更加有效地利用網路信息資源,W七b挖掘
作為新的知識挖掘的手段,為Web信息的利用提出了新的解決方案叨。
2.3,1姍eb挖掘的內容
數據挖掘就是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中,
提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
Web挖掘則是從WWW及其相關的資源和行為中抽取有用的模式和隱含信息。其
中WWW及其相關資源是指存在於WWW之上的Web文檔及Web伺服器上的日誌文
件以及用戶資料,從Web挖掘的概念中應當看出Web挖掘在本質上是一種知識
發現的手段,它主要從下面3個方面進行仁』時。
(1)Web內容挖掘。W七b內容挖掘是從W匕b數據中抽取知識,以實現Web
資源的自動檢索,提高web數據的利用效率。隨著Intemet的進一步延伸,Web
數據越來越龐大,種類越來越繁多,數據的形式既有文本數據信息,也有圖像、
聲音、視頻等多媒體數據信息,既有來自於資料庫的結構化數據,也有用HTML
標記的半結構化數據及非結構化的自由文本數據信息。因而,對W己b內容信
息挖掘主要從下面兩個角度進行〔」]。
一是從信息檢索的角度,主要研究如何處理文本格式和超級鏈接文檔,這
些數據是非結構化或半結構化的。處理非結構化數據時,一般採用詞集方法,
用一組組詞條來表示非結構化的文本,先用信息評價技術對文本進行預處理,
然後採取相應的模型進行表示。另外,還可以用最大字序列長度、劃分段落、
概念分類、機器學習和自然語言統計等方法來表示文本。處理半結構化數據時,
可以利用一些相關演算法給超級鏈接分類,尋求認七b頁面關系,抽取規則。同
處理非結構化數據相比,由於半結構化數據增加了HTM毛標記信息及Web文
檔內部超鏈結構,使得表示半結構化數據的方法更加豐富。
二是從資料庫的角度,主要處理結構化的W匕b資料庫,也就是超級鏈接
14⑧蕊譽蕊
文檔,數據多採用帶權圖或者對象嵌入模型(OME),或者關系資料庫表示,
應用一定的演算法,尋找出網站頁面之間的內在聯系,其主要目的是推導出Web
站點結構或者把W匕b變成一個資料庫,以便進行更好的信息管理和查詢。數
據庫管理一般分成三個方面:一是模型化,研究認觸b上的高級查詢語言,使
其不局限於關鍵字查詢;二是信息的集成與抽取,把每個W七b站點及其包裝
程序看成是一個認范b數據源,通過W七b數據倉庫(data~house)或虛擬W七b資料庫實現多種數據來源的集成;三是叭幾b站點的創建與重構,通過研
究web上的查詢語言來實現建立並維護web站點的途徑[』「]。
(2)札b結構挖掘。W匕b結構挖掘,主要指的是通過對W七b文檔的分析,從
文檔之間的組織結構獲取有用的模式。W匕b內容挖掘研究的是文檔內的關系,
W七b結構挖掘關注的則是網站中的超級鏈接結構之間的關系,找到隱藏在一個
個頁面之後的鏈接結構模型,可以用這個模型對W七b頁面重新分類,也可以
用於尋找相似的網站。
W七b結構挖掘處理的數據類型為W七b結構化的數據。結構化數據是描述
網頁內容組織方式的數據,頁內結構可以用超文本標記語言等表示成樹型結
構,此外頁間結構還可以用連接不同網頁的超鏈結構表示。文檔間的鏈接反映
了文檔信息間的某種聯系,如隸屬平行關系、引用與被引用關系等。對W七b
頁面的超級鏈接進行分類,可以判斷與識別頁面信息間的屬性關系。由於Web
頁面內部存在或多或少的結構信息,通過研究W亡b頁面內部結構,可尋找出
與用戶選定的頁面集合信息相關的其它頁面信息模式,以檢測W己b站點所展
示的信息完整程度。
③Web行為挖掘。所謂W己b用戶行為挖掘主要是通過對認尼b伺服器的日
志文件以及用戶信息的分析,從而獲得有關用戶的有用模式。W七b行為挖掘的
數據信息主要指網路日誌中包括的用戶行為模式,它包括檢索時間、檢索詞、
檢索路徑、檢索結果以及對哪些檢索結果進行了瀏覽。由於W七b自身的異質、
分布、動態、無統一結構等特點,使得在認七b網上進行內容挖掘比較困難,
它需要在人工智慧和自然語言理解等方面有所突破。所幸的是基於W七b服務
器的109日誌存在著完整的結構,當信息用戶訪問web站點時,與訪問相關的
頁面、時間、用戶ro等信息,日誌中都作了相應的記錄,因而對其進行信息
l5碩士學位論文
MASTER,5THESIS⑥
挖掘是可行的,也是有意義的。在技術實踐過程中,一般先把日誌中的數據映
射成諸種關系信息,並對其進行預處理,包括清除與挖掘不相關的信息等。為
了提高性能,目前對109日誌數據信息挖掘採用的方法有路徑分析、關聯規則、
模式發現、聚類分析等。為了提高精確度,行為挖掘也應用到站點結構信息和
頁面內容信息等方面。
2.3.2web挖掘技術在網路信息檢索中的應用
(l)Web內容挖掘在檢索中的應用。W匕b內容挖掘是指從文檔內容及其描述
中獲取知識的過程,由於用傳統的信息檢索技術對W己b文檔的處理不夠深入,
因此,可以利用叭觸b內容挖掘技術來對網路信息檢索中的W己b文檔處理部分
進行進一步的完善,具體而言表現在以下幾個方面。
①文本總結技術。文本總結技術是指從文檔中抽取出關鍵信息,然後以簡
潔的形式對W匕b文檔的信息進行摘要或表示。這樣用戶通過瀏覽這些關鍵信
息,就可以對W七b網頁的信息有大致的了解,決定其相關性並對其進行取捨。
②文本分類技術。W匕b內容挖掘中的文本分類指的是按照預先定義的主題
類別,利用計算機自動為文檔集合中的每一個文檔進行分類。分類在網路信息
檢索中的價值在於可以縮小檢索范圍,大大提高查准率。目前,己經出現了很
多文本分類技術,如TFIFF演算法等,由於文本挖掘與搜索引擎所處理的文本幾
乎完全一樣,所以可以直接將文本分類技術應用於搜索引擎的自動分類之中,
通過對大量頁面自動、快速、有效的分類,來提高文檔檢索的查准率。
③文本聚類技術。文本聚類與文本分類的過程J險洽相反,文本聚類指的是
將文檔集合中的文檔分為更小的簇,要求同一簇內的文檔之間的相似性盡可能
大,而簇與簇之間的關系盡可能小,這些簇相當於分類表中的類目。文本聚類
技術不需要預先定義好的主題類別,從而使得搜索引擎的類目能夠與所收集的
信息相適應。文本聚類技術與人工分類相比,它的分類更加迅速、客觀。同時,
文本聚類可與文本分類技術相結合,使得信息處理更加方便。可以對檢索結果
進行分類,並將相似的結果集中在一起。
(2)Web結構挖掘在網路信息檢索中的應用。W匕b的信息組織方式採用了一
種非平面結構,一般來說W己b的信息組織方式是根據內容來進行組織的。但
是由於W匕b的這些結構信息比較難以處理,所以搜索引擎一般不處理這些信
16碩士學位論文
MASTER,S竹正515⑧
息,而是將叭觸b頁面作為平面機構的文本進行處理。但是,在從觸b結構挖掘
中,通過對研觸b文檔組織結構的挖掘,搜索引擎可以進一步擴展搜索引擎的
檢索能力,改善檢索效果〔』3]。
(3)脆b行為挖掘在網路信息檢索中的應用。認觸b行為挖掘是一種通過挖掘
總結出用戶的檢索行為的模式。用戶的檢索行為一直是信息檢索中重要的研究
內容,通過研觸b行為挖掘,不僅可以發現多數用戶潛在共同的行為模式,而
且還可以發現單個用戶的個性化行為,對這些模式進行研究,可以更好地對搜
索引擎的檢索效果進行反饋,以便進一步改進搜索策略,提高檢索效果。
2.3.3web挖掘技術的局限及方向
(1)孔b內容挖掘。W七b上的數據不管是用HTML還是XML標記語言表示,
都不能完全解決W七b數據的非結構性問題,特別是漢語句子格式繁多,虛詞、
實詞沒有絕對的界限,切分詞難度大,這些是造成無法對數據進行完全自動標
引的根本性問題,因此,從七b內容挖掘技術有必要結合數據倉庫等信息技術進
行信息存儲,並最終實現智能化、自動化的數據表示和標引,以供搜索之用。
通常數據的表示和數據的利用形式是相互關聯的,因此,設計相應的具有高查
全率和查准率的挖掘演算法也和數據表示一樣是未來的方向之一。另外多媒體數
據如何進行識別分類標引,這也是未來的研幾b內容挖掘研究的難點和方向。
(2)梅b結構數據挖掘。隨著Intemet的迅猛發展,網站的內容也越來越豐
富,結構也越來越龐雜,用有向圖表示巨型網站鏈接結構將不能滿足數據處理
的需要,需要設計新的數據結構來表示網站結構。
由於用來作對比分析發現問題所在的用戶使用信息只有日誌流,那麼,對
用戶使用日誌流中每一鏈接關系如何識別、採用什麼結構表示、如何抽取有用
的模式等等,不僅是認飛b行為挖掘的重要研究內容也是網站結構挖掘的重要
研究方向之一。
(3),eb用戶行為挖掘。由於Iniemet傳輸協議HTTP的無狀態性,客戶端、
代理伺服器端緩存的存在,使用戶訪問日誌分別存在於伺服器、代理伺服器和
客戶端,因此,從W七b用戶訪問日誌中研究用戶訪問規律最大的難點在於如
何把分布於不同位置的訪問日誌經過預處理,形成一個個用戶一次的訪問期
間。通常來講,對於靜態W七b網站,伺服器端的日誌容易取得,客戶端和代
l7理伺服器用戶訪問日誌不容易取得;其次,由於一個完整的W匕b是由一個個
圖片和框架頁面組成的,而用戶訪問伺服器也有並發性,在確定用戶訪問內容
時,必須從伺服器日誌中甄選出某個用戶實際請求的頁面和頁面的主要內容。
另外,由於目前已經有的數據挖掘演算法主要是在大量交易數據基礎上發展起來
的,在處理海量Web用戶訪問日誌中也需要重新設計演算法結構〔』41。
2.4信息過濾技術
hitemet開放式的環境,為人們檢索和利用信息提供了極大的方便,但同
時,網路環境也為人們及時准確地檢索到所需信息帶來了麻煩。這是因為,第
一,網路環境中信息的來源復雜多樣,隨意性大,任何人、任何單位不管其背
景和動機如何都可以在網路上發布信息,信息的產生和傳播沒有經過篩選和審
定,因此信息的可靠性、質量和價值成為用戶普遍擔心的一大問題;第二,目
前大多數據搜索工具的檢索范圍是綜合性的,它們的Robots盡可能地把各種
網頁抓回來,經過簡單加工後存放在資料庫中備檢;第三,搜索引擎直接提供
給用戶的檢索途徑大都是基於關鍵詞的布爾邏輯匹配,返回給用戶的就是所有
包括關鍵詞的文獻,這樣的檢索結果在數量上遠遠超出了用戶的吸收和使用能
力,讓人感到束手無策。這就是人們經常談論的「信息過載」、「信息超載」現
象。信息過濾技術就是在這樣的背景下開始受到人們的重視,它的目的就是讓
搜索引擎具有更多的「智力」,讓搜索引擎能夠更加深入、更加細致地參與到
用戶的整個檢索過程中,從關鍵詞的選擇、檢索范圍的確定到檢索結果的精煉,
幫助用戶在浩如煙海的信息中找到和需求真正相關的資料。
2.4.1信息過濾模型
信息過濾其實質仍是一種信息檢索技術,因此它仍依託於某一信息檢索模
型,不同的檢索模型有不同的過濾方法。51。
(1)利用布爾邏輯模型進行過濾。布爾模型是一種簡單的檢索模型。在檢索
中,它以文獻中是否包含關鍵詞來作為取捨標准,因此,它不需要對網頁數據
進行深度的加工。最簡單的關鍵詞表可以設計成只有三個欄位:關鍵詞、包括
關鍵詞的文獻號、關鍵詞在相應文獻中出現的次數。檢索時,用戶提交關鍵詞
……………………………………
太長 發不全 希望對你有用 實在不行聯系我(給我留言)我發給你郵箱。
㈡ 信息檢索類的論文
信息檢索技術論文 –
基於網格的面向專業內容的Web信息檢索
1 引言
近年來,互聯網得到了迅速的發展,網上信息資源愈來愈龐大,且信息具有量大、分散、異構等特性,因此,傳統銀備銷的Web信息檢索工具開始暴露出它性能低下的一面,具體體現在現有的信息檢索工具對用戶的鋒游要求常常是找出了幾千甚至上萬條記錄,根本無法從中再細找,或者找到的內容和要找的內容不是一個專業領域的,造成信息無效的現象。但隨著人們信息意識的增強,對信息內容及信息服務的需求也在不斷的演變和發展,對獲取信息的專業化、實效性等方面有了新的要求。如何針對專業領域中特定的用戶群為他們提供專業的、度身量造的信息服務,使用戶在盡可能短的時間內有效的找到最需要的信息內容是大家普遍關注的一個問題。本文利用網格計算、集群系統、XML等技術設計了一個基於網格的面向專業內容的Web信息檢索體系結構,它能將地理位置分散的、異構的信息按地區按專業內容從邏輯上進行合理的組織和管理,為用戶快速、有效地獲取自己所需要的信息提供了一種方法。
2 基於網格的面向專業內容的Web信息滾昌檢索體系結構的設計
網格計算是近年來國際上興起的一種重要信息技術,其目的是將網上各種資源組織在一個統一的大框架下,為解決大型復雜計算、數據服務和各種網路信息服務提供一個方便用戶使用的虛擬平台,實現互聯網上所有資源的全面連通,實現信息資源的全面共享。
為解決不同領域復雜科學計算與海量信息服務問題,人們以網路互連為基礎構造了不同的網格,他們在體系結構,要解決的問題類型等方面各不相同,但網格計算至少需要具有三種基本功能:資源管理、任務管理、任務調度。本文設計的信息檢索體系結構,圍繞網格計算的基本功能及信息檢索的特點,主要有以下三個層次組成:見圖1
(1) 網格結點:結點是網格計算資源的提供者,本系統主要是由一系列的集群系統組成,它們在地理位置上是分布的,構成了一個分布檢索群體,作為信息共享的基礎結構平台。集群系統負責整個集群范圍內的信息管理,維護和查詢。
(2) 網格計算中間件:中間件是信息資源管理和用戶任務調度、任務管理的工具。它是整個網格信息資源管理的核心部分,它根據用戶的信息請求任務,在整個網格內負責信息資源的匹配、定位,實現用戶任務到集群系統的映射。
(3) 網格用戶層:主要為用戶應用提供介面,支持用戶對所需要的信息資源進行描述、創建、提交等。
圖1
本系統的主要思想是在邏輯上將地理位置分散的、異構的信息劃分、組建成多個集群系統,集群系統對集群內的資源進行管理和任務調度,再利用網格中間件對各集群系統進行管理,從而形成對整個網格資源的管理,並對用戶的信息需求進行統一的管理和調度。這種管理模型既可以尊重各個集群系統的本地信息管理策略,又可利用中間件在全局意義上對網格信息資源進行管理。
2.1 集群系統的設計
由於Web信息資源數量十分龐大,用戶在利用現有搜索引擎檢索信息時面臨一個海量數據的查詢問題,往往造成在消耗巨大的通信資源後依然存在資源查不準、查不全的問題。目前基於單一系統映射的Web伺服器集群系統能把若干伺服器用區域網連接成一個整體,並使其從客戶端看來就如同一台伺服器在服務,這使得在邏輯上合並、組織地理位置分布的信息資源成為可能。因此本文首先考慮採用分布協作策略,將Web信息資源按地區按專業內容分割,一方面使信息資源數量相對縮小,便於數據的組織、管理和維護,另一方面按專業內容易於制定一個公用的XML規范,便於集群內各類信息資源的描述,從而可建立一個基於XML的面向專業內容的信息集成系統。集群系統的具體結構見圖2。
集群伺服器主要由介面Agent,基於專業內容的XML信息集成系統、資源服務Agent、資源發布Agent等組成。其中介面Agent根據任務提供的介面參數登記、接收、管理各種信息資源請求任務,並提供安全認證和授權。資源服務Agent根據信息資源請求任務,利用XML信息集成系統提供的數據,為用戶提供實際的資源檢索操作,並將檢索結果信息發送給用戶。資源發布Agent用於向網格中間件提供本地信息資源的邏輯數據及介面參數。
下面主要說明基於專業內容的XML信息集成系統的構造方法:
XML(the eXtensible Markup Language)是 W3C於1998年宣布作為Internet上數據表示和數據交換的新標准,它是一種可以對信息進行自我描述的語言,它允許開發人員通過創建格式文件DTD(Document Type Definitions)定製標記來描述自己的數據,DTD規范是一個用來定義XML文件的語法、句法和數據結構的標准。 XML使用普通文本,因此具有跨平台的優點,XML的優點在於(1)簡單、規范性:XML文檔基於文本標簽,有一套嚴謹而簡潔的語法結構,便於計算機、用戶理解;(2)可擴展性:用戶可以自定義具有特定意義的標簽,自定義的標簽可以在任何組織、客戶、應用之間共享;(3)自描述性:自描述性使其非常適用不同應用間的數據交換,而且這種交換是不以預先定義一組數據結構為前提,因此具有很強的開放性;(4)互操作性:XML可以把所有信息都存於文檔中傳輸,而遠程的應用程序又可以從中提取需要的信息。XML數據是不依賴於某個特定的平台的應用,因此它為基於特定專業內容的表達提供了一種極好的手段,可以作為表示專業內容的語言。
目前人們研製Web信息集成系統其基本方法可分成兩類:存入倉庫法(the ware-housing approach)和虛擬法(the virtual approach),可使用這兩類方法利用XML在數據組織和交換方面的優越性,採用格式文件DTD和XML文檔表示基於專業內容的集成模式和集成模式與資源之間的映射,建立基於XML的Web信息集成系統,其結構與獲取信息的工作過程參見文獻[2]。
圖2
2.2 網格中間件的設計
圖3所示的網格中間件的主要功能是(1)消除不同用戶與集群系統之間數據表達的差異,使信息資源數據對用戶來說是透明的;(2)管理、維護Web上分布的各集群系統,網格中間件以關系資料庫方式記錄所有集群系統及其所包含的專業內容的邏輯信息,對關系資料庫的操作可維護集群系統的分布式邏輯,使本結構在可變性和擴充性上具有柔性;(3)接受用戶的信息請求任務,能快速定位於滿足要求的集群系統,通過對關系資料庫的查詢實現用戶信息請求任務與集群系統的對應關系。
內部主要功能模塊說明如下:
(1) 接收Agent模塊:主要用於登記、接收、管理各種信息資源請求任務,並提供安全認證和授權。
(2) 關系資料庫及數據服務Agent:關系資料庫記錄了所有集群系統及其所包含的專業內容的邏輯信息。數據服務Agent提供集群系統對關系資料庫的使用許可權和對數據記錄的增加、刪除、檢索和修改等操作。
(3) 格式轉換Agent模塊:提供用戶信息資源請求文檔與各集群系統中文檔的格式轉換功能。由於XML是自定義的,各用戶對同一數據有不同的表示方法(對信息資源描述存在差異)由於XML文檔中這種格式差異體現在與之相關的DTD/Schema上,因此經過格式轉換,可使信息資源的格式對用戶是透明的。
(4) XML文檔分析Agent模塊:提取格式轉換後的XML文檔中各個標簽,通過查詢網格中間件中的關系資料庫,實現用戶信息請求任務與集群系統的對應關系,並得到滿足條件的集群系統的相關信息,獲取各集群系統的介面參數。
(5) 發送Agent模塊:將轉換過的信息資源請求XML文檔發送到相應的集群系統中。
其中Agent技術是解決分布式智能應用問題的關鍵技術,Agent是指能夠自主地、連續地在一動態變化的、存在於其它系統中運行的、且不斷於環境交互的實體。在系統中引入Agent可使系統具有人的特徵,代表用戶完成用戶的任務,並能動態適應環境的變化更好地滿足用戶的需求,提高信息檢索的能力。文秘雜燴網 http://www.rrrwm.com
㈢ 信息檢索與利用論文
現代信息檢索論文: 現代信息檢索方法的探討 要想充分利用這些浩如煙海的文獻信息資源,必須藉助各種各樣的檢索工具。同時,網際網路信息資源的驟增及其異構性、動態性,不斷給信息檢索帶來新的挑戰。信息檢索已成為現代社會信息化和各種應用的關鍵。如何更高層次的模擬、應用人腦的智能原理,從本質上變革信息資源檢索方法,已成為現代化信息知識檢索理論研究的熱點。實踐證明,將人工智慧技術與信息技術結合,發揮人工智慧的作用,是一條成功的經驗。下面就知識檢索與信息檢索的關聯和發展,作初步的探討。 一、布爾檢索 利用布爾邏輯算符進行檢索詞或代碼的邏輯組配,是現代信息檢索系統中最常用的一種方法。常用的布爾邏輯算符有三種,分別是邏輯或「OR」、邏輯與「AND」、邏輯非「NOT」。用這些邏輯算符將檢索片語配構成檢索提問式,計算機將根據提問式與系統中的記錄進行匹配,當兩者相符時則命中,並自動輸出該文獻記錄。 下面以「計算機」和「文獻檢索」兩個詞來解釋三種邏輯算符的含義。①「計算機」AND「文獻檢索」,表示查找文獻內容中既含有「計算機」又含有「文獻檢索」詞的文獻。②「計算機」OR「文獻檢索」,表示查找文獻內容中含有「計算機」或含有「文獻檢索」以及兩詞都包含的文獻。③「計算機」NOT「文獻檢索」,表示查找文獻內容中含有「計算機」而不含有「文獻檢索」的那部分文獻。 檢索中邏輯算符使用是最頻繁的,對邏輯算符使用的技巧決定檢索結果的滿意程度。用布爾邏輯表達檢索要求,除要掌握檢索課題的相關因素外,還應在布爾算符對檢索結果的影響方面引起注意。另外,對同一個布爾邏輯提問式來說,不同的運算次序會有不同的檢索結果。布爾算符使用正確但不能達到應有檢索效果的事情是很多的。 二、信息檢索 信息檢索起源於圖書館的參考咨詢和文摘索引工作,從19世紀下半葉首先開始發展,至20世紀40年代,索引和檢索已成為圖書館獨立的工具和用戶服務項目。 信息檢索通常指文本信息檢索,包括信息的存儲、組織、表現、查詢、存取等各個方面,其核心為文本信息的索引和檢索。它是基於信息組織形式,如字元串、結構化資料庫,應用信息處理方法,如排序數據查找、字元匹配,實現效率不高的檢索。信息檢索綜合應用布爾檢索方法和基於超鏈的檢索技術,改進了基本檢索功能,但缺點是對精確的提問不能給出精確的回答。從歷史上看,信息檢索經歷了手工檢索、計算機檢索到目前網路化、智能化檢索等多個發展階段。 目前,信息檢索已經發展到網路化和智能化的階段。信息檢索的對象從相對封閉、穩定一致、由獨立資料庫集中管理的信息內容擴展到開放、動態、更新快、分布廣泛、管理鬆散的Web內容;信息檢索的用戶也由原來的情報專業人員擴展到包括商務人員、管理人員、教師學生、各專業人士等在內的普通大眾,他們對信息檢索從結果到方式提出了更高、更多樣化的要求。適應網路化、智能化以及個性化的需要是目前信息檢索技術發展的新趨勢。 三、知識檢索 知識檢索的基本思想是,模擬擴展人類關於知識處理與利用的智能行為和認識思維方法,是充分利用在線圖書館和數字圖書館的文獻信息資源的有利工具。例如:抽象思維方法,形象思維方法。知識檢索具有明顯的優勢:①實現信息服務向知識服務的轉化,向用戶提供潛在內容知識,以及分析預測後的超前性領域成果或知識。②提供主動服務方式,自動優化用戶需求,主動提供個性化檢索。③面向用戶,依據用戶的需求及其變化,能靈活選擇理想的檢索策略和技術,並且將繁重的知識信息存取工作從用戶移向了計算機。④綜合應用各類知識和各種高效的智能技術,全面提高檢索效率。 知識檢索是綜合應用信息管理科學人工智慧認知科學及語言學等多學科的先進理論與技術,基於知識和知識組織,融合知識處理和多媒體信息處理等多種方法與技術,充分表達和優化用戶需求,能高效存取所有媒體類型的知識源,並能准確精選用戶需要的結果。
㈣ 求一篇信息檢索的論文,字越多越好~
四、智能檢索
智能檢索利用分詞詞典、同義詞典,同音詞典改善檢索效果,比如用戶查詢「計算機」,與「電腦」相關的信息也能檢索出來;進一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典,形成一個知識體系或概念網路,給予用戶智能知識提示,最終幫助用戶獲得最佳的檢索效果,比如用戶可以進一步縮小查詢范圍至「微機」、「伺服器」或擴大查詢至「信息技術」或查詢相關的「電子技術」、「軟體」、「計算機應用」等范疇。另外,智能檢索還包括歧義信息和檢索處理,如「蘋果」,世輪究竟是指水果還是電腦品牌,「華人」與「中華人民共和國」的區分,將通過歧義知識描述庫、全文索引、用戶檢索上下文分析以及用戶相關性反饋等技術結合處理,高效、准確地反饋給用戶最需要的信息。
五、計算機信息檢索隨著1946年世界上第一台電子計算機問世,計算機技術逐步走進信息檢索領域,並與信息檢索理論緊密結合起來;離線批量情報檢索系統、聯機實時睛報檢索系統相繼研製成功並商業化,20世紀60年代到80年代,在信息處理技術、通訊技術、計算機和資料庫技術的推動下,信息檢索在教育、軍事和商業等各領域高速發展,得到了廣泛的應用。DiMog國際聯機情報檢索系統是這一時期的信息檢索領域的代表,至今仍是世界上最著名的系統之一。在單語言檢索中,計算機檢索系統利用網路蜘蛛進行網路信息的收集,然後利用自動標引技術對搜集的信息進行標引形成索引信息庫。用戶輸入檢索式後,計算機把檢索式與資料庫中索引項進行匹配,按索引式與標引項相關性大小降序輸出檢索結果。跨語言檢索中,只要在檢索過程中加入語言處理技術,就可以使一種語言與其他語言對應。信息檢索是經濟生活和科學研究的一個重要組成部分,尤其在今天這個飛速發展的信息時代,如何廣泛、快速、准確地獲取對自己有價值的信息,特別是如何藉助電子化、網路化的手段去獲取有價值的信息,直接影響到教學、科研等工作的成敗。因此信息檢索的方法和技能,越來越成為現代科技工作者和教師所必備的基本技能。目前,計算機信息檢索已成為廣大用戶獲取信息的主要方式,而且呈現出聯機信息檢索、光碟信息檢索以及網際網路信息檢索多元並存的信息檢索格局。如何快速、准確及有效地檢索到所需信息,已成為日益突出的問題,那麼,了解各信息檢索系統的特點是實施信息檢索最基本的前提。下面就其三種計算機信息檢索系統作一介紹。
1.聯機信息檢索系統。所謂聯機信息檢索,是指信息用戶利用終端設備,通過國際通訊網路與世界上的信息檢索系統,進行直接的人機對話,從檢索系統的資料庫中查找出用戶所需信息的全過程。一個聯機信息檢索系統,通常由檢索服務機構、國際通訊網路和終端組成。
2.光碟信息檢索系統。光碟信息檢索系統是單機信息檢索系統的一種,它解決了單機檢索系統數據存儲量少的缺點,是目前應用較為廣泛的一種計算機信息檢索系統。在信息檢索領域應用的光碟主要是只讀光碟。
3.網際網路信息檢索。作為用戶最多、影響最大的計算機網路,網際網路堪稱世界上資源最豐富的信息庫和文檔資料庫,幾乎能滿足全球范圍內對任何信息的需求。網際網路信息檢索系統一般由計算機伺服器、通信網路、通信協議。網路信息檢索伺服器、用戶終端等構成。
六、網路信息檢索網路信息檢索簡單地10說就是網路環境下的信息檢索。它與傳統信息環境下的檢索有很大的不同,網路信息檢索具有多樣性、靈活性也超出了傳統的信息檢索。原來傳統途徑可獲得的信息,現在幾乎全部可以通過網路檢索得到,而且更快、更新、更准確。隨著計算機、多媒體和現代通訊技術的飛速發展,以印刷型文獻為主的學校圖書館開始向以電子信息和虛擬信息為主的數字圖書館轉化,Internet創造了豐富和多元化的學習資源,實現了資源共享。
隨著學習社會化、終身學習體系的誕生和進一步推進,網路在中小學教育指裂中的應用也日益廣泛和深入起來。Internet為我們帶來了豐富的學校綜合教育信息資源,它是提供Internet上的可用於學校綜合教育過程的,在學校教育系統中傳遞的信息。近幾年,唯返閉Internet的發展使信息採集、傳播和利用無論是從規模還是速度都達到了空前的水平。信息內容涉及廣泛,幾乎包括工農業生產、科技、教育、文化藝術、商業、資訊、娛樂休閑等諸多方面。在Intemet上,購物、在線教育、在線股市、遠程醫療、點播電影、網路會議、網路展覽都已變成現實,成為人類技術和文明的巨大財富,是全球取之不盡,用之不竭的信息資源基地。豐富信息資源帶到人們面前的同時,也帶來了問題:人們在蘊含豐富的信息面前無所適從,在浩如煙海的信息海洋中迅速、准確獲取自己最需要的信息,變得十分困難。因此,20世紀90年代中期出現了檢索萬維網信息資源的搜索引擎技術。萬維網是目前網際網路上最受歡迎的檢索服務系統,它利用超鏈接技術將全球的信息資源連接起來,用戶通過瀏覽器就可以實現對網站頁面的訪問。
21世紀是一個高度信息化的社會,信息就是商品、信息就是財富、信息就是資源、信息就是機會,因此人人都渴望及時獲得有用的信息。如果說搜集信息是人類賴以生存、發展的一種本能,那麼信息檢索則是每個大學生和科研人員必須具備的一種基本技能。在計算機、網路通信技術日新月異,互聯網遍及世界各個角落的今天,我們正身置於廣袤無垠的信息海洋中。面對這樣一個新知識、新技術不斷涌現、知識新陳代謝頻繁的世界,想要一勞永逸地獲取知識是不可能的。我們只有終身學習,不斷地獲取、更新知識,才能不被社會所淘汰。要有效、快速地獲取和利用最新信息,就必須掌握信息檢索的技能。大學生在校求學期間所獲得的不應該僅僅是「黃金」,更重要的是應獲得「點金術」,其中之一就是信息檢索的能力。通過檢索和利用各種信息,不僅可以深化所學的知識;而且可以開闊視野,拓寬知識面;也為自學前人的知識、不斷更新知識以及從事科學研究和發明創造奠定基礎。
㈤ 求信息檢索論文
「信息資源共享」課程檢索報告
一 檢索課題
數字圖書館個性化服務研究現狀
二 主題分析
隨著數字圖書館建設和網路通訊技術的高速發展, 數字資源越來越多, 而人們獲取所需資源的可能性則越來越少, 用戶需求的專業化、垂直化激化了數字圖書館大量信息資料庫與用戶需求之間的矛盾。1999 年, 美國圖書館與信息技術聯合會(LITA) 10 位著名的數字圖書館專家在研討會上, 把個性化定製服務列為數字圖書館發展的7 大趨勢之首。目前, 數字圖書館個性化的信息服務已經開始得到普遍的關注, 人們正在為提供個性化信息服務做出努力的嘗試。數字圖書館個性化服務是族彎近幾年數字圖書館研究中受到關注較多的一個研究方向,數字圖書館個性化服務是基於信息用戶的信息使用行為,習慣,偏好,特點及用戶特定的需求,來向用戶提供滿足其個性化需求的信息內容和系統功能的一種服務。
關於數字圖書館個性化服務研究現狀,該主題涉及到:
(1)數字圖書館個性化服務的有哪些介紹
(2)數字圖書館個性化服務的模式有什麼
(3)數字圖書館個性化服務的技術研究有哪些
(4)數字圖書館個性化服務研究的最新進展(2005年-2007年)
三 檢索情況
(一)檢索工具
1.維普中文期刊資料庫 (1989-2007)
2.中國期刊全文資料庫 (1994-2007)
(二)檢索過程
1.檢索途徑
關鍵詞 題名 主題詞
2.檢索用詞
數字圖書館 關鍵詞或題名、主題詞
個性化服務 關鍵詞或題名、主題詞
3.檢索策略
(1)維普中文期刊資料庫
(題名或關鍵詞=數字圖書館)*(題名或關鍵詞=個性化服務)
在高級檢索中選擇題名或關鍵詞欄位,輸入「數字圖書館」和「個性化服務」兩個檢索詞進行限定,年代限定在2005-2007年,共檢索出78條記錄。
(2)中國期刊全文資料庫
(題名或關鍵詞=數字圖書館)* (題名或關鍵詞=數字圖書館)
在高級檢索中選擇篇名欄位,輸入「數字圖書館」與「個性化服務」,年代限定在2005-2007,共檢出89條記錄。
四 檢索結果分析
(一) 檢索結果
經檢索上述兩個資料庫,有關數字圖書館個性化服務的研究論文滾雀眾多,現選出其中具有代表性,研究主題未重復的文獻。
1.中國期刊全文資料庫
(1) 數字圖書館個性化信息服務系統研究 劉燕平 圖書情報工作 2006/S2
(2) 數字圖書館個性化服務系統分類體系問題 葉紅 科技信息(學術研究) 2007年13期
(3) 淺析智能搜索引擎技術及其在數字圖書館個性化信息服務中的應用 王林廷 高校圖書情報論壇 2006年01期
(4)數據挖掘技術在數字圖書館個性化服務中的應用 朱冰冰 科技情報開發與經濟 2006年24期
(5)數字圖書館個性化信息服務發展研究 馬維華 鄭州大學學報(哲學社會科學版) 2006年06期
(6) 智能推送技術在數字圖書館個性化服務中的應用 石岩 情報探索 2006年11期
(7) 基於文本過濾的數字圖書館個性化服務技術 張帆 計算機工程與應用 2006年31期
(8) 數字圖書館信息門戶的個性化服務模式 何平 中國信息導報 2006年08期
(9) 網路信息技術下的數字圖書館個性化服務 張丹 林區教學 2006年07期
(10)MyLibrary——數字圖書館個性化服務新趨勢 楊華 農業圖書情報學刊 2006年08期
(11)基於Web服務組合的數字圖書館個性化動態定製服務構建 張曉青 情報學報 2006年03期
(12)校園網中數字化圖書館個性化服務的實現 朱江峰 科技經濟市場 2006年01期
(13)數字圖書館的個性化推送服務 白雪松 圖書館雜志 2005年09期
(14)Web日誌挖掘在數字圖書館個性化服務中的應用 王英培 科技情報開發與經濟 2005年22期
(15)國內外數字圖書館個性化信息服務系統的功能與特徵比較研究 張俊 情報理論與實踐 2005年06期
(兆備悶16)基於知識管理的數字圖書館個性化服務機制研究 郭琳 四川圖書館學報 2004年05期
2.維普中文期刊資料庫
(17)基於Web挖掘的數字圖書館個性化技術研究 王艷 張帆 情報雜志 2007年1期
(18)基於文本過濾的數字圖書館個性化服務技術 張帆 楊炳儒 計算機工程與應用 2006年31期
(19) 數字圖書館信息門戶的個性化服務模式 何平 陳有志 中國信息導報 2006年8期
(20)個性化服務深度與廣度解決方式探討 劉月勝 數字圖書館論壇 2006年6期
(21)個人數字圖書館模式的分析 石德萬 李軍 現代情報 2005年9期
(22)數字圖書館個性化信息環境與服務構建 杜安平 韶關學院學報 2005年3期
(23)數字圖書館個性化信息服務的技術實現 張雲瑾 許春漫 農業圖書情報學刊 2005年6期
(24)個性化信息服務的模式研究及策略分析 杜春光 國家圖書館學刊 2005年2期
(二) 檢索結論
文獻一論述了個性化信息服務的涵義,闡述數字圖書館開展個性化信息服務的有利條件,國內外圖書館的有關研究開發狀況,分析國內數字圖書館個性化信息服務系統應用實例,並時其工作流程,主要功能進行剖析,指出該系統目前存在的問題,提出改進對策。
文獻二圍繞數字圖書館個性化服務系統分類體系問題展開探討。首先,簡要介紹數字圖書館個性化服務系統的主要內容,包括其定義和服務內容。其次,從用戶分類和信息分類兩個方面闡述目前數字圖書館個性化服務系統存在的問題。用戶分類主要存在的兩個問題,根據用戶特點分析提出相應建議。信息分類問題從五個方面進行討論,列舉數字圖書館個性化服務系統頁面進行分析,提出解決方法。
文獻三介紹了智能信息檢索的實質和發展方向,是智能搜索引擎技術的不斷改進和廣泛應用。以這一技術為基礎構建數字圖書館的個性化服務系統,是數字圖書館信息服務的現實需要。文章論述了當前搜索引擎存在的不足,概述了智能搜索引擎的原理機制及其優越性,探討了該技術在數字圖書館個性化服務中的應用。
文獻四闡述了數字圖書館的定義,介紹了個性化服務的工作原理和國內外個性化服務系統的現狀,探討了分類模型、關聯模型、序列模型、聚類模型、回歸模型以及時間序列模型的原理,對如何把其用在數字圖書館的個性化服務上以描述用戶需求,提出了建議。
文獻五介紹了數字圖書館個性化信息服務是當今圖書館發展的重要趨勢,目前國內外都已有比較成熟的數字圖書館個性化信息服務系統,服務方式及其功能也多種多樣,但是探索圖書館個性化信息服務有效模式的任務仍很艱巨。
文獻六介紹了智能推送技術和個性化服務的內容,討論了將智能推送技術應用於數字圖書館個性化服務,以及智能推送技術存在的優勢與不足。
文獻七提供了一種針對數字圖書館個性化服務策略的文本過濾技術,通過在向量空間內建立用戶興趣模型和文本內容特徵模型,計算它們的相似度後,將用戶不感興趣的文本過濾掉。詳細描述了具體的建模過程和個性化文本過濾演算法,最後給出了在實際的數字圖書館工程中的驗證結果。
文獻八試圖對數字圖書館信息門戶下的個性化服務模式進行研究,從雙向互動式信息服務、集成式信息檢索服務、動態式館藏特色信息服務、滲透式垂直信息門戶服務、追蹤式數據挖掘信息服務等服務模式來探討數字圖書館個性化服務的有效模式及發展建勢。
文獻九簡述了數字圖書館個性化服務的內涵,分析了網路信息技術對其各項服務的支撐,並通過My Library實例對這些具體技術的集成化運用加以探討,為構建可互操作的數字圖書館個性化服務系統提供參考。
文獻十就My Library(我的圖書館)的產生,及其概念、類型、特徵、原理、功能等諸方面做了簡要的論述,並介紹了它在國內外的發展現狀,指出其今後的發展方向。
文獻十一介紹了Web服務組合是一種利用現有Web服務動態構建新的能滿足用戶需求的復雜Web服務的Web服務技術。將數字圖書館各種資源組件、應用組件、功能組件和管理組件進行Web服務描述,人們就能利用Web服務組合技術根據用戶的個性化需求實現對不同數字圖書館各種組件的動態集成,從而實現開放環境下數字圖書館的個性化動態定製服務。本文討論了基於Web服務組合的數字圖書館個性化動態定製服務的基本系統架構、構建模型,並對構建過程中需要注意的幾個問題展開了討論。
文獻十二介紹了數字化圖書館建設是圖書信息化發展的必然,而個性化服務能夠根據用戶不同的特點,提供切實的服務,以更好地為讀者服務。本文對數字化圖書館的個性化服務進行了討論,分析了關鍵的實現技術,並給出了部分核心代碼。
文獻十三介紹了個性化推送服務是數字圖書館研究的熱點,也是建設數字圖書館的關鍵問題之一。本文針對各種不同的信息形式提出了相應的實現方案,並對實際操作中的幾個難點事項做了簡要討論。
文獻十四介紹了Web日誌挖掘的基本概念和過程,指出通過對讀者在數字圖書館服務中留下的日誌信息進行挖掘,可以實現個性化服務,更好地滿足不同類別讀者的需求。
文獻十五從個性化信息服務的概念入手,介紹了個性化信息服務的幾種類型,包括分類定製服務、信息推送服務、智能代理服務和垂直門戶服務等,並介紹了目前國內外若干圖書館已經開展的個性化信息服務的典型應用實例。在此基礎上總結了這些個性化信息服務系統的共同功能與特徵,並進行了一些比較研究。
文獻十六介紹了構建一個基於信息過濾技術的信息服務系統是數字圖書館實現個性化信息服務的有效手段。通過對信息過濾技術概念的研究和與信息檢索概念的比較,抽象出此類系統的一般模型,並沿用查全率和查准率評價信息過濾的效果,最後分析了個性化信息服務系統實現的關鍵技術。
文獻十七提出一種基於Web挖掘技術的個性化實現策略,針對數字圖書館資源的文獻,改進了經典的演算法,分別從Web內容挖掘、結構挖掘和日誌挖掘出發,建立用戶動態的興趣特徵模型,使之更具有實用性和針對性。
文獻十八提出在數字圖書館的應用中,個性化服務可以為用戶提供符合其興趣的檢索結果。提供了一種針對數字圖書館個性化服務策略的文本過濾技術,通過在向量空間內建立用戶興趣模型和文本內容特徵模型,計算它們的相似度後,將用戶不感興趣的文本過濾掉。詳細描述了具體的建模過程和個性化文本過濾演算法,最後給出了在實際的數字圖書館工程中的驗證結果。
文獻十九試圖對數字圖書館信息門戶下的個性化服務模式進行研究,從雙向互動式信息服務、集成式信息檢索服務、動態式館藏特色信息服務、滲透式垂直信息門戶服務、追蹤式數據挖掘信息服務等服務模式來探討數字圖書館個性化服務的有效模式及發展趨勢。
文獻二十提出數字圖書館的個性化服務決定了它在藉助網路技術的基礎上向學科館和聯盟制方向發展,以提高資源的利用率和解決個性化服務的深度與廣度問題。
文獻二十一根據個人數字圖書館文獻信息資源存儲位置的不同.把個人數字圖書館劃分為遠程個人數字圖書館和本地個人數字圖書館兩種模式,著重對這兩種模式的個人數字圖書館的功能特點進行比較分析。
文獻二十二提出構建數字圖書館的個性化信息服務實際上就是要在數字圖書館上實現個性化資料、個性化檢索、個性化過濾、個性化服務等四種環境.數字圖書館可以開發個人圖書館、檢索幫助、個性化信息咨詢、信息代理、垂直門戶等多種個性化信息服務。
文獻二十三闡述了數字圖書館個性化信息服務的概念、研究與應用的現狀,並分析了實現數字圖書館個性化信息服務所需的技術。
文獻二十四強調個性化信息服務在數字圖書館中有其特定的定義,也是數字圖書館發展中的必需。根據網路環境下圖書館信息服務的內容及用戶行為的不同,可以有多種個性化服務模式,有策略地開展服務。
(三) 結果分析
從2005-2007年所發表的關於圖書館學個性化服務的論文可以看出,研究的主題和方向主要集中在以下幾個方面:
1. 數字圖書館個性化服務的概念研究。在中國期刊全文資料庫檢索到的89篇文章中,有40篇是論述圖書館個性化服務概念的研究。在這些文章中作者都對數字圖書館個性化服務概念有自己的認識,對於這個概念的研究也越來越深入。
2. 數字圖書館個性化服務的方式研究。對於數字圖書館個性化信息服務模式, 也在摸索實踐中。目前有以下幾種方式:(1)信息分類定製服務方式。分定製是指信息用戶可以按照自己的目的和需求,在某一特定的系統功能和服務形式中,自己設定信息的資源類型、表現形式,選取特定的系統服務功能等。(2)信息推送服務方式。是運用推送技術(push technology)來實現的一種個性化主動信息服務的方式。(3)信息智能代理服務方式。它是一種能夠完成委託任務的計算機系統,能模仿人的行為執行一定的任務,不需要或很少需要用戶的干預和指導。通過跟蹤用戶在信息空間中的活動,自動捕捉用戶的興趣愛好,主動搜索可能引起用戶興趣的信息並提供給用戶。(4)信息垂直門戶服務方式。通過匯聚網上某一特定專題信息資源並對其進行挖掘及加工,以滿足用戶基於專業的深入的信息需求。(5)信息幫助檢索服務方式。如何幫助用戶進行高效的信息檢索也是當今數字圖書館信息服務向縱深發展的一個重要內容。(6)數據挖掘服務方式。從資料庫中發掘人們感興趣的知識,這些知識是隱含的、潛在的,目的是幫助用戶尋找數據間潛在的關聯。(7)信息呼叫中心服務方式。主要利用電話、傳真等方式來服務客戶,處理簡單的呼叫流程。
在這些方式中,現在比較熱門的個人圖書館(My library)是上述部分個性化服務方式的具體應用,是當前開發應用較為成熟的圖書館個性化服務模式系統,也是一個完全個性化的私人信息空間。
3.數字圖書館個性化服務關鍵技術研究。數字圖書館個性化信息服務的應用技術, 集現代信息技術之大成。它包括推送技術、智能代理技術、智能搜索引擎技術、網頁動態生成技術、數據挖掘技術、信息過濾技術、過程跟蹤技術、安全身份認證技術、數據加密技術等, 這些都可以為數字圖書館的個性化服務方式提供技術支持。
4.國內外數字圖書館個性化服務現狀研究。還有一部分論文是主要介紹當今國內外數字圖書館個性化服務的現狀,通過介紹這些先進的技術和模式來指導我國數字圖書館個性化的服務。
5.其他研究。除了數字圖書館個性化信息服務的概念、模式、技術和國內外研究現狀外, 數字圖書館個性化信息服務的研究還就數字圖書館個性化信息服務的模型構建、用戶評價、館員角色的變化、存在的問題與對策等作了深入探討。
綜上所述,這兩年國內有關數字圖書館個性化服務的研究可謂是碩果累累,隨著對數字圖書館個性化信息服務理論研究和實踐的不斷深入,我國數字圖書館個性化信息服務一定能夠真正實現以用戶需求為中心, 利用數字圖書館信息資源開展不同層次的、多種類型的、滿足用戶個性需求的有效信息服務。
五 檢索情況總結
由於這個學期開了數字圖書館這門課,對於數字圖書館有一些簡單的了解,特別是對個性化信息服務這部分內容有興趣,課本上涉及得比較少,所以就把這個內容作為了檢索主題。在選擇檢索工具時選擇了平時最常用的兩個檢索工具,本來還選用了中文Google,想找一下國內在研究這個主題的項目或者網站,但是檢索到的內容數量實在太龐大,而且檢索到的大量結果都來自各個資料庫的論文,最後就放棄了使用搜索引擎。
在構造檢索策略時,因為該主題比較簡單,不用構造很復雜的檢索式,就選擇了「數字圖書館」和「個性化服務」作為關鍵詞,開始有想到是不是需要使用與「數字圖書館」概念相近的「電子圖書館」或者「虛擬圖書館」,但考慮到國內現在已經比較統一的使用「數字圖書館」這個概念,使用其他兩個詞檢索到的文章不多,所以還是以數字圖書館為重點。檢索途徑選擇了關鍵詞,題名以及主題詞,在使用中國期刊全文資料庫進行檢索時,一開始是使用關鍵詞作為檢索途徑,檢索出423條記錄,但是有很多文章與該主題相關度不高,所以採用了篇名作為檢索途徑,這樣兩個詞同時限定在文章題名中,檢索的相關度就非常高,但也可能會造成漏檢。覺得自從學習檢索課程以來,檢索最難的就是檢索式的構造,檢索式構造的好與壞,直接關繫到檢索結果的好壞。維普提供的欄位有題名或關鍵詞欄位,使用高級檢索將兩個檢索詞都限定在這個欄位中,檢索出來的結果相對比較精確。檢索完成之後,接下來的工作就是分析檢索結果,這其實也是難度挺大的一項任務,要看完150幾篇文章不是一件簡單的事,文摘和篇名這個時候就幫了很大的忙了,一般看文摘可以略知一二,需要了解詳細內容的再打開全文閱覽。從文章中歸納出研究的主要內容和方向,找出比較有特色而又不重復的內容,最後再整理出結論,這就是我整個辛苦但卻有趣的檢索過程。
通過完成這次作業,首先就是復習與鞏固了以往的知識,平時雖然也經常在進行檢索,但是嚴格按照檢索步驟進行的就不太多,也沒有這么有條理的對整個檢索過程做一個安排,並按照計劃一步一步的執行,直到完成檢索結果。其次就是以往做作業都是完成老師布置的具體任務,有些題目比較簡單或是比較有興趣的檢索起來還好,有些比較深奧的主題做起來真的十分困難,沒有專業背景,拿到題目和檢索出來的結果就覺得十分茫然。而這次老師讓我們自己選擇題目,我就可以從自己的興趣和想了解的領域下手,這樣完成作業的過程也不再那麼枯燥,興致自然也大了很多。還有最重要的是,做作業的目的不只是完成作業,更重要的是有收獲,鞏固了檢索知識自不用說,通過這次閱讀大量文章,也算對所檢索的主題有了一個大概的認識和了解,增長了知識,開闊了視野,可是說從完成這次檢索作業中的確是收獲不少。