A. 資料庫的數據檢索和 搜索引擎的信息檢索的不同點是什麼需要解決的核心問題和核心技術有何不同
信息檢索不等於搜索引擎。
互聯網的發展明顯地促進了信息檢索技術的發展和應用,一大批搜索引擎產品誕生,為網民提供了很好的快速信息獲取和網路信息導航工具,但是將信息檢索等同於使用搜索引擎就陷入了誤區。搜索引擎技術中也普遍採用了全文信息檢索技術,但互聯網信息搜索和企業信息搜索是不同的。
一是數據量。傳統信息檢索系統一般索引庫規模多在GB級,但互聯網網頁搜索需要處理幾千萬上億的網頁,搜索引擎的基本策略都是採用檢索伺服器群集,對大多數企業應用是不合適和不必要的,並不適用於企業應用。
二是內容相關性。信息太多,查准和排序就特別重要,Google等搜索引擎發展了網頁鏈接分析技術,根據互聯網上網頁被連接次數作為重要性評判的依據。但企業網站內部的網頁鏈接由網站內容采編發布系統決定,其鏈接次數存在偶然因素,不能作為判別重要性的依據。真正的企業應用的檢索要求基於內容的相關性排序,就是說,和檢索要求最相關的信息排在檢索結果的前面,鏈接分析技術此種排序基本不起作用。
三是實時性。搜索引擎的索引生成和檢索服務是分開的,周期性更新和同步數據,大的搜索引擎的更新周期需要以周乃至月度量;而企業信息檢索需要實時反映內外信息變化,搜索引擎系統機制並不能適應企業中動態性數據增長和修改的要求。
四是安全性。互聯網搜索引擎都基於文件系統,但企業應用中內容一般均會安全和集中地存放在數據倉庫中以保證數據安全和管理的要求。
五是個性化和智能化。由於搜索引擎數據和客戶規模的限制,相關反饋、知識檢索、知識挖掘等計算密集的智能技術很難應用,而專門針對企業的信息檢索應用能在智能化和個性走得更遠。
(InformationRetrieval),通常指文本信息檢索,包括信息的存儲、組織、表現、查詢、存取等各個方面,其核心為文本信息的索引和檢索。從歷史上看,信息檢索經歷了手工檢索、計算機檢索到目前網路化、智能化檢索等多個發展階段。
目前,信息檢索已經發展到網路化和智能化的階段。信息檢索的對象從相對封閉、穩定一致、由獨立資料庫集中管理的信息內容擴展到開放、動態、更新快、分布廣泛、管理鬆散的Web內容;信息檢索的用戶也由原來的情報專業人員擴展到包括商務人員、管理人員、教師學生、各專業人士等在內的普通大眾,他們對信息檢索從結果到方式提出了更高、更多樣化的要求。適應網路化、智能化以及個性化的需要是目前信息檢索技術發展的新趨勢。
信息檢索技術的熱點
◆智能檢索或知識檢索
傳統的全文檢索技術基於關鍵詞匹配進行檢索,往往存在查不全、查不準、檢索質量不高的現象,特別是在網路信息時代,利用關鍵詞匹配很難滿足人們檢索的要求。智能檢索利用分詞詞典、同義詞典,同音詞典改善檢索效果,比如用戶查詢「計算機」,與「電腦」相關的信息也能檢索出來;進一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典,形成一個知識體系或概念網路,給予用戶智能知識提示,最終幫助用戶獲得最佳的檢索效果,比如用戶可以進一步縮小查詢范圍至「微機」、「伺服器」或擴大查詢至「信息技術」或查詢相關的「電子技術」、「軟體」、「計算機應用」等范疇。另外,智能檢索還包括歧義信息和檢索處理,如「蘋果」,究竟是指水果還是電腦品牌,「華人」與「中華人民共和國」的區分,將通過歧義知識描述庫、全文索引、用戶檢索上下文分析以及用戶相關性反饋等技術結合處理,高效、准確地反饋給用戶最需要的信息。
◆知識挖掘
目前主要指文本挖掘技術的發展,目的是幫助人們更好的發現、組織、表示信息,提取知識,滿足信息檢索的高層次需要。知識挖掘包括摘要、分類(聚類)和相似性檢索等方面。
自動摘要就是利用計算機自動地從原始文獻中提取文摘。在信息檢索中,自動摘要有助於用戶快速評價檢索結果的相關程度,在信息服務中,自動摘要有助於多種形式的內容分發,如發往PDA、手機等。相似性檢索技術基於文檔內容特徵檢索與其相似或相關的文檔,是實現用戶個性化相關反饋的基礎,也可用於去重分析。自動分類可基於統計或規則,經過機器學習形成預定義分類樹,再根據文檔的內容特徵將其歸類;自動聚類則是根據文檔內容的相關程度進行分組歸並。自動分類(聚類)在信息組織、導航方面非常有用。
◆異構信息整合檢索和全息檢索
在信息檢索分布化和網路化的趨勢下,信息檢索系統的開放性和集成性要求越來越高,需要能夠檢索和整合不同來源和結構的信息,這是異構信息檢索技術發展的基點,包括支持各種格式化文件,如TEXT、HTML、XML、RTF、MSOffice、PDF、PS2/PS、MARC、ISO2709等處理和檢索;支持多語種信息的檢索;支持結構化數據、半結構化數據及非結構化數據的統一處理;和關系資料庫檢索的無縫集成以及其他開放檢索介面的集成等。所謂「全息檢索」的概念就是支持一切格式和方式的檢索,從目前實踐來講,發展到異構信息整合檢索的層面,基於自然語言理解的人機交互以及多媒體信息檢索整合等方面尚有待取得進一步突破。
另外,從工程實踐角度,綜合採用內存和外部存儲的多級緩存、分布式群集和負載均衡技術也是信息檢索技術發展的重要方面。
隨著互聯網的普及和電子商務的發展,企業和個人可獲取、需處理的信息量呈爆發式增長,而且其中絕大部分都是非結構化和半結構化數據。內容管理的重要性日益凸現,而信息檢索作為內容管理的核心支撐技術,隨著內容管理的發展和普及,亦將應用到各個領域,成為人們日常工作生活的密切夥伴。
信息檢索起源於圖書館的參考咨詢和文摘索引工作,從19世紀下半葉首先開始發展,至20世紀40年代,索引和檢索成已為圖書館獨立的工具和用戶服務項目。
隨著1946年世界上第一台電子計算機問世,計算機技術逐步走進信息檢索領域,並與信息檢索理論緊密結合起來;離線批量情報檢索系統、聯機實時情報檢索系統相繼研製成功並商業化,20世紀60年代到80年代,在信息處理技術、通訊技術、計算機和資料庫技術的推動下,信息檢索在教育、軍事和商業等各領域高速發展,得到了廣泛的應用。Dialog國際聯機情報檢索系統是這一時期的信息檢索領域的代表,至今仍是世界上最著名的系統之一。
搜索引擎工作流程
互聯網是一個寶庫,搜索引擎是打開寶庫的一把鑰匙。然而,絕大多數網民在搜索引擎的相關知識及使用技巧上能力不足。國外的一次調查結果顯示,約有71%的人對搜索的結果感到不同程度的失望。作為互聯網的第二大服務,這種狀況應該改變。
互聯網的迅速發展,導致了網上信息的爆炸性增長。全球目前的網頁超過20億,每天新增加730萬網頁。要在如此浩瀚的信息海洋里尋找信息,就像「大海撈針」一樣困難。搜索引擎正是為了解決這個「迷航」問題而出現的技術。
搜索引擎的工作包括如下三個過程:
1.在互聯中發現、搜集網頁信息;
2.對信息進行提取和組織建立索引庫;
3.再由檢索器根據用戶輸入的查詢關字,在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並將查詢結果返回給用戶。
發現、搜集網頁信息
需要有高性能的「網路蜘蛛」程序(Spider)去自動地在互聯網中搜索信息。一個典型的網路蜘蛛工作的方式,是查看一個頁面,並從中找到相關信息, 然後它再從該頁面的所有鏈接中出發,繼續尋找相關的信息,以此類推,直至窮盡。網路蜘蛛要求能夠快速、全面。網路蜘蛛為實現其快速地瀏覽整個互聯網,通常在技術上採用搶先式多線程技術實現在網上聚集信息。通過搶先式多線程的使用,你能索引一個基於URL鏈接的Web頁面,啟動一個新的線程跟隨每個新的URL鏈接,索引一個新的URL起點。當然在伺服器上所開的線程也不能無限膨脹,需要在伺服器的正常運轉和快速收集網頁之間找一個平衡點。在演算法上各個搜索引擎技術公司可能不盡相同,但目的都是快速瀏覽Web頁和後續過程相配合。目前國內的搜索引擎技術公司中,比如網路公司的網路蜘蛛採用了可定製、高擴展性的調度演算法使得搜索器能在極短的時間內收集到最大數量的互聯網信息,並把所 獲得的信息保存下來以備建立索引庫和用戶檢索。
索引庫的建立
關繫到用戶能否最迅速地找到最准確、最廣泛的信息,同時索引庫的建立也必須迅速,對網路蜘蛛抓來的網頁信息極快地建立索引,保證信息的及時性。對網頁採用基於網頁內容分析和基於超鏈分析相結合的方法進行相關度評價,能夠客觀地對網頁進行排序,從而極大限度地保證搜索出的結果與用戶的查詢串相一致。新浪搜索引擎對網站數據建立索引的過程中採取了按照關鍵詞在網站標題、網站描述、網站URL等不同位置的出現或網站的質量等級等建立索引庫,從而保證搜索出的結果與用戶的查詢串相一致。
本文來自CSDN博客,轉載請標明出處:http://blog.csdn.net/xdtech/archive/2009/09/22/4579795.aspx
B. 舉例說明《中國學術期刊全文資料庫》的檢索方法和技巧
文獻信息檢索與利用基本知識介紹
第二屆華僑華人文獻信息檢索與利用講座講義(二)
主講人 覃建寧
一、網上電子資源檢索與利用
l 檢索方法的使用
1、布爾邏輯檢索
所謂布爾邏輯檢索(Boolean Logical)是用布爾邏輯算符將檢索詞、短語或代碼進行邏輯組配,指定文獻的命中條件和組配次序,凡符合邏輯組配所規定條件的為命中文獻,否則為非命中文獻。
常用的布爾邏輯運算有三種,分別是邏輯或、邏輯與、邏輯非。
邏輯或:運算符為「OR」、「or」、「+」,有時也可以用「|」表示。
檢索式A OR B ,表示包含檢索詞A的文獻或包含檢索詞B的文獻或者同時包含A和B的文獻均為命中文獻。使用邏輯或相當於增加檢索主題的同義詞與近義詞,擴大了檢索范圍。
例:華僑 OR 華人
邏輯與:運算符為「AND」、「and」、「*」,有時也可能用「&」表示。
檢索式A AND B,表示文獻中同時包含檢索詞A和檢索詞B的文獻才是命中文獻。使用邏輯與縮小了檢索范圍,增強了檢索的專指性。
例:華僑 AND 馬來西亞
邏輯非:運算符為「NOT」、「not」、「-」,有時也可能用「!」表示。
檢索式A NOT B,表示包含檢索詞A同時不包含檢索詞B的文獻為命中文獻。邏輯非排除了不希望出現的檢索詞,增強了檢索專指性。但在使用時要特別注意,因為它同時排除了有用的文獻。
例:華僑 NOT 馬來西亞
上述三種邏輯運算的關系見圖3.1。對於一個復雜的邏輯檢索式,檢索系統的處理是從左向右進行的。在有括弧的情況下,先執行括弧內的運算;有多層括弧時,先執行最內層括弧中的運算,逐層向外進行。在沒有括弧的情況下,And、Or、Not的運算次序,在不同的系統中有不同的規定,例如DIALOG系統中依次為Not→And→Or;STAIRS系統和ORBIT系統中依次為And和Not按自然順序執行,然後執行Or運算。檢索時應注意了解各機檢系統的規定。
每個搜索引擎可以使用的布爾運算符是不同的,有的只允許使用大寫的「AND」、「NOT」、「OR」運算符,有的大小寫通用,有的可支持「&」、「|」、「!」符號操作,有的不支持或僅支持其中的一個等等。
例如,Google和"Yahoo!中國"都支持布爾邏輯檢索。Google可用"AND"、"and"、"&"進行邏輯"與"運算,但只能用大寫"OR"表示邏輯"或",不支持"NOT"邏輯符操作,允許使用"-"符號代替邏輯"非"運算;"Yahoo!中國"可用"AND"、"and"、"&"進行邏輯"與"運算,以"OR"進行邏輯"或"運算,以"NOT"、"not"進行邏輯"非"運算。
確切地知曉每一種搜索引擎的檢索功能與特性,無需死記硬背。只要在使用時,查看幫助信息便是了。
2、片語檢索
片語檢索(phrase),也稱為短語檢索,或字元串檢索。它是將一個片語或短語用雙引號「""」括起作為一個獨立運算單元,進行嚴格匹配,以提高檢索准確度的一種方法。檢索結果必須含有與提問式完全一樣 ( 包括次序 ) 的字串。幾乎所有的搜索引擎都支持片語檢索。
例如,以"僑務新聞"作為提問關鍵詞檢索時,檢索結果則僅反饋僑務新聞的內容。
3、 位置檢索
位置檢索(Proximate)是在檢索詞之間使用位置算符(也稱鄰近算符Adjacent Operators),來規定算符兩邊的檢索詞出現在記錄中的位置,從而獲得不僅包含有指定檢索詞而且這些詞在記錄中的位置也符合特定要求的記錄。這種方法能夠提高檢索的准確性,當檢索的概念要用片語表達,或者要求兩個詞在記錄中位置相鄰/相連時,可使用位置算符。機檢系統中常用的位置算符(按限制強度遞增順序排列)如下:
(1).(f)算符Field:要求被連接的檢索詞出現在同一欄位中,欄位類型和詞序均不限。例如 happiness(f)sadness and crying
(2).(s)算符Sub-field/Sentence:要求被連接的檢索詞出現在同一句子(同一子欄位)中,詞序不限。例如 machine(s)plant
(3).(n)算符near:(n)要求被連接的檢索詞必須緊密相連,詞之間除允許有空格、標點、連字元外,不得夾單詞或字母,詞序不限;(Nn)表示兩個檢索詞之間最多可以夾N個詞(N為自然數1、2、3…),且詞序任意。例如 information(n)retrieval 可以檢出 information retrieval 和 retrieval information,又如econom ?? ?(2n) recovery 可以檢出economic recovery、recovery of the economy 、recovery from economic troubles
(4).(w)算符With:(w)要求檢索詞必須按指定順序緊密相連,詞序不可變,詞之間除允許有空格、標點、連字元外,不得夾單詞或字母;(Nw)表示連接的兩個詞之間最多可夾入N個詞(N為自然數),詞序不得顛倒。例如 input(w)output可檢出input output而wear(1w)materials可檢出wear materials、wear of materials
採用位置算符檢索時,通常最嚴謹的算符放在最左面,例如:
european(w)economic(w)community(f)patio,
redwood(3n)deck?(s)(swimming(w)pool?)
注意:不同的機檢系統,位置檢索的功能及算符不同,應參看機檢系統的說明。
4、截詞檢索
截詞檢索(Truncation)是指用給定的詞干做檢索詞,查找含有該詞乾的全部檢索詞的記錄,也稱詞干檢索或字元屏蔽檢索。它可以起到擴大檢索范圍,提高查全率,減少檢索詞的輸入量,節省檢索時間,降低檢索費用等作用。檢索時,若遇到名詞的單復數形式,詞的不同拼寫法,詞的前綴或後綴變化時,均可採用此方法。
截詞的方式有多種,按截斷部位可分為右截斷、左截斷、中間截斷、復合截斷等;按截斷長度可以分為有限截斷和無限截斷。
(1).右截斷:截去某個詞的尾部,是詞的前方一致比較,也稱前方一致檢索。例如:輸入geolog?(?為截斷符號),將會把含有geological、geologic、geologist、geologize、geology等詞的記錄檢索出來。若輸入PY=199?,會把90年代的記錄全部查出來。
(2).左截斷:截去某個詞的前部,是詞的後方一致比較,也稱後方一致檢索。例如:輸入?magnetic 能夠檢出含有magnetic、electromagnetic、paramagnetic、thermo-magnetic等詞的記錄。
(3).中間截斷:截去某個詞的中間部分,是詞的兩邊一致比較,也稱兩邊一致檢索。例如:輸入organi?ation可以檢出organization、organisation;輸入f??t可查出foot、feet。
(4).復合截斷:是指同時採用兩種以上的截斷方式。例如?chemi?可以檢出chemical、chemist、chemistry、electrochemistry、electrochemical、physicochemical、thermochemistry等。
(5).有限截斷:是指允許截去有限個字元。例如「acid? ?」表示截去一個字元,它可檢出acid、acids,但不能檢出acidic、acidicity、acidity等詞。又如comput??? ?可檢出compute、computer、computers、computing等詞,不能檢出computable、computation、computerize等詞。注意:詞干後面連續的數個問號是截斷符,表示允許截去字元的個數,最後一個問號是終止符,它與截斷符之間要有一個空格,輸入時一定要注意。
(6).無限截斷:是指允許截去的字元數量不限,也稱開放式截斷。上面右截斷、左截斷所舉的例子均屬此類型。
由上述可見:任何一種截詞檢索,都隱含著布爾邏輯檢索的「或」運算。採用截詞檢索時,既要靈活、又要謹慎,截詞的部位要適當,如果截得太短(輸入的字元不得少於3個),將增加檢索雜訊,影響查准率。另外,不同的機檢系統使用的截詞符不同、各資料庫所支持的截斷類型也不同,例如DIALOG系統和STN系統用?、ORBIT系統用:、BRS系統用$、ESA-IRS系統用+等。
5、 欄位檢索
欄位檢索(field)是一種用於限定提問關鍵詞在資料庫記錄中出現的區域,控制檢索結果的相關性,提高檢索效果的檢索方法,多以欄位限定方式實現。搜索引擎常用的欄位有:Title/t、Subject、Text、host(主機)、URL/u、domain(域名)、link(鏈接)等。
Title:(或t:)表示查找標題中包含檢索提問式的頁面;
URL:(或/u:)表示查找URL中包含檢索提問式的頁面;
Link:表示查找含有鏈接至URL的頁面;
host:表示在指定的伺服器上查找頁面;
domain:表示查找指定域名的各頁面;
subject:表示查找主題中包含檢索提問式的頁面;
text:表示文本中包含檢索提問式的頁面。
l 資料庫檢索的常用方法和技巧
1、資料庫常用的檢索欄位有哪些?
資料庫常用的檢索欄位列表:
西文資料庫常用欄位 中文資料庫常用欄位
欄位名稱 欄位代碼
Abstract AB 文摘
Author AU 作者
Corporate CS 機構名稱
Descriptor/Subject DE 敘詞/主題詞
Document Type DT 文獻類型
Full-text FT 全文
ISSN ISSN 國際標准連續出版物號
Journal Name/Publication Title JN 期刊名稱
Keyword/Topic KW 關鍵詞
Langage LA 語言
Publication Year PY 出版年
Title TI 題名
2、如何擴大檢索范圍?
對檢索數量比較少的結果,可以進行擴檢,提高查全率。常用措施有:
增加一些檢索詞,或將查詢檢索詞的上位類詞、近義詞等補充進去;
調整組配算符,如改AND為OR;
使用截詞檢索,如改center為cent*;
取消或放寬一些檢索限定,如年限、學科、文種等;
增加或修改檢索入口,如改題名為文摘或全文等。
3、如何進行縮小檢索范圍?
檢索結果過多是信息檢索過程中一個常見問題,從中挑選出相關度高的資料還要花費很長時間。當檢索結果過多時可考慮進行縮檢,提高查准率。常用措施與擴檢相反,如減少一些相關性不強的檢索詞,增加AND組配算符,增加檢索限定,減少檢索入口等。
4、資料庫比較通用的檢索功能主要有哪些?
比較通用的檢索功能主要有三種:
簡單檢索:為用戶提供一個簡單的檢索界面,頁面上通常只有一個檢索框。
復雜檢索:為專業用戶、資深用戶提供的比較復雜的檢索界面,可以構建比較細致的檢索式,幫助用戶進行精確檢索。
二次檢索:在檢索結果內進一步檢索,使檢索結果更精練、准確。
5、科技文獻類型有哪些?如何識別?
科技文獻類型主要包括:科技圖書、科技期刊、科技報告、專利文獻、會議文獻、學位論文、標准文獻、產品資料、技術檔案、政府出版物等。
類型 常用字樣
科技圖書 Sci-Tech book:Monograph, Anthology, Textbook,Reference book
科技期刊 Sci-Tech Journal:magazine, serial, periodical
科技報告 Sci-Tech Report
專利文獻 Patent Document:Patent specification/bulletin/aids
會議文獻 Conference paper:Proceedings, compilation, collected paper, records Meeting: workshop, seminar, colloquium, symposium, conference
學位論文 Dissertation, Thesis
6、如何找到與課題相關的文獻?
首先應利用本領域的核心資料庫。即根據課題內容歸納出中、英文關鍵詞,盡可能檢索可以利用的、與課題相關的文獻信息資料庫,從而獲得相關文獻;
其次注意通過引文途徑進一步獲取相關文獻。即利用已有文獻中的參考文獻作為獲取新文獻的線索,通過檢索引文資料庫獲得更多文獻;
有時通過瀏覽相關學會和研究機構的網站也能得到一些有用的信息。
最後從檢索結果中選出最感興趣的若干篇文獻,根據文獻的出處設法獲取原文。
7、如何識別資料庫的學科範圍?
一般資料庫都有自己特定的學科範圍、文獻類型。選擇資料庫時,關鍵是識別所選資料庫中是否收錄了所查找學科主題范圍內的文獻,是否有所需要的文獻類型。識別方法:
通過資料庫收錄的來源期刊的學科範圍識別;
通過圖書館網站中資源推介欄目中描述的每種資料庫的學科範圍來識別;
8、如何選擇最適合自己的資料庫?
選擇資料庫時要考慮以下幾個因素:
所需信息的水平:廣度、深度、專指度、學術性。
文獻類型:報紙、雜志、學術期刊、商業期刊、學位論文、會議文獻和科技報告等。
資料庫主題范圍:專業資料庫還是綜合性資料庫。
資料庫時間跨度:當你所需信息超出資料庫收錄文獻的時間跨度時,可查圖書館館藏資料庫的印本文獻。
另外,一定要多試幾個資料庫,因為不同資料庫的收錄范圍不同,甚至同一學科領域的資料庫收錄范圍也不相同。如果還有疑問,可向圖書館員咨詢請他們推薦合適的資料庫。
l 資料庫檢索策略
所謂檢索策略,廣義講是指為實現檢索目標而制定的全盤計劃和方案;狹義講是指檢索式。檢索式是用來表達用戶檢索提問的邏輯表達式,是檢索策略的綜合體現,通常由檢索詞和各種邏輯算符、位置算符及系統規定的其它連接符號構成。
在聯機檢索中,檢索策略直接關繫到檢索結果的成敗,需要對檢索課題進行深入的分析並能運用各種檢索方法和技巧。
一般來說,構造檢索策略通常包括以下步驟:
1. 分析課題。
2. 選擇資料庫。
3. 分析概念,選擇檢索詞
4. 構造檢索式
5. 進行檢索
6. 獲取全文
以下舉例說明這些過程,假設我們要檢索華僑華人文獻信息專題資料庫建設方面的資料,
1.分析課題
現在,我們分析這個課題並描述之,顯然,本課題可描述為:華僑華人文獻信息專題資料庫建設。
另外,在明確了檢索課題的主題內容後,還應預期得到什麼樣的檢索結果,是專業文獻還是一般性或通俗文章,對文獻類型、時間范圍及地理范圍有無特殊要求等。
顯然,課題要求得到有關該主題的專業文獻。
2. 選擇資料庫。
選擇資料庫時要考慮以下幾個因素:
所需信息的水平:廣度、深度、專指度、學術性。
文獻類型:報紙、雜志、學術期刊、商業期刊、學位論文、會議文獻和科技報告等。
資料庫主題范圍:專業資料庫還是綜合性資料庫。
資料庫時間跨度:當你所需信息超出資料庫收錄文獻的時間跨度時,可查圖書館館藏資料庫的印本文獻。
另外,一定要多試幾個資料庫,因為不同資料庫的收錄范圍不同,甚至同一學科領域的資料庫收錄范圍也不相同。如果還有疑問,可向圖書館員咨詢請他們推薦合適的資料庫。
分析本課題,我們可以選擇維普和中國期刊網進行檢索。
3.分析概念,選擇檢索詞
一個檢索課題往往涉及多個概念,這一步的任務就是將檢索課題涉及的所有概念分離出來,並針對每一個概念選擇盡可能多的檢索詞。分析概念可從課題名稱入手。如本例中,「華僑華人」、「文獻」、「信息」、「資料庫」即為概念詞。
4.構造檢索式
構造檢索式需要使用各種檢索技術,如根據概念之間的邏輯關系需使用布爾邏輯檢索技術,根據詞與詞之間的位置關系需使用位置檢索等,關於信息檢索技術的詳細內容,詳見前述內容。
本例中,我們根據這幾個概念詞邏輯關系,構造如下檢索式:
華人華人*文獻*信息*資料庫
5.入庫檢索
進入相關資料庫,如維普資料庫,輸入以上檢索策略式
6.獲取全文
注意,不同的資料庫系統獲取全文的方式不完全一致,具體操作請參閱分庫使用指南。
l 免費電子報刊、電子圖書、電子論文的查找
1、本館的電子資源
說明:只有校園網用戶(包括校園寬頻網用戶和校園網撥號用戶)才能使用本館的網路資料庫;如果設置了代理伺服器,請去掉代理伺服器後再使用;在網路中心申請的出國代理不影響資料庫的使用。本館資料庫都有詳細的檢索幫助,如有困難,可參看幫助。
u 萬方資料庫
學位論文全文、數字期刊都有人文科學類,可以查到華僑華人研究的論文和資料。
u PQDD
美國博、碩士論文 1861年至今,可看到前24頁全文。
u UMI博士論文全文庫
美國博、碩士論文全文 提供PQDD論文全文。時間從1998年起至2003年。 注意:從PQDD中檢索到並非都能在此找到全文。
u 中國學術期刊網
期刊全文 要下載安裝CAJ瀏覽器。
u 維普中文期刊全文資料庫
要下載安裝維普全文瀏覽器。
u EBSCO
Academic Search Premier:綜合類期刊,可檢索到華僑華人方面的文章。
u SDOS
期刊全文 包含有社會科學。
u Kluwer
期刊全文 涵蓋20多個學科專題,包括生物法律、醫學、心理學、物理學、航空航天、哲學、數學、計算機科學、工程、電子工程、材料、地學、社會人文、化學、商業管理等
u 科學在線
期刊全文
數學 物理 天文學 地球科學 化學 材料科學 生物 醫學 計算機 環境科學 經濟 教育 歷史 哲學 心理學 社會科學,(免費期刊)
u 方正Apabi電子圖書
圖書全文 經濟、文學、藝術、數理化、生物、醫葯衛生、計算機科學
u 書生之家電子圖書
u NetLibrary 電子圖書
只能在線閱讀,不能下載。
2、互聯網上的電子資源
u HighWire Press (http://intl.highwire.org)
英文網站,需要出國帳號。
u CALIS高校學位論文庫 http://opac.calis.e.cn/
CALIS學位論文資料庫以合作建設、資源共享為目的,建立為高校師生提供學位論文和會議論文的查詢、文摘索引的瀏覽、全文提供(傳遞)等配套服務。
u 畢業論文網 http://www.bylw.com/
免費,不需要注冊,有相當數量的論文。
u 論文庫 http://www.syiae.com/lunwen/
u 論文帝國 http://www.papersempire.com/
u 168論文網 http://www.168lunwen.com/
u 學生大論文 http://paper.studa.com/
u 無憂論文網 http://www.51lunwen.com/
只提供文摘和目錄,想獲取全文需要交費。
u 論文資料網 http://www.51paper.net/
只提供文摘和目錄,想獲取全文需要交費。
u 超星數字圖書館 http://www.ssreader.com/
有超星數字卡即可使用,要下載安裝超星圖書閱覽器。
l 常用搜索引擎簡介
1、Google搜索引擎 http://www.google.com/intl/zh-CN/
目前最優秀的支持多語種的搜索引擎之一,也是全球最常用的搜索引擎。約搜索3,083,324,652 張網頁。提供網站、圖像、新聞組等多種資源的查詢。包括35個國家和地區的語言的資源。
2、網路中文搜索引擎 http://www..com
全球最大中文搜索引擎。提供網頁快照、網頁預覽/預覽全部網頁、相關搜索詞、錯別字糾正提示、新聞搜索、Flash搜索、信息快遞搜索、網路搜霸、搜索援助中心。
3、 一搜搜索引擎 http://www.yisou.com/
「一搜」是雅虎中國推出的一個中文搜索網站。目前設立了網頁、圖片、MP3和網址四個頻道。「一搜」採用雅虎花費數十億美元打造出的搜索技術(YST),用戶可以抓取到全球50億網頁(其中3億個中文網頁)、9000萬張圖片、100多萬個免費音樂的海量資料。
4、 中國搜索(原慧聰搜索) http://www.zhongsou.com/
中國搜索擁有全球領先的中文搜索引擎技術,現在已被新浪、搜狐、網易、TOM四大門戶,以及1400多家聯盟成員網站所採用。每天有數千萬次的搜索服務是通過中搜的技術實現的。與一般的搜索引擎相比,中國搜索具有網頁覆蓋率高、數據更新快、支持中文模糊查詢、強大的個性化查詢、智能查詢、內容相關性分析、便利的專業信息查詢等優勢,被公認為第三代智能搜索引擎的代表。
5、 新浪分類搜索引擎 http://www.sina.com.cn
互聯網上規模最大的中文搜索引擎之一。設大類目錄18個,子目1萬多個,收錄網站20餘萬。提供網站、中文網頁、英文網頁、新聞、漢英辭典、軟體、滬深行情、游戲等多種資源的查詢。
6、 搜狐分類搜索引擎 http://www.sohu.com
搜狐於1998年推出中國首家大型分類查詢搜索引擎,到現在已經發展成為中國影響力最大的分類搜索引擎。每日頁面瀏覽量超過800萬,可以查找網站、網頁、新聞、網址、軟體、黃頁等信息。
7、 網易分類搜索引擎 http://www.netease.com/
網易新一代開放式目錄管理系統。擁有近萬名義務目錄管理員。為廣大網民創建了一個擁有超過一萬個類目,超過25萬條活躍站點信息,日增加新站點信息500~1000條,日訪問量超過500萬次的專業權威的目錄查詢體系。
8、 北大天網中英文搜索引擎 http://e.pku.e.cn/
由北京大學開發,簡體中文、繁體中文和英文三個版本。提供全文檢索、新聞組檢索、FTP檢索(北京大學、中科院等FTP站點)。目前大約收集了100萬個WWW頁面(國內)和14萬篇Newsgroup(新聞組)文章。支持簡體中文、繁體中文、英文關鍵詞搜索,不支持數字關鍵詞和URL名檢索。
9、 一些常用的英文搜索引擎
MSN Search、AOL Search、Terra Lycos、Altavista、ASK jeeves
二、館際互借介紹
·石牌六校館際互借
到本館辦理石牌六校通過閱覽證,即可到其他石牌六校中的任何一校的圖書館閱覽圖書資料。
l 清華大學、國家圖書館的館際互借
·服務內容
1、 清華大學圖書館
書、刊、會議論文、學位論文、報告、標准等文獻的復印件。另清華大學圖書館是國內館際互借中心,可代用戶向國內其他圖書館和國外圖書館申請復印。
2、中國國家圖書館
館藏中英文圖書的借閱及復印,包含如下文獻:
u 查詢參考工具書:網路全書、工具書、機構名錄、外文年鑒。中、英、俄等主要文種的社會及自然科學技術類文摘、索引。
u 國際組織和外國政府出版物:聯合國系統、歐洲共同體、經濟合作與發展組織及美國政府出版(圖書、期刊、文件)。
u 中國學位論文資料庫(1990-)(原文只提供紙本復印)
u 中國社科報刊資料庫(1993-)
u NTIS美國政府報告(1983-)
u 聲像資料
二〇〇四年十月二十八日
C. 常見的數據檢索演算法有哪些資料庫都採用什麼樣的檢索方式如何提高檢索的效率
您好,你的問題,我之前好像也遇到過,以下是我原來的解決思路和方法,希望能幫助到你,若有錯誤,還望見諒!信息檢索方法包括:普通法、追溯法和分段法。1、普通法是利用書目、文摘、索引等檢索工具進行文獻資料查找的方法。運用這種方法的關鍵在於熟悉各種檢索工具的性質、特點和查找過程,從不同角度查找。普通法又可分為順檢法和倒檢法。2、追溯法是利用已有文獻所附的參考文獻不斷追蹤查找的方法,在沒有檢索工具或檢索工具不全時,此法可獲得針對性很強的資料,查准率較高,查全率較差。3、分段法是追溯法和普通法的綜合,它將兩種方法分期、分段交替使用,直至查到所需資料為止。(3)信息檢索如何從資料庫里比較擴展閱讀檢索原因信息檢索是獲取知識的捷徑美國普林斯頓大學物理系一個年輕大學生名叫約瀚·菲利普,在圖書館里借閱有關公開資料,僅用四個月時間,就畫出一張製造原子彈的設計圖。他設計的原子彈,體積小(棒球大小)、重量輕(7.5公斤)、威力大(相當廣島原子彈3/4的威力),造價低(當時僅需兩千美元),致使一些國家(法國、巴基斯坦等)紛紛致函美國大使館,爭相購買他的設計拷貝。二十世紀七十年代,美國核專家泰勒收到一份題為《製造核彈的方法》的報告,他被報告精湛的技術設計所吸引,驚嘆地說:「至今我看到的報告中,它是最詳細、最全面的一份。」但使他更為驚異的是,這份報告竟出於哈佛大學經濟專業的青年學生之手,而這個四百多頁的技術報告的全部信息來源又都是從圖書館那些極為平常的、完全公開的圖書資料中所獲得的。參考資料來源:網路——信息檢索,非常感謝您的耐心觀看,如有幫助請採納,祝生活愉快!謝謝!