Ⅰ XML與關系資料庫的關系
資料庫技術及其應用系統經歷了從層次資料庫、網狀資料庫到關系資料庫以及面向對象資料庫的發展,在傳統的商業和事務處理領域內逐步成熟,取代了原有的基於文件系統的數據處理方式,成為計算機信息系統中的重要基礎和支柱。但隨著Internet的飛速發展,Web的出現改變了人們習慣的處理方式,也給資料庫技術提出了必須面對的重要問題:即如何有效地存儲和管理Web上的數據(文檔),使其既能被高效地操作和維護,又能在Internet平台上方便地表示和交換。
XML技術自出現以來發展非常迅速,在許多領域內得到廣泛的支持而有著廣闊的應用前景。例如電子數據交換、電子商務等更是將XML作為一種基礎性、支柱性的技術來看待。
1、資料庫簡史
資料庫系統是隨著計算機技術的不斷發展,在特定的歷史時期、特定的需求環境下出現的。在1946年的第一台計算機到20世紀60年代這漫長的20年裡,計算機操作系統主要局限於文件的操作,對數據的管理也主要是通過文件系統來實現。進行計算所需要的各種數據存放在各自的文件里,使用這些數據時將文件打開,讀取文件中的數據到內存中,當計算完畢後,將計算結果仍舊寫入到文件中去,它的不足主要集中在無法對數據進行有效的統一管理。針對文件系統的重要缺點,人們逐步發展了以統一管理數據和共享數據為主要特徵的系統,即資料庫系統。1964年,美國通用電氣公司開發成功了世界上的第一個資料庫系統IDS(IntegratedDataStore)。IDS奠定了網狀資料庫的基礎,並得到了廣泛的發行和應用,成為資料庫系統發展史上的一座豐碑。1969年,美國國際商用機器公司(IBM)也推出世界上第一個層次資料庫系統IMS(InformationManagement System),同樣在資料庫系統發展史上佔有重要的地位。
70年代初,E.F.Codd在總結前面的層次、網狀資料庫優缺點的基礎上,提出了關系數據模型的概念及關系代數和關系演算。在70年代,關系資料庫系統無論從理論上還是實踐上都取得了豐碩的成果。在理論上確立了完整的關系模型理論、數據依賴理論和關系資料庫的設計理論;在實踐上,世界上出現了很多著名的關系資料庫系統,比較著名的如SystemR、INGRES、Oracle等。
與文件系統相比,資料庫系統有幾個方面的特點:向用戶提供高級的介面;向用戶提供非過程化的資料庫語言(即SQL語言);查詢的處理和優化;並發控制;數據的完整性約束。
進入80年代之後,計算機硬體技術的飛速提高促使計算機應用不斷深入,產生了許多新的應用領域,例如計算機輔助設計、計算機輔助製造、計算機輔助教學、辦公自動化、智能信息處理、決策支持等。這些新的領域對資料庫系統提出了新的要求。但由於應用的多元化,不能設計出一個統一的數據模型來表示這些新型的數據及其相互關系,因而出現了百家爭鳴的局面,產生了演繹資料庫、面向對象資料庫、分布式資料庫、工程資料庫、時態資料庫、模糊資料庫等新型資料庫的研究和應用。
2、XML簡介
XML推薦標准1.0版發布於1998年2月,之後迅速在全球掀起了XML應用的浪潮。XML是一種描述型的標記語言,與HTML同為SGML(標准通用標記語言,ISO-8879國際標准)的一種應用。由於XML在可擴展性、可移植性和結構性等方面的突出優點,它的應用范圍突破了HTML所達到的范圍。
一篇XML文檔由標記和內容組成。XML中有六種標記:元素(elements)、屬性(attributes)、實體引用(entityreferences)、注釋(comments)、處理指令(processinginstructions)和CDATA段(CDATAsections)。XML與HTML最顯著的不同是XML文檔中引入了「文檔類型聲明」(Document Type Declarations)。DTD使文檔可以與分析器交流關於它的內容的元信息。DTD的出現,賦予了XML文檔可擴展性、結構性和可驗證性,使XML具備了類似於資料庫的一些性質,可以利用XML來組織和管理信息;又可以與HTML一樣在瀏覽器中方便地表示,在Internet上高效地傳遞和交換。考慮到與HTML的兼容,DTD並不是XML文檔必需的成份。具有DTD的XML文檔稱作「Valid」,否則就是「Well-formed」。
目前,處理XML文檔的方式主要有SAX與DOM兩種。SAX(SimpleAPIforXML)是一種基於流的、以事件處理方式工作的介面。SAX 2.0在2000年5月發布,增強了許多功能,包括對名字空間的支持。DOM(Document Object Model)則是在對XML文檔進行分析後,在內存中建立起一個完整的樹結構,然後在此基礎上進行各種操作。簡單地比較來看,SAX對系統資源要求低、速度快,但對文檔的操作是只讀的;DOM的處理能力強大,但要求大量的系統資源,尤其是對於大的文檔。而後還出現了Xpath和Xpointer用以完成XML的搜索和轉換;XSL、XSLT和SOAP用以完成XML的遠程對象訪問,XML Query Languages的出現使XML查詢語言可用於任何XML文檔。
3、XML與資料庫
XML文件是數據的集合,它是自描述的、可交換的,能夠以樹型或圖形結構描述數據。XML提供了許多資料庫所具備的工具:存儲(XML文檔)、模式(DTD,XMLschema,RE1AXNG等)、查詢語言(XQuery,XPath,XQL,XML-QL,QUILT等)、編程介面(SAX,DOM,JDOM)等。但XML並不能完全替代資料庫技術。XML缺少作為實用的資料庫所應具備的特性:高效的存儲、索引和數據修改機制;嚴格的數據安全控制;完整的事務和數據一致性控制;多用戶訪問機制;觸發器、完善的並發控制等。因此,盡管在數據量小、用戶少和性能要求不太高的環境下,可以將XML文檔用作資料庫,但卻不適用於用戶量大、數據集成度高以及性能要求高的作業環境。
隨著Web技術的不斷發展,信息共享和數據交換的范圍不斷擴大,傳統的關系資料庫也面臨著挑戰。資料庫技術的應用是建立在資料庫管理系統基礎上的,各資料庫管理系統之間的異構性及其所依賴操作系統的異構性,嚴重限制了信息共享和數據交換范圍;資料庫技術的語義描述能力差,大多通過技術文檔表示,很難實現數據語義的持久性和傳遞性,而數據交換和信息共享都是基於語義進行的,在異構應用數據交換時,不利於計算機基於語義自動進行正確數據的檢索與應用;資料庫屬於高端應用,需要昂貴的價格和運行環境。而隨著網路和Internet的發展,數據交換的能力已成為新的應用系統的一個重要的要求。XML的好處是數據的可交換性(portable),同時在數據應用方面還具有如下優點:(1)XML文件為純文本文件,不受操作系統、軟體平台的限制;(2)XML具有基於Schema自描述語義的功能,容易描述數據的語義,這種描述能為計算機理解和自動處理;(3)XML不僅可以描述結構化數據,還可有效描述半結構化,甚至非結構化數據。
4、XML文件的存儲
XML文件的存儲方式有三大類:(1)將文件存儲於文件系統(StoringDocumentsinthe File System);(2)將文件存儲於BLOB(Storing Documents in BLOBs),利用資料庫的事務管理、安全、多用戶訪問等優點。此外許多關系資料庫提供的檢索工具可以進行全文檢索、近似檢索、同義詞檢索和模糊檢索。其中某些工具將會支持XML,這樣就可消除將XML文件作為純文本檢索所帶來的問題。(3)將文件存儲於原生XML資料庫(Native XML Databases,NXD)。NXD是專用於存儲XML文件的資料庫,支持事務管理、安全、多用戶訪問、編程API和查詢語言等。與其它資料庫的唯一區別在於其內部模型是基於XML的。其中,最重要的存儲方式當屬原生XML資料庫。
4.1原生XML資料庫
原生XML資料庫(NativeXMLDatabases)為XML文檔定義了一個(邏輯)模型,並根據該模型存取文件。這個模型至少應包括元素、屬性、PCDATA和文件順序。其例子有XPath數據模型、XMLIn-foset以及DOM所用的模型和SAX 1.0的事件。它以XML文件作為其基本存儲單位,對底層的物理存儲模型沒有特殊要求。例如,它可以建在關系型、層次型或面向對象的資料庫之上,或者使用專用的存儲格式,比如索引或壓縮文件。
NXD最適於存儲以文檔為中心的文件。這是由於NXD保留了文件、順序、處理指令、注釋、CDA-TA塊以及實體引用等,而支持XML的資料庫XED(XML-enableddatabase)無法做到。XED是在原有資料庫基礎上擴展了XML支持模塊,完成XML數據和資料庫之間的格式轉換和傳輸。從存儲粒度上,可以把整個XML文檔作為RDBMS表中一行,或把XML文檔進行解析後,存儲到相應的表格中。為了支持W3C的一些XML操作標准,Xpath、XED提供一些新的原語(如Oracle9iR2增加了一些數據包來操作XML數據等),並優化了XML處理模塊.
Ⅱ 文件格式
常用文件格式一點通
不同的文件,有不同的文件格式,區別這些文件格式常常是文件名的後綴名不同,現統計常用文件後綴名如下,供讀者參考和查閱。
BAT DOS下的批處理文件。Autoexec.bat為自動批處理文件,它是特殊的批處理文件。
EXE可執行的程序文件,與COM內部結構不相同,最突出是長度沒有限制。
COM可執行的二進制代碼系統程序文件,特點非常短小精焊,長度有限制。
ASM匯編程序文件為二進制代碼文件,可以打個比方,它就像BASIC中的.BAS程序文件一樣,為不可執行文件。
ASC代碼文件。
BAK備份文件
LIB程序庫文件
CHK檢查磁碟命令CHKDSK發現的目錄或文件分配表中的錯誤,校正系統後的文件。
TMP臨時文件
SYS系統配置文件,最典型的如config.sys,一般可以用EDIT進行編輯。
OBJ目標文件,源程序編譯輸出的目標代碼。
OLD備份文件,一般是一些程序對系統配置修改後將原文件復制一份存儲為該文件格式。
INI配置文件,不要以為這個文件只有Windows程序需要,DOS下程序也有不少需要它,如3DS與AutoCAD。
INF安裝配置文件,這在WIN95下使用較多。
HLP HELP幫助文件,這個文件一定要重視,因為它是你每使用一個新軟體的最好的說明書,幾乎99%的軟體都有這個文件,另外,DOS下的一些幫助放在README以後,幫助便沒有了,如UCDOS中的REAME.EXE;有單獨DOS的命令,若不知道怎麼使用,可以試試以下的命令格式:「DIR?或DIR/?」。
DDI早期映象文件,由DiskDUP IMGDRIVE IMG.EXE展開
IMG這個文件要注意,有時它是一個圖象文件,但更多的時候,它是映象文件,在早期光碟上,此文件使用最多,能常用HD-COPY IMG UNIMG都軟體進行解壓(註:IMG這個軟體為什麼一閃就沒了呢,這個軟體需要熱鍵激活,按下Ctrl+Alt+S+D+X),如果要安裝的軟體壓縮文件由和幾個IMG分開壓縮,那最好用UNIMG將它們全部解壓縮,然後安裝,它安裝時提示你「請插入X序列盤」。
ARJ ARJ(ARJ這個以前風眯一時的壓縮軟體誰人不曉)軟體壓縮的文件,它的壓縮比較高,使用也特方便順手,只需要「ARJ a -r -v……」
RAR這也是一個壓縮文件,傳說比ARJ壓縮比更高,筆者沒有親手做試驗,故不敢下空此結論。
ZIP當前最流行的壓縮文件,誰不知道ZIP呀,WINZIP,再也不是DOS下的那個UNZIG或PKZIP了,兼容,向下兼容,從游戲到軟體,差不多都是它壓縮的了。
IMD UCDOS中輸法的編碼字典文件。
PDV UCDOS中的自由表格UCTAB生成的表格文件,它生成的文件可以被WPS調用,也挺方便的。
BAS BASIC中的源程序文件,BASIC可為初學者最為熟悉的編輯語言,它的優點筆者就不在累贅了,注意QBASIC與QUICK BASIC和GW BASIC是有區別。
C C語言中的源程序文件,它不但造就了我們常常為之日夜奮戰的精彩電腦游戲,還創造出UNIX操作系統,有口皆碑的好編程軟體。
MAK C語言中的工程文件。
COB COBOL語言源程序文件。
PAS PASCAL語言源程序文件。
FOR FORTRAN語言源程序文件。
FOX FOXBASE偽編譯程序文件,比PRG短小運行速度快。
PRG FOXBASE過程程序文件。
DBF XBASE資料庫文件。
IDX FOXBASE中的索引文件。
LBL FOXBASE中的標簽文件。
FRM FOXBASE中的報表格式文件。
MEM FOXBASE中的內存變數文件。
FMT FOXBASE中的屏幕格式文件。
DBT FOXBASE中的資料庫文件的輔助文件。
DBC為FOXPRO中的資料庫名。
PJX Visual FoxPro下的項目文件與輔助文件PJT結合成項目管理管理文件。
RTF Rich的文本文件格式。
TXT純文本文件格式,可以利用TYPE以及EDIT或者記事本等任何字處理程序打開,對它顯示編輯。
WPS文檔文件,是由著名國產軟(WPS)(WORD PROCESSING SYSTEM)生成。由於WPS歷經滄桑,經歷了WPS1.0 2.2WPS30F WPSNT以及現在的WPS98眾多版本,但是沒有像WORD一樣提供轉換程序,一般高版本的WPS可以讀出低版本的文件,對於低版本能不能讀出高版本的文件,筆者沒有一一做出試驗,故不敢輕易下結論,只試驗過UCDOS下的WPS讀不出由WPSNT編輯的文件;另外對於WPS97的文件,你根本就不要用DOS版本去讀,百分之百讀出來,其實相互轉換也不大困難,只要你在存檔時選擇以TXT純文本格式存檔也就不存在什麼版本高低了。(WPS97中不要放圖片)
%A%%B% WPS中的臨時文件,注意清除OVL覆蓋文件,如WPS.VOL1。
DOC文檔文件,是由軟體霸主Micrsoft Word生成,也有一部分是由WORD PERFECT生成,此文件也是版本眾多有Wihdows下面的WORD5.0 6.0生成,還有WIN95下WORD7.0 WORD97,它們相互兼容性比較好,高版本可以輕松讀取低版本文件,而且高版本也可以以低版本的格式進行存儲,有人說WINDOWS中的書寫器也能讀出DOC,但筆者試驗,讀取WORD7.0以上的DOC都是一些亂碼,而且格式里也註明只能讀出DOS版的DOC。
PCS為POWERPOINT中的圖象文件,為矢量圖形文件。
XLS電子表格EXCEL的格式文件。
FNT為Bezier(貝氏)類型字體的文件。
TTF True Type字體文件,是一種輪廓字模,是由Apple和Microsoft合作開發的。Windows3.1下直接支持True Type字模。
FOT是True Type字體文件的資源文件,正因為FOT文件中含有指向TTF的指針。所以我們的字體文件(TTF)才可以放在任何目錄下面,而不必提心系統找不到。
PFB Adobe TYPE1字體Post Script字模文件,必須使用Adobe Type Manager管理安裝使用,它的最大優點是放大時比TTF字幕可靠得多。
PS1為WPS下擴展字型檔文件,PS2一般為繁體。
REC Windows中記錄器中的宏命令文件。
CRD Windows中的卡版盒文件。
PIF Windows中的運行非WINDOWS應用程序建立的一個文件。
WRI文檔文件,是由WINDOWS中書寫器生成的。
DRV驅動程序文件。
VXD虛擬設備文件
GRP Windows程序組文件。
ANI WIN95中動畫滑鼠指針文件。
DLL Windows下應用程序中的動態連結庫文件。
SCR WINDOWS屏幕保護程序文件
MP2 MP3當前最流行的音樂文件,音質可於CD音質媲美,採集率達44.1KHZ,由於它文件格式又非常小,需要一個叫WINAMP的軟體和一個叫抓音軌的軟體,如果通過音效卡直接就能將錄音帶上的歌曲錄製成WAV文件,再轉化為MP3,播放時需要硬體配置不是太高。
SND在WIN95下同WAV文件圖標大同小異,小喇叭的顏色是綠色,是聲音文件的剪輯文件。
VOC VOC文件是隨音效卡一起誕生的一種常見數字聲音文件,主要用於DOS程序(特別游戲),VOC與波形文件可方便轉換。
WAV Windows所使用的標准數字音頻文件,也稱波形文件,它能夠重現各種單聲道或立體聲的聲音,是最常用的聲音文件。
MID這個是音樂發燒友最熟悉不過的文件格式,是「樂器數字介面」(Musical lnstrument Digital interface)讀作middy「迷笛」。mid文件最受人於睞的是占的空間小,與wav相比不是音樂采樣,而是將每個音符記錄為一個數字,mid標准規定了各種音調的混合及發音,通過輸出裝置可以將這些數字重新合成為音樂。它的缺點是有點太電子琴味。
RMI CMI CMF(Creative Music File)是mid幾個變通格式,它們都同音效卡一起誕生,現在一般很少,它們有些可以同mid相互轉換,用CMF2MID小軟體。
PCX是微機上使用最廣泛的圖像格式之一,能表現真彩圖像。
BMP是Windows所使用的基本點陣圖格式,是小畫筆就能輕松創建的文件,另外提醒你BMP有壓縮(RLE方法)和非壓縮,我們常用是非壓縮,bmp還有一個OS/2的版本,與Windows有區別。
GIF GIF在網頁中佔有獨一無二的地位,美中不足是顏色最多為(256色)8位,與其它圖象文件相比,GIF高人一招,它是唯一可以存儲動畫的圖像格式。
PSD PDD點陣圖文件,均為大名鼎鼎的圖象大師Adobe Photoshop直接生成的圖象文件。
CGM(Computer Graphics Metafile)是壓縮的矢量圖形文件,WINWORD可以打開。
HGL(HP Graphic Language)是HP公司創建的一種矢量圖形語言。
WPG(DrawPerfect)矢量文件。
TIF最初用於掃描儀和桌面出版業,TIF程式圖像可以是RGB真彩色的。
TGA點陣圖文件,為Targa公司開發的支持8位到32位顏色深度圖像文件,結構簡單,少有變化,易轉換。
VDA ICB VST與TGA相似,均為Targa公司開發的點陣圖文件。
JPG JPE原是Apple Mac機器上使用的一種圖像格式,現在意在PC機上大行其道,由於其壓縮比可以調節,而且失真又很小,所以無論是網路上還是圖像處理上都是使用很廣泛的。
PIC同上,Lotus 1-2-3的圖表文件也叫PIC文件,使用時請注意。
PCD是PhotoCD專用存儲格式,由於其文件特別大,不得不存在CD-ROM上,但應用特別廣。
EPS(Encapsulared postScrip)是Adobe System公司的PostScrip頁面描述語言的產物,是矢量圖形文件。
WMF (Windows MetaFile)是特殊文件,是點陣圖和矢量圖混血兒,桌面格式,可以在Windord與Offices組件中ClipArts最常用的格式可以在WinWord的DRAW中隨意拆開編輯。
AI 矢量格式,是久負盛名的繪圖軟體Adobe lllustrator文件格式。
CDR矢量格式,是Corel Draw!標准文件格式。
CPT點陣圖和矢量圖都有,是Corel PHOTO-PAINT的文件格式。
CDT Corel Draw中的模板文件。
CMX Corel Draw展示交換文件。
CMV是Corel MOVE平面動畫軟體中的動畫演示文件。
DXF矢量格式,CAD與3ds玩家可能都知道,是AutoCAD的繪圖交換文件。
3DS矢量格式,為3D Studio的動畫原始圖形文件,含有紋理和光照信息。
SHP矢量格式3DS中的造型文件。
CEL 3DS中的貼圖文件。
MLI 3DS中的材質庫。
DRW矢量格式Micrografx Designer使用的繪圖文件格式。
WPG矢量/格式,是Word Perfect使用的文件格式。
FLI動畫文件,是由AutoDesk公司開發的,只支持320×200×256色模式,它是FLC的老祖宗。
FIC動畫文件,是AutoDesk公司開發的,與FLI相比是青出於藍勝於藍的產物:文件的解析度和顏色數都有所提高,它與FLI在Windows中播放需要專用MCI驅動和相應的播放程序APPlay。
MMM動畫文件,是MacroMind公司著名多媒體寫作軟體Director生成的,一般集成在完整的應用程序中,單獨出現的文件很少。
AVI視頻與音頻交錯文件(Audio-Video lnter leaved音頻-視頻交錯)它將視頻音頻交錯混合在一起,AVI文件使用的壓縮方法好幾種,主要使用有損方法,壓縮比較高,與FLC和MOV相比,畫面質量不太好,在Windows下播放需要安裝VIDEO For Windows驅動程序,AVI在多媒體中應用較多廣,一般視頻採集直接採集的素材便為AVI格式,編輯的它的軟體也不少,如Video Pack Adobe Premiere,
MPG視頻文件,PC機上的全屏幕活動視頻的標准文件,採用MPEG方法進行壓縮的全運動視頻圖像,可於1024×768的解析度下每秒30幀速率播放128000種顏色和同步CD音質的伴音,是極為理想的視頻影像文件
DAT視頻影像文件,是Video CD(VCD)或Karaoke CD(卡拉OK CD)基於MPEG壓縮方法的一種,注意它同數據文件同名
MOV視頻影像,同樣採用有損壓縮方法,在Windows下必須安裝QuickTime程序才能播放,它是從蘋果機移植到PC上的,比AVI畫面質量要好一些,其實你拿一個AVI文件做一下比較也就不難看出了。
HTM超文本文件,INTERNET網上訪問WWW,是在HTM文件的的海洋里沖浪,對於超文本文件,說它是編程,可它也不像編程,現在要建立它,一點也不困難,有關的介紹滿天飛,什麼HOME PAGE,在WIN98中,OFFICES97都可以方便的創建生成。它還有一些名字叫主頁、網,而且還與java關系特密切。Microsoft IE導航者中與NETCAPE航海家都能游覽它。
常用文件格式簡要說明
A 對象代碼庫文件
AAM Authorware shocked文件
AAS Authorware shocked包
ABF Adobe二進制屏幕字體
ABK CorelDRAW自動備份文件
ABS 該類文件有時用於指示一個摘要(就像在一篇有關科學方面的文章的一個摘要或概要,取自abstract)
ACE Ace壓縮檔案格式
ACL CorelDRAW 6鍵盤快捷鍵文件
ACM Windows系統目錄文件
ACP Microsoft office助手預覽文件
ACR 美國放射醫學大學文件格式
ACT Microsoft office助手文件
ACV OS/2的驅動程序,用於壓縮或解壓縮音頻數據
AD After Dark屏幕保護程序
ADA Ada源文件(非-GNAT)
ADB Ada源文件主體(GNAT);HP100LX組織者的約定資料庫
ADD OS/2用於引導過程的適配器驅動程序
ADF Amiga磁碟文件
ADI AutoCAD設備無關二進制繪圖儀格式
ADM After Dark多模塊屏幕保護;Windows NT策略模板
ADP FaxWork用於傳真數據機的交互安裝文件;Astound Dynamite文件
ADR After Dark薠
Ⅲ 文件的類型有多少種都用什麼方式打開
電腦文件類型共有多少種
ACE:Ace壓縮檔案格式
ACT:Microsoft office助手文件
AIF,AIFF:音頻互交換文件,Silicon Graphic and Macintosh應用程序的聲音格式
ANI:Windows系統中的動畫游標
ARC:LH ARC的壓縮檔案文件
ARJ:Robert Jung ARJ壓縮包文件
ASD:Microsoft Word的自動保存文件;Microsoft高級流媒體格式(microsoft advanced streaming
format,ASF)的描述文件;可用NSREX打開 Velvet Studio例子文件
ASF:Microsoft高級流媒體格式文件
ASM:匯編語言源文件,Pro/E裝配文件
ASP:動態網頁文件;ProComm Plus安裝與連接腳本文件;Astound介紹文件
AST:Astound多媒體文件;ClarisWorks「助手」文件
Axx:ARJ壓縮文件的分包序號文件,用於將一個大文件壓至幾個小的壓縮包中(xx取01-99的數字)
A3L:Authorware 3.x庫文件
A4L:Authorware 4.x庫文件
A5L:Authorware 5.x庫文件
A3M,A4M:Authorware Macintosh未打包文件
A3W,A4W,A5W:未打包的Authorware Windows文件
B
BAK:備份文件
BAS:BASIC源文件
BAT:批處理文件
BIN:二進制文件
BINHex:蘋果的一種編碼格式
BMP:Windows或OS/2點陣圖文件
BOOK:Adobe FrameMaker Book文件
BOX:Lotus Notes的郵箱文件
BPL:Borlard Delph 4打包庫
BSP:Quake圖形文件
BUN:CakeWalk 聲音捆綁文件(一種MIDI程序)
C
C0l:台風波形文件
CAB:Microsoft壓縮檔案文件
CAD:Softdek的Drafix CAD文件
CAM:Casio照相機格式
CAP:壓縮音樂文件格式
CAS:逗號分開的ASCⅡ文件
CCB:Visual Basic動態按鈕配置文件
CCH:Corel圖表文件
CCO:CyberChat數據文件
CCT:Macromedia Director Shockwave投影
CDA:CD音頻軌道
CDF:Microsoft頻道定義格式文件
CDI:Philip的高密盤交互格式
CDM:Visual dBASE自定義數據模塊文件
CDR:CorelDRAW繪圖文件;原始音頻CD數據文件
CDT:CorelDRAW模板
CDX:CorelDRAW壓縮繪圖文件;Microsoft Visual FoxPro索引文件
CFG:配置文件
CGI:公共網關介面腳本文件
CGM:計算機圖形元文件
CH:OS/2配置文件
CHK:由Windows磁碟碎片整理器或磁碟掃描保存的文件碎片
CHM:編譯過的HTML文件
CHP:Ventura Publisher章節文件
CHR:字元集(字體文件)
CHT:ChartViem文件;Harvard Graphics矢量文件
CIF:Adaptec CD 創建器 CD映像文件
CIL:Clip Gallery下載包
CIM:SimCity 2000文件
CIN:OS/2改變控制文件用於跟蹤INI文件中的變化
CLASS:Java類文件
CLP:Windows 剪貼板文件
CLL:Crick Software Clicker文件
CLS:Visual Basic類文件
CMD:Windows NT,OS/2的命令文件;DOS CD/M命令文件;dBASEⅡ程序文件
CPI:Microsoft MS-DOS代碼頁信息文件
CPL:控制面板擴展名,Corel顏色板
CPP:C++代碼文件
CPR:Corel提供說明書文件
CPT:Corel 照片-繪畫圖像
CST:Macromedia Director Cast文件
CUR:Windows游標文件
D
DBF:dBASE文件,一種由Ashton-Tate創建的格式,可以被ACT!、Lipper、FoxPro、Arago、Wordtech、Xbase和類似資料庫或與資料庫有關產品識別;可用數據文件(能被Excel
97打開);Oracle 8.1.x表格空間文件
DBX:DataBearn圖像;Microsoft Visual FoxPro表格文件
DCT:Microsoft Visual FoxPro資料庫容器
DCU:Delphi編譯單元文件
DCX:Microsoft Visual FoxPro資料庫容器;基於PCX的傳真圖像;宏
DIR:MacromediaDirector文件
DLL:動態鏈接庫
DOC:FrameMaker或FrameBuilder文檔;Word Star文檔、Word
Perfect文檔、Microsoft:Word文檔;DisplayWrite文檔
DOT:Microsoft Word文檔模板
DPL:Borland Delph 3壓縮庫
DRV:驅動程序
DRW:Micrografx Designer/Draw;Pro/E繪畫文件
DSF:Micrografx Designer VFX文件
DSG:DOOM保存的文件
DSM:Dynamic Studio音樂模塊(MOD)文件
DSP:Microsoft Developer Studio工程文件
DSQ:Corel QUERY(查詢)文件
DST:刺綉機圖形文件
DSW:Microsoft Developer Studio工作區文件
DTA:World Bank(世界銀行)的STARS數據文件
DTD:SGML文檔類型定義(DTD)文件
DTED:地面高度數字數據(圖形的數據格式)文件
DTF:Symantec Q&A相關的資料庫數據文件
DTM:DigiTrakker模塊文件
DUN:Microsoft拔號網路導出文件
DV:數字視頻文件(MIME)
DWG:AutoCAD工程圖文件;AutoCAD或Generic CADD老版本的繪圖格式
DXR:Macromedia Director受保護(不可編輯)電影文件
E
EDA:Ensoniq ASR磁碟映像
EDD:元素定義文檔(FrameMaker+SGML文檔)
EDE:Ensoniq EPS磁碟映像
EDK:Ensoniq KT磁碟映像
EDQ:Ensoniq SQ1/SQ2/Ks32磁碟映像
EDS:Ensoniq SQ80磁碟映像
EDV:Ensoniq VFX-SD磁碟映像
EFA:Ensoniq ASR文件
EFE:Ensoniq EPS文件
EFK:Ensoniq KT文件
EFQ:Ensoniq SQ1/SQ2/Ks32文件
EFS:Ensoniq SQ80文件
EFV:Ensoniq VFX-SD文件
EMD:ABT擴展模塊
EMF:Windows增強元文件
EML:Microsoft Outlook Express郵件消息(MIME RTC822)文件
EXE:可執行文件(程序)
F
FAV:Microsoft Outlook導航條
FAX:傳真類型圖像
FCD:虛擬CD-ROM
FDF:Adobe Acrobat表單文檔文件
FLA:Macromedia Flash電影
FND:Microsoft Explorer保存的搜索文件(Find applet)
FON:系統字體
FRT:Microsoft FoxPro報表文件
FRX:Visual Basic表單文本;Microsoft FoxPro報表文件
FXP:經Microsoft FoxPro編譯的源文件
G
GDM:鈴聲、口哨聲和聲音板模塊格式
GetRight:GetRight未完成的下載文件
GHO:Norton 克隆磁碟映像
GID:Windows 95全局索引文件(包括幫助狀態)
GIF:CompuServe點陣圖文件
GL:動畫格式
GRP:程序管理組
H
HEX:Macintosh BinHex2.0文件
HLP:幫助文件;Date CAD Windows幫助文件
HPP:C++程序頭文件
HQX:Macintosh BinHex 4.0文件
HT:HyperTerminal(超級終端)
HTM,HTML:超文本文檔
HTT:Microsoft超文本模板
HTX:擴展HTML模板
I
ICO:Windows圖標
IDX:Microsoft FoxPro相關資料庫索引文件;Symantec Q&A相關資料庫索引文件;Microsoft Outlook
Express文件
IMG:GEM映像
INF:信息文件
INI:初始化文件;Mwave DSP Synth的「nwsynth.ini」 GMS安裝;Cravis Ultrasound bank安裝
INP:Oracle 3.0版或早期版本的表單源代碼
INRS:INRS遠程通信聲頻
INS:InstallShield安裝腳本;X-Internet簽字文件;Ensoniq EPS字簇設備;Cell/ⅡMAC/PC抽樣設備
INT:中間代碼,當一個源程序經過語法檢查後編譯產生一個可執行代碼
IOF:Findit文檔
IQY:Microsoft Internet查詢文件
ISO:根據ISD 9660有關CD-ROM文件系統標准列出CD-ROM上的文件
ISP:X-Internet簽字文件
IST:數字跟蹤設備文件
ISU:InstallShield卸裝腳本
IT:脈沖跟蹤系統音樂模塊(MOD)文件
ITI:脈沖跟蹤系統設備
ITS:脈沖跟蹤系統抽樣,Internet文檔位置
IV:Open Inventor中使用的文件格式
IVD:超過20/20微觀數據維數或變數等級文件
IVP:超過20/20的用戶子集配置文件
IVT:超過20/20表或集合數據文件
IVX:超過20/20微數據目錄文件
IW:Idlewild屏幕保護程序
IWC:Install Watch文檔
J
J62:Ricoh照相機格式
JAR:Java檔案文件(一種用於applet和相關文件的壓縮文件)
JAVA:Java源文件
JAR:Java檔案文件(一種用於applet和相關文件的壓縮文件)
JAVA:Java源文件
JFF,JFIF,JIF:JPEG文件
JPE,JPEG,JPG:JPEG圖形文件
JS:javascript源文件
JSP:HTML網頁,其中包含有對一個Java servlet的參考
K
KAR:卡拉OK MIDI文件(文本+MIDI)
L
LAB:Visual dBASE標簽文件
LBT,LBX:Microsoft FoxPro標簽文件
LDB:Microsoft Access加鎖文件
LHA:LZH更換文件後綴
LOG:日誌文件
LZH:LH ARC壓縮檔案
M
M1V:MPEG相關文件(MIME"mpeg"類型)
M3D:Corel Motion 3D動畫文件
M3U:MPEG URL(MIME聲音文件)
MAM:Microsoft Access宏
MAQ:Microsoft Access查詢文件
MAR:Microsoft Access報表文件
MBX:Microsoft Outlook保存email格式;Eudora郵箱
MCW:Microsoft Word的Macintosh文檔
MDB:Microsoft Access資料庫
MDN:Microsoft Access空資料庫模板
MDW:Microsoft Access工作組文件
MID:MIDI音樂
MMM:Microsoft多媒體電影
MOV:QuickTime for Windows電影
MP2:第二層MPEG音頻文件
MP3:第三層MPEG音頻文件
MPA:MPEG相關文件,MIME「mpeg類型」
MPE,MPEG,MPG:MPEG動畫文件
MPP:Microsoft工程文件;CAD繪圖文件格式
MPR:Microsoft FoxPro菜單(已編譯)
MSI:Windows 安裝器包
MSN:Microsoft 網路文檔;Descent Mission文件
O
OBD:Microsoft Office活頁夾
OBJ:對象文件
OBZ:Microsoft Office活頁夾向導
OCX:Microsoft對象鏈接與嵌入定製控制項
ODS:Microsoft Outlook Express郵箱文件
OFT:Microsoft Outlook模板
OPX:OPL擴展DLL(動態鏈接庫)
OSS:Microsoft Office查找文件
OST:Microsoft Exchange / Outlook 離線文件
P
PAL:壓縮文件
PART:Go!Zilla部分下載文件
PAS:Pascal源代碼
PCS:PICS動畫文件
PDF:Adobe Acrobat
可導出文檔格式文件(可用Web瀏覽器顯示);Microsoft系統管理伺服器包定義文件;NetWare列印機定義文件
PHP,PHP3:包含有PHP腳本的HTML網頁
PHTML:包含有PHP腳本的HTML網頁;由Perl分析解釋的HTML
PM5:Pagemaker 5.0文件
PM6:Pagemaker 6.0文件
PPS:Microsoft Powerpoint幻燈片放映
PPT:Microsoft Powerpoint演示文稿
PRF:Windows系統文件,Macromedia導演設置文件
PSD:Adobe photoshop點陣圖文件
PSM:Protracker Studio模型格式;Epic游戲的源數據文件
PST:Microsoft Outlook個人文件夾文件
PWL:Windows 95口令列表文件
Q
QIF:QuickTime相關圖像(MIME);Quicken導入文件
QT,QTM:QuickTime電影
QTI,QTIF:QuickTime相關圖像
QTP:QuickTime優先文件
QTS:Mac PICT圖像文件;QuickTime相關圖像
QTX:QuickTime相關圖像
R
RA:RealAudio聲音文件
RAM:RealAudio元文件
RAR:RAR壓縮檔案(Eugene Roshall格式)
REC:錄音機宏;RapidComm聲音文件
REG:注冊表文件
REP:Visual dBASE報表文件
RES:Microsoft Visual C++資源文件
RM:RealAudio視頻文件
RMF:Rich Map格式(3D游戲編輯器使用它來保存圖)
ROM:基於盒式磁帶的家庭游戲模擬器文件(來自Atari
2600、Colecovision、Sega、Nintendo等盒式磁帶里的ROM完全拷貝,在兩個模擬器之間不可互修改)
Rxx:多卷檔案上的RAR壓縮文件(xx=1~99間的一個數字)
S
SAV:游戲保存文件
SB:原始帶符號位元組(8位)數據
SBK:Creative Labs的Soundfont 1.0 Bank文件;(Soundb laster)/EMU SonndFont v1.x
Bank文件
SBL:Shockwave Flash對象文件
SCF:Windows Explorer命令文件
SCH:Microsoft Schele+1
SCP:撥號網路腳本文件
SCR:Windows屏幕保護;傳真圖像;腳本文件
SFX:RAR自解壓檔案
SHTML:含有伺服器端包括(SSI)的HTML文件
SPL:Shockwave Flash對象;DigiTrakker抽樣
SQL:Informix SQL查詢;通常被資料庫產品用於SQL查詢(腳本、文本、二進制)的文件擴展名
STM:.shtml的短後綴形式,含有一個服務端包括(SSI)的HTML文件;Scream Tracker V2音樂模塊(MOD)文件
STR:屏幕保護文件
SWA:在Macromedia導演文件(MP3文件)中的Shockwave聲音文件 SYS:系統文件
T
T64:Commodore 64模擬器磁帶映像文件
THEME:Windows 95桌面主題文件
TIF,TIFF:標簽圖像文件格式(TIFF)點陣圖
TMP:Windows臨時文件
TRM:終端文件
TXT:ASCⅡ文本格式的聲音數據
TZ:老的壓縮格式文件
V
VBA:VBase文件
VBP:Microsoft Visual Basic工程文件
VBW:Microsoft Visual Basic工作區文件
VBX:Microsoft Visual Basic用戶定製控制項
VQE,VQL:Yamaha Sound-VQ定位器文件
VQF:Yamaha Sound-VQ文件(可能出現標准)
VRF:Oracle 7配置文件
VSL:下載列表文件(GetRight)
W
WAB:Microsoft Outlook文件
WAD:包含有視頻、玩家水平和其他信息的DOOM游戲的大文件
WAL:Quake 2正文文件
WAV:Windows波形聲形
WBK:Microsoft Word備份文件
WFM:Visual dBASE Windows表單
WFN:在CorelDRAW中使用的符號
WIZ:Microsoft Word向導
WRL:虛擬現實模型
WWL:Microsoft Word內插器文件
X
XLK:Microsoft Excel備份
XLL:Microsoft Excel內插器文件
XLM:Microsoft Excel宏
XLS:Microsoft Excel工作單
XLT:Microsoft Excel模板
XLV:Microsoft Excel VBA模塊
XLW:Microsoft Excel工作簿/工作區
Z
ZAP:Windows軟體安裝配置文件
ZIP:Zip文件
000-999:用於為老版本(或備份)文件編號(比如:被安裝程序改變的CONFIG.SYS文件);又可用於為小范圍的PC應用程序的多個用戶相關數據文件編號
12M:Lotus 1-2-3 97 SmartMaster文件
123:Lotus 1-2-3 97文件
2D:VersaCAD的2維繪畫文件
2GR,3GR:在Windows之下的VGA圖形驅動程序/配置文件
386:在386或更高級處理器上使用的文件
3D:VersaCAD的3維繪畫文件
3DM:3D NURBS建模器,Rhino
3DS:3D Studio(DOS下)格式文件
386:在386或更高級處理器上使用的文件
4GE:Informix 4GL編譯後代碼
4GL:Informix 4GL源代碼
Ⅳ 信息檢索類的論文
信息檢索技術論文 –
基於網格的面向專業內容的Web信息檢索
1 引言
近年來,互聯網得到了迅速的發展,網上信息資源愈來愈龐大,且信息具有量大、分散、異構等特性,因此,傳統銀備銷的Web信息檢索工具開始暴露出它性能低下的一面,具體體現在現有的信息檢索工具對用戶的鋒游要求常常是找出了幾千甚至上萬條記錄,根本無法從中再細找,或者找到的內容和要找的內容不是一個專業領域的,造成信息無效的現象。但隨著人們信息意識的增強,對信息內容及信息服務的需求也在不斷的演變和發展,對獲取信息的專業化、實效性等方面有了新的要求。如何針對專業領域中特定的用戶群為他們提供專業的、度身量造的信息服務,使用戶在盡可能短的時間內有效的找到最需要的信息內容是大家普遍關注的一個問題。本文利用網格計算、集群系統、XML等技術設計了一個基於網格的面向專業內容的Web信息檢索體系結構,它能將地理位置分散的、異構的信息按地區按專業內容從邏輯上進行合理的組織和管理,為用戶快速、有效地獲取自己所需要的信息提供了一種方法。
2 基於網格的面向專業內容的Web信息滾昌檢索體系結構的設計
網格計算是近年來國際上興起的一種重要信息技術,其目的是將網上各種資源組織在一個統一的大框架下,為解決大型復雜計算、數據服務和各種網路信息服務提供一個方便用戶使用的虛擬平台,實現互聯網上所有資源的全面連通,實現信息資源的全面共享。
為解決不同領域復雜科學計算與海量信息服務問題,人們以網路互連為基礎構造了不同的網格,他們在體系結構,要解決的問題類型等方面各不相同,但網格計算至少需要具有三種基本功能:資源管理、任務管理、任務調度。本文設計的信息檢索體系結構,圍繞網格計算的基本功能及信息檢索的特點,主要有以下三個層次組成:見圖1
(1) 網格結點:結點是網格計算資源的提供者,本系統主要是由一系列的集群系統組成,它們在地理位置上是分布的,構成了一個分布檢索群體,作為信息共享的基礎結構平台。集群系統負責整個集群范圍內的信息管理,維護和查詢。
(2) 網格計算中間件:中間件是信息資源管理和用戶任務調度、任務管理的工具。它是整個網格信息資源管理的核心部分,它根據用戶的信息請求任務,在整個網格內負責信息資源的匹配、定位,實現用戶任務到集群系統的映射。
(3) 網格用戶層:主要為用戶應用提供介面,支持用戶對所需要的信息資源進行描述、創建、提交等。
圖1
本系統的主要思想是在邏輯上將地理位置分散的、異構的信息劃分、組建成多個集群系統,集群系統對集群內的資源進行管理和任務調度,再利用網格中間件對各集群系統進行管理,從而形成對整個網格資源的管理,並對用戶的信息需求進行統一的管理和調度。這種管理模型既可以尊重各個集群系統的本地信息管理策略,又可利用中間件在全局意義上對網格信息資源進行管理。
2.1 集群系統的設計
由於Web信息資源數量十分龐大,用戶在利用現有搜索引擎檢索信息時面臨一個海量數據的查詢問題,往往造成在消耗巨大的通信資源後依然存在資源查不準、查不全的問題。目前基於單一系統映射的Web伺服器集群系統能把若干伺服器用區域網連接成一個整體,並使其從客戶端看來就如同一台伺服器在服務,這使得在邏輯上合並、組織地理位置分布的信息資源成為可能。因此本文首先考慮採用分布協作策略,將Web信息資源按地區按專業內容分割,一方面使信息資源數量相對縮小,便於數據的組織、管理和維護,另一方面按專業內容易於制定一個公用的XML規范,便於集群內各類信息資源的描述,從而可建立一個基於XML的面向專業內容的信息集成系統。集群系統的具體結構見圖2。
集群伺服器主要由介面Agent,基於專業內容的XML信息集成系統、資源服務Agent、資源發布Agent等組成。其中介面Agent根據任務提供的介面參數登記、接收、管理各種信息資源請求任務,並提供安全認證和授權。資源服務Agent根據信息資源請求任務,利用XML信息集成系統提供的數據,為用戶提供實際的資源檢索操作,並將檢索結果信息發送給用戶。資源發布Agent用於向網格中間件提供本地信息資源的邏輯數據及介面參數。
下面主要說明基於專業內容的XML信息集成系統的構造方法:
XML(the eXtensible Markup Language)是 W3C於1998年宣布作為Internet上數據表示和數據交換的新標准,它是一種可以對信息進行自我描述的語言,它允許開發人員通過創建格式文件DTD(Document Type Definitions)定製標記來描述自己的數據,DTD規范是一個用來定義XML文件的語法、句法和數據結構的標准。 XML使用普通文本,因此具有跨平台的優點,XML的優點在於(1)簡單、規范性:XML文檔基於文本標簽,有一套嚴謹而簡潔的語法結構,便於計算機、用戶理解;(2)可擴展性:用戶可以自定義具有特定意義的標簽,自定義的標簽可以在任何組織、客戶、應用之間共享;(3)自描述性:自描述性使其非常適用不同應用間的數據交換,而且這種交換是不以預先定義一組數據結構為前提,因此具有很強的開放性;(4)互操作性:XML可以把所有信息都存於文檔中傳輸,而遠程的應用程序又可以從中提取需要的信息。XML數據是不依賴於某個特定的平台的應用,因此它為基於特定專業內容的表達提供了一種極好的手段,可以作為表示專業內容的語言。
目前人們研製Web信息集成系統其基本方法可分成兩類:存入倉庫法(the ware-housing approach)和虛擬法(the virtual approach),可使用這兩類方法利用XML在數據組織和交換方面的優越性,採用格式文件DTD和XML文檔表示基於專業內容的集成模式和集成模式與資源之間的映射,建立基於XML的Web信息集成系統,其結構與獲取信息的工作過程參見文獻[2]。
圖2
2.2 網格中間件的設計
圖3所示的網格中間件的主要功能是(1)消除不同用戶與集群系統之間數據表達的差異,使信息資源數據對用戶來說是透明的;(2)管理、維護Web上分布的各集群系統,網格中間件以關系資料庫方式記錄所有集群系統及其所包含的專業內容的邏輯信息,對關系資料庫的操作可維護集群系統的分布式邏輯,使本結構在可變性和擴充性上具有柔性;(3)接受用戶的信息請求任務,能快速定位於滿足要求的集群系統,通過對關系資料庫的查詢實現用戶信息請求任務與集群系統的對應關系。
內部主要功能模塊說明如下:
(1) 接收Agent模塊:主要用於登記、接收、管理各種信息資源請求任務,並提供安全認證和授權。
(2) 關系資料庫及數據服務Agent:關系資料庫記錄了所有集群系統及其所包含的專業內容的邏輯信息。數據服務Agent提供集群系統對關系資料庫的使用許可權和對數據記錄的增加、刪除、檢索和修改等操作。
(3) 格式轉換Agent模塊:提供用戶信息資源請求文檔與各集群系統中文檔的格式轉換功能。由於XML是自定義的,各用戶對同一數據有不同的表示方法(對信息資源描述存在差異)由於XML文檔中這種格式差異體現在與之相關的DTD/Schema上,因此經過格式轉換,可使信息資源的格式對用戶是透明的。
(4) XML文檔分析Agent模塊:提取格式轉換後的XML文檔中各個標簽,通過查詢網格中間件中的關系資料庫,實現用戶信息請求任務與集群系統的對應關系,並得到滿足條件的集群系統的相關信息,獲取各集群系統的介面參數。
(5) 發送Agent模塊:將轉換過的信息資源請求XML文檔發送到相應的集群系統中。
其中Agent技術是解決分布式智能應用問題的關鍵技術,Agent是指能夠自主地、連續地在一動態變化的、存在於其它系統中運行的、且不斷於環境交互的實體。在系統中引入Agent可使系統具有人的特徵,代表用戶完成用戶的任務,並能動態適應環境的變化更好地滿足用戶的需求,提高信息檢索的能力。文秘雜燴網 http://www.rrrwm.com