Ⅰ XML与关系数据库的关系
数据库技术及其应用系统经历了从层次数据库、网状数据库到关系数据库以及面向对象数据库的发展,在传统的商业和事务处理领域内逐步成熟,取代了原有的基于文件系统的数据处理方式,成为计算机信息系统中的重要基础和支柱。但随着Internet的飞速发展,Web的出现改变了人们习惯的处理方式,也给数据库技术提出了必须面对的重要问题:即如何有效地存储和管理Web上的数据(文档),使其既能被高效地操作和维护,又能在Internet平台上方便地表示和交换。
XML技术自出现以来发展非常迅速,在许多领域内得到广泛的支持而有着广阔的应用前景。例如电子数据交换、电子商务等更是将XML作为一种基础性、支柱性的技术来看待。
1、数据库简史
数据库系统是随着计算机技术的不断发展,在特定的历史时期、特定的需求环境下出现的。在1946年的第一台计算机到20世纪60年代这漫长的20年里,计算机操作系统主要局限于文件的操作,对数据的管理也主要是通过文件系统来实现。进行计算所需要的各种数据存放在各自的文件里,使用这些数据时将文件打开,读取文件中的数据到内存中,当计算完毕后,将计算结果仍旧写入到文件中去,它的不足主要集中在无法对数据进行有效的统一管理。针对文件系统的重要缺点,人们逐步发展了以统一管理数据和共享数据为主要特征的系统,即数据库系统。1964年,美国通用电气公司开发成功了世界上的第一个数据库系统IDS(IntegratedDataStore)。IDS奠定了网状数据库的基础,并得到了广泛的发行和应用,成为数据库系统发展史上的一座丰碑。1969年,美国国际商用机器公司(IBM)也推出世界上第一个层次数据库系统IMS(InformationManagement System),同样在数据库系统发展史上占有重要的地位。
70年代初,E.F.Codd在总结前面的层次、网状数据库优缺点的基础上,提出了关系数据模型的概念及关系代数和关系演算。在70年代,关系数据库系统无论从理论上还是实践上都取得了丰硕的成果。在理论上确立了完整的关系模型理论、数据依赖理论和关系数据库的设计理论;在实践上,世界上出现了很多著名的关系数据库系统,比较著名的如SystemR、INGRES、Oracle等。
与文件系统相比,数据库系统有几个方面的特点:向用户提供高级的接口;向用户提供非过程化的数据库语言(即SQL语言);查询的处理和优化;并发控制;数据的完整性约束。
进入80年代之后,计算机硬件技术的飞速提高促使计算机应用不断深入,产生了许多新的应用领域,例如计算机辅助设计、计算机辅助制造、计算机辅助教学、办公自动化、智能信息处理、决策支持等。这些新的领域对数据库系统提出了新的要求。但由于应用的多元化,不能设计出一个统一的数据模型来表示这些新型的数据及其相互关系,因而出现了百家争鸣的局面,产生了演绎数据库、面向对象数据库、分布式数据库、工程数据库、时态数据库、模糊数据库等新型数据库的研究和应用。
2、XML简介
XML推荐标准1.0版发布于1998年2月,之后迅速在全球掀起了XML应用的浪潮。XML是一种描述型的标记语言,与HTML同为SGML(标准通用标记语言,ISO-8879国际标准)的一种应用。由于XML在可扩展性、可移植性和结构性等方面的突出优点,它的应用范围突破了HTML所达到的范围。
一篇XML文档由标记和内容组成。XML中有六种标记:元素(elements)、属性(attributes)、实体引用(entityreferences)、注释(comments)、处理指令(processinginstructions)和CDATA段(CDATAsections)。XML与HTML最显著的不同是XML文档中引入了“文档类型声明”(Document Type Declarations)。DTD使文档可以与分析器交流关于它的内容的元信息。DTD的出现,赋予了XML文档可扩展性、结构性和可验证性,使XML具备了类似于数据库的一些性质,可以利用XML来组织和管理信息;又可以与HTML一样在浏览器中方便地表示,在Internet上高效地传递和交换。考虑到与HTML的兼容,DTD并不是XML文档必需的成份。具有DTD的XML文档称作“Valid”,否则就是“Well-formed”。
目前,处理XML文档的方式主要有SAX与DOM两种。SAX(SimpleAPIforXML)是一种基于流的、以事件处理方式工作的接口。SAX 2.0在2000年5月发布,增强了许多功能,包括对名字空间的支持。DOM(Document Object Model)则是在对XML文档进行分析后,在内存中建立起一个完整的树结构,然后在此基础上进行各种操作。简单地比较来看,SAX对系统资源要求低、速度快,但对文档的操作是只读的;DOM的处理能力强大,但要求大量的系统资源,尤其是对于大的文档。而后还出现了Xpath和Xpointer用以完成XML的搜索和转换;XSL、XSLT和SOAP用以完成XML的远程对象访问,XML Query Languages的出现使XML查询语言可用于任何XML文档。
3、XML与数据库
XML文件是数据的集合,它是自描述的、可交换的,能够以树型或图形结构描述数据。XML提供了许多数据库所具备的工具:存储(XML文档)、模式(DTD,XMLschema,RE1AXNG等)、查询语言(XQuery,XPath,XQL,XML-QL,QUILT等)、编程接口(SAX,DOM,JDOM)等。但XML并不能完全替代数据库技术。XML缺少作为实用的数据库所应具备的特性:高效的存储、索引和数据修改机制;严格的数据安全控制;完整的事务和数据一致性控制;多用户访问机制;触发器、完善的并发控制等。因此,尽管在数据量小、用户少和性能要求不太高的环境下,可以将XML文档用作数据库,但却不适用于用户量大、数据集成度高以及性能要求高的作业环境。
随着Web技术的不断发展,信息共享和数据交换的范围不断扩大,传统的关系数据库也面临着挑战。数据库技术的应用是建立在数据库管理系统基础上的,各数据库管理系统之间的异构性及其所依赖操作系统的异构性,严重限制了信息共享和数据交换范围;数据库技术的语义描述能力差,大多通过技术文档表示,很难实现数据语义的持久性和传递性,而数据交换和信息共享都是基于语义进行的,在异构应用数据交换时,不利于计算机基于语义自动进行正确数据的检索与应用;数据库属于高端应用,需要昂贵的价格和运行环境。而随着网络和Internet的发展,数据交换的能力已成为新的应用系统的一个重要的要求。XML的好处是数据的可交换性(portable),同时在数据应用方面还具有如下优点:(1)XML文件为纯文本文件,不受操作系统、软件平台的限制;(2)XML具有基于Schema自描述语义的功能,容易描述数据的语义,这种描述能为计算机理解和自动处理;(3)XML不仅可以描述结构化数据,还可有效描述半结构化,甚至非结构化数据。
4、XML文件的存储
XML文件的存储方式有三大类:(1)将文件存储于文件系统(StoringDocumentsinthe File System);(2)将文件存储于BLOB(Storing Documents in BLOBs),利用数据库的事务管理、安全、多用户访问等优点。此外许多关系数据库提供的检索工具可以进行全文检索、近似检索、同义词检索和模糊检索。其中某些工具将会支持XML,这样就可消除将XML文件作为纯文本检索所带来的问题。(3)将文件存储于原生XML数据库(Native XML Databases,NXD)。NXD是专用于存储XML文件的数据库,支持事务管理、安全、多用户访问、编程API和查询语言等。与其它数据库的唯一区别在于其内部模型是基于XML的。其中,最重要的存储方式当属原生XML数据库。
4.1原生XML数据库
原生XML数据库(NativeXMLDatabases)为XML文档定义了一个(逻辑)模型,并根据该模型存取文件。这个模型至少应包括元素、属性、PCDATA和文件顺序。其例子有XPath数据模型、XMLIn-foset以及DOM所用的模型和SAX 1.0的事件。它以XML文件作为其基本存储单位,对底层的物理存储模型没有特殊要求。例如,它可以建在关系型、层次型或面向对象的数据库之上,或者使用专用的存储格式,比如索引或压缩文件。
NXD最适于存储以文档为中心的文件。这是由于NXD保留了文件、顺序、处理指令、注释、CDA-TA块以及实体引用等,而支持XML的数据库XED(XML-enableddatabase)无法做到。XED是在原有数据库基础上扩展了XML支持模块,完成XML数据和数据库之间的格式转换和传输。从存储粒度上,可以把整个XML文档作为RDBMS表中一行,或把XML文档进行解析后,存储到相应的表格中。为了支持W3C的一些XML操作标准,Xpath、XED提供一些新的原语(如Oracle9iR2增加了一些数据包来操作XML数据等),并优化了XML处理模块.
Ⅱ 文件格式
常用文件格式一点通
不同的文件,有不同的文件格式,区别这些文件格式常常是文件名的后缀名不同,现统计常用文件后缀名如下,供读者参考和查阅。
BAT DOS下的批处理文件。Autoexec.bat为自动批处理文件,它是特殊的批处理文件。
EXE可执行的程序文件,与COM内部结构不相同,最突出是长度没有限制。
COM可执行的二进制代码系统程序文件,特点非常短小精焊,长度有限制。
ASM汇编程序文件为二进制代码文件,可以打个比方,它就像BASIC中的.BAS程序文件一样,为不可执行文件。
ASC代码文件。
BAK备份文件
LIB程序库文件
CHK检查磁盘命令CHKDSK发现的目录或文件分配表中的错误,校正系统后的文件。
TMP临时文件
SYS系统配置文件,最典型的如config.sys,一般可以用EDIT进行编辑。
OBJ目标文件,源程序编译输出的目标代码。
OLD备份文件,一般是一些程序对系统配置修改后将原文件复制一份存储为该文件格式。
INI配置文件,不要以为这个文件只有Windows程序需要,DOS下程序也有不少需要它,如3DS与AutoCAD。
INF安装配置文件,这在WIN95下使用较多。
HLP HELP帮助文件,这个文件一定要重视,因为它是你每使用一个新软件的最好的说明书,几乎99%的软件都有这个文件,另外,DOS下的一些帮助放在README以后,帮助便没有了,如UCDOS中的REAME.EXE;有单独DOS的命令,若不知道怎么使用,可以试试以下的命令格式:“DIR?或DIR/?”。
DDI早期映象文件,由DiskDUP IMGDRIVE IMG.EXE展开
IMG这个文件要注意,有时它是一个图象文件,但更多的时候,它是映象文件,在早期光盘上,此文件使用最多,能常用HD-COPY IMG UNIMG都软件进行解压(注:IMG这个软件为什么一闪就没了呢,这个软件需要热键激活,按下Ctrl+Alt+S+D+X),如果要安装的软件压缩文件由和几个IMG分开压缩,那最好用UNIMG将它们全部解压缩,然后安装,它安装时提示你“请插入X序列盘”。
ARJ ARJ(ARJ这个以前风眯一时的压缩软件谁人不晓)软件压缩的文件,它的压缩比较高,使用也特方便顺手,只需要“ARJ a -r -v……”
RAR这也是一个压缩文件,传说比ARJ压缩比更高,笔者没有亲手做试验,故不敢下空此结论。
ZIP当前最流行的压缩文件,谁不知道ZIP呀,WINZIP,再也不是DOS下的那个UNZIG或PKZIP了,兼容,向下兼容,从游戏到软件,差不多都是它压缩的了。
IMD UCDOS中输法的编码字典文件。
PDV UCDOS中的自由表格UCTAB生成的表格文件,它生成的文件可以被WPS调用,也挺方便的。
BAS BASIC中的源程序文件,BASIC可为初学者最为熟悉的编辑语言,它的优点笔者就不在累赘了,注意QBASIC与QUICK BASIC和GW BASIC是有区别。
C C语言中的源程序文件,它不但造就了我们常常为之日夜奋战的精彩电脑游戏,还创造出UNIX操作系统,有口皆碑的好编程软件。
MAK C语言中的工程文件。
COB COBOL语言源程序文件。
PAS PASCAL语言源程序文件。
FOR FORTRAN语言源程序文件。
FOX FOXBASE伪编译程序文件,比PRG短小运行速度快。
PRG FOXBASE过程程序文件。
DBF XBASE数据库文件。
IDX FOXBASE中的索引文件。
LBL FOXBASE中的标签文件。
FRM FOXBASE中的报表格式文件。
MEM FOXBASE中的内存变量文件。
FMT FOXBASE中的屏幕格式文件。
DBT FOXBASE中的数据库文件的辅助文件。
DBC为FOXPRO中的数据库名。
PJX Visual FoxPro下的项目文件与辅助文件PJT结合成项目管理管理文件。
RTF Rich的文本文件格式。
TXT纯文本文件格式,可以利用TYPE以及EDIT或者记事本等任何字处理程序打开,对它显示编辑。
WPS文档文件,是由著名国产软(WPS)(WORD PROCESSING SYSTEM)生成。由于WPS历经沧桑,经历了WPS1.0 2.2WPS30F WPSNT以及现在的WPS98众多版本,但是没有像WORD一样提供转换程序,一般高版本的WPS可以读出低版本的文件,对于低版本能不能读出高版本的文件,笔者没有一一做出试验,故不敢轻易下结论,只试验过UCDOS下的WPS读不出由WPSNT编辑的文件;另外对于WPS97的文件,你根本就不要用DOS版本去读,百分之百读出来,其实相互转换也不大困难,只要你在存盘时选择以TXT纯文本格式存盘也就不存在什么版本高低了。(WPS97中不要放图片)
%A%%B% WPS中的临时文件,注意清除OVL覆盖文件,如WPS.VOL1。
DOC文档文件,是由软件霸主Micrsoft Word生成,也有一部分是由WORD PERFECT生成,此文件也是版本众多有Wihdows下面的WORD5.0 6.0生成,还有WIN95下WORD7.0 WORD97,它们相互兼容性比较好,高版本可以轻松读取低版本文件,而且高版本也可以以低版本的格式进行存储,有人说WINDOWS中的书写器也能读出DOC,但笔者试验,读取WORD7.0以上的DOC都是一些乱码,而且格式里也注明只能读出DOS版的DOC。
PCS为POWERPOINT中的图象文件,为矢量图形文件。
XLS电子表格EXCEL的格式文件。
FNT为Bezier(贝氏)类型字体的文件。
TTF True Type字体文件,是一种轮廓字模,是由Apple和Microsoft合作开发的。Windows3.1下直接支持True Type字模。
FOT是True Type字体文件的资源文件,正因为FOT文件中含有指向TTF的指针。所以我们的字体文件(TTF)才可以放在任何目录下面,而不必提心系统找不到。
PFB Adobe TYPE1字体Post Script字模文件,必须使用Adobe Type Manager管理安装使用,它的最大优点是放大时比TTF字幕可靠得多。
PS1为WPS下扩展字库文件,PS2一般为繁体。
REC Windows中记录器中的宏命令文件。
CRD Windows中的卡版盒文件。
PIF Windows中的运行非WINDOWS应用程序建立的一个文件。
WRI文档文件,是由WINDOWS中书写器生成的。
DRV驱动程序文件。
VXD虚拟设备文件
GRP Windows程序组文件。
ANI WIN95中动画鼠标指针文件。
DLL Windows下应用程序中的动态连结库文件。
SCR WINDOWS屏幕保护程序文件
MP2 MP3当前最流行的音乐文件,音质可于CD音质媲美,采集率达44.1KHZ,由于它文件格式又非常小,需要一个叫WINAMP的软件和一个叫抓音轨的软件,如果通过声卡直接就能将录音带上的歌曲录制成WAV文件,再转化为MP3,播放时需要硬件配置不是太高。
SND在WIN95下同WAV文件图标大同小异,小喇叭的颜色是绿色,是声音文件的剪辑文件。
VOC VOC文件是随声卡一起诞生的一种常见数字声音文件,主要用于DOS程序(特别游戏),VOC与波形文件可方便转换。
WAV Windows所使用的标准数字音频文件,也称波形文件,它能够重现各种单声道或立体声的声音,是最常用的声音文件。
MID这个是音乐发烧友最熟悉不过的文件格式,是“乐器数字接口”(Musical lnstrument Digital interface)读作middy“迷笛”。mid文件最受人于睐的是占的空间小,与wav相比不是音乐采样,而是将每个音符记录为一个数字,mid标准规定了各种音调的混合及发音,通过输出装置可以将这些数字重新合成为音乐。它的缺点是有点太电子琴味。
RMI CMI CMF(Creative Music File)是mid几个变通格式,它们都同声卡一起诞生,现在一般很少,它们有些可以同mid相互转换,用CMF2MID小软件。
PCX是微机上使用最广泛的图像格式之一,能表现真彩图像。
BMP是Windows所使用的基本位图格式,是小画笔就能轻松创建的文件,另外提醒你BMP有压缩(RLE方法)和非压缩,我们常用是非压缩,bmp还有一个OS/2的版本,与Windows有区别。
GIF GIF在网页中占有独一无二的地位,美中不足是颜色最多为(256色)8位,与其它图象文件相比,GIF高人一招,它是唯一可以存储动画的图像格式。
PSD PDD位图文件,均为大名鼎鼎的图象大师Adobe Photoshop直接生成的图象文件。
CGM(Computer Graphics Metafile)是压缩的矢量图形文件,WINWORD可以打开。
HGL(HP Graphic Language)是HP公司创建的一种矢量图形语言。
WPG(DrawPerfect)矢量文件。
TIF最初用于扫描仪和桌面出版业,TIF程式图像可以是RGB真彩色的。
TGA位图文件,为Targa公司开发的支持8位到32位颜色深度图像文件,结构简单,少有变化,易转换。
VDA ICB VST与TGA相似,均为Targa公司开发的位图文件。
JPG JPE原是Apple Mac机器上使用的一种图像格式,现在意在PC机上大行其道,由于其压缩比可以调节,而且失真又很小,所以无论是网络上还是图像处理上都是使用很广泛的。
PIC同上,Lotus 1-2-3的图表文件也叫PIC文件,使用时请注意。
PCD是PhotoCD专用存储格式,由于其文件特别大,不得不存在CD-ROM上,但应用特别广。
EPS(Encapsulared postScrip)是Adobe System公司的PostScrip页面描述语言的产物,是矢量图形文件。
WMF (Windows MetaFile)是特殊文件,是位图和矢量图混血儿,桌面格式,可以在Windord与Offices组件中ClipArts最常用的格式可以在WinWord的DRAW中随意拆开编辑。
AI 矢量格式,是久负盛名的绘图软件Adobe lllustrator文件格式。
CDR矢量格式,是Corel Draw!标准文件格式。
CPT位图和矢量图都有,是Corel PHOTO-PAINT的文件格式。
CDT Corel Draw中的模板文件。
CMX Corel Draw展示交换文件。
CMV是Corel MOVE平面动画软件中的动画演示文件。
DXF矢量格式,CAD与3ds玩家可能都知道,是AutoCAD的绘图交换文件。
3DS矢量格式,为3D Studio的动画原始图形文件,含有纹理和光照信息。
SHP矢量格式3DS中的造型文件。
CEL 3DS中的贴图文件。
MLI 3DS中的材质库。
DRW矢量格式Micrografx Designer使用的绘图文件格式。
WPG矢量/格式,是Word Perfect使用的文件格式。
FLI动画文件,是由AutoDesk公司开发的,只支持320×200×256色模式,它是FLC的老祖宗。
FIC动画文件,是AutoDesk公司开发的,与FLI相比是青出于蓝胜于蓝的产物:文件的分辨率和颜色数都有所提高,它与FLI在Windows中播放需要专用MCI驱动和相应的播放程序APPlay。
MMM动画文件,是MacroMind公司著名多媒体写作软件Director生成的,一般集成在完整的应用程序中,单独出现的文件很少。
AVI视频与音频交错文件(Audio-Video lnter leaved音频-视频交错)它将视频音频交错混合在一起,AVI文件使用的压缩方法好几种,主要使用有损方法,压缩比较高,与FLC和MOV相比,画面质量不太好,在Windows下播放需要安装VIDEO For Windows驱动程序,AVI在多媒体中应用较多广,一般视频采集直接采集的素材便为AVI格式,编辑的它的软件也不少,如Video Pack Adobe Premiere,
MPG视频文件,PC机上的全屏幕活动视频的标准文件,采用MPEG方法进行压缩的全运动视频图像,可于1024×768的分辨率下每秒30帧速率播放128000种颜色和同步CD音质的伴音,是极为理想的视频影像文件
DAT视频影像文件,是Video CD(VCD)或Karaoke CD(卡拉OK CD)基于MPEG压缩方法的一种,注意它同数据文件同名
MOV视频影像,同样采用有损压缩方法,在Windows下必须安装QuickTime程序才能播放,它是从苹果机移植到PC上的,比AVI画面质量要好一些,其实你拿一个AVI文件做一下比较也就不难看出了。
HTM超文本文件,INTERNET网上访问WWW,是在HTM文件的的海洋里冲浪,对于超文本文件,说它是编程,可它也不像编程,现在要建立它,一点也不困难,有关的介绍满天飞,什么HOME PAGE,在WIN98中,OFFICES97都可以方便的创建生成。它还有一些名字叫主页、网,而且还与java关系特密切。Microsoft IE导航者中与NETCAPE航海家都能游览它。
常用文件格式简要说明
A 对象代码库文件
AAM Authorware shocked文件
AAS Authorware shocked包
ABF Adobe二进制屏幕字体
ABK CorelDRAW自动备份文件
ABS 该类文件有时用于指示一个摘要(就像在一篇有关科学方面的文章的一个摘要或概要,取自abstract)
ACE Ace压缩档案格式
ACL CorelDRAW 6键盘快捷键文件
ACM Windows系统目录文件
ACP Microsoft office助手预览文件
ACR 美国放射医学大学文件格式
ACT Microsoft office助手文件
ACV OS/2的驱动程序,用于压缩或解压缩音频数据
AD After Dark屏幕保护程序
ADA Ada源文件(非-GNAT)
ADB Ada源文件主体(GNAT);HP100LX组织者的约定数据库
ADD OS/2用于引导过程的适配器驱动程序
ADF Amiga磁盘文件
ADI AutoCAD设备无关二进制绘图仪格式
ADM After Dark多模块屏幕保护;Windows NT策略模板
ADP FaxWork用于传真调制解调器的交互安装文件;Astound Dynamite文件
ADR After Dark薠
Ⅲ 文件的类型有多少种都用什么方式打开
电脑文件类型共有多少种
ACE:Ace压缩档案格式
ACT:Microsoft office助手文件
AIF,AIFF:音频互交换文件,Silicon Graphic and Macintosh应用程序的声音格式
ANI:Windows系统中的动画光标
ARC:LH ARC的压缩档案文件
ARJ:Robert Jung ARJ压缩包文件
ASD:Microsoft Word的自动保存文件;Microsoft高级流媒体格式(microsoft advanced streaming
format,ASF)的描述文件;可用NSREX打开 Velvet Studio例子文件
ASF:Microsoft高级流媒体格式文件
ASM:汇编语言源文件,Pro/E装配文件
ASP:动态网页文件;ProComm Plus安装与连接脚本文件;Astound介绍文件
AST:Astound多媒体文件;ClarisWorks“助手”文件
Axx:ARJ压缩文件的分包序号文件,用于将一个大文件压至几个小的压缩包中(xx取01-99的数字)
A3L:Authorware 3.x库文件
A4L:Authorware 4.x库文件
A5L:Authorware 5.x库文件
A3M,A4M:Authorware Macintosh未打包文件
A3W,A4W,A5W:未打包的Authorware Windows文件
B
BAK:备份文件
BAS:BASIC源文件
BAT:批处理文件
BIN:二进制文件
BINHex:苹果的一种编码格式
BMP:Windows或OS/2位图文件
BOOK:Adobe FrameMaker Book文件
BOX:Lotus Notes的邮箱文件
BPL:Borlard Delph 4打包库
BSP:Quake图形文件
BUN:CakeWalk 声音捆绑文件(一种MIDI程序)
C
C0l:台风波形文件
CAB:Microsoft压缩档案文件
CAD:Softdek的Drafix CAD文件
CAM:Casio照相机格式
CAP:压缩音乐文件格式
CAS:逗号分开的ASCⅡ文件
CCB:Visual Basic动态按钮配置文件
CCH:Corel图表文件
CCO:CyberChat数据文件
CCT:Macromedia Director Shockwave投影
CDA:CD音频轨道
CDF:Microsoft频道定义格式文件
CDI:Philip的高密盘交互格式
CDM:Visual dBASE自定义数据模块文件
CDR:CorelDRAW绘图文件;原始音频CD数据文件
CDT:CorelDRAW模板
CDX:CorelDRAW压缩绘图文件;Microsoft Visual FoxPro索引文件
CFG:配置文件
CGI:公共网关接口脚本文件
CGM:计算机图形元文件
CH:OS/2配置文件
CHK:由Windows磁盘碎片整理器或磁盘扫描保存的文件碎片
CHM:编译过的HTML文件
CHP:Ventura Publisher章节文件
CHR:字符集(字体文件)
CHT:ChartViem文件;Harvard Graphics矢量文件
CIF:Adaptec CD 创建器 CD映像文件
CIL:Clip Gallery下载包
CIM:SimCity 2000文件
CIN:OS/2改变控制文件用于跟踪INI文件中的变化
CLASS:Java类文件
CLP:Windows 剪贴板文件
CLL:Crick Software Clicker文件
CLS:Visual Basic类文件
CMD:Windows NT,OS/2的命令文件;DOS CD/M命令文件;dBASEⅡ程序文件
CPI:Microsoft MS-DOS代码页信息文件
CPL:控制面板扩展名,Corel颜色板
CPP:C++代码文件
CPR:Corel提供说明书文件
CPT:Corel 照片-绘画图像
CST:Macromedia Director Cast文件
CUR:Windows光标文件
D
DBF:dBASE文件,一种由Ashton-Tate创建的格式,可以被ACT!、Lipper、FoxPro、Arago、Wordtech、Xbase和类似数据库或与数据库有关产品识别;可用数据文件(能被Excel
97打开);Oracle 8.1.x表格空间文件
DBX:DataBearn图像;Microsoft Visual FoxPro表格文件
DCT:Microsoft Visual FoxPro数据库容器
DCU:Delphi编译单元文件
DCX:Microsoft Visual FoxPro数据库容器;基于PCX的传真图像;宏
DIR:MacromediaDirector文件
DLL:动态链接库
DOC:FrameMaker或FrameBuilder文档;Word Star文档、Word
Perfect文档、Microsoft:Word文档;DisplayWrite文档
DOT:Microsoft Word文档模板
DPL:Borland Delph 3压缩库
DRV:驱动程序
DRW:Micrografx Designer/Draw;Pro/E绘画文件
DSF:Micrografx Designer VFX文件
DSG:DOOM保存的文件
DSM:Dynamic Studio音乐模块(MOD)文件
DSP:Microsoft Developer Studio工程文件
DSQ:Corel QUERY(查询)文件
DST:刺绣机图形文件
DSW:Microsoft Developer Studio工作区文件
DTA:World Bank(世界银行)的STARS数据文件
DTD:SGML文档类型定义(DTD)文件
DTED:地面高度数字数据(图形的数据格式)文件
DTF:Symantec Q&A相关的数据库数据文件
DTM:DigiTrakker模块文件
DUN:Microsoft拔号网络导出文件
DV:数字视频文件(MIME)
DWG:AutoCAD工程图文件;AutoCAD或Generic CADD老版本的绘图格式
DXR:Macromedia Director受保护(不可编辑)电影文件
E
EDA:Ensoniq ASR磁盘映像
EDD:元素定义文档(FrameMaker+SGML文档)
EDE:Ensoniq EPS磁盘映像
EDK:Ensoniq KT磁盘映像
EDQ:Ensoniq SQ1/SQ2/Ks32磁盘映像
EDS:Ensoniq SQ80磁盘映像
EDV:Ensoniq VFX-SD磁盘映像
EFA:Ensoniq ASR文件
EFE:Ensoniq EPS文件
EFK:Ensoniq KT文件
EFQ:Ensoniq SQ1/SQ2/Ks32文件
EFS:Ensoniq SQ80文件
EFV:Ensoniq VFX-SD文件
EMD:ABT扩展模块
EMF:Windows增强元文件
EML:Microsoft Outlook Express邮件消息(MIME RTC822)文件
EXE:可执行文件(程序)
F
FAV:Microsoft Outlook导航条
FAX:传真类型图像
FCD:虚拟CD-ROM
FDF:Adobe Acrobat表单文档文件
FLA:Macromedia Flash电影
FND:Microsoft Explorer保存的搜索文件(Find applet)
FON:系统字体
FRT:Microsoft FoxPro报表文件
FRX:Visual Basic表单文本;Microsoft FoxPro报表文件
FXP:经Microsoft FoxPro编译的源文件
G
GDM:铃声、口哨声和声音板模块格式
GetRight:GetRight未完成的下载文件
GHO:Norton 克隆磁盘映像
GID:Windows 95全局索引文件(包括帮助状态)
GIF:CompuServe位图文件
GL:动画格式
GRP:程序管理组
H
HEX:Macintosh BinHex2.0文件
HLP:帮助文件;Date CAD Windows帮助文件
HPP:C++程序头文件
HQX:Macintosh BinHex 4.0文件
HT:HyperTerminal(超级终端)
HTM,HTML:超文本文档
HTT:Microsoft超文本模板
HTX:扩展HTML模板
I
ICO:Windows图标
IDX:Microsoft FoxPro相关数据库索引文件;Symantec Q&A相关数据库索引文件;Microsoft Outlook
Express文件
IMG:GEM映像
INF:信息文件
INI:初始化文件;Mwave DSP Synth的“nwsynth.ini” GMS安装;Cravis Ultrasound bank安装
INP:Oracle 3.0版或早期版本的表单源代码
INRS:INRS远程通信声频
INS:InstallShield安装脚本;X-Internet签字文件;Ensoniq EPS字簇设备;Cell/ⅡMAC/PC抽样设备
INT:中间代码,当一个源程序经过语法检查后编译产生一个可执行代码
IOF:Findit文档
IQY:Microsoft Internet查询文件
ISO:根据ISD 9660有关CD-ROM文件系统标准列出CD-ROM上的文件
ISP:X-Internet签字文件
IST:数字跟踪设备文件
ISU:InstallShield卸装脚本
IT:脉冲跟踪系统音乐模块(MOD)文件
ITI:脉冲跟踪系统设备
ITS:脉冲跟踪系统抽样,Internet文档位置
IV:Open Inventor中使用的文件格式
IVD:超过20/20微观数据维数或变量等级文件
IVP:超过20/20的用户子集配置文件
IVT:超过20/20表或集合数据文件
IVX:超过20/20微数据目录文件
IW:Idlewild屏幕保护程序
IWC:Install Watch文档
J
J62:Ricoh照相机格式
JAR:Java档案文件(一种用于applet和相关文件的压缩文件)
JAVA:Java源文件
JAR:Java档案文件(一种用于applet和相关文件的压缩文件)
JAVA:Java源文件
JFF,JFIF,JIF:JPEG文件
JPE,JPEG,JPG:JPEG图形文件
JS:javascript源文件
JSP:HTML网页,其中包含有对一个Java servlet的参考
K
KAR:卡拉OK MIDI文件(文本+MIDI)
L
LAB:Visual dBASE标签文件
LBT,LBX:Microsoft FoxPro标签文件
LDB:Microsoft Access加锁文件
LHA:LZH更换文件后缀
LOG:日志文件
LZH:LH ARC压缩档案
M
M1V:MPEG相关文件(MIME"mpeg"类型)
M3D:Corel Motion 3D动画文件
M3U:MPEG URL(MIME声音文件)
MAM:Microsoft Access宏
MAQ:Microsoft Access查询文件
MAR:Microsoft Access报表文件
MBX:Microsoft Outlook保存email格式;Eudora邮箱
MCW:Microsoft Word的Macintosh文档
MDB:Microsoft Access数据库
MDN:Microsoft Access空数据库模板
MDW:Microsoft Access工作组文件
MID:MIDI音乐
MMM:Microsoft多媒体电影
MOV:QuickTime for Windows电影
MP2:第二层MPEG音频文件
MP3:第三层MPEG音频文件
MPA:MPEG相关文件,MIME“mpeg类型”
MPE,MPEG,MPG:MPEG动画文件
MPP:Microsoft工程文件;CAD绘图文件格式
MPR:Microsoft FoxPro菜单(已编译)
MSI:Windows 安装器包
MSN:Microsoft 网络文档;Descent Mission文件
O
OBD:Microsoft Office活页夹
OBJ:对象文件
OBZ:Microsoft Office活页夹向导
OCX:Microsoft对象链接与嵌入定制控件
ODS:Microsoft Outlook Express邮箱文件
OFT:Microsoft Outlook模板
OPX:OPL扩展DLL(动态链接库)
OSS:Microsoft Office查找文件
OST:Microsoft Exchange / Outlook 离线文件
P
PAL:压缩文件
PART:Go!Zilla部分下载文件
PAS:Pascal源代码
PCS:PICS动画文件
PDF:Adobe Acrobat
可导出文档格式文件(可用Web浏览器显示);Microsoft系统管理服务器包定义文件;NetWare打印机定义文件
PHP,PHP3:包含有PHP脚本的HTML网页
PHTML:包含有PHP脚本的HTML网页;由Perl分析解释的HTML
PM5:Pagemaker 5.0文件
PM6:Pagemaker 6.0文件
PPS:Microsoft Powerpoint幻灯片放映
PPT:Microsoft Powerpoint演示文稿
PRF:Windows系统文件,Macromedia导演设置文件
PSD:Adobe photoshop位图文件
PSM:Protracker Studio模型格式;Epic游戏的源数据文件
PST:Microsoft Outlook个人文件夹文件
PWL:Windows 95口令列表文件
Q
QIF:QuickTime相关图像(MIME);Quicken导入文件
QT,QTM:QuickTime电影
QTI,QTIF:QuickTime相关图像
QTP:QuickTime优先文件
QTS:Mac PICT图像文件;QuickTime相关图像
QTX:QuickTime相关图像
R
RA:RealAudio声音文件
RAM:RealAudio元文件
RAR:RAR压缩档案(Eugene Roshall格式)
REC:录音机宏;RapidComm声音文件
REG:注册表文件
REP:Visual dBASE报表文件
RES:Microsoft Visual C++资源文件
RM:RealAudio视频文件
RMF:Rich Map格式(3D游戏编辑器使用它来保存图)
ROM:基于盒式磁带的家庭游戏仿真器文件(来自Atari
2600、Colecovision、Sega、Nintendo等盒式磁带里的ROM完全拷贝,在两个仿真器之间不可互修改)
Rxx:多卷档案上的RAR压缩文件(xx=1~99间的一个数字)
S
SAV:游戏保存文件
SB:原始带符号字节(8位)数据
SBK:Creative Labs的Soundfont 1.0 Bank文件;(Soundb laster)/EMU SonndFont v1.x
Bank文件
SBL:Shockwave Flash对象文件
SCF:Windows Explorer命令文件
SCH:Microsoft Schele+1
SCP:拨号网络脚本文件
SCR:Windows屏幕保护;传真图像;脚本文件
SFX:RAR自解压档案
SHTML:含有服务器端包括(SSI)的HTML文件
SPL:Shockwave Flash对象;DigiTrakker抽样
SQL:Informix SQL查询;通常被数据库产品用于SQL查询(脚本、文本、二进制)的文件扩展名
STM:.shtml的短后缀形式,含有一个服务端包括(SSI)的HTML文件;Scream Tracker V2音乐模块(MOD)文件
STR:屏幕保护文件
SWA:在Macromedia导演文件(MP3文件)中的Shockwave声音文件 SYS:系统文件
T
T64:Commodore 64仿真器磁带映像文件
THEME:Windows 95桌面主题文件
TIF,TIFF:标签图像文件格式(TIFF)位图
TMP:Windows临时文件
TRM:终端文件
TXT:ASCⅡ文本格式的声音数据
TZ:老的压缩格式文件
V
VBA:VBase文件
VBP:Microsoft Visual Basic工程文件
VBW:Microsoft Visual Basic工作区文件
VBX:Microsoft Visual Basic用户定制控件
VQE,VQL:Yamaha Sound-VQ定位器文件
VQF:Yamaha Sound-VQ文件(可能出现标准)
VRF:Oracle 7配置文件
VSL:下载列表文件(GetRight)
W
WAB:Microsoft Outlook文件
WAD:包含有视频、玩家水平和其他信息的DOOM游戏的大文件
WAL:Quake 2正文文件
WAV:Windows波形声形
WBK:Microsoft Word备份文件
WFM:Visual dBASE Windows表单
WFN:在CorelDRAW中使用的符号
WIZ:Microsoft Word向导
WRL:虚拟现实模型
WWL:Microsoft Word内插器文件
X
XLK:Microsoft Excel备份
XLL:Microsoft Excel内插器文件
XLM:Microsoft Excel宏
XLS:Microsoft Excel工作单
XLT:Microsoft Excel模板
XLV:Microsoft Excel VBA模块
XLW:Microsoft Excel工作簿/工作区
Z
ZAP:Windows软件安装配置文件
ZIP:Zip文件
000-999:用于为老版本(或备份)文件编号(比如:被安装程序改变的CONFIG.SYS文件);又可用于为小范围的PC应用程序的多个用户相关数据文件编号
12M:Lotus 1-2-3 97 SmartMaster文件
123:Lotus 1-2-3 97文件
2D:VersaCAD的2维绘画文件
2GR,3GR:在Windows之下的VGA图形驱动程序/配置文件
386:在386或更高级处理器上使用的文件
3D:VersaCAD的3维绘画文件
3DM:3D NURBS建模器,Rhino
3DS:3D Studio(DOS下)格式文件
386:在386或更高级处理器上使用的文件
4GE:Informix 4GL编译后代码
4GL:Informix 4GL源代码
Ⅳ 信息检索类的论文
信息检索技术论文 –
基于网格的面向专业内容的Web信息检索
1 引言
近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统银备销的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的锋游要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。
2 基于网格的面向专业内容的Web信息滚昌检索体系结构的设计
网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。
为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1
(1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。
(2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。
(3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。
图1
本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。
2.1 集群系统的设计
由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。
集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。
下面主要说明基于专业内容的XML信息集成系统的构造方法:
XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。
目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。
图2
2.2 网格中间件的设计
图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。
内部主要功能模块说明如下:
(1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。
(2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。
(3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。
(4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。
(5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。
其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。文秘杂烩网 http://www.rrrwm.com