① 《大话数据库》pdf下载在线阅读全文,求百度网盘云资源
《大话数据库》网络网盘pdf最新全集下载:
链接:https://pan..com/s/1H2vmcx6NME-aQ_iYPUagxw
② python数据分析与应用-Python数据分析与应用 PDF 内部全资料版
给大家带来的一篇关于Python数据相关的电子书资源,介绍了关于Python方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小281 MB,黄红梅 张良均编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.8。
内容介绍
目录
第1章Python数据分析概述1
任务1.1认识数据分析1
1.1.1掌握数据分析的概念2
1.1.2掌握数据分析的流程2
1.1.3了解数据分析应用场景4
任务1.2熟悉Python数据分析的工具5
1.2.1了解数据分析常用工具6
1.2.2了解Python数据分析的优势7
1.2.3了解Python数据分析常用类库7
任务1.3安装历友Python的Anaconda发行版9
1.3.1了解Python的Anaconda发行版9
1.3.2在Windows系统中安装Anaconda9
1.3.3在Linux系统中安装Anaconda12
任务1.4掌握Jupyter Notebook常用功能14
1.4.1掌握Jupyter Notebook的基本功能14
1.4.2掌握Jupyter Notebook的高 级功能16
小结19
课后习题19
第2章NumPy数值计算基础21
任务2.1掌握NumPy数组对象ndarray21
2.1.1创建数组对象21
2.1.2生成随机数27
2.1.3通过索引访问数组29
2.1.4变换数组的形态31
任务2.2掌握NumPy矩阵与通用函数34
2.2.1创建NumPy矩阵34
2.2.2掌握ufunc函数37
任务2.3利用NumPy进行统计分析41
2.3.1读/写文件41
2.3.2使用函数进行简单的统计分析44
2.3.3任务实现48
小结50
实训50
实训1创建数组并进行运算50
实训2创建一个国际象棋的棋盘50
课后习题51
第禅塌3章Matplotlib数据可视化基础52
任务3.1掌握绘图基础语法与常用参数52
3.1.1掌握pyplot基础语法53
3.1.2设置pyplot的动态rc参数56
任务3.2分析特征间的关系59
3.2.1绘制散点图59
3.2.2绘制折线图62
3.2.3任务实现65
任务3.3分析特征内部数据分布与分散状况68
3.3.1绘制直方图68
3.3.2绘制饼图70
3.3.3绘制箱线图71
3.3.4任务实现73
小结77
实训78
实训1分析1996 2015年人口数据特征间的关系78
实训2分析1996 2015年人口数据各个特征的分布与分散状况78
课后习题79
第4章pandas统计分析基础80
任务4.1读/写不同数据源的数据80
4.1.1读/写数据库数据80
4.1.2读/写文本文件83
4.1.3读/写Excel文件87
4.1.4任务实现88
任务4.2掌握DataFrame的常用操作89
4.2.1查看DataFrame的常用属性89
4.2.2查改增贺烂圆删DataFrame数据91
4.2.3描述分析DataFrame数据101
4.2.4任务实现104
任务4.3转换与处理时间序列数据107
4.3.1转换字符串时间为标准时间107
4.3.2提取时间序列数据信息109
4.3.3加减时间数据110
4.3.4任务实现111
任务4.4使用分组聚合进行组内计算113
4.4.1使用groupby方法拆分数据114
4.4.2使用agg方法聚合数据116
4.4.3使用apply方法聚合数据119
4.4.4使用transform方法聚合数据121
4.4.5任务实现121
任务4.5创建透视表与交叉表123
4.5.1使用pivot_table函数创建透视表123
4.5.2使用crosstab函数创建交叉表127
4.5.3任务实现128
小结130
实训130
实训1读取并查看P2P网络贷款数据主表的基本信息130
实训2提取用户信息更新表和登录信息表的时间信息130
实训3使用分组聚合方法进一步分析用户信息更新表和登录信息表131
实训4对用户信息更新表和登录信息表进行长宽表转换131
课后习题131
第5章使用pandas进行数据预处理133
任务5.1合并数据133
5.1.1堆叠合并数据133
5.1.2主键合并数据136
5.1.3重叠合并数据139
5.1.4任务实现140
任务5.2清洗数据141
5.2.1检测与处理重复值141
5.2.2检测与处理缺失值146
5.2.3检测与处理异常值149
5.2.4任务实现152
任务5.3标准化数据154
5.3.1离差标准化数据154
5.3.2标准差标准化数据155
5.3.3小数定标标准化数据156
5.3.4任务实现157
任务5.4转换数据158
5.4.1哑变量处理类别型数据158
5.4.2离散化连续型数据160
5.4.3任务实现162
小结163
实训164
实训1插补用户用电量数据缺失值164
实训2合并线损、用电量趋势与线路告警数据164
实训3标准化建模专家样本数据164
课后习题165
第6章使用scikit-learn构建模型167
任务6.1使用sklearn转换器处理数据167
6.1.1加载datasets模块中的数据集167
6.1.2将数据集划分为训练集和测试集170
6.1.3使用sklearn转换器进行数据预处理与降维172
6.1.4任务实现174
任务6.2构建并评价聚类模型176
6.2.1使用sklearn估计器构建聚类模型176
6.2.2评价聚类模型179
6.2.3任务实现182
任务6.3构建并评价分类模型183
6.3.1使用sklearn估计器构建分类模型183
6.3.2评价分类模型186
6.3.3任务实现188
任务6.4构建并评价回归模型190
6.4.1使用sklearn估计器构建线性回归模型190
6.4.2评价回归模型193
6.4.3任务实现194
小结196
实训196
实训1使用sklearn处理wine和wine_quality数据集196
实训2构建基于wine数据集的K-Means聚类模型196
实训3构建基于wine数据集的SVM分类模型197
实训4构建基于wine_quality数据集的回归模型197
课后习题198
第7章航空公司客户价值分析199
任务7.1了解航空公司现状与客户价值分析199
7.1.1了解航空公司现状200
7.1.2认识客户价值分析201
7.1.3熟悉航空客户价值分析的步骤与流程201
任务7.2预处理航空客户数据202
7.2.1处理数据缺失值与异常值202
7.2.2构建航空客户价值分析关键特征202
7.2.3标准化LRFMC模型的5个特征206
7.2.4任务实现207
任务7.3使用K-Means算法进行客户分群209
7.3.1了解K-Means聚类算法209
7.3.2分析聚类结果210
7.3.3模型应用213
7.3.4任务实现214
小结215
实训215
实训1处理信用卡数据异常值215
实训2构造信用卡客户风险评价关键特征217
实训3构建K-Means聚类模型218
课后习题218
第8章财政收入预测分析220
任务8.1了解财政收入预测的背景与方法220
8.1.1分析财政收入预测背景220
8.1.2了解财政收入预测的方法222
8.1.3熟悉财政收入预测的步骤与流程223
任务8.2分析财政收入数据特征的相关性223
8.2.1了解相关性分析223
8.2.2分析计算结果224
8.2.3任务实现225
任务8.3使用Lasso回归选取财政收入预测的关键特征225
8.3.1了解Lasso回归方法226
8.3.2分析Lasso回归结果227
8.3.3任务实现227
任务8.4使用灰色预测和SVR构建财政收入预测模型228
8.4.1了解灰色预测算法228
8.4.2了解SVR算法229
8.4.3分析预测结果232
8.4.4任务实现234
小结236
实训236
实训1求取企业所得税各特征间的相关系数236
实训2选取企业所得税预测关键特征237
实训3构建企业所得税预测模型237
课后习题237
第9章家用热水器用户行为分析与事件识别239
任务9.1了解家用热水器用户行为分析的背景与步骤239
9.1.1分析家用热水器行业现状240
9.1.2了解热水器采集数据基本情况240
9.1.3熟悉家用热水器用户行为分析的步骤与流程241
任务9.2预处理热水器用户用水数据242
9.2.1删除冗余特征242
9.2.2划分用水事件243
9.2.3确定单次用水事件时长阈值244
9.2.4任务实现246
任务9.3构建用水行为特征并筛选用水事件247
9.3.1构建用水时长与频率特征248
9.3.2构建用水量与波动特征249
9.3.3筛选候选洗浴事件250
9.3.4任务实现251
任务9.4构建行为事件分析的BP神经网络模型255
9.4.1了解BP神经网络算法原理255
9.4.2构建模型259
9.4.3评估模型260
9.4.4任务实现260
小结263
实训263
实训1清洗运营商客户数据263
实训2筛选客户运营商数据264
实训3构建神经网络预测模型265
课后习题265
附录A267
附录B270
参考文献295
学习笔记
Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。 Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和 markdown。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等 。 定义 (推荐学习:Python视频教程) 用户可以通过电子邮件,Dropbox,GitHub 和 Jupyter Notebook Viewer,将 Jupyter Notebook 分享给其他人。 在Jupyter Notebook 中,代码可以实时的生成图像,视频,LaTeX和javaScript。 使用 数据挖掘领域中最热门的比赛 Kaggle 里的资料都是Jupyter 格式 。 架构 Jupyter组件 Jupyter包含以下组件: Jupyter Notebook 和 ……
本文实例讲述了Python实现的微信好友数据分析功能。分享给大家供大家参考,具体如下: 这里主要利用python对个人微信好友进行分析并把结果输出到一个html文档当中,主要用到的python包为 itchat , pandas , pyecharts 等 1、安装itchat 微信的python sdk,用来获取个人好友关系。获取的代码 如下: import itchatimport pandas as pdfrom pyecharts import Geo, Baritchat.login()friends = itchat.get_friends(update=True)[0:]def User2dict(User): User_dict = {} User_dict["NickName"] = User["NickName"] if User["NickName"] else "NaN" User_dict["City"] = User["City"] if User["City"] else "NaN" User_dict["Sex"] = User["Sex"] if User["Sex"] else 0 User_dict["Signature"] = User["Signature"] if User["Signature"] else "NaN" ……
基于微信开放的个人号接口python库itchat,实现对微信好友的获取,并对省份、性别、微信签名做数据分析。 效果: 直接上代码,建三个空文本文件stopwords.txt,newdit.txt、unionWords.txt,下载字体simhei.ttf或删除字体要求的代码,就可以直接运行。 #wxfriends.py 2018-07-09import itchatimport sysimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']#绘图时可以显示中文plt.rcParams['axes.unicode_minus']=False#绘图时可以显示中文import jiemport jieba.posseg as psegfrom scipy.misc import imreadfrom wordcloud import WordCloudfrom os import path#解决编码问题non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd) #获取好友信息def getFriends():……
Python数据分析之双色球基于线性回归算法预测下期中奖结果示例
本文实例讲述了Python数据分析之双色球基于线性回归算法预测下期中奖结果。分享给大家供大家参考,具体如下: 前面讲述了关于双色球的各种算法,这里将进行下期双色球号码的预测,想想有些小激动啊。 代码中使用了线性回归算法,这个场景使用这个算法,预测效果一般,各位可以考虑使用其他算法尝试结果。 发现之前有很多代码都是重复的工作,为了让代码看的更优雅,定义了函数,去调用,顿时高大上了 #!/usr/bin/python# -*- coding:UTF-8 -*-#导入需要的包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport operatorfrom sklearn import datasets,linear_modelfrom sklearn.linear_model import LogisticRegression#读取文件d……
以上就是本次介绍的Python数据电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对鬼鬼的支持。
注·获取方式:私信(666)
③ 《零基础学PHP+MYSQL》pdf下载在线阅读全文,求百度网盘云资源
《零基础学PHP+MYSQL》网络网盘pdf最新全集下载:
链接: https://pan..com/s/1jc7SevnkAYnluZVr0doyqQ
④ 帮帮我啊!~~~
internet技术与应用
基于Internet的信息资源发现技术与实现
王继成 邹 涛 杨小江 潘金贵 张福炎
摘 要:Internet上轮烂大量、异质、分布、动态的信息造成了“信息过载”.在信息充斥的情况下,如何有效地为用户提供基于Internet的资源发现服务已经成为一项重要而迫切的研究课题.搜索引擎部分地解决了资源发现的问题,然而其效果却远不能使人满意.文中首先提出了分布协作式资源发现策略,讨论了资源发现服务中所涉及的几项关键技术,包括:多维文档立方体数据模型、Web文档检索、基于Z39.50的书目检索以及基于Agent的用户接口等旅困,并给出了相应的解决方案.在此基础上,文中构造了一个系统原型RDSCC,以有效地提高Internet上资源发现的质量.
关键词;资源发现,多维文档立方体,Web,Z39.50,Agent
中图法分类号:TP391; TP393
THE TECHNOLOGY AND IMPLEMENTATION OF RESOURCE
DISCOVERY ON INTERNET
WANG Ji-Cheng, ZOU Tao, YANG Xiao-Jiang, PAN Jin-Gui, and ZHANG Fu-Yan
(State Key Laboratory for Novell Software Technology, Nanjing University, Nanjing 210093)
(Department of Computer Science and Technology, Nanjing University, Nanjing 210093)
Abstract A mass of heterogeneous, distributed, and dynamic information on Internet has resulted in “information overload”. With the flood of information, it has become an important research issue to provide users with effective service of resource discovery on Internet. Search engines attempt to solve this problem, yet their effect are far from satisfying. In this paper, a distributed cooperative strategy for resource discovery on Internet is firstly presented. Then, several key technologies involved in resource discovery are studied, including data model, Web document retrieval, bibliographic retrieval based on Z39.50, and agent-based user interface. Finally, a system prototype RDSCC is designed to improve the quality of resource discovery on Internet.
Key words resource discovery, multi-dimension document cube, Web, Z39.50, agent
1 引 言
人们已经进入信息极大丰富的时代.一方面,信息来源广泛,包括Web文档、图书文献,拆桐念数字化资料等,这些异构的信息分布在Internet空间中;另一方面,信息量巨大.以Web文档为例,目前已经拥有3亿页面,而且这个数字仍以每4至6个月翻一倍的速度增加〔1〕.面对信息的海洋,人们觉得力不从心,往往花费了很多时间却所获甚少.在这种情况下,如何有效地提供基于Internet的资源发现服务,以帮助用户从大量信息资源的集合中找到与给定的查询请求相关的、恰当数目的资源子集,也就成为一项重要而迫切的研究课题.
传统的搜索引擎,例如AltaVista,Yahoo等,试图解决Internet上的资源发现问题.但是,从资源覆盖度、检索精度、检索结果可视化、可维护性等诸多方面来看,其效果远不能够令人满意.此外,搜索引擎仅提供对Web文档的检索,缺乏对书目文献等其它重要信息资源的支持.在本文中,我们针对Internet资源发现的现状,提出了分布协作式资源发现策略,同时,讨论了资源发现服务中所涉及的几项关键技术,其中包括:多维文档立方体数据模型、Web文档检索、基于Z39.50的书目检索以及基于Agent的用户接口等.在此基础上,我们设计了一个系统原型RDSCC,以有效地提高Internet上资源发现的质量.
2 资源发现的分布协作策略
我们注意到,搜索引擎采用的是典型的集中方式,它们试图遍历整个Web,对其上所有的文档生成索引,供用户检索.这种集中方式给Web文档检索带来了一些严重的弊端,主要表现在:①覆盖度有限,据估计,任何一个搜索引擎索引的Web页面都不到页面总数的三分之一〔2〕;②维护困难,搜索引擎索引数据库的更新频率有限,往往会产生索引失效〔3〕;③消耗太大,包括网络带宽、搜索引擎自身昂贵的硬件设施等.元搜索引擎,例如MetaCrawler,通过综合多个搜索引擎的结果,在一定程度上扩大了覆盖度.但是,元搜索引擎对搜索引擎的依赖,使它无法从根本上解决上述问题.随着信息资源的种类和数量的急剧增长,集中方式使得上述弊端更为恶化.一方面,需要管理的信息资源极其巨大,任何一个集中式资源发现系统都无法完全满足需求;另一方面,各个集中式资源发现系统各行其是,重复建设.因此,我们认为,Internet上的资源发现应该采取分布协作的策略.
资源发现的分布协作策略,是指按照某种原则对Internet上的信息资源空间进行划分,得到若干个信息资源子空间.对于每个子空间,分别建立一个资源发现系统以提供相应的资源发现服务.目前,分布计算以及多Agent系统等领域的研究已经取得了丰硕的成果,可以用于集成这些自制、异构的资源发现系统,从而构成Internet上的协作检索群体.信息资源空间的划分原则可以是按照学科领域,也可以按照地理区域等.例如,我们可以为各种不同专业的科研人员建立专业领域资源发现系统.用户可以根据自己的需要向相应的系统提出请求.采用分布协作的资源发现策略,各个资源发现系统所要管理的信息资源相对缩小,可以降低消耗,便于维护;同时,各系统之间通过相互协作,扩大了覆盖度.可见,这种策略可以有效地克服集中方式的不足,提高资源发现服务的质量.
3 资源发现服务中的关键技术
资源发现系统的开发是一个涉及多领域、多技术的复杂工作.其中,数据模型是系统的核心,Web文档和书目数据是系统的两个重要信息来源,而用户接口的好坏直接决定了系统的使用效率.下面,我们对这几项关键技术分别加以讨论,给出相应解决方案.
3.1 数据模型
就管理信息资源而言,数据库优于平面式文件系统.因此,资源发现系统通常采用文档数据库来存储异构的信息资源.文档数据库的内部实现一般采用半结构化的逻辑模型,而其外部表现,即反映给用户的视图,则构成了资源发现系统的概念模型.例如,搜索引擎返回给用户的通常是一个顺序固定的线性列表,其中包含了Web文档的标题、URL和摘要.在这种概念模型中,用户必须逐个地浏览以找到相关文档,花费了大量的精力.当返回的结果数目众多时(这种情况非常普遍),这个问题更为突出.对用户行为的有关研究表明,用户经常希望能够从多个角度观察信息资源,而不满足于简单的、固定的列表.OLAP是数据库环境中的一种有力的分析工具,它为用户提供了关于数据的多维视图〔4〕.虽然Web文档等信息资源和数据库有着本质的区别,但我们认为OLAP技术对其仍有借鉴之处.下面,我们引入多维文档立方体作为资源发现系统的一种新的概念模型.
定义1. 维d,是指人们观察文档的角度.例如,某个用户希望从时间、机构等角度来观察文档.用户也常常关心某个主题分类的文档情况.这里的时间、机构、主题分类等元数据就构成了文档的维.
定义2. 多维文档立方体CDocument,是指以文档Document为中心,以文档的元数据(维di)分布在文档的周围,从而构成的一个超级立方体(d1, d2,…,dm, Document).
在多维文档立方体上,可以进行各种多维分析操作,包括:切片、切块、旋转、上钻、下钻等,从而生成多种文档视图,使用户能够从多个角度观察文档资源的各种特征,深入了解包含在其中的信息内涵.例如,用户可以通过切片从文档集合中来选择某个机构的文档子集.在该子集中,按照主题内容来分组,在同一个主题内按照时间进行排序.用户既可以通过上钻来折叠视图,观察每个主题的总体特性;也可以通过下钻来展开视图,观察每个子主题或每个文档的具体特性.如图1所示.
图1 文档超立方体与多维文本视图
除了能够为用户提供有效的可视化手段以外,在多维文档立方体上还可以进行统计分析,从而能够揭示文档资源中的特征分布.例如,我们可以比较不同的机构在不同的时间中关于各个主题的文档的情况,从而回答一些搜索引擎无法回答的问题,例如“近年来哪所大学在图形图像领域中发表文章最多?”.
需要说明的是,上述多维文档立方体和多维文档分析必须建立在利用计算机语言学和信息处理技术对文档资源进行预处理的基础之上.文档维来自于预处理所得到的元数据,例如时间、作者、主题等.
3.2 Web文档检索
目前,Web已经成为人们获取信息的重要来源. Altavista等搜索引擎的检索算法相对简单,检索精度有限,这使得检索到的Web文档的相关性得不到保证〔3〕.Yahoo通过对Web文档进行分类以方便用户的浏览和查找,但分类工作由人工完成,大大影响了其处理的页面数目(Yahoo! 对Web文档的覆盖度远远小于Alta-vista等).为此,我们设计了一种新的Web文档检索模型,包括语料库维护、词典维护、Robot、特征矢量生成器、训练器、分类器等6个部分组成,如图2所示.该模型能够分析用户的信息需求,然后自动搜集满足目标特征的Web文档供用户查阅.
图2 Web文档检索模型
在该模型中,我们采用了常用的向量空间模型(vector space model,VSM)〔5〕作为用户信息需求和文档特征的表示方法.VSM将每一个(或每一类)文档映射为由一组范化正交词条矢量所张成的向量空间中的一个点.每个用户信息需求或未知文档都可以表示为该向量空间中的一个特征矢量(T1,W1;T2,W2;…,Tn,Wn),其中Ti为特征词条项,Wi为特征词条权值.这样,文档与用户信息需求的匹配以及文档的分类都转化为向量空间中的矢量匹配处理.该模型的工作分为训练和分类两个阶段.
(1) 在训练阶段,用户首先建立语料库,即给出一批代表其信息需求的示例文档(每个文档被标上一个类别标识).特征矢量生成器利用词典库(常用词典和专业技术词典)将训练文档表示为一系列特征矢量.训练器对每类训练文档的特征矢量进行统计,生成代表该类的特征矢量.
(2) 在分类阶段,Robot模块首先将Web文档收集到本地.特征矢量生成器将本地的待分类文档表示为一系列特征矢量.分类器将待分类文档的特征矢量与训练器生成的类别特征矢量进行相似度匹配以得到文档的分类,并将符合相似度阈值条件的已分类文档返回给用户.
经实用表明,该模型能够对大量Web文档进行自动、快速地分类〔6〕.由于使用了专业技术词典,分类精度明显高于面向普通文档的系统,较好地保证了检索到的Web文档与用户需求的相关性.
3.3 基于Z39.50的书目信息检索
图书文献是人们获取信息的另一个重要来源,因此联机书目检索是资源发现系统的重要组成部分.图书馆的联机书目检索服务传统上是通过Telnet方式提供的.近年来,许多图书馆采用Web加CGI的形式为书目检索提供图形化界面.这些服务方式的一个重要缺陷在于各个图书馆的书目检索界面不一致,用户要检索每个图书馆就必须熟悉相应的界面.为此,ISO制定了Z39.50协议,作为检索远程图书馆书目的标准〔7〕.Z39.50是一个运行在TCP/IP协议之上的应用层协议.它规定了客户机查询服务器以及提取结果记录等过程中所涉及的数据结构和数据交换规则,从而解决了现存书目数据库检索接口的异构性问题.目前,该标准已经被国外许多图书馆所采纳,但国内尚未有一家图书馆提供基于Z39.50的书目检索服务.我们设计了一个基于Z39.50的联机书目检索模型,并在此基础上成功地开发出国内第一套基于Z39.50的书目信息检索系统〔8〕,如图3所示.
图3 基于Z39.50的书目信息检索模型
在该模型中,图书馆的书目存放在数据库服务器的一个或几个书目数据库中.Z39.50服务器在约定端口上侦听用户的连接请求(InitRequest).在成功地建立连接后,Z39.50客户发出查询请求(SearchRequest),Z39.50服务器将接收到的“抽象的”Z39.50标准查询转换为“具体的”SQL查询,提交给后台数据库服务器执行,生成查询结果集.然后,Z39.50服务器将查询的执行情况以及部分结果返回.Z39.50客户可以多次发出提取请求(PresentRequest)来获得结果集中的所有书目数据.为了使一个Z39.50客户能够同时查询多个图书馆的书目,我们在客户端采用多进程(多线程),和多个服务器并发地建立连接,并对查询结果进行后处理,包括综合各进程的查询结果、消去其中重复出现的书目等.
3.4 基于Agent的用户接口
在资源发现系统中,用户接口在用户与信息资源之间起着桥梁作用.由于信息资源的大容量、动态性和复杂性,传统的人机交互方式显得无能为力.基于Agent的用户接口被认为是解决人机交互问题的一个突破口〔9〕.目前,Agent技术的研究虽然十分流行,但对于其定义和特征还没有统一的结论.我们从软件抽象的角度出发,给出如下定义.
定义3. Agent是一种抽象手段,它既可以用来描述复杂系统又能够描述系统与用户之间的交互.
定义4. 用户接口Agent是用户在与计算机系统接口时使用的一种形象化抽象,可以简要地表示为一个四元组(Task, Knowledge, Constrain, Status).其中,Knowledge是知识库,保存从外界学习到的知识,例如用户的信息需求和爱好等;Constrain是约束条件集合,例如用户对Agent运行时间作出的限制等;Status是Agent运行状态的集合;Task是任务求解模块,它在知识库、约束集、状态集的基础上运用推理规则处理事件及完成任务.
在用户看来,用户接口Agent是一个半自主的应用程序.一方面,它拥有知识,了解用户的需求和爱好,能够代表用户智能地完成某个任务,并具有学习和适应能力;另一方面,它受用户的控制.用户可以观察它的活动状态,也可以临时性地暂停或恢复其活动,甚至将它永久性地撤销.用户接口Agent在资源发现系统中执行的任务是多种多样的.当系统中增添了用户感兴趣的信息资源时,Agent将通知用户. Agent也可以根据用户的需求或偏爱对信息资源进行过滤,建立个性化的界面.可见,基于Agent的用户接口为用户与复杂、动态的信息世界进行交互提供了重要手段.
4 基于Internet的资源发现系统原型
在上述讨论的基础之上,我们开发了的一个资源发现系统原型RDSCC(resource discovery system for computer community). RDSCC是一个面向计算机学科领域的专业资源发现系统,其目的是为该领域的研究人员提供Internet资源发现服务以掌握本专业的全面、最新信息.该系统结构如图4所示.
图4 Internet资源发现系统原型RDSCC
RDSCC由8个模块组成.其中,文档数据库系统负责管理半结构化文档资源.为了提高易用性,我们采用Web服务器来向用户提供资源发现服务.转换器作为Web服务器和文档数据库系统的中介,可以将文档数据库的内容转换成HTML格式,也可以把用户输入转换成对文档数据库系统的操作.Web文档收集与分类器下载符合用户信息需求的有关计算机方面的Web文档并进行自动分类.元数据抽取器从已分类文档中抽取文档元数据,导入器将文档和元数据存储到Web文档库中,并建立索引.Z39.50网关提供基于Z39.50的书目检索服务,依据用户通过HTML表单提交的查询请求(包括查询哪些图书馆以及何种计算机书目),同时查询多个图书馆的Z39.50服务器.
用户利用浏览器可以进行各种多维文档分析操作,从多个角度来阅读和检索文档库的内容.系统还利用Agnet技术为用户提供了配置(profile)机制,用户可以订阅文档,定制浏览界面.
5 结束语
在信息充斥的情况下,基于Internet的资源发现服务是一个具有极大潜力的研究方向,用户可以从分布的不同资源发现系统中获取所需的信息资源.本文提出了分布协作式资源发现策略,对资源发现系统开发中所涉及的数据模型、Web文档检索、书目检索以及用户接口等关键技术作了研究,并简要介绍了一个网络信息服务系统原型RDSCC.在该领域仍有许多问题值得深入探讨,包括:在DCOM/CORBA计算环境上实现多个资源发现服务器之间的分布协作;利用HTML、XML等规范从Web文档中抽取元数据等等,这些都将是我们下一步要进行的工作.
*本课题得到江苏省“九五”科技重点攻关项目(项目编号BE96017)和江苏省教委图书馆自动化项目资助.
作者简介:王继成,男,1973年6月生,博士研究生,主要研究方向为计算机网络、信息处理.
邹涛,男,1970年11月生,博士研究生,主要研究方向为计算机网络、信息处理.
杨小江,男,1965年6月生,博士研究生,主要研究方向为超媒体、信息处理.
潘金贵,男,1952年1月生,教授,主要研究方向为中间件、Agent技术.
张福炎,男,1939年11月生,教授,博士生导师,主要研究方向为多媒体、CAD与图形学、信息处理.
作者单位:南京大学软件新技术国家重点实验室 计算机科学与技术系 南京 210093
参考文献
1 Gudivada V N et al. Information retrieval on the world wide web. IEEE Internet Computing, 1997, 1(5): 58~68
2 Lawrence S, Giles C L. Searching the world wide web. Science, 1998, 280(5360): 98~100
3 Lawrence S, Giles C L. Context and page analysis for improved web search. IEEE Internet Computing, 1998, 2(4): 38~46
4 王珊等. 数据仓库技术与联机分析处理. 北京:科学出版社, 1998
(Wang Shan et al. The Technology of Data Warehouse and OLAP(in Chinese). Beijing: Science Press, 1998)
5 Salton G et al. A vector space model for automatic indexing. Communications of ACM, 18(5): 613~620
6 邹涛, 王继成, 张福炎等. 基于Web的资料搜集系统的设计与实现. 情报学报, 18(3): 195~201
(Zou Tao, Wang Jicheng, Zhang Fuyan et al. The design and implementation of an information gathering system. Journal of the China Society for Scientific and Technical Information(in Chinese), 18(3): 195~201
7 ANSI. Information Retrieval(Z39.50): Application Service Definition and Protocol Specification. ANSI/NISO Z39.50-1995. Bethesda, MD: NISO Press, 1995
8 杨晓江, 张福炎等. 利用Z39.50提供联机书目检索服务. 软件学报, 10(8): 824~828
(Yang Xiaojiang et al. Bibliographic retrieval based on Z39.50. Journal of Software(in Chinese), 10(8): 824~828)
9 Baecker R et al. Readings in Human-Computer Interaction: Towards the Year 2000. Morgan Kaufmann Publishers, 1995
⑤ 请推荐一本基础的SQL数据库的书
《SQLServer2008完全学习手册》,是2011年清华大学出版社出版的图书,作者是郭郑州。
从数据库的版基础知识入手权,全面介绍SQL Server 2008数据库应用知识。
全书内容包括使用
1、SQL Server 2008管理工具,
2、SQL Server数据库管理,操作架构、视图与索引,
3、数据查询和管理,Transact-SQL编程,
4、存储过程,触发器,
5、SQL Server 2008的安全机制,备份与恢复数据库,
6、自动化 SQL Server 2008数据库,集成服务,
7、分析服务和报表服务,
8、使用ADONET访问SQL Server 2008等内容。
如果学习的是2008版本的数据库,这本书挺好的
⑥ 数据库及pdf文件输出
【C++库】
PDF类库 PoDoFo
http://podofo.sourceforge.net/
PoDoFo 是一个用来操作 PDF 文件格式的 C++ 类库。它还包含一些小工具用来解析、修改和创建 PDF 文档。
Xpdf
http://www.foolabs.com/xpdf/download.html
Xpdf是一个开放源代码的PDF档案浏览器,Xpdf 可解码LZW压缩格式并阅读加密的PDF文件。
PDF生成工具 Poppler
http://poppler.freedesktop.org/
Poppler 是一个用来生成 PDF 的C++类库,从xpdf 继承而来。它使用了很多先进的类库例如 freetype 和 cairois 来达到更好的输出效果,同时也提供了一组命令行工具包。
JagPDF
http://www.jagpdf.com/
JagPDF 提供给 C/C++ 和 Python 编程语言用来生成 PDF 文档的库。
libHaru
http://libharu.org/wiki/Downloads
开源的PDF库
CLibPDF
http://hpux.connect.org.uk/hppd/hpux/Shells/ClibPDF-2.02/
ClibPDF是C函数库,可以直接生成PDF文件, 不需要Adobe Acrobat等工具支持.
------------------------------------------------------------------------
【JAVA库】
PDF操作类库 iText
http://www.lowagie.com/iText/
iText是一个能够快速产生PDF文件的java类库。iText的java类对于那些要产生包含文本,表格,图形的只读文档是很有用的。它的类库尤其与java Servlet有很好的给合。使用iText与PDF能够使你正确的控制Servlet的输出。
PDFBox
http://www.pdfbox.org/
非常强悍的PDF生成和解析Java类库
jpedal
http://www.jpedal.org/
jpedal是开源纯Java的PDF文档解析库,可以用来读取PDF文档中的文字、图形。
JasperReports
http://jasperforge.org/plugins/project/project_home.php?group_id=102
JasperReports是一个基于Java的开源报表工具,它可以在Java环境下像其它IDE报表工具一样来制作报表。JasperReports 支持PDF、HTML、XLS、CSV和XML文件输出格式。JasperReports是当前Java开发者最常用的报表工具。
Fourfive
http://sourceforge.net/projects/fourfive
Fourfive是一个领先的开源Web报表解决方案,使用XML作为它的配置文件。支持集群、负载平衡、动态发布、PDF, Excel, LDAP,图表、过滤器、排序、布局定制、门户、JasperReports、Velocity模板、兼容Internet Explorer, Netscape, Mozilla, Opera。
FOP
http://xmlgraphics.apache.org/fop/
FOP是由James Tauber发起的一个开源项目,原先的版本是利用xsl-fo将xml文件转换成pdf文件。但最新的版本它可以将xml文件转换成pdf,mif,pcl,txt等多种格式以及直接输出到打印机,并且支持使用SVG描述图形。
JFreeReport
http://sourceforge.net/projects/jfreereport/
JFreeReport是一个用来生成报表的Java类库。它为Java应用程序提供一个灵活的打印功能并支持输出到打印机和PDF, Excel, HTML和XHTML, PlainText, XML和CSV文件中。
YaHP
http://www.allcolor.org/YaHPConverter/
YaHP是一个能够把html文档转换成pdf文档的Java开源包。
PDFjet
http://pdfjet.com/os/edition.html
PDFjet是一个用于动态生成PDF文档的Java类库。支持绘制点、线、方框、圆、贝塞尔曲线(Bezier Curves) 、多边形、星形、复杂路径和形状。支持unicode,文本间距调整,嵌入超链接等。它同时有Java和.NET两个版本。
vPDF
http://sourceforge.net/projects/vpdf/
一个将RTF文档转成PDF文档的工具
【.NET组件】
--------------------------------------------------
iTextSharp
http://itextsharp.sourceforge.net/
iTextSharp 是用来生成 PDF 文档的 C# 组件
PDFsharp
http://www.pdfsharp.com/
PDFsharp is a C# library that easily creates PDF documents on the fly. The same GDI+ like drawing routines can be used to create PDF documents, draw on the screen, or send output to any printer. PDFsharp can also modify, merge, and split existing PDF files or incorporate pages from existing PDF files into new PDF documents.
Report.NET
http://report.sourceforge.net/
Report.NET 是一个功能强大且易用的用来生成 PDF 文档的 C# 组件
---------------------------------------------------------------------
【PHP】
Php Pdf Factory
http://sourceforge.net/projects/pdf-factory/
一个PHP的PDF操作库。
TCPDF
http://www.tecnick.com/public/code/cp_dpage.php?aiocp_dp=tcpdf
TCPDF是一个用于快速生成PDF文件的PHP5函数包。TCPDF基于FPDF进行扩展和改进。支持UTF-8,Unicode,HTML和XHTML。
HTML2PDF
http://html2fpdf.sourceforge.net/
HTML2PDF能够把一个HTML文本转换成一个打印机友好的PDF文件。这个PHP脚本构建在FPDFPHP脚本之上。
cPdfWriter
http://www.palos.ro/index.php?page=opensource_active
cPdfWriter是一个能够输出PDF文档的PHP5 class。基于TCPDF,FPDF和其它相关脚本。
FPDF
http://www.fpdf.org/
FPDF这个PHP Class允许你采用纯PHP(更确切地说就是不需要使用PDFlib)来生成PDF文件。它所具有的特点包括:可选择的unit大小,页面格式和页边 距;页眉和页脚管理;自动分页;自动换行与文本自动对齐;支持JPEG与PNG图片格式;支持着色和文件超链接;支持TrueType,Type1与 encoding;支持页面压缩。...
------------------------------------------------------------------------
【Python和Ruby】
Prawn
http://prawn.majesticseacreature.com/
Prawn: 用Ruby生成PDF更简捷
ReportLab
http://www.reportlab.org/
Reportlab是用python开发的生成pdf的工具包,它是一个开源软件。
PDF生成工具 pyPdf
PyPDF这是一个用于构建PDF的纯Python工具包
⑦ 谁有《Excel VBA整合数据库应用从基础到实践》PDF版
书籍请在这里下, 应该是这部不会错, 可以的话麻烦采纳一下答案. 如果不是这本的话可继续追问.
⑧ 《深入浅出MySQL数据库开发优化与管理维护第3版》pdf下载在线阅读全文,求百度网盘云资源
《深入浅出MySQL数据库渣握轮开发优化与管理维护第3版》网络网盘pdf最新全集下载:
链接:https://pan..com/s/1AxoktD-VngFdL1vsIBS_mw