统计大数据库设计_怎样建立一个大型数据库

Ⅰ 大型数据库设计原则

一个好的数据库产品不等于就有一个好的应用系统如果不能设计一个合理的数据库模型不仅会增加客户端和服务器段程序的编程和维护的难度而且将会影响系统实际运行的性能一般来讲在一个MIS系统分析设计测试和试运行阶段因为数据量较小设计人员和测试人员往往只注意到功能的实现而很难注意到性能的薄弱之处等到系统投入实际运行一段时间后才发现系统的性能在降低这时再来考虑提高系统性能则要花费更多的人力物力而整个系统也不可避免的形成了一个打补丁工程笔者依据多年来设计和使用数据库的经验提出以下一些设计准则供同仁们参考

命名的规范

不同的数据库产品对对象的命名有不同的要求因此数据库中的各种对象的命名后台程序的代码编写应采用大小写敏感的形式各种对象命名长度不要超过个字符这样便于应用系统适应不同的数据库

游标（Cursor）的慎用

游标提供了对特定集合中逐行扫描的手段一般使用游标逐行遍历数据根据取出的数据不同条件进行不同的操作尤其对多表和大表定义的游标（大的数据集合）循环很容易使程序进入一个漫长的等特甚至死机笔者在某市《住房公积金管理系统》进行日终帐户滚积数计息处理时对一个万个帐户的游标处理导致程序进入了一个无限期的等特（后经测算需个小时才能完成）(硬件环境 Alpha/ Mram Sco Unix Sybase ) 后根据不同的条件改成用不同的UPDATE语句得以在二十分钟之内完成示例如下

Declare Mycursor cursor for select count_no from COUNT

Open Mycursor

Fetch Mycursor into @vcount_no

While (@@sqlstatus= )

Begin

If @vcount_no= 条件

操作

If @vcount_no= 条件

操作

Fetch Mycursor into @vcount_no

End

改为

Update COUNT set 操作 for 条件

在有些场合有时也非得使用游标此时也可考虑将符合条件的数据行转入临时表中再对临时表定义游标进行操作可时性能得到明显提高笔者在某地市〈电信收费系统〉数据库后台程序设计中对一个表（万行中符合条件的多行数据）进行游标操作(硬件环境 PC服务器 PII Mram NT Ms Sqlserver ) 示例如下

Create #tmp /* 定义临时表 */

(字段

字段

)

Insert into #tmp select * from TOTAL where

条件 /* TOTAL中万行符合条件只有几十行 */

Declare Mycursor cursor for select * from #tmp

/*对临时表定义游标*/

索引(Index)的使用原则

创建索引一般有以下两个目的维护被索引列的唯一性和提供快速访问表中数据的策略大型数据库有两种索引即簇索引和非簇索引一个没有簇索引的表是按堆结构存储数据所有的数据均添加在表的尾部而建立了簇索引的表其数据在物理上会按照簇索引键的顺序存储一个表只允许有一个簇索引因此根据B树结构可以理解添加任何一种索引均能提高按索引列查询的速度但会降低插入更新删除操作的性能尤其是当填充因子（Fill Factor）较大时所以对索引较多的表进行频繁的插入更新删除操作建表和索引时因设置较小的填充因子以便在各数据页中留下较多的自由空间减少页分割及重新组织的工作

数据的一致性和完整性

为了保证数据库的一致性和完整性设计人员往往会设计过多的表间关联（Relation）尽可能的降低数据的冗余表间关联是一种强制性措施建立后对父表（Parent Table）和子表(Child Table)的插入更新删除操作均要占用系统的开销另外最好不要用Identify 属性字段作为主键与子表关联如果数据冗余低数据的完整性容易得到保证但增加了表间连接查询的操作为了提高系统的响应时间合理的数据冗余也是必要的使用规则（Rule）和约束（Check）来防止系统操作人员误输入造成数据的错误是设计人员的另一种常用手段但是不必要的规则和约束也会占用系统的不必要开销需要注意的是约束对数据的有效性验证要比规则快所有这些设计人员在设计阶段应根据系统操作的类型频度加以均衡考虑

事务的陷阱

事务是在一次性完成的一组操作虽然这些操作是单个的操作 SQL Server能够保证这组操作要么全部都完成要么一点都不做正是大型数据库的这一特性使得数据的完整性得到了极大的保证

众所周知 SQL Server为每个独立的SQL语句都提供了隐含的事务控制使得每个DML的数据操作得以完整提交或回滚但是SQL Server还提供了显式事务控制语句

BEGIN TRANSACTION 开始一个事务

MIT TRANSACTION 提交一个事务

ROLLBACK TRANSACTION 回滚一个事务

事务可以嵌套可以通过全局变量@@trancount检索到连接的事务处理嵌套层次需要加以特别注意并且极容易使编程人员犯错误的是每个显示或隐含的事物开始都使得该变量加每个事务的提交使该变量减每个事务的回滚都会使得该变量置而只有当该变量为时的事务提交（最后一个提交语句时）这时才把物理数据写入磁盘

数据库性能调整

在计算机硬件配置和网络设计确定的情况下影响到应用系统性能的因素不外乎为数据库性能和客户端程序设计而大多数数据库设计员采用两步法进行数据库设计首先进行逻辑设计而后进行物理设计数据库逻辑设计去除了所有冗余数据提高了数据吞吐速度保证了数据的完整性清楚地表达数据元素之间的关系而对于多表之间的关联查询（尤其是大数据表）时其性能将会降低同时也提高了客户端程序的编程难度因此物理设计需折衷考虑根据业务规则确定对关联表的数据量大小数据项的访问频度对此类数据表频繁的关联查询应适当提高数据冗余设计

数据类型的选择

数据类型的合理选择对于数据库的性能和操作具有很大的影响有关这方面的书籍也有不少的阐述这里主要介绍几点经验

Identify字段不要作为表的主键与其它表关联这将会影响到该表的数据迁移

Text 和Image字段属指针型数据主要用来存放二进制大型对象（BLOB）这类数据的操作相比其它数据类型较慢因此要避开使用

日期型字段的优点是有众多的日期函数支持因此在日期的大小比较加减操作上非常简单但是在按照日期作为条件的查询操作也要用函数相比其它数据类型速度上就慢许多因为用函数作为查询的条件时服务器无法用先进的性能策略来优化查询而只能进行表扫描遍历每行

例如要从DATA_TAB 中（其中有一个名为DATE的日期字段）查询年的所有记录

lishixin/Article/program/Oracle/201311/17929

Ⅱ 怎样建立一个大型数据库

建立一个数据库当你想建立一个表时，你必须按照以下的步骤先建立一个数据库：在SQL Enterprise Manager中，选择你的数据库的名字。从Manage菜单中选择Databases选项。管理数据库的窗口就出现了。在工具条上点击新建数据库的按钮，就会出现新建数据库的对话框（如图3.5所示）。注意</B>现在版本的SQL Server(version 6.5)最多能有32,767个数据库。每个数据库的最小容量是1MB，最大容量是ITB。在SQL Enterprise Manager对话框中的新建数据库对话框。填写你的数据库所要使用的名字（不能有空格）。然后，填写你要建立的数据库所在的数据库设备（例如，他就是你在前面一步建立的数据库设备）。这个新建数据库的对话框会以图形的方式显示所有数据库设备的已经使用和没有使用的空间。当你建立一个数据库时，你可以选择去建立事务日志。为了建立事务日志，你需要指定一个log device（日志数据库设备）。在新建数据库对话框中，打开标有LogDevice的下拉式框，然后选择一个数据库设备和用于日志的空间大小。注意</B>每个数据库都有它自己的事务处理日志，它记录了对数据库每一个请求（modify,insert,delete）。日志文件是对数据库的内部处理过程的一种监视。它允许你对数据库执行updates, inserts, deletes等操作。所以在需要的时候，你也可以取消这些操作的结果。在系统没有正确地关闭，而只是停机或重新启动时，这些事务处理的日志是很有用的－在重新启动时，SQL Server会根据事务处理日志来恢复数据。注意</B>当你把事务处理日志向一个mp 数据库倾倒时，你的事务处理日志会被截短。你也可以强制地使你的事务日志缩短。如果你想知道有关事务日志的更多的信息，请查询SQL 在线帮助文件，用关键字transaction log查找。6当你完成在新建数据库的对话框中的这些问题的回答，点击Create Now 按钮。你的数据库就会在Databases文件夹下显示出来。

Ⅲ 说明在设计数据库表时你是如何考虑的

数据库是整个软件应用的根基，是软件设计的起点，它起着决定性的质变作用，因此我们必须对数据库设计高度重视起来，培养设计良好数据库的习惯，是一个优秀的软件设计师所必须具备的基本素质条件！那么我们要做到什么程度才是对的呢？下面就说说数据库设计的原则：（1）、数据库设计最起码要占用整个项目开发的40%以上的时间

数据库是需求的直观反应和表现，因此设计时必须要切实符合用户的需求，要多次与用户沟通交流来细化需求，将需求中的要求和每一次的变化都要一一体现在数据库的设计当中。如果需求不明确，就要分析不确定的因素，设计表时就要事先预留出可变通的字段，正所谓“有备无患”。（2）、数据库设计不仅仅停留于页面demo的表面页面内容所需要的字段，在数据库设计中只是一部分，还有系统运转、模块交互、中转数据、表之间的联系等等所需要的字段，因此数据库设计绝对不是简单的基本数据存储，还有逻辑数据存储。（3）、数据库设计完成后，项目80%的设计开发在你脑海中就已经完成了每个字段的设计都是有他必要的意义的，你在设计每一个字段的同时，就应该已经想清楚程序中如何去运用这些字段，多张表的联系在程序中是如何体现的。换句话说，你完成数据库设计后，程序中所有的实现思路和实现方式在你的脑海中就已经考虑过了。如果达不到这种程度，那当进入编码阶段后，才发现要运用的技术或实现的方式数据库无法支持，这时再改动数据库就会很麻烦，会造成一系列不可预测的问题。（4）、数据库设计时就要考虑到效率和优化问题一开始就要分析哪些表会存储较多的数据量，对于数据量较大的表的设计往往是粗粒度的，也会冗余一些必要的字段，已达到尽量用最少的表、最弱的表关系去存储海量的数据。并且在设计表时，一般都会对主键建立聚集索引，含有大数据量的表更是要建立索引以提供查询性能。对于含有计算、数据交互、统计这类需求时，还要考虑是否有必要采用存储过程。（5）、添加必要的（冗余）字段像“创建时间”、“修改时间”、“备注”、“操作用户IP”和一些用于其他需求（如统计）的字段等，在每张表中必须都要有，不是说只有系统中用到的数据才会存到数据库中，一些冗余字段是为了便于日后维护、分析、拓展而添加的，这点是非常重要的，比如黑客攻击，篡改了数据，我们便就可以根据修改时间和操作用户IP来查找定位。（6）、设计合理的表关联若多张表之间的关系复杂，建议采用第三张映射表来关联维护两张表之间的关系，以降低表之间的直接耦合度。若多张表涉及到大数据量的问题，表结构尽量简单，关联也要尽可能避免。（7）、设计表时不加主外键等约束性关联，系统编码阶段完成后再添加约束性关联这样做的目的是有利于团队并行开发，减少编码时所遇到的问题，表之间的关系靠程序来控制。编码完成后再加关联并进行测试。不过也有一些公司的做法是干脆就不加表关联。（8）、选择合适的主键生成策略

Ⅳ 大型数据库的设计原则与开发技巧

随着计算机技术越来越广泛地应用于国民经济的各个领域在计算机硬件不断微型化的同时应用系统向着复杂化大型化的方向发展数据库是整个系统的核心它的设计直接关系系统执行的效率和系统的稳定性因此在软件系统开发中数据库设计应遵循必要的数据库范式理论以减少冗余保证数据的完整性与正确性只有在合适的数据库产品上设计出合理的数据库模型才能降低整个系统的编程和维护难度提高系统的实际运行效率虽然对于小项目或中等规模的项目开发人员可以很容易地利用范式理论设计出一套符合要求的数据库但对于一个包含大型数据库的软件项目就必须有一套完整的设计原则与技巧

一成立数据小组

大型数据库数据元素多在设计上有必要成立专门的数据小组由于数据库设计者不一定是使用者对系统设计中的数据元素不可能考虑周全数据库设计出来后往往难以找到所需的库表因此数据小组最好由熟悉业务的项目骨干组成

数据小组的职能并非是设计数据库而是通过需求分析在参考其他相似系统的基础上提取系统的基本数据元素担负对数据库的审核审核内容包括审核新的数据库元素是否完全能否实现全部业务需求对旧数据库（如果存在旧系统）的分析及数据转换数据库设计的审核控制及必要调整

二设计原则

规范命名所有的库名表名域名必须遵循统一的命名规则并进行必要说明以方便设计维护查询

控制字段的引用在设计时可以选择适当的数据库设计管理工具以方便开发人员的分布式设计和数据小组的集中审核管理采用统一的命名规则如果设计的字段已经存在可直接引用否则应重新设计

库表重复控制在设计过程中如果发现大部分字段都已存在开发人员应怀疑所设计的库表是否已存在通过对字段所在库表及相应设计人员的查询可以确认库表是否确实重复

并发控制设计中应进行并发控制即对于同一个库表在同一时间只有一个人有控制权其他人只能进行查询

必要的讨论数据库设计完成后数据小组应与相关人员进行讨论通过讨论来熟悉数据库从而对设计中存在的问题进行控制或从中获取数据库设计的必要信息

数据小组的审核库表的定版修改最终都要通过数据小组的审核以保证符合必要的要求

头文件处理每次数据修改后数据小组要对相应的头文件进行修改（可由管理软件自动完成）并通知相关的开发人员以便进行相应的程序修改

三设计技巧

分类拆分数据量大的表对于经常使用的表（如某些参数表或代码对照表）由于其使用频率很高要尽量减少表中的记录数量例如银行的户主账表原来设计成一张表虽然可以方便程序的设计与维护但经过分析发现由于数据量太大会影响数据的迅速定位如果将户主账表分别设计为活期户主账定期户主账及对公户主账等则可以大大提高查询效率

索引设计对于大的数据库表合理的索引能够提高整个数据库的操作效率在索引设计中索引字段应挑选重复值较少的字段在对建有复合索引的字段进行检索时应注意按照复合索引字段建立的顺序进行例如如果对一个万多条记录的流水表以日期和流水号为序建立复合索引由于在该表中日期的重复值接近整个表的记录数用流水号进行查询所用的时间接近秒而如果以流水号为索引字段建立索引进行相同的查询所用时间不到秒因此在大型数据库设计中只有进行合理的索引字段选择才能有效提高整个数据库的操作效率

数据操作的优化在大型数据库中如何提高数据操作效率值得关注例如每在数据库流水表中增加一笔业务就必须从流水控制表中取出流水号并将其流水号的数值加一正常情况下单笔操作的反应速度尚属正常但当用它进行批量业务处理时速度会明显减慢经过分析发现每次对流水控制表中的流水号数值加一时都要锁定该表而该表却是整个系统操作的核心有可能在操作时被其他进程锁定因而使整个事务操作速度变慢对这一问题的解决的办法是根据批量业务的总笔数批量申请流水号并对流水控制表进行一次更新即可提高批量业务处理的速度另一个例子是对插表的优化对于大批量的业务处理如果在插入数据库表时用普通的Insert语句速度会很慢其原因在于每次插表都要进行一次I/O操作花费较长的时间改进后可以用Put语句等缓冲区形式等满页后再进行I/O操作从而提高效率对大的数据库表进行删除时一般会直接用Delete语句这个语句虽然可以进行小表操作但对大表却会因带来大事务而导致删除速度很慢甚至失败解决的方法是去掉事务但更有效的办法是先进行Drop操作再进行重建

数据库参数的调整数据库参数的调整是一个经验不断积累的过程应由有经验的系统管理员完成以Informix数据库为例记录锁的数目太少会造成锁表的失败逻辑日志的文件数目太少会造成插入大表失败等这些问题都应根据实际情况进行必要的调整

必要的工具在整个数据库的开发与设计过程中可以先开发一些小的应用工具如自动生成库表的头文件插入数据的初始化数据插入的函数封装错误跟踪或自动显示等以此提高数据库的设计与开发效率

避免长事务对单个大表的删除或插入操作会带来大事务解决的办法是对参数进行调整也可以在插入时对文件进行分割对于一个由一系列小事务顺序操作共同构成的长事务（如银行交易系统的日终交易）可以由一系列操作完成整个事务但其缺点是有可能因整个事务太大而使不能完成或者由于偶然的意外而使事务重做所需的时间太长较好的解决方法是把整个事务分解成几个较小的事务再由应用程序控制整个系统的流程这样如果其中某个事务不成功则只需重做该事务因而既可节约时间又可避免长事务

适当超前计算机技术发展日新月异数据库的设计必须具有一定前瞻性不但要满足当前的应用要求还要考虑未来的业务发展同时必须有利于扩展或增加应用系统的处理功能

lishixin/Article/program/SQL/201311/16498

Ⅳ 请大伙给我解释一下数据库设计的基本原则！

数据库设计的三范式所谓范式，是关系型数据库关系模式规范化的标准，从规范化的宽松到严格，分别为不同的范式，通常使用的有第一范式、第二范式、第三范式及BC范式等。范式是建立在函数依赖基础上的。

函数依赖

定义：设有关系模式R(U)，X和Y是属性集U的子集，函数依赖是形为X→Y的一个命题，对任意R中两个元组t和s，都有t[X]=s[X]蕴涵t[Y]=s[Y]，那么FD X→Y在关系模式R(U)中成立。X→Y读作‘X函数决定Y’，或‘Y函数依赖于X’。通俗的讲，如果一个表中某一个字段Y的值是由另外一个字段或一组字段X的值来确定的，就称为Y函数依赖于X。函数依赖应该是通过理解数据项和企业的规则来决定的，根据表的内容得出的函数依赖可能是不正确的。

第一范式（1NF）

定义：如果关系模式R的每个关系r的属性都是不可分的数据项，那么就称R是第一范式的模式。
简单的说，每一个属性都是原子项，不可分割。1NF是关系模式应具备的最起码的条件，如果数据库设计不能满足第一范式，就不称为关系型数据库。关系数据库设计研究的关系规范化是在1NF之上进行的。

第二范式（2NF）

定义：如果关系模式R是1NF，且每个非主属性完全函数依赖于候选键，那么就称R是第二范式。
简单的说，第二范式要满足以下的条件：首先要满足第一范式，其次每个非主属性要完全函数依赖与候选键，或者是主键。也就是说，每个非主属性是由整个主键函数决定的，而不能由主键的一部分来决定。举个例子：
有股票日行情表的主键是股票代码和交易日期组成。非主属性中有收盘价和成交量等，都是由主键，即股票代码和交易日期函数决定的，单独的股票代码或者交易日期都不能函数决定这些非主属性。如果这个表中有非主属性股票简称，则股票简称是可以由股票代码来函数决定的，这样股票简称这个非主属性就不是完全函数依赖于候选键，这样的设计就不满足第二范式。

第三范式（3NF）
定义：如果关系模式R是2NF，且关系模式R（U，F）中的所有非主属性对任何候选关键字都不存在传递依赖，则称关系R是属于第三范式。
简单的说，第三范式要满足以下的条件：首先要满足第二范式，其次非主属性之间不存在函数依赖。由于满足了第二范式，表示每个非主属性都函数依赖于主键。如果非主属性之间存在了函数依赖，就会存在传递依赖，这样就不满足第三范式。
举个例子：在股票基本情况表中，主键是股票代码，有非主属性所属一级行业和所属二级行业。根据业务规则，所属二级行业能够函数决定所属一级行业，这就表示存在这样一种关系：股票代码函数决定所属二级行业，所属二级行业函数决定所属一级行业，这就形成了传递依赖，这样的设计就不符合第三范式。不过在实际运用中，为查询和使用的方便，有时也会违反第三范式。如上例，如果没有所属一级行业的属性，需要查询所属一级行业的相关股票，需要查询时使用函数来从二级行业中函数生成所属一级行业，使用性能上会受影响。所以通常会加上所属一级行业的属性。

BC范式（BCNF）

BC范式是第三范式的增强版，不过也有人说是直接从1NF发展过来的，即每个属性，包括主属性或非主属性，都完全依赖于候选键，并且不存在传递依赖情况。

Ⅵ 关于“每天”的数据，数据库怎么设计

所谓项目是指数据类型？前提：如果没有相同的表结构，那么就要每个项目单独建表。那没办法实现你说的。那么，只有所有项目统计表结构。数据分类：每日数据，固定数据。可以认为是日志表和资料表。分开建就是了。主要问题：每日数据库数据表的存储方式。之所以有这个问题，就是大数据量的处理。而不断增加的大数据量处理，必然涉及到分表或者历史数据清理了。:)而有较好查询支持的自然是分表。so，接下来就是讨论使用什么样的分表方式了。hash值分表，时间段分表，数据量阀值分表等。针对你这种情况，如果数据量不那么太大，采用数据量阀值分表可能会好。当然，变种、复合方案很多。那要像2楼说的那样，拿出的详细问题来。问题都没搞清楚，那就谁也帮不上你了。

导航:首页 > 网络数据 > 统计大数据库设计

统计大数据库设计

与统计大数据库设计相关的资料

友情链接