近似熵和样本熵代码_量化的定义

『壹』决策树（Decision Tree）

决策树（Decision Tree）是一种基本的分类与回归方法，其模型呈树状结构，在分类问题中，表示基于特征对实例进行分类的过程。本质上，决策树模型就是一个定义在特征空间与类空间上的条件概率分布。决策树学习通常包括三个步骤：特征选择、决策树的生成和决策树的修剪。

分类决策树模型是一种描述对实例进行分类的树形结构，决策树由节点（node）和有向边（directed edge）组成。节点有两种类型：内部节点（internal node）和叶节点（leaf node）。内部节点表示一个特征或属性，叶节点表示一个类。

利用决策树进行分类，从根节点开始，对实例的某一特征进行测试，根据测试结果将实例分配到其子节点；这时，每一个子节点对应着该特征的一个取值。如此递归地对实例进行测试并分配，直至达到叶节点。最后将实例分到叶节点的类中。

决策树是给定特征条件下类的条件概率分布，这一条件概率分布定义在特征区间的一个划分（partiton）上。将特征空间划分为互不相交的单元（cell）或区域（region），并在每个单元定义一个类的概率分布就构成了一个条件概率分布。决策树的一条路径对应划分中的一个单元，决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。假设X为表示特征的随机变量，Y为表示类的随机变量，那么这个条件概率分布可以表示成P(Y|X)。X取值于给定划分下单元的集合，Y取值于类的集合，各叶节点（单元）上的条件概率往往偏向于某一个类，即属于某一类的概率较大，决策树分类时将该节点的实例分到条件概率大的那一类去。也就以为着决策树学习的过程其实也就是由数据集估计条件概率模型的过程，这些基于特征区间划分的类的条件概率模型由无穷多个，在进行选择时，不仅要考虑模型的拟合能力还要考虑其泛化能力。

为了使模型兼顾模型的拟合和泛化能力，决策树学习使用正则化的极大似然函数来作为损失函数，以最小化损失函数为目标，寻找最优的模型。显然从所有可能的决策树中选取最优决策树是NP完全问题，所以在实际中通常采用启发式的方法，近似求解这一最优化问题： 通过递归的选择最优特征，根据该特征对训练数据进行划分直到使得各个子数据集有一个最好的分类，最终生成特征树 。当然，这样得到的决策树实际上是次最优（sub-optimal）的。进一步的，由于决策树的算法特性，为了防止模型过拟合，需要对已生成的决策树自下而上进行剪枝，将树变得更简单，提升模型的泛化能力。具体来说，就是去掉过于细分的叶节点，使其退回到父节点，甚至更高的节点，然后将父节点或更高的节点改为新的叶节点。如果数据集的特征较多，也可以在进行决策树学习之前，对数据集进行特征筛选。

由于决策树是一个条件概率分布，所以深浅不同的决策树对应着不同复杂度的概率模型，决策树的生成对应模型的局部选择，决策树的剪枝对应着模型的全局选择。

熵（Entropy）的概念最早起源于物理学，最初物理学家用这个概念度量一个热力学系统的无序程度。在1948年，克劳德·艾尔伍德·香农将热力学的熵，引入到信息论，因此它又被称为 香农熵 。在信息论中，熵是对不确定性的量度，在一条信息的熵越高则能传输越多的信息，反之，则意味着传输的信息越少。

如果有一枚理想的硬币，其出现正面和反面的机会相等，则抛硬币事件的熵等于其能够达到的最大值。我们无法知道下一个硬币抛掷的结果是什么，因此每一次抛硬币都是不可预测的。因此，使用一枚正常硬币进行若干次抛掷，这个事件的熵是一比特，因为结果不外乎两个——正面或者反面，可以表示为 0, 1 编码，而且两个结果彼此之间相互独立。若进行 n 次独立实验，则熵为 n ，因为可以用长度为 n 的比特流表示。但是如果一枚硬币的两面完全相同，那个这个系列抛硬币事件的熵等于零，因为结果能被准确预测。现实世界里，我们收集到的数据的熵介于上面两种情况之间。

另一个稍微复杂的例子是假设一个随机变量 X ，取三种可能值，概率分别为，那么编码平均比特长度是：。其熵为。因此熵实际是对随机变量的比特量和顺次发生概率相乘再总和的 数学期望。

依据玻尔兹曼H定理，香农把随机变量X的熵定义为：

其中是随机变量X的信息量，当随机变量取自有限样本时，熵可以表示为：

若，则定义。

同理可以定义条件熵 :

很容易看出，条件熵（conditional entropy）就是X给定条件下Y的条件概率分布的熵对X的数学期望。当熵和条件熵中的概率有极大似然估计得到时，所对应的熵和条件熵分别称为检验熵（empirical entropy）和经验条件熵（empirical conditional entropy）.

熵越大，随机变量的不确定性就越大，从定义可以验证:

当底数时，熵的单位是；当时，熵的单位是 ;而当时，熵的单位是 .

如英语有26个字母，假如每个字母在文章中出现的次数平均的话，每个字母的信息量为：

同理常用汉字2500有个，假设每个汉字在文章中出现的次数平均的话，每个汉字的信息量为：

事实上每个字母和汉字在文章中出现的次数并不平均，少见字母和罕见汉字具有相对较高的信息量，显然，由期望的定义，熵是整个消息系统的平均消息量。

熵可以用来表示数据集的不确定性，熵越大，则数据集的不确定性越大。因此使用 划分前后数据集熵的差值 量度使用当前特征对于数据集进行划分的效果（类似于深度学习的代价函数）。对于待划分的数据集，其划分前的数据集的熵是一定的，但是划分之后的熵是不定的，越小说明使用此特征划分得到的子集的不确定性越小（也就是纯度越高）。因此越大，说明使用当前特征划分数据集时，纯度上升的更快。而我们在构建最优的决策树的时候总希望能更快速到达纯度更高的数据子集，这一点可以参考优化算法中的梯度下降算法，每一步沿着负梯度方法最小化损失函数的原因就是负梯度方向是函数值减小最快的方向。同理：在决策树构建的过程中我们总是希望集合往最快到达纯度更高的子集合方向发展，因此我们总是选择使得信息增益最大的特征来划分当前数据集。

显然这种划分方式是存在弊端的，按信息增益准则的划分方式，当数据集的某个特征B取值较多时，依此特征进行划分更容易得到纯度更高的数据子集，使得偏小，信息增益会偏大，最终导致信息增益偏向取值较多的特征。

设是个数据样本的集合，假定类别属性具有个不同的值： ,设是类中的样本数。对于一个给定样本，它的信息熵为：

其中，是任意样本属于的概率，一般可以用估计。

设一个属性A具有个不同的值，利用属性A将集合划分为个子集，其中包含了集合中属性取值的样本。若选择属性A为测试属性，则这些子集就是从集合的节点生长出来的新的叶节点。设是子集中类别为的样本数，则根据属性A划分样本的信息熵为：

其中 , 是子集中类别为的样本的概率。最后，用属性A划分样本子集后所得的信息增益(Gain) 为：

即，属性A的信息增益=划分前数据的熵-按属性A划分后数据子集的熵。 信息增益（information gain）又称为互信息（matual information）表示得知特征X的信息而使得类Y的信息的不确定性减少的程度 。信息增益显然越小，的值越大，说明选择测试属性A对于分类提供的信息越多，选择A之后对分类的不确定程度越小。

经典算法 ID3 使用的信息增益特征选择准则会使得划分更偏相遇取值更多的特征，为了避免这种情况。ID3的提出者 J.Ross Quinlan 提出了 C4.5 ,它在ID3的基础上将特征选择准则由信息增益改为了信息增益率。在信息增益的基础之上乘上一个惩罚参数。特征个数较多时，惩罚参数较小；特征个数较少时，惩罚参数较大（类似于正则化）。这个惩罚参数就是分裂信息度量的倒数。

不同于 ID3 和 C4.5 , CART 使用基尼不纯度来作为特征选择准则。基尼不纯度也叫基尼指数 , 表示在样本集合中一个随机选中的样本被分错的概率则基尼指数（基尼不纯度）= 样本被选中的概率 * 样本被分错的概率。Gini指数越小表示集合中被选中的样本被分错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。

样本集合的基尼指数：
样本集合有m个类别，表示第个类别的样本数量,则的Gini指数为：

基于某个特征划分样本集合S之后的基尼指数：
CART是一个二叉树，也就是当使用某个特征划分样本集合后，得到两个集合：a.等于给定的特征值的样本集合；b.不等于给定特征值的样本集合。实质上是对拥有多个取值的特征的二值处理。

对于上述的每一种划分，都可以计算出基于划分特=某个特征值将样本集合划分为两个子集的纯度：

因而对于一个具有多个取值（超过2个）的特征，需要计算以每个取值为划分点，对样本集合划分后子集的纯度 ( 表示特征的可能取值)然后从所有的划分可能中找出Gini指数最小的划分，这个划分的划分点，就是使用特征对样本集合进行划分的最佳划分点。

参考文献 ：

决策树--信息增益，信息增益比，Geni指数的理解

【机器学习】深入理解--信息熵（Information Entropy）

统计学习方法（李航）

为了便于理解，利用以下数据集分别使用三种方法进行分类：

在进行具体分析之前，考虑到收入是数值类型，要使用决策树算法，需要先对该属性进行离散化。
在机器学习算法中，一些分类算法（ID3、Apriori等）要求数据是分类属性形式，因此在处理分类问题时经常需要将一些连续属性变换为分类属性。一般来说，连续属性的离散化都是通过在数据集的值域内设定若干个离散的划分点，将值域划分为若干区间，然后用不同的符号或整数数值代表落在每个子区间中的数据值。所以，离散化最核心的两个问题是：如何确定分类数以及如何将连续属性映射到这些分类值。常用的离散化方法有等宽法，等频法以及一维聚类法等。

在实际使用时往往使用Pandas的 cut() 函数实现等宽离散化:

可以看到与手工计算的离散化结果相同，需要注意的是， 等宽法对于离群点比较敏感，倾向于不均匀地把属性值分布到各个区间，导致某些区间数据较多，某些区间数据很少，这显然不利用决策模型的建立。

使用四个分位数作为边界点，对区间进行划分：

等频率离散化虽然避免了等宽离散化的数据分布不均匀的问题,却可能将相同的数据值分到不同的区间以满足每个区间具有相同数量的属性取值的要求。

使用一维聚类的离散化方法后得到数据集为：

在本次实例中选择使用基于聚类的离散化方法后得到的数据集进行指标计算。为了预测客户能否偿还债务，使用A（拥有房产）、B（婚姻情况）、C（年收入）等属性来进行数据集的划分最终构建决策树。

单身：

离婚：

已婚：

显然，由B属性取值'已婚'划分得到的子数据集属于同一个叶节点，无法再进行分类。
接下来，对由B属性取值'单身'划分得到的子数据集再进行最优特征选择：

1）计算数据集总的信息熵，其中4个数据中，能否偿还债务为'是'数据有3，'否'数据有1,则总的信息熵：

2）对于A(拥有房产)属性，其属性值有'是'和'否'两种。其中，在A为'是'的前提下，能否偿还债务为'是'的有1、'否'的有0；在A为'否'的前提下，能否偿还债务为'是'的有2、为'否'的有1，则A属性的信息熵为：

3)对于B（婚姻情况）属性，由于已被确定，在这个数据子集信息熵为0

4)对于C（年收入）属性，其属性值有'中等输入'、'低收入'两种。在C为'中等收入'的前提下，能否偿还作为为'是'的有1,为'否'的有0；在C为'低收入'的前提下，能否偿还作为为'是'的有2,为'否'的有1;则C属性的信息熵为：

5）最后分别计算两个属性的信息增益值：

信息增益值相同，说明以两个属性对数据子集进行划分后决策树的纯度上升是相同的，此时任选其一成为叶节点即可。
同理，对数据子集进行最优特征选择，发现信息熵为0：
整理得到最终的决策树：

『贰』量化的定义

在数字信号处理领域，量化指将信号的连续取值（或者大量可能的离散取值）近似为有限多个（或较少的）离散值的过程。量化主要应用于从连续信号到数字信号的转换中。连续信号经过采样成为离散信号，离散信号经过量化即成为数字信号。注意离散信号并不需要经过量化的过程。信号的采样和量化通常都是由ADC实现的。

例如CD音频信号就是按照44100Hz的频率采样，按16比特量化为有着65536（=）个可能取值的数字信号。

量化就是将模拟声音的波形转换为数字，表示采样值的二进制位数决定了量化的精度。量化的过程是先将整个幅度划分成有限个小幅度（量化阶距）的集合，把落入某个阶距内的样值归为一类，并赋予相同的量化值。
最简单最易懂的量化是标量（有别于多维矢量）量化，开始标量量化之前先要给出输入数据。通常，一个标量量化操作可以给出下面的描述

其中

是实数，

是下取整函数，生成整数

和是任意的实值函数。

整数是表示的数值，它通常被存储或者传输，然后在后来需要解释的时候使用进行最终的解释重建。整数有时也称作量化指数。

在计算机或者其它应用，一个已知的量化方法均匀量化。在均匀量化方法里共有两个变量，叫mid-rise和mid-tread。

如果是一个－1到1之间的数，一个mid-rise uniform量化操作，可以用"M"bit来表示量化的精度。

.

在这个例子中和运算符都是乘以比例因子（其中一个是另外一个的逆），并且在g（i）中带有一个偏移量以使得每个量化表示都位于输入区域的中间位置。经常称为量化步长。按照这个量化定律，假定在整个量化步长上量化噪声大致是均匀分布的，并且假定量化的输入信号在整个-1到1的区间大致均匀分布，量化的信噪比（SNR）可以用下面的公式计算，

.

根据这个等式，人们常说SNR大约是每位6 dB。

在mid-tread一致量化中，偏移0.5将加在下取整函数内部而不是外部。

有时候，mid-rise量化使用时不加偏移0.5。这将信号与噪声比减小了大约6.02 dB，但是当步距小的时候为了简化这是可接受的。

在数字电话系统中，两个流行的量化机制是'A-law'（在欧洲占据主导地位）和'μ-law'（在北美和日本占据主导地位）。这些机制将离散的模拟数值映射到8位尺度，在小值的时候近似线性随着幅度增长按照对数增加。由于人耳对于音量的感知近似对数曲线，这就使用一定的位数在可听见的声音强度范围提供了更高的信噪比。

2忽略熵约束：Lloyd–Max量化
在上面的陈述中，若令等于 0，从而忽略掉比特率约束，或等价地假设要用定长码（FLC）而非用变长码（或其他熵编码法，如算术编码在率失真上就比定长码好）来表示量化数据，这个最优化问题就简化为了只需最小化失真的问题了。

级量化器产生的索引可以用比特/符号的定长码。例如当 256 阶时，定长码的比特率为 8 比特/符号。由于这个原因，这样的量化器有时称作8比特量化器。不过使用定长码消除了压缩改进，但可以通过更好的熵编码来改善。

假设阶定长码，率失真最小化问题可以简化为失真最小化问题。简化的问题可以陈述为：给定一个概率密度函数为的信源，并约束量化器必须仅使用个分类区域，求得决策边界与重建层级来最小化得到的失真

.

对上述问题求最优解得到的量化器有时叫做MMSQE（最小均方量化误差）解，而得到的概率密度函数最优化的（非均匀）量化器叫做Lloyd–Max量化器，是用独立发现迭代方法从和求解两组联立方程的两个人来命名的

『叁』基于粗糙集和云理论的土地适宜性评价模型的建立

刘明亮¹ 吴跃民¹ 杨明²

（1.湖南万源评估咨询有限公司，长沙，410011；2.武汉大学资源与环境科学学院，武汉，430079）

摘要：本文介绍和分析了两种非经典数学方法云理论和粗糙集理论，通过对这两个方法进行比较和结合，建立了以云理论和粗糙集理论相结合为基础的土地适宜性评价模型，并在此基础上进行了实例的研究和应用。

关键词：粗糙集理论；云理论；数据挖掘；土地适宜性评价

土地适宜性评价是针对某种特定土地利用类型的适宜性及适宜程度的评价。它是土地合理利用的重要内容，通过其对地区全部土地资源的研究，为土地利用总体规划工作中的人地平衡、用地布局与土地结构调整、土地开发利用等工作提供了科学依据。因此，对土地适宜性进行正确的评价，对适宜级别做出合理划分是进行规划决策的首要任务之一，而评价方法作为获取正确评价结果的途径就显得尤为重要。

传统的评价方法，如极限条件法、回归分析法、经验指数和法、层次分析法等，由于其评价方法过于简单，在一定程度上不能客观全面地反应实际情况。随着智能化技术的不断发展与完善，评价方法也由传统的简单的数值方法向智能化发展。由于土地适宜程度本身的不确定性，用处理大量的不确定性数据的挖掘技术显得更有优势。

1 粗糙集理论与云理论的特点

粗糙集理论是一种刻画不完整性和不确定性的数学工具，能有效地分析和处理不精确、不一致、不完整等各种不完备信息，并从中发现隐含的知识，揭示潜在的规律。它能够完全从已有的数据中有效地发现关联规则，它可支持知识获取的多个步骤，如数据预处理、数据约简、规则生成、数据依赖关系获取等。云理论是在传统模糊集理论和概率统计的基础上提出的定性定量转换模型，用期望值Ex、熵En和超熵He表征定性概念，是以研究定性定量间的不确定性转换为基础的系统。作为处理不确定性问题的一种新理论，它可协助数据的离散化，规则的推理，使得该方法更趋近于人类的思维领域，为更好地向人工智能发展打下基础。

云理论和粗糙集理论在处理不确定性和不精确性问题方面都推广了经典集合论，它们都可以用来描述知识的不精确性和不完全性，但它们的出发点和侧重点不同，云理论结合了模糊性和随机性，而粗糙集通过上近似集、下近似集来刻画不可分辨性。粗糙集不需要任何预备的额外的有关数据信息，在推导关联规则方面，有其特有的优势；而云理论处理不确定信息的方法需要一些数据的附加信息或先验知识，但提供了定性定量转换的方法。虽然云理论和粗糙集理论特点不同，但它们之间有着密切的联系，在研究不确定性数据方面，有很强的互补性。把云理论方法引入到粗糙集方法中，对粗糙集的结构化的模型进行改进，不仅可提高发现算法的效率，还可提高系统模型的鲁棒性。土地适宜性是一个定性的概念，利用粗糙集理论和云理论相结合建立土地适宜性评价模型，可以互相补充，取长补短，为土地适宜性评定的客观性提供可能性。

2 基于云理论和粗糙集评价模型的建立

云理论与粗糙集方法相结合是将基于云理论的定量到定性的转换方法作为粗糙集方法的预处理手段，把定量数据转换为定性数据，或把定性数据转换为不同概念层次的新的定性数据，然后应用粗糙集方法发现分类决策知识，最后运用云理论的不确定性推理方法应用这些知识，即根据新的定量或定性条件数据推理出定量或者定性结果，从而表达和传递知识和推理的不确定性。就具体模型建立而言，首先根据原始数据制成初始决策表，对每个条件属性，查看它是否为离散属性，若是，则进行离散化处理，直至整个决策表全部转化为离散数据为止，据此制成最终决策表。在此决策表的基础上，利用粗糙集方法发现关联规则并计算属性重要性，得到关联规则，最后用基于云理论的推理方法得出定性的推理结果。整个模型如图1所示。

图1 评价模型图

其中，基于云理论规则推理的详细过程，如图2 所示。

2.1 决策表的建立

收集影响土地适宜性的数据，如坡度、质地、有机质含量，厚度等等，进行原始数据的采样和整理，并根据土地适宜性评价的目的（如宜林宜牧等）做成信息决策表。

2.2 数据预处理

在很多情况下，所得到待处理的信息表并不是一个完备的信息表，表中的某些属性值是被遗漏的。对于这种情况，可通过将空缺属性值赋予特殊值来处理，以区别于其他属性值。

图2 云理论推理

2.3 数据离散化

用云模型模拟人类的思维划分属性空间。每一个属性看作一个语言变量（或多个语言变量的组合）。对于每一个语言变量，定义几个语言值，相邻的语言值间允许有重叠，表达语言值的云可以由用户交互地给定。设对于一个数字型属性给定云A₁ （Ex₁，En₁，He₁），A₂ （Ex₂，En₂，He₂），……，A_n （Ex_n，En_n，He_n），作为语言项，将任一属性值 x输入到云发生器 CG₁，CG₂，……，CG_n，得到输出值 μ₁，μ₂，……，μ_n，即属性值 μ 与A₁，A₂，……，A_n的隶属度，检索出最大隶属度μ_i，则x分配给A_i。如果两个隶属度μ_i和μ_j，均等于最大值，则 x 随机地分配给 A_i或 A_j。

2.4 决策表属性约简

基于粗糙集理论的知识获取，通过采用决策表可辨识矩阵和可辨识函数的属性约简算法对原始决策表约简，包括属性约简和属性值约简。

令S＝＜U，R，V，f＞是一个决策表系统，R＝P∪ D 是属性集合，子集 P＝｛a_i ｜i＝1，…，m｝和 D＝｛d｝分别为条件属性集和决策属性集，U＝｛x₁，x₂，…，x_n｝是论域，a_i （x_j）是样本 x_j在属性a_i 上的取值。C_D （i，j）表示可辨识矩阵中第 i 行 j 列的元素，则可辨识矩阵C_D 定义为：｛a_k ｜ a_k∈ P ∧a_k （x_i）≠ a_k （x_j）｝，d （x_i）≠ d （x_j）；

土地信息技术的创新与土地科学技术发展：2006年中国土地学会学术年会论文集

其中 i，j＝1，…，n。

根据可辨识矩阵的定义可知，当两个样本（实例）的决策属性取值相同时，它们所对应的可辨识矩阵取值为0；当两个样本的决策属性不同而且可以通过某些条件属性的取值不同加以区分时，它们所对应的可辨识矩阵元素的取值为这两个样本属性值不同的条件属性集合，即可以区分这两个样本的条件属性集合；当两个样本发生冲突时，即所有的条件属性取值相同而决策属性的取值不同时，则它们所对应的可辨识矩阵中的元素取值为空。

2.5 计算属性权重

对于属性集C导处的分类的属性子集B′⊆B的重要性，可用两者依赖程度的差来度量，即：

r_B （C）－r_B－B′（C）

这表示当从集合 B 中去掉某些属性子集B′对象分类时，分类 U/C 的正域受到怎样的影响。

其中，r_B （C）＝card （pos_p （Q））/card （U）

是知识依赖性的度量，其中 card 表示集合的基数：

土地信息技术的创新与土地科学技术发展：2006年中国土地学会学术年会论文集

称为Q的P正域，对于 U/P 的分类，U/Q 的正域是论域中所有通过分类 U/P 表达的知识能够确定地化入 U/Q 类的对象集合。

2.6 基于值约简的决策规则最小化的提取

基于值约简的决策规则的提取是建立在决策表值约简的基础上进行的。假设决策表有三个条件属性 a、b、c，一个决策属性 d。通过对［x］_a、［x］_b、［x］_c、［x］_d，进行属性值约简，在规则最小化的原则下，计算得出最小决策规则。

2.7 基于云理论的规则推理

基于云理论的不确定性推理按规则的条数分为单规则和多规则推理，每一条规则又可以根据规则前件的条数分为单条件规则和多条件规则。土地适宜性评价只要求得到定性的推理结果，所以本模型通过计算属性重要性来解决。首先激活一个实例的几条规则，得到各个规则的隶属度的云滴，拟合成虚拟云，该虚拟云的期望值即为结果，最后根据最大隶属度的选择选取定性结果。

根据以上理论设计的土地适用性评价系统如图3 所示。菜单是关于常用理论的基本方法，右侧的一系列步骤是关于组建数学模型的实现方法。中间的坐标界面用来显示图形结果。

图3 评价系统界面

3 应用实例

琼海市地处海南省东部。东临南海，北靠文昌，西接屯昌，南与万宁县交界。琼海市有着优越的农业自然条件、丰富的旅游资源，但全市存在工业底子薄、矿产资源贫乏、能源短缺、科技水平较低以及建设资金不足等制约因素。土地适宜性评价的主要任务是在收集土壤、地形、水利、气候等资料的基础上，对评价范围内的所有土地进行适宜性评价，找出不适宜现状用途的土地，并给出指定用途的适宜性土地的等级。

3.1 收集资料、整理数据

收集所有有关琼海市土地适宜性评价的数据，5个条件属性和1个决策属性，根据原有的单元划分9311个实例。表1是其中一实例的决策表的一部分。

表1 决策表示例

其中，Yjz 表示土壤有机质含量，Hd 表示土壤厚度，Zd 表示土壤质地条件属性，Sl表示水利条件属性，S_c 表示宜水产养殖地类决策属性。

3.2 数据预处理

因为本实例中所得到的初始数据并没有缺失，无需对初始决策表进行预处理，故可以省略这一步，所以得到的最终决策表同表1。

3.3 数据离散化

对决策表中的每个属性，依次进行以下步骤，分别得到离散结果。

3.3.1 计算属性的数据分布函数

对属性 i 定义域中的每一个可能取值，计算得到属性 i 的数据分布函数g_i （x）；图4是属性厚度（Hd）的数据分布函数的图。

图4 属性数据分布图

3.3.2 计算单个云模型的数据分布函数

寻找数据分布函数 g_i （x）的波峰所在的位置，将其属性定义为云的重心位置，然后计算用于拟合 g_i （x）的云模型，云模型函数 f_i （x）计算如图5 所示。

图5 云模型分布

该图是寻找第二波峰位置时，所拟合的基于云的数据分布函数（红色实线）。云模型参数为：

土地信息技术的创新与土地科学技术发展：2006年中国土地学会学术年会论文集

3.4 离散化

通过上一步得到的归纳并了解概念云后，对于每个需要离散化的属性值，一一计算出对于每个概念云的隶属度，选取其最大值为离散化的结果，表2 是离散化结果的一部分。

表2 属性离散结果

3.5 属性约简

求出布尔函数表达式，用布尔函数极小化算法计算约简结果。将布尔函数转化为二进制区分矩阵，对二进制区分矩阵实行简化算法，得到决策表的约简结果，如表3所示。

表3 属性化简结果

3.6 计算属性权重

根据条件属性对决策属性的分类产生的影响，计算每个条件属性对决策结果产生的重要性及系数，如表4所示。（这个度量是根据论域中的样例来得到的，不依赖于人的先验知识。）

表4 属性权重结果

3.7 决策推理

根据云理论多条件多规则推理方法，对原有数据参照最小规则进行推理，得到最终的等级划分结果，如图6 所示。

图6 等级划分结果

4 结论

利用上述模型，首先应该尽可能多地收集对土地适宜性问题有影响的因素，运用云理论进行连续数据的离散化之后，可以根据属性重要性确定的方法来筛选评价因素，在此基础之上，运用粗糙集方法获取评价规则。另外应注意的是土地多宜性问题，在土地适宜性评价中，对于每一种土地用途，都要分别确定它的等级，这区别于粗糙集一般的信息处理过程中，把几个不同的决策属性归并为一个决策属性集的综合决策。

应用结果表明，云模型汲取了自然语言的优点，突破了已有方法的局限，能够把模糊性和随机性有机地综合在一起，在空间数据挖掘中构成定性和定量相互间的映射，发现的知识具有可靠性。粗糙集理论对模糊和不完全知识的处理比较出色，但其对原始模糊数据的处理能力比较弱，而基于云模型的定性定量转换方法作为粗糙集的预处理是比较合适的。二者相结合的方法应用于土地适宜性评价可以集两种理论之所长，更具优势地解决对其定性评价的实际问题。

参考文献

张文修，吴伟志等.粗糙集理论与方法［M］.北京：科学出版社，2001

曾黄麟.粗糙集理论及其应用［M］.重庆：重庆大学出版社，1998

张丽，马良.基于粗糙集属性约简的模糊模式识别［J］.上海理工大学学报，2003，25 （1）：50～53

杨昭辉，李德毅.二维云模型及其在预测中的运用［J］.计算机学报，1998，21 （11）：961～969

邸凯昌著.空间数据发掘与知识发现［M］.武汉：武汉大学出版社，2001.12

导航:首页 > 编程语言 > 近似熵和样本熵代码

近似熵和样本熵代码

与近似熵和样本熵代码相关的资料

友情链接