导航:首页 > 数据分析 > 为什么数据分组不用整数

为什么数据分组不用整数

发布时间：2023-02-17 15:51:23

『壹』问题:频率分布表中的分组数据,为什么用小数

因为“分布表”表示的是当总体为“1”的时候，各频段出现在总体“1”中所占份额，所以不可能大于1。

『贰』数值型数据的分组方法有哪些简述组距分组的步骤

数值型数据的分组方法有单变量值分组和组距分组；

组距分组的步骤如下：

第一步：确定组距，一般情况下，分组数据不应少于5组且不多于15组；
第二步：确定各组的组距，第一组的下限应低于最小变量，最后一组的上限应高于最大变量值；
第三步：根据分组整理成频数分布表。

数值型数据介绍：

数值型数据是表示数量、可以进行数值运算的数据类型。数值型数据由数字、小数点、正负号和表示乘幂的字母E组成，数值精度达16位。在VF系统中，按存储、表示形式与取值范围不同，数值型数据又分为4种不同类型。
数值型（Numeric）数据由数字、小数点、正负号和字母E组成，用字母N表示。数值型数据的取值范围是：-0.9999999999E+19+到0.9999999999E+20，包括正负号、小数点和字母E在内，其长度最大20位。通常用于表示实数。
浮点型（FLOAT）数据是数值型数据的一种，用字母F表示。它与数值型数据完全等价，只是在存储形式上用浮点格式，主要是为了得到较高的计算精度。
双精度型（DOUBLE）数据是具有更高精度的一种数据型数据，用字母B表示。它采用固定长充浮点格式存储，占用8个字节。
整型（INTEGER）数据是不包含小数部分的数值型数据，用字母I表示。整型数据只用来表示整数，以二进制形式存储，占用4个字节。

『叁』如何确定“组距”和“组数”

1、组数和组距只能确定一个，没有限制，只要一个定了下来，另一个也就相应的可以按照书上的公式算出来。

组数（通常组数在5－12之间）, 用组距去除最大值和最小值之差,求出组数，需要再确定一下组距是否合适, 以保证使数据不落在相邻两组的边界值上,造成统计的错误。

2、组距5至12都可以；组数为8。

（最大值-最小值）÷组距=组数所以，（99-60）÷5=七又五分之四（也就是八），所以组数是8。

最大值减最小值除以组距的商的范围一定要在5至12组之间。

(3)为什么数据分组不用整数扩展阅读

组距分组的原则

采用组距分组时，需要遵循“不重不漏”的原则。“不重”是指一项数据只能分在其中的某一组，不能在其他组中重复出现；“不漏”是指组别能够穷尽，即在所分的全部组别中每项数据都能分在其中的某一组，不能遗漏。

为解决“不重”的问题，统计分组时习惯上规定“上组限不在内”，即当相邻两组的上下限重叠时，恰好等于某一组上限的变量值不算在本组内，而计算在下一组内。

组距不一定是整数，但通常情况下为了分组的方便而取整数。组数一定是整数。

『肆』数值型数据的分组方法有哪些简述组距分组的步骤

数值型数据的分组方法主要有两种，分别是单变量值分组、组距分组。

组距分组的步骤：

1、确定组数。一组数据的组数一般与数据本身的特点及数据的多少有关。由于分组的目的之一是为了观察数据分布的特征，因此组数的多少应适中。如组数太少，数据的分布就会过于集中，组数太多，数据的分布就会过于分散，这都不便于观察数据分布的特征和规律。组数的确定应以能够显示数据的分布特征和规律为目的。

2、确定各组的组距。组距是一个组的上限与下限的差，可根据全部数据的最大值和最小值（即极差）及所分的组数来确定，即组距=（最大值－最小值）/组数。

3、根据分组整理成频数分布表。

(4)为什么数据分组不用整数扩展阅读：

在组距分组中，如果全部数据中的最大值和最小值与其他数据相差悬殊，为避免出现空白组（即没有变量值的组）或个别极端值被漏掉，第一组和最后一组可以采取“××以下”及“××以上”这样的开口组。

『伍』数据分组

对一批观测数据进行整理,为了运算方便,往往要将数据按照一定要求分组。特别是在数据较多时分组计算的优越性尤为明显。数据分组之后也便于制图,如频数(数据落在每个组的数目称频数)分布直方图、频率(频数/总频数)直方图、累积频率(样本分组数据中各组频率累积之和)分布图等。下面以228个伽马数据为例,具体说明分组、列表、制图的方法。

(一)分组

将观测数据划分多少组,要根据数据的多少、数据的性质、数据的变化范围、观测质量等来适当划分。一般不宜少于5组,也不必多于15组或20组。一组中的最小值叫组下限,一组中的最大值叫组上限。分组时前一组的组上限,又是后一组的组下限。组上限与组下限之差叫组距；分组一般用等间距,组距记为L。各组中的中点数值为组中值。有些观测数据,如微量元素的含量等,往往要将元素含量取常用对数(微量元素含量不服从正态分布,而服从对数正态分布),然后将对数值按等差的方法分组。

分组具体步骤如下：

1.确定数据上界和下界

上界可比数据中最大值稍大一点,下界可比数据中最小值稍小一点。在对某花岗岩的γ测量中共有228个数据,最小值为18γ,最大值为51γ,那么下界可定为17γ,上界可定为53γ。

2.决定组距和组数

组距决定于极差R(上界－下界),此例中R=53γ－17γ=36γ,组距可定为4γ,分成9组。假定用n代表分组数,l为组距,计算公式如下：

放射性勘探技术

3.决定分组点

一般要求分组点比原观测精度高一位,使分组严密,避免一个数据可分在上一个组也可分在下一个组,由于值都是整数,于是取n.5为组限。将数据可分为如下9组：17.5～21.5,21.5～25.5,…,49.5～53.5。

4.统计频数

用选举唱票的方法计算出落在每个组的数目,即频数,并计算出频率与累积频率。

(二)列表

将统计结果列成表,如表8-1所示。

表8-1 某矿区伽马测量资料统计表

(三)制图

主要是绘制频数(或频率)分布直方图和累积频率折线图。

1.绘制频数(频率)分布直方图

在横坐标上标出分组点,纵坐标为对应的频数(频率),以组距为底画出高度为频数(频率)的矩形,便得频数(频率)直方图,如图8-1所示。

图8-1 某区伽马测量频数直方图和频率曲线图

2.绘制累计频率折线图

仍以横坐标标出分组点,纵坐标为累积频率f值(%)。在各组组上限处立一高为相对应的累积频率的虚线段,依次联结各虚线段的顶点,就构成了累积频率曲线图,如图8-2所示。

可以设想,如果取更多的样本,组分得更细,那么各样本值或者各组频率将趋于一个稳定的值。且由于组距L不断减小以至趋近于零,频率直方图的形状将逐渐趋近于一条曲线。换句话说,频率分布的极限,可以考虑一个稳定的函数。当样本值是连续变量(可以取一个或几个区间中,甚至整个数轴上一切数值的变量,叫连续变量,如某岩体的γ辐射照射量率)的情形,这个函数y=f(x)将表达一条光滑的曲线。这条曲线叫频率分布曲线。若数据波动的规律不同,频率分布曲线的形状也就不一样。在放射性物探工作中,形状如图8-2的曲线最多,应用也最广,称为正态分布曲线。

由于频率之总和(累积频率)为1(100%)。不难看出,如果纵坐标取为“频率/组距”,那么频率直方图矩形面积的总和等于1。换句话说,分布曲线y=f(x)与横轴所夹的面积等于1,显然可用积分之值来表示。即

放射性勘探技术

图8-2的纵坐标的含意是,在横轴的单位长度上平均分布有多少频率,也就是频率分布密度。所以由频率分布曲线所确定的函数y=f(x),叫作频率分布密度函数。

图8-2 某区伽马测量累积频率曲线图

阅读全文

与为什么数据分组不用整数相关的资料

热点内容

网络中常用的传输介质发布：2025-10-20 08:42:23 浏览：518

文件如何使用发布：2025-10-20 08:33:27 浏览：322

同步推密码找回发布：2025-10-20 08:04:22 浏览：865

乐高怎么才能用电脑编程序发布：2025-10-20 07:57:56 浏览：65

本机qq文件为什么找不到发布：2025-10-20 07:39:47 浏览：264

安卓qq空间免升级发布：2025-10-20 07:36:50 浏览：490

linux如何删除模块驱动程序发布：2025-10-20 07:36:06 浏览：193

at89c51c程序发布：2025-10-20 07:35:06 浏览：329

怎么创建word大纲文件发布：2025-10-20 07:24:54 浏览：622

袅袅朗诵文件生成器发布：2025-10-20 07:00:55 浏览：626

1054件文件是多少gb 发布：2025-10-20 06:03:27 浏览：371

高州禁养区内能养猪多少头的文件发布：2025-10-20 05:51:26 浏览：927

win8ico文件发布：2025-10-20 05:47:08 浏览：949

仁和数控怎么编程发布：2025-10-20 05:24:49 浏览：381

项目文件夹图片发布：2025-10-20 04:42:54 浏览：87

怎么在东芝电视安装app 发布：2025-10-20 04:42:54 浏览：954

plc显示数字怎么编程发布：2025-10-20 04:42:54 浏览：439

如何辨别假网站发布：2025-10-20 04:26:28 浏览：711

宽带用别人的账号密码发布：2025-10-20 04:08:00 浏览：556

新app如何占有市场发布：2025-10-20 03:39:57 浏览：42

导航:首页 > 数据分析 > 为什么数据分组不用整数

为什么数据分组不用整数

与为什么数据分组不用整数相关的资料

友情链接