导航:首页 > 数据分析 > 为什么数据分组不用整数

为什么数据分组不用整数

发布时间:2023-02-17 15:51:23

『壹』 问题:频率分布表中的分组数据,为什么用小数

因为“分布表”表示的是当总体为“1”的时候,各频段出现在总体“1”中所占份额,所以不可能大于1。

『贰』 数值型数据的分组方法有哪些简述组距分组的步骤

数值型数据的分组方法有单变量值分组和组距分组;

组距分组的步骤如下:

  1. 第一步:确定组距,一般情况下,分组数据不应少于5组且不多于15组;

  2. 第二步:确定各组的组距,第一组的下限应低于最小变量,最后一组的上限应高于最大变量值;

  3. 第三步:根据分组整理成频数分布表。

数值型数据介绍:

  1. 数值型数据是表示数量、可以进行数值运算的数据类型。数值型数据由数字、小数点、正负号和表示乘幂的字母E组成,数值精度达16位。在VF系统中,按存储、表示形式与取值范围不同,数值型数据又分为4种不同类型。

  2. 数值型(Numeric)数据由数字、小数点、正负号和字母E组成,用字母N表示。数值型数据的取值范围是:-0.9999999999E+19+到0.9999999999E+20,包括正负号、小数点和字母E在内,其长度最大20位。通常用于表示实数。

  3. 浮点型(FLOAT)数据是数值型数据的一种,用字母F表示。它与数值型数据完全等价,只是在存储形式上用浮点格式,主要是为了得到较高的计算精度。

  4. 双精度型(DOUBLE)数据是具有更高精度的一种数据型数据,用字母B表示。它采用固定长充浮点格式存储,占用8个字节。

  5. 整型(INTEGER)数据是不包含小数部分的数值型数据,用字母I表示。整型数据只用来表示整数,以二进制形式存储,占用4个字节。

『叁』 如何确定“组距”和“组数”

1、组数和组距只能确定一个,没有限制,只要一个定了下来,另一个也就相应的可以按照书上的公式算出来。

组数(通常组数在5-12之间), 用组距去除最大值和最小值之差,求出组数,需要再确定一下组距是否合适, 以保证使数据不落在相邻两组的边界值上,造成统计的错误。

2、组距5至12都可以;组数为8。

(最大值-最小值)÷组距=组数所以,(99-60)÷5=七又五分之四(也就是八),所以组数是8。

最大值减最小值除以组距的商的范围一定要在5至12组之间。

(3)为什么数据分组不用整数扩展阅读

组距分组的原则

采用组距分组时,需要遵循“不重不漏”的原则。“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。

为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。

组距不一定是整数,但通常情况下为了分组的方便而取整数。组数一定是整数。

『肆』 数值型数据的分组方法有哪些简述组距分组的步骤

数值型数据的分组方法主要有两种,分别是单变量值分组、组距分组。

组距分组的步骤:

1、确定组数。一组数据的组数一般与数据本身的特点及数据的多少有关。由于分组的目的之一是为了观察数据分布的特征,因此组数的多少应适中。如组数太少,数据的分布就会过于集中,组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律。组数的确定应以能够显示数据的分布特征和规律为目的。

2、确定各组的组距。组距是一个组的上限与下限的差,可根据全部数据的最大值和最小值(即极差)及所分的组数来确定,即组距=(最大值-最小值)/组数。

3、根据分组整理成频数分布表。

(4)为什么数据分组不用整数扩展阅读:

采用组距分组时,需要遵循“不重不漏”的原则。“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。

在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,第一组和最后一组可以采取“××以下”及“××以上”这样的开口组。

『伍』 数据分组

对一批观测数据进行整理,为了运算方便,往往要将数据按照一定要求分组。特别是在数据较多时分组计算的优越性尤为明显。数据分组之后也便于制图,如频数(数据落在每个组的数目称频数)分布直方图、频率(频数/总频数)直方图、累积频率(样本分组数据中各组频率累积之和)分布图等。下面以228个伽马数据为例,具体说明分组、列表、制图的方法。

(一)分组

将观测数据划分多少组,要根据数据的多少、数据的性质、数据的变化范围、观测质量等来适当划分。一般不宜少于5组,也不必多于15组或20组。一组中的最小值叫组下限,一组中的最大值叫组上限。分组时前一组的组上限,又是后一组的组下限。组上限与组下限之差叫组距;分组一般用等间距,组距记为L。各组中的中点数值为组中值。有些观测数据,如微量元素的含量等,往往要将元素含量取常用对数(微量元素含量不服从正态分布,而服从对数正态分布),然后将对数值按等差的方法分组。

分组具体步骤如下:

1.确定数据上界和下界

上界可比数据中最大值稍大一点,下界可比数据中最小值稍小一点。在对某花岗岩的γ测量中共有228个数据,最小值为18γ,最大值为51γ,那么下界可定为17γ,上界可定为53γ。

2.决定组距和组数

组距决定于极差R(上界-下界),此例中R=53γ-17γ=36γ,组距可定为4γ,分成9组。假定用n代表分组数,l为组距,计算公式如下:

放射性勘探技术

3.决定分组点

一般要求分组点比原观测精度高一位,使分组严密,避免一个数据可分在上一个组也可分在下一个组,由于值都是整数,于是取n.5为组限。将数据可分为如下9组:17.5~21.5,21.5~25.5,…,49.5~53.5。

4.统计频数

用选举唱票的方法计算出落在每个组的数目,即频数,并计算出频率与累积频率。

(二)列表

将统计结果列成表,如表8-1所示。

表8-1 某矿区伽马测量资料统计表

(三)制图

主要是绘制频数(或频率)分布直方图和累积频率折线图。

1.绘制频数(频率)分布直方图

在横坐标上标出分组点,纵坐标为对应的频数(频率),以组距为底画出高度为频数(频率)的矩形,便得频数(频率)直方图,如图8-1所示。

图8-1 某区伽马测量频数直方图和频率曲线图

2.绘制累计频率折线图

仍以横坐标标出分组点,纵坐标为累积频率f值(%)。在各组组上限处立一高为相对应的累积频率的虚线段,依次联结各虚线段的顶点,就构成了累积频率曲线图,如图8-2所示。

可以设想,如果取更多的样本,组分得更细,那么各样本值或者各组频率将趋于一个稳定的值。且由于组距L不断减小以至趋近于零,频率直方图的形状将逐渐趋近于一条曲线。换句话说,频率分布的极限,可以考虑一个稳定的函数。当样本值是连续变量(可以取一个或几个区间中,甚至整个数轴上一切数值的变量,叫连续变量,如某岩体的γ辐射照射量率)的情形,这个函数y=f(x)将表达一条光滑的曲线。这条曲线叫频率分布曲线。若数据波动的规律不同,频率分布曲线的形状也就不一样。在放射性物探工作中,形状如图8-2的曲线最多,应用也最广,称为正态分布曲线。

由于频率之总和(累积频率)为1(100%)。不难看出,如果纵坐标取为“频率/组距”,那么频率直方图矩形面积的总和等于1。换句话说,分布曲线y=f(x)与横轴所夹的面积等于1,显然可用积分之值来表示。即

放射性勘探技术

图8-2的纵坐标的含意是,在横轴的单位长度上平均分布有多少频率,也就是频率分布密度。所以由频率分布曲线所确定的函数y=f(x),叫作频率分布密度函数。

图8-2 某区伽马测量累积频率曲线图

阅读全文

与为什么数据分组不用整数相关的资料

热点内容
ajax获取数据库 浏览:855
中国移动adsl上网账号密码 浏览:198
win10怎么添加画图3d文件 浏览:921
新旧手机文件如何转移 浏览:479
双十一的数据分析说明了什么 浏览:661
iphone4s右上角有个箭头 浏览:298
手机app丢失怎么找 浏览:562
win10msconfig安全模式 浏览:576
下载win10记事本 浏览:736
c如何复制文件 浏览:153
平台app如何运行的 浏览:342
专技天下app怎么样学更快 浏览:751
睡眠文件怎么删除win10 浏览:430
桌面文件随意移动 浏览:426
qq音乐在哪儿找到 浏览:931
wif1万能钥匙密码 浏览:792
数控715螺纹编程怎么写 浏览:261
extjs获取grid选中行 浏览:873
数据线充电强制锁屏是什么原因 浏览:923
保证能贷款的app 浏览:105

友情链接