『壹』 问题:频率分布表中的分组数据,为什么用小数
因为“分布表”表示的是当总体为“1”的时候,各频段出现在总体“1”中所占份额,所以不可能大于1。
『贰』 数值型数据的分组方法有哪些简述组距分组的步骤
数值型数据的分组方法有单变量值分组和组距分组;
组距分组的步骤如下:
第一步:确定组距,一般情况下,分组数据不应少于5组且不多于15组;
第二步:确定各组的组距,第一组的下限应低于最小变量,最后一组的上限应高于最大变量值;
第三步:根据分组整理成频数分布表。
数值型数据介绍:
数值型数据是表示数量、可以进行数值运算的数据类型。数值型数据由数字、小数点、正负号和表示乘幂的字母E组成,数值精度达16位。在VF系统中,按存储、表示形式与取值范围不同,数值型数据又分为4种不同类型。
数值型(Numeric)数据由数字、小数点、正负号和字母E组成,用字母N表示。数值型数据的取值范围是:-0.9999999999E+19+到0.9999999999E+20,包括正负号、小数点和字母E在内,其长度最大20位。通常用于表示实数。
浮点型(FLOAT)数据是数值型数据的一种,用字母F表示。它与数值型数据完全等价,只是在存储形式上用浮点格式,主要是为了得到较高的计算精度。
双精度型(DOUBLE)数据是具有更高精度的一种数据型数据,用字母B表示。它采用固定长充浮点格式存储,占用8个字节。
整型(INTEGER)数据是不包含小数部分的数值型数据,用字母I表示。整型数据只用来表示整数,以二进制形式存储,占用4个字节。
『叁』 如何确定“组距”和“组数”
1、组数和组距只能确定一个,没有限制,只要一个定了下来,另一个也就相应的可以按照书上的公式算出来。
组数(通常组数在5-12之间), 用组距去除最大值和最小值之差,求出组数,需要再确定一下组距是否合适, 以保证使数据不落在相邻两组的边界值上,造成统计的错误。
2、组距5至12都可以;组数为8。
(最大值-最小值)÷组距=组数所以,(99-60)÷5=七又五分之四(也就是八),所以组数是8。
最大值减最小值除以组距的商的范围一定要在5至12组之间。
(3)为什么数据分组不用整数扩展阅读
组距分组的原则
采用组距分组时,需要遵循“不重不漏”的原则。“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。
为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。
组距不一定是整数,但通常情况下为了分组的方便而取整数。组数一定是整数。
『肆』 数值型数据的分组方法有哪些简述组距分组的步骤
数值型数据的分组方法主要有两种,分别是单变量值分组、组距分组。
组距分组的步骤:
1、确定组数。一组数据的组数一般与数据本身的特点及数据的多少有关。由于分组的目的之一是为了观察数据分布的特征,因此组数的多少应适中。如组数太少,数据的分布就会过于集中,组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律。组数的确定应以能够显示数据的分布特征和规律为目的。
2、确定各组的组距。组距是一个组的上限与下限的差,可根据全部数据的最大值和最小值(即极差)及所分的组数来确定,即组距=(最大值-最小值)/组数。
3、根据分组整理成频数分布表。
(4)为什么数据分组不用整数扩展阅读:
采用组距分组时,需要遵循“不重不漏”的原则。“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。
在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,第一组和最后一组可以采取“××以下”及“××以上”这样的开口组。
『伍』 数据分组
对一批观测数据进行整理,为了运算方便,往往要将数据按照一定要求分组。特别是在数据较多时分组计算的优越性尤为明显。数据分组之后也便于制图,如频数(数据落在每个组的数目称频数)分布直方图、频率(频数/总频数)直方图、累积频率(样本分组数据中各组频率累积之和)分布图等。下面以228个伽马数据为例,具体说明分组、列表、制图的方法。
(一)分组
将观测数据划分多少组,要根据数据的多少、数据的性质、数据的变化范围、观测质量等来适当划分。一般不宜少于5组,也不必多于15组或20组。一组中的最小值叫组下限,一组中的最大值叫组上限。分组时前一组的组上限,又是后一组的组下限。组上限与组下限之差叫组距;分组一般用等间距,组距记为L。各组中的中点数值为组中值。有些观测数据,如微量元素的含量等,往往要将元素含量取常用对数(微量元素含量不服从正态分布,而服从对数正态分布),然后将对数值按等差的方法分组。
分组具体步骤如下:
1.确定数据上界和下界
上界可比数据中最大值稍大一点,下界可比数据中最小值稍小一点。在对某花岗岩的γ测量中共有228个数据,最小值为18γ,最大值为51γ,那么下界可定为17γ,上界可定为53γ。
2.决定组距和组数
组距决定于极差R(上界-下界),此例中R=53γ-17γ=36γ,组距可定为4γ,分成9组。假定用n代表分组数,l为组距,计算公式如下:
放射性勘探技术
3.决定分组点
一般要求分组点比原观测精度高一位,使分组严密,避免一个数据可分在上一个组也可分在下一个组,由于值都是整数,于是取n.5为组限。将数据可分为如下9组:17.5~21.5,21.5~25.5,…,49.5~53.5。
4.统计频数
用选举唱票的方法计算出落在每个组的数目,即频数,并计算出频率与累积频率。
(二)列表
将统计结果列成表,如表8-1所示。
表8-1 某矿区伽马测量资料统计表
(三)制图
主要是绘制频数(或频率)分布直方图和累积频率折线图。
1.绘制频数(频率)分布直方图
在横坐标上标出分组点,纵坐标为对应的频数(频率),以组距为底画出高度为频数(频率)的矩形,便得频数(频率)直方图,如图8-1所示。
图8-1 某区伽马测量频数直方图和频率曲线图
2.绘制累计频率折线图
仍以横坐标标出分组点,纵坐标为累积频率f值(%)。在各组组上限处立一高为相对应的累积频率的虚线段,依次联结各虚线段的顶点,就构成了累积频率曲线图,如图8-2所示。
可以设想,如果取更多的样本,组分得更细,那么各样本值或者各组频率将趋于一个稳定的值。且由于组距L不断减小以至趋近于零,频率直方图的形状将逐渐趋近于一条曲线。换句话说,频率分布的极限,可以考虑一个稳定的函数。当样本值是连续变量(可以取一个或几个区间中,甚至整个数轴上一切数值的变量,叫连续变量,如某岩体的γ辐射照射量率)的情形,这个函数y=f(x)将表达一条光滑的曲线。这条曲线叫频率分布曲线。若数据波动的规律不同,频率分布曲线的形状也就不一样。在放射性物探工作中,形状如图8-2的曲线最多,应用也最广,称为正态分布曲线。
由于频率之总和(累积频率)为1(100%)。不难看出,如果纵坐标取为“频率/组距”,那么频率直方图矩形面积的总和等于1。换句话说,分布曲线y=f(x)与横轴所夹的面积等于1,显然可用积分之值来表示。即
放射性勘探技术
图8-2的纵坐标的含意是,在横轴的单位长度上平均分布有多少频率,也就是频率分布密度。所以由频率分布曲线所确定的函数y=f(x),叫作频率分布密度函数。
图8-2 某区伽马测量累积频率曲线图