导航:首页 > 网络数据 > 初学大数据统计学

初学大数据统计学

发布时间:2023-09-02 00:31:28

㈠ 怎样进行大数据的入门级学习

一、整体了解数据分析——5小时
新人们被”大数据“、”人工智能“、”21世纪是数据分析师的时代“等等信息吸引过来,立志成为一名数据分析师,于是问题来了,数据分析到底是干什么的?数据分析都包含什么内容?
市面上有很多讲数据分析内容的书籍,在此我推荐《深入浅出数据分析》,此书对有基础人士可称消遣读物, 但对新人们还是有一定的作用。阅读时可不求甚解,重点了解数据分析的流程、应用场景、以及书中提到的若干数据分析工具,无需纠结分析模型的实现。5个小时,足够你对数据分析工作建立初步的印象,消除陌生感。
二、了解统计学知识——10小时
15个小时只够你了解一下统计学知识,作为入门足够,但你要知道,今后随着工作内容的深入,需要学习更多的统计知识。
本阶段推荐书籍有二:《深入浅出统计学》《统计学:从数据到结论》,要了解常用数理统计模型(描述统计指标、聚类、决策树、贝叶斯分类、回归等),重点放在学习模型的工作原理、输入内容和输出内容,至于具体的数学推导,学不会可暂放一边,需要用的时候再回来看。
三、学习初级工具——20小时
对于非技术类数据分析人员,初级工具只推荐一个:EXCEL。推荐书籍为《谁说菜鸟不会数据分析》,基础篇必须学习,提高篇不一定学(可用其他EXCEL进阶书籍),也可以学习网上的各种公开课。
本阶段重点要学习的是EXCEL中级功能使用(数据透视表,函数,各类图表适用场景及如何制作),如有余力可学习VBA。
四、提升PPT能力——10小时
作为数据分析人员,PPT制作能力是极其重要的一项能力,因此需要花一点时间来了解如何做重点突出,信息明确的PPT,以及如何把各类图表插入到PPT中而又便于更新数据。10个小时并不算多,但已经足够(你从来没做过PPT的话,需要再增加一些时间)。具体书籍和课程就不推荐了,网上一抓一大把,请自行搜索。
五、了解数据库和编程语言——10小时
这个阶段有两个目标:学习基础的数据库和编程知识以提升你将来的工作效率,以及测试一下你适合学习哪一种高级数据分析工具。对于前者,数据库建议学MySQL(虽然Hadoop很有用但你不是技术职位,初期用不到),编程语言建议学Python(继续安利《深入浅出Python》,我真没收他们钱……)。数据库学到联合查询就好,性能优化、备份那些内容用不到;Python则是能学多少学多少。
六、学习高级工具——10小时
虽然EXCEL可以解决70%以上的问题,但剩下30%还是需要高级工具来做(不信用EXCEL做个聚类)。高级分析工具有两个选择:SPSS和R。虽然R有各种各样的好处,但我给的建议是根据你在上一步中的学习感觉来定学哪一个工具,要是学编程语言学的很痛苦,就学SPSS,要是学的很快乐,就学R。不管用哪一种工具,都要把你学统计学时候学会的重点模型跑一遍,学会建立模型和小幅优化模型即可。
七、了解你想去的行业和职位——10+小时
这里我在时间上写了个”+“号,因为这一步并不一定要用整块时间来学习,它是贯穿在你整个学习过程中的。数据分析师最需要不断提升的能力就是行业和业务知识,没有之一。你将来想投入哪个行业和哪个职位的方向,就要去学习相关的知识(比如你想做网站运营,那就要了解互联网背景知识、网站运营指标体系、用户运营知识等内容)。
八、做个报告——25小时
你学习了那么多内容,但现在出去的话你还是找不到好工作。所有的招聘人员都会问你一句话:你做过哪些实际项目?(即使你是应届生也一样) 如果你有相关的项目经验或者实习经验,当然可以拿出来,但是如果没有,怎么办?答案很简单,做个报告给他们看,告诉招聘者:我已经有了数据分析入门级(甚至进阶级)职位的能力。同时,做报告也会是你将来工作的主要内容,因此也有可能出现另外一种情况:你费尽心血做了一个报告,然后发现这不是你想要的生活,决定去干别的工作了……这也是件好事,有数据分析能力的人做其他工作也算有一项优势。

㈡ # 大数据的统计学基础

概率论是统计学的基础,统计学冲锋在应用第一线,概率论提供武器。

我们在学习R的时候,会做过假设检验。做假设检验的时候会有一个基本的技术就是构造出统计量,这些统计量要满足一定的概率密度分布,然后我算这个统计量的值,来判定它在这个密度分布里面,分布在哪个区域,出现在这个区域内的可能性有多高,如果可能性太低,我们就判定我们的假设检验是不成立的。 那么如何构造这个统计量,这是一个很有技术的东西,同时也是由数学家来完成的,那这个工作就是概率论所作的事情。

古典概率论: 扔硬币,正面1/2反面1/2,扔的次数之间是相互独立的。 但是这个等概率事件确实是一个不是很严谨的事情。仔细想一想其实是很有趣的。 柯尔莫哥洛夫创建现代概率论 他将概率论提出了许多公理,因此将概率论变成了非常严谨的一门学科。

学会和运用概率,会使人变得聪明,决策更准确。

统计学 : 统计学可以分为:描述统计学与推断统计学 描述统计学 :使用特定的数字或者图表来体现数据的集中程度和离散程度。比如:每次考试算的平均分,最高分,各个分数段的人数分布等,也是属于描述统计学的范围。 推断统计学 :根据样本数据推断总体数据特征。比如:产品质量检查,一般采用抽样检测,根据所抽样本的质量合格率作为总体的质量合格率的一个估计。 统计学的应用十分广泛,可以说,只要有数据,就有统计学的用武之地。目前比较热门的应用:经济学,医学,心理学,IT行业大数据方面等。

例如:对于 1 2 3 4 5 这组数据,你会使用哪个数字作为代表呢? 答案是3。 因为3是这组数据的中心。 对于一组数据,如果只容许使用一个数字去代表这组数据,那么这个数字应该如何选择???-----选择数据的中心,即反映数据集中趋势的统计量。 集中趋势:在统计学里面的意思是任意种数据向 中心值靠拢 的程度。它可以反映出数据中心点所在的位置。 我们经常用到的能够反映出集中趋势的统计量: 均值:算数平均数,描述 平均水平 。 中位数:将数据按大小排列后位于正中间的数描述,描述 中等水平 。 众数:数据种出现最多的数,描述 一般水平

均值:算数平均数 例如:某次数学考试种,小组A与小组B的成员成绩分别如下: A:70,85,62,98,92 B:82,87,95,80,83 分别求出两组的平均数,并比较两组的成绩。

组B的平均分比组A的高,就是组B的总体成绩比组A高。

中位数:将数据按大小顺序(从大到小或者从小到大)排列后处于 中间位置 的数。 例如:58,32,46,92,73,88,23 1.先排序:23,32,46,58,73,88,92 2.找出中间位置的数23,32,46, 58 ,73,88,92 如果数据中是偶数个数,那么结果会发生什么改变? 例如:58,32,46,92,73,88,23,63 1.先排序:23,32,46,58,63,73,88,92 2.找出处于中间位置的数:23,32,46, 58 63 ,73,88,92 3.若处于中间位置的数据有两个(也就是数据的总个数为偶数时),中位数为中间两个数的算数平均数:(58+63)/2=60.5 在原数据中,四个数字比60.5小,四个数字比60.5大。

众数:数据中出现次数最多的数(所占比例最大的数) 一组数据中,可能会存在多个众数,也可能不存在众数。 1 2 2 3 3 中,众数是2 和 3 1 2 3 4 5 中,没有众数 1 1 2 2 3 3 4 4 中,也没有众数 只要出现的频率是一样的,那么就不存在众数 众数不仅适用于数值型数据,对于非数值型数据也同样适合 {苹果,苹果,香蕉,橙子,橙子,橙子,橙子,桃子}这一组数据,没有什么均值中位数科研,但是存在众数---橙子。 但是在R语言里面没有直接计算众数的内置函数,不过可以通过统计数据出现的频率变相的去求众数。

下面比较一下均值,中位数,众数三个统计量有什么优点和缺点 [图片上传失败...(image-57f18-1586015539906)]

例子: 两个公司的员工及薪资构成如下: A:经理1名,月薪100000;高级员工15名,月薪10000;普通员工20名,月薪7500 B:经理1名,月薪20000;高级员工20名,月薪11000;普通员工15名,月薪9000 请比较两家公司的薪资水平。若只考虑薪资,你会选择哪一家公司?

A 7500 B 11000

A 7500 B 11000</pre>

若从均值的角度考虑,明显地A公司的平均月薪比B公司的高,但是A公司存在一个极端值,大大地拉高了A公司的均值,这时只从均值考虑明显不太科学。从中位数和众数来看,B公司的薪资水平比较高,若是一般员工,选择B公司显得更加合理。

比较下面两组数据: A: 1 2 5 8 9 B: 3 4 5 6 7 两组数据的均值都是5,但是你可以看出B组的数据与5更加接近。但是有描述集中趋势的统计量不够,需要有描述数据的离散程度的统计量。

极差 :最大值 - 最小值,简单地描述数据的范围大小。 A: 9 - 1 = 8 B: 7 - 3 = 4 同样的5个数,A的极差比B的极差要大,所以也比B的要分散 但是只用极差这个衡量离散程度也存在不足 比如: A: 1 2 5 8 9 B: 1 4 5 6 9 两组数据虽然极差都是相同的,但是B组数据整体分布上更加靠近5。

方差 :在统计学上,更常地是使用方差来描述数据的 离散程度 :数据离中心越远,越离散。 方差越大,就代表这组数据越离散。

对于前面的数据 1 2 5 8 9,前面求的一组数据的方差是12.5。 将12.5于原始数据进行比较,可以看出12.5比原数据都大,这是否就能说明这一组数据十分离散呢? 其实方差与元数据的单位是不一样的,这样比较也是毫无意义的。如果原始数据的单位是m的话,那么方差的单位就是m^2 为了保持单位的一致性,我们引入一个新的统计量:标准差 标准差:sqrt(var()), 有效地避免了因为单位的平方而引起的度量问题。 与方差一样,标准差的值越大,表示数据越分散。 A: 1 2 5 8 9 B: 3 4 5 6 7

某班40个学生某次数学检测的成绩如下:

63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77 对于这一组数字,你能看出什么呢? 或许先算一算平均值,中位数,或者众数

或许算一算这组数据的方差或者标准差

但是即便是统计了上述的数据,我们还是对全班同学的分数分布,没有一个全面的了解。 原始数据太杂乱无章,难以看出规律性,只依赖数字来描述集中趋势与离散程度让人难以对数据产生直观地印象,这是我们就需要用到图标来展示这些数字。

1.找出上面数据中的最大值和最小是,确定数据的范围。

将成绩排序后很容易得到最大值是95,最小值是53

2.整理数据,将数据按照成绩分为几个组。成绩按照一般50-60,60-70,70-80,80-90,90-100这几个分段来划分(一般都分为5-10组),然后统计这几个分段内部的频数。 可以看到80-90这个分段的人数是最多的。 注意在绘制直方图的时候,一定要知道是左闭右开还是左开右闭。 因为这个可能会直接影响到频数的统计。

上图就是:频数直方图。频数作为纵坐标,成绩作为横坐标。通过直方图我们可以对成绩有一个非常直观的印象。 除了频数直方图,还有一种直方图:频率直方图。与频数直方图相比,频率直方图的纵坐标有所改变,使用了频率/组距。 频率=频数/总数;组距就是分组的极差,这里的组距是10.

除了直方图外,画一个简单的箱线图也可以大致看出数据的分布。


想要看懂箱线图,必须要学习一些箱线图专业的名词: 下四分位数:Q1,将所有的数据按照从小到大的顺序排序,排在第25%位置的数字。 上四分位数:Q3,将所有的数据按照从小到大的顺序排序,排在第75%位置的数字。 四分距:IQR,等于Q3-Q1,衡量数据离散程度的一个统计量。 异常点:小于Q1-1.5IQR或者大于Q3+1.5IQR的值。 (注意是1.5倍的IQR) 上边缘:除异常点以外的数据中的最大值 下边缘:除异常点以外的数据种的最小值

茎叶图可以在保留全部数据信息的情况下,直观地显示出数据的分布情况。 左边是茎,右边是叶。 若将茎叶图旋转90度,则可以得到一个类似于直方图的图。跟直方图一样,也可以直观地知道数据的分布情况。 并且可以保留所有的数据信息。 茎叶图的画法也非常的简单: 将数据分为茎和叶两部分,这里的茎是指十位上的数字,叶是指给上的数字。 将茎部份(十位)从小到大,从上到下写出来 相对于各自的茎,将同一茎(十位)从小到大,从左往右写出来。

但是茎叶图也有缺陷,因为百位和十位同时画在茎叶图的时候,容易区分不开。同时也可能出现却叶的情况。

以时间作为横坐标,变量作为纵坐标,反映变量随时间推移的变化趋势。

显示一段时间内的数据变化或者显示各项之间的比较情况。

根据各项所占百分比决定在饼图中扇形的面积。简单易懂,通俗明了。可以更加形象地看出各个项目所占的比例大小。 适当的运用一些统计图表,可以更生动形象的说明,不再只是纯数字的枯燥描述。

学习链接: https://www.bilibili.com/video/BV1Ut411r7RG

㈢ 学大数据需要具备什么基础

第一、计算机基础知识。计算机基础知识涉及到三大块内容,包括操作系统、编程语言和计算机网络,其中操作系统要重点学习一下Linux操作系统,编程语言可以选择java或者Python。

如果要从事大数据开发,应该重点关注一下Java语言,而如果要从事大数据分析,可以重点关注一下Python语言。计算机网络知识对于大数据从业者来说也比较重要,要了解基本的网络通信过程,涉及到网络通信层次结构和安全的相关内容。

第二、数据库知识。数据库知识是学习大数据相关技术的重要基础,大数据的技术体系有两大基础,一部分是分布式存储,另一部分是分布式计算,所以存储对于大数据技术体系有重要的意义。

初学者可以从Sql语言开始学起,掌握关系型数据库知识对于学习大数据存储依然有比较重要的意义。另外,在大数据时代,关系型数据库依然有大量的应用场景。

第三、数学和统计学知识。从学科的角度来看,大数据涉及到三大学科基础,分别是数学、统计学和计算机,所以数学和统计学知识对于大数据从业者还是比较重要的。

从大数据岗位的要求来看,大数据分析岗位(算法)对于数学和统计学知识的要求程度比较高,大数据开发和大数据运维则稍微差一些,所以对于数学基础比较薄弱的初学者来说,可以考虑向大数据开发和大数据运维方向发展。

大数据的价值体现在以下几个方面:

(1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;

(2)做小而美模式的中小微企业可以利用大数据做服务转型;

(3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。

㈣ 零基础自学大数据要学哪些内容

1. EXCEL、PPT(必须精通)


数据工作者的基本姿态,话说本人技术并不是很好,但是起码会操作;要会大胆秀自己,和业务部门交流需求,展示分析结果。技术上回VBA和数据透视就到顶了。


2. 数据库类(必须学)


初级只要会RDBMS就行了,看公司用哪个,用哪个学哪个。没进公司就学MySQL吧。


NoSQL可以在之后和统计学啥的一起学。基本的NoSQL血MongoDB和Redis(缓存,严格意义上不算数据库),然后(选学)可以了解各类NoSQL,基于图的数据库Neo4j,基于Column的数据库BigTable,基于key-value的数据库redis/cassendra,基于collection的数据库MongoDB。


3. 统计学(必须学)


如果要学统计学,重要概念是会描述性统计、假设检验、贝叶斯、极大似然法、回归(特别是广义线性回归)、主成分分析。这些个用的比较多。也有学时间序列、bootstrap、非参之类的,这个看自己的意愿。


其他数学知识:线性代数常用(是很多后面的基础),微积分不常用,动力系统、傅里叶分析看自己想进的行业了。


4. 机器学习(数据分析师要求会选、用、调)


常用的是几个线性分类器、聚类、回归、随机森林、贝叶斯;不常用的也稍微了解一下;深度学习视情况学习。


5. 大数据(选学,有公司要求的话会用即可,不要求会搭环境)


hadoop基础,包括hdfs、map-rece、hive之类;后面接触spark和storm再说了。


6. 工具类


语言:非大数据类R、Python最多;大数据可能还会用到scala和java。


其他框架、类库(选学):爬虫(requests、beautifulsoup、scrapy),日志分析(常见elk)。

㈤ 大数据学习入门都需要学什么求大神解答一下

大数据学习入门都需要学习和具备的基础知亏春识:

  1. 数学知识:数学知识是数据分析师的基础知识。

    ①对于初级数据分析师,了解一些描述统计相关的基础内容,有一定的公式计算能力即可,了解常用统计模型算法则是加分。

    ②对于高级数据分析师,统计模型相关知识是必备能力,线性代数(主要是矩阵计算相关知识)最好也有一定的了解。

    ③而对于数据挖掘工程师,除了统计学以外,各类算法也需要熟练使用,对数学的要求是最高的。

  2. 分析工具

    ①对于初级数据分析师,玩转Excel是必须的,数据透视表和公式使用必须熟练,VBA是加分。另外,还要学会一个统计分析工具,SPSS作为入门是比较好的。

    ②对于高级数据分析师,使用分析工具是核心能力,VBA基本必备,SPSS/SAS/R至少要熟练使用其中之一,其他分析工具(如Matlab)视情况而定。

    ③对于数据挖掘工程师……嗯,会用用Excel就行了,主要工作要靠写代码来解决呢。

  3. 编程语言

    ①对于初级数据分析师,会写SQL查询,有需要的话写写Hadoop和Hive查询,基本就OK了。

    ②对于高级数据分析师,除了SQL以外,学习Python是很有必要的,用来获取和处理数据都是事半功倍。当然其他编程语言也是可以的。

    ③对于数据挖掘工程师,Hadoop得熟悉,Python/Java/C++至少得熟悉一门,Shell得会用……总之编程语言绝对是数据挖掘工程师的最核心能力了。

  4. 业务理解

    业务理解说是数据分析师所有工作的基础也不为过,数据的获取方案、指标的选取、乃至最终结论的洞察,都依赖于数据分析师对业务本身的理解。

    ①对于初级数据分析师,主要工作是提取数据和做一些简单图表,以及少量的洞察结论,拥有对业务的基本了解就可以。

    ②对于高级数据分析师,需要对业务有较为深入的了解,能够基于数据,提炼出有效观点,对实际业务能有所帮助。

    ③对于数据挖掘工程师,对业务有基本了解就可以,重点还是需要放在发挥自己的技术能力上。

  5. 逻辑思维

    ①对于初级数据分析师,逻辑思维主要体现在数据分析过程中每一步都有目的性,知道自己需要用什么样的手段,达到什么样的目标。

    ②对于高级数据分析师,逻辑思维主要体现在搭建完整有效的分析框架,了解分析对象之间的关联关系,清楚每一个指标变化的前因后果,会给业务带来的影响。

    ③对于数据挖掘工程师,逻辑思维除了体现在和业务相关的分析工作上,还包括算法逻辑,程序逻辑等,所以对逻辑思维的要求也是最高的。

  6. 数据可视化

    数据可视化说起来很高大上,其实包括的范围很广,做个PPT里边冲皮放上数据图表也可以算是数据可视化,所以我认为这是一项普遍需要的能力。

    ①对于初级数据分析师,能用Excel和PPT做出基本的图表和报告,能清楚的展示数据,就达到目标了。

    ②对于高级数据分析师,需要探寻更好的数据可视化方法,使用更有效的数据可视化工具,根据实际需求做出或简单或复杂,但适合受众观看的数据可视化内容。

    ③对于数据挖掘工程师,了解一些数据可视化工具是有必要的,也要根据需求做一些复杂的可视化图表,但通常不需要考虑太多美化的问题。

  7. 协调沟通

    ①对于初级数据分析师,了解业务、寻找数据、讲解报告,都需要和不同部门的人打交道,因此沟通能力很重要。

    ②对于高级数据分析师,需要开始独立带项目散空差,或者和产品做一些合作,因此除了沟通能力以外,还需要一些项目协调能力。

    ③对于数据挖掘工程师,和人沟通技术方面内容偏多,业务方面相对少一些,对沟通协调的要求也相对低一些。

  8. 快速学习

    无论做数据分析的哪个方向,初级还是高级,都需要有快速学习的能力,学业务逻辑、学行业知识、学技术工具、学分析框架……数据分析领域中有学不完的内容,需要大家有一颗时刻不忘学习的心。

㈥ 新手如何学习大数据

新手学习大数据可以通过自学或是培训两种方式。

想要自学那么个人的学历不能低于本科,若是计算机行业的话比较好。非本专业也可以,只要学历够,个人的逻辑思维能力以及个人的约束能力较好,就可以去网上找找免费的教程,选择适合自己的自学试试看。

自学大数据路线图👇👇

尝试自学若觉得自己的约束能力一般,但是能学到进去也想尽快掌握技术,那可以考虑参加大数据培训班,老师指导效率也会比较高。

无论是自学还是参加培训班都需要自己付出较多的努力哦。

阅读全文

与初学大数据统计学相关的资料

热点内容
中间夹菜单里面不能显示压缩文件 浏览:952
如何指导小学生参加编程比赛 浏览:275
物业的招标文件有哪些 浏览:452
保存游戏文件名非法或只读 浏览:258
js怎么做图片时钟 浏览:451
华为应用里面有了app说明什么 浏览:801
数据库中xy是什么意思 浏览:893
u盘打不开提示找不到应用程序 浏览:609
网站功能介绍怎么写 浏览:954
word在试图打开文件时错误 浏览:108
主板无vga插槽怎么连接编程器 浏览:521
录视频文件在哪里删除 浏览:881
word2013如何插入文件 浏览:233
proe教程百度网盘 浏览:197
如何控制远程linux服务器 浏览:740
it教学app有哪些 浏览:34
怎么在ps抠的图变成矢量文件 浏览:405
口袋妖怪银魂安卓v11 浏览:1
网站上芒果tv的账号都是什么 浏览:104
带公式的表格如何刷新数据 浏览:81

友情链接