重构大数据统计豆瓣_如何利用大数据分析工具分析豆瓣电影

⑴ # 大数据的统计学基础

概率论是统计学的基础，统计学冲锋在应用第一线，概率论提供武器。

我们在学习R的时候，会做过假设检验。做假设检验的时候会有一个基本的技术就是构造出统计量，这些统计量要满足一定的概率密度分布，然后我算这个统计量的值，来判定它在这个密度分布里面，分布在哪个区域，出现在这个区域内的可能性有多高，如果可能性太低，我们就判定我们的假设检验是不成立的。那么如何构造这个统计量，这是一个很有技术的东西，同时也是由数学家来完成的，那这个工作就是概率论所作的事情。

古典概率论：扔硬币，正面1/2反面1/2，扔的次数之间是相互独立的。但是这个等概率事件确实是一个不是很严谨的事情。仔细想一想其实是很有趣的。柯尔莫哥洛夫创建现代概率论他将概率论提出了许多公理，因此将概率论变成了非常严谨的一门学科。

学会和运用概率，会使人变得聪明，决策更准确。

统计学 ：统计学可以分为：描述统计学与推断统计学 描述统计学 ：使用特定的数字或者图表来体现数据的集中程度和离散程度。比如：每次考试算的平均分，最高分，各个分数段的人数分布等，也是属于描述统计学的范围。 推断统计学 ：根据样本数据推断总体数据特征。比如：产品质量检查，一般采用抽样检测，根据所抽样本的质量合格率作为总体的质量合格率的一个估计。统计学的应用十分广泛，可以说，只要有数据，就有统计学的用武之地。目前比较热门的应用：经济学，医学，心理学，IT行业大数据方面等。

例如：对于 1 2 3 4 5 这组数据，你会使用哪个数字作为代表呢？答案是3。因为3是这组数据的中心。对于一组数据，如果只容许使用一个数字去代表这组数据，那么这个数字应该如何选择？？？-----选择数据的中心，即反映数据集中趋势的统计量。集中趋势：在统计学里面的意思是任意种数据向 中心值靠拢 的程度。它可以反映出数据中心点所在的位置。我们经常用到的能够反映出集中趋势的统计量：均值：算数平均数，描述 平均水平 。中位数：将数据按大小排列后位于正中间的数描述，描述 中等水平 。众数：数据种出现最多的数，描述 一般水平 。

均值：算数平均数例如：某次数学考试种，小组A与小组B的成员成绩分别如下： A：70，85，62，98，92 B：82，87，95，80，83 分别求出两组的平均数，并比较两组的成绩。

组B的平均分比组A的高，就是组B的总体成绩比组A高。

中位数：将数据按大小顺序（从大到小或者从小到大）排列后处于 中间位置 的数。例如：58，32，46，92，73，88，23 1.先排序：23，32，46，58，73，88，92 2.找出中间位置的数23，32，46， 58 ，73，88，92 如果数据中是偶数个数，那么结果会发生什么改变？例如：58，32，46，92，73，88，23，63 1.先排序：23，32，46，58，63，73，88，92 2.找出处于中间位置的数：23，32，46， 58 ， 63 ，73，88，92 3.若处于中间位置的数据有两个（也就是数据的总个数为偶数时），中位数为中间两个数的算数平均数：（58+63）/2=60.5 在原数据中，四个数字比60.5小，四个数字比60.5大。

众数：数据中出现次数最多的数（所占比例最大的数）一组数据中，可能会存在多个众数，也可能不存在众数。 1 2 2 3 3 中，众数是2 和 3 1 2 3 4 5 中，没有众数 1 1 2 2 3 3 4 4 中，也没有众数只要出现的频率是一样的，那么就不存在众数众数不仅适用于数值型数据，对于非数值型数据也同样适合 {苹果，苹果，香蕉，橙子，橙子，橙子，橙子，桃子}这一组数据，没有什么均值中位数科研，但是存在众数---橙子。但是在R语言里面没有直接计算众数的内置函数，不过可以通过统计数据出现的频率变相的去求众数。

下面比较一下均值，中位数，众数三个统计量有什么优点和缺点 [图片上传失败...(image-57f18-1586015539906)]

例子：两个公司的员工及薪资构成如下： A：经理1名，月薪100000；高级员工15名，月薪10000；普通员工20名，月薪7500 B：经理1名，月薪20000；高级员工20名，月薪11000；普通员工15名，月薪9000 请比较两家公司的薪资水平。若只考虑薪资，你会选择哪一家公司？

A 7500 B 11000

A 7500 B 11000</pre>

若从均值的角度考虑，明显地A公司的平均月薪比B公司的高，但是A公司存在一个极端值，大大地拉高了A公司的均值，这时只从均值考虑明显不太科学。从中位数和众数来看，B公司的薪资水平比较高，若是一般员工，选择B公司显得更加合理。

比较下面两组数据： A： 1 2 5 8 9 B： 3 4 5 6 7 两组数据的均值都是5，但是你可以看出B组的数据与5更加接近。但是有描述集中趋势的统计量不够，需要有描述数据的离散程度的统计量。

极差：最大值 - 最小值，简单地描述数据的范围大小。 A： 9 - 1 = 8 B： 7 - 3 = 4 同样的5个数，A的极差比B的极差要大，所以也比B的要分散但是只用极差这个衡量离散程度也存在不足比如： A： 1 2 5 8 9 B： 1 4 5 6 9 两组数据虽然极差都是相同的，但是B组数据整体分布上更加靠近5。

方差：在统计学上，更常地是使用方差来描述数据的 离散程度 ：数据离中心越远，越离散。方差越大，就代表这组数据越离散。

对于前面的数据 1 2 5 8 9，前面求的一组数据的方差是12.5。将12.5于原始数据进行比较，可以看出12.5比原数据都大，这是否就能说明这一组数据十分离散呢？其实方差与元数据的单位是不一样的，这样比较也是毫无意义的。如果原始数据的单位是m的话，那么方差的单位就是m^2 为了保持单位的一致性，我们引入一个新的统计量：标准差标准差：sqrt(var())，有效地避免了因为单位的平方而引起的度量问题。与方差一样，标准差的值越大，表示数据越分散。 A： 1 2 5 8 9 B： 3 4 5 6 7

某班40个学生某次数学检测的成绩如下：

63，84，91，53，69，81，61，69，78，75，81，67，76，81，79，94，61，69，89，70，70，87，81，86，90，88，85，67，71，82，87，75，87，95，53，65，74，77 对于这一组数字，你能看出什么呢？或许先算一算平均值，中位数，或者众数

或许算一算这组数据的方差或者标准差

但是即便是统计了上述的数据，我们还是对全班同学的分数分布，没有一个全面的了解。原始数据太杂乱无章，难以看出规律性，只依赖数字来描述集中趋势与离散程度让人难以对数据产生直观地印象，这是我们就需要用到图标来展示这些数字。

1.找出上面数据中的最大值和最小是，确定数据的范围。

将成绩排序后很容易得到最大值是95，最小值是53

2.整理数据，将数据按照成绩分为几个组。成绩按照一般50-60，60-70，70-80，80-90，90-100这几个分段来划分(一般都分为5-10组)，然后统计这几个分段内部的频数。可以看到80-90这个分段的人数是最多的。注意在绘制直方图的时候，一定要知道是左闭右开还是左开右闭。因为这个可能会直接影响到频数的统计。

上图就是：频数直方图。频数作为纵坐标，成绩作为横坐标。通过直方图我们可以对成绩有一个非常直观的印象。除了频数直方图，还有一种直方图：频率直方图。与频数直方图相比，频率直方图的纵坐标有所改变，使用了频率/组距。频率=频数/总数；组距就是分组的极差，这里的组距是10.

除了直方图外，画一个简单的箱线图也可以大致看出数据的分布。

想要看懂箱线图，必须要学习一些箱线图专业的名词：下四分位数：Q1，将所有的数据按照从小到大的顺序排序，排在第25%位置的数字。上四分位数：Q3，将所有的数据按照从小到大的顺序排序，排在第75%位置的数字。四分距：IQR，等于Q3-Q1，衡量数据离散程度的一个统计量。异常点：小于Q1-1.5IQR或者大于Q3+1.5IQR的值。（注意是1.5倍的IQR）上边缘：除异常点以外的数据中的最大值下边缘：除异常点以外的数据种的最小值

茎叶图可以在保留全部数据信息的情况下，直观地显示出数据的分布情况。左边是茎，右边是叶。若将茎叶图旋转90度，则可以得到一个类似于直方图的图。跟直方图一样，也可以直观地知道数据的分布情况。并且可以保留所有的数据信息。茎叶图的画法也非常的简单：将数据分为茎和叶两部分，这里的茎是指十位上的数字，叶是指给上的数字。将茎部份（十位）从小到大，从上到下写出来相对于各自的茎，将同一茎（十位）从小到大，从左往右写出来。

但是茎叶图也有缺陷，因为百位和十位同时画在茎叶图的时候，容易区分不开。同时也可能出现却叶的情况。

以时间作为横坐标，变量作为纵坐标，反映变量随时间推移的变化趋势。

显示一段时间内的数据变化或者显示各项之间的比较情况。

根据各项所占百分比决定在饼图中扇形的面积。简单易懂，通俗明了。可以更加形象地看出各个项目所占的比例大小。适当的运用一些统计图表，可以更生动形象的说明，不再只是纯数字的枯燥描述。

学习链接： https://www.bilibili.com/video/BV1Ut411r7RG

⑵ 如何利用大数据分析工具分析豆瓣电影

小组功能是豆瓣对用户分析的利器。两个用户加同一个小组，说明他们之间的兴趣爱好会很接近。
读书、音乐、电影等等也是类似。根据这些数据，豆瓣能准确猜测出用户的各种资料，例如地域、性别、年龄、学历、学校、喜好等等，只有当有了这些数据的时候，豆瓣电台才成为可能。

⑶ ai智能大数据在哪里下载

ai智能大数据在豆瓣、腾讯、网易、网络、阿里可以下载。主流赛事包含了世界杯、轮档欧冠、亚洲杯、亚冠、中超、英超、西甲、德甲、意甲、腊乱乱法甲、巴甲、日职、K联赛等各大足球赛事、赛程、积分等信息，提供全方位的陪裂体育赛事数据服务。

⑷ 大数据的本质是什么

在著作《大数据的真相》中，列举了3个大数据的本质的特性。

使用所有的数据运用用户行为观察等大数据出现前的分析方法，通常是将调查对象范围缩小至几个人。这是因为，整理所有目标用户的数据实在太费时间，所以采取了从总用户群中，争取不产生偏差地抽取一部分作为调查对象，并仅仅根据那几个人的数据进行分析。
而使用大数据技术，能够通过发达的数据抽选和分析技术，完全可以做到对所有的数据进行分析，以提高数据的正确性。
不拘泥于单个数据的精确度
如果我们连续扔骰子，偶尔会连续好几次都扔出同样的数字。但是如果无限增加扔骰子的次数，每个数字出现的概率都将越来越接近六分之一。同样的，在大数据领域，通过观察数量庞大的数据，更容易提高整体而言的数据的精准度。因此，可以不拘泥于个别数据的精确度，而迅速地进阶到数据分析的步骤。（不过这种情况当然不包括人为的篡改等由于外部因素扭曲了数据的情况）
不过分强调因果关系
企业在考虑服务方针时，会综合考虑现状、问题、改善措施、实施后果等要素之间的相互关系，在此基础上建立假设。但是大数据能够通过观察海量的数据，发现人所注意不到的相互关联。

⑸ python有什么好的大数据/并行处理框架

从GitHub中整理出的15个最受欢迎的Python开源框架。这些框架包括事件I/O，OLAP，Web开发，高性能网络通信，测试，爬虫等。

Django: Python Web应用开发框架
Django 应该是最出名的Python框架，GAE甚至Erlang都有框架受它影响。Django是走大而全的方向，它最出名的是其全自动化的管理后台：只需要使用起ORM，做简单的对象定义，它就能自动生成数据库结构、以及全功能的管理后台。

Diesel：基于Greenlet的事件I/O框架
Diesel提供一个整洁的API来编写网络客户端和服务器。支持TCP和UDP。

Flask：一个用Python编写的轻量级Web应用框架
Flask是一个使用Python编写的轻量级Web应用框架。基于Werkzeug WSGI工具箱和Jinja2
模板引擎。Flask也被称为“microframework”，因为它使用简单的核心，用extension增加其他功能。Flask没有默认使用的数
据库、窗体验证工具。

Cubes：轻量级Python OLAP框架
Cubes是一个轻量级Python框架，包含OLAP、多维数据分析和浏览聚合数据（aggregated data）等工具。

Kartograph.py：创造矢量地图的轻量级Python框架
Kartograph是一个Python库，用来为ESRI生成SVG地图。Kartograph.py目前仍处于beta阶段，你可以在virtualenv环境下来测试。

Pulsar：Python的事件驱动并发框架
Pulsar是一个事件驱动的并发框架，有了pulsar，你可以写出在不同进程或线程中运行一个或多个活动的异步服务器。

Web2py：全栈式Web框架
Web2py是一个为Python语言提供的全功能Web应用框架，旨在敏捷快速的开发Web应用，具有快速、安全以及可移植的数据库驱动的应用，兼容Google App Engine。

Falcon：构建云API和网络应用后端的高性能Python框架
Falcon是一个构建云API的高性能Python框架，它鼓励使用REST架构风格，尽可能以最少的力气做最多的事情。

Dpark：Python版的Spark
DPark是Spark的Python克隆，是一个Python实现的分布式计算框架，可以非常方便地实现大规模数据处理和迭代计算。DPark由豆瓣实现，目前豆瓣内部的绝大多数数据分析都使用DPark完成，正日趋完善。

Buildbot：基于Python的持续集成测试框架
Buildbot是一个开源框架，可以自动化软件构建、测试和发布等过程。每当代码有改变，服务器要求不同平台上的客户端立即进行代码构建和测试，收集并报告不同平台的构建和测试结果。

Zerorpc：基于ZeroMQ的高性能分布式RPC框架
Zerorpc是一个基于ZeroMQ和MessagePack开发的远程过程调用协议（RPC）实现。和 Zerorpc 一起使用的 Service API 被称为 zeroservice。Zerorpc 可以通过编程或命令行方式调用。

Bottle: 微型Python Web框架
Bottle是一个简单高效的遵循WSGI的微型python Web框架。说微型，是因为它只有一个文件，除Python标准库外，它不依赖于任何第三方模块。

Tornado：异步非阻塞IO的Python Web框架
Tornado的全称是Torado Web Server，从名字上看就可知道它可以用作Web服务器，但同时它也是一个Python Web的开发框架。最初是在FriendFeed公司的网站上使用，FaceBook收购了之后便开源了出来。

webpy: 轻量级的Python Web框架
webpy的设计理念力求精简（Keep it simple and powerful），源码很简短，只提供一个框架所必须的东西，不依赖大量的第三方模块，它没有URL路由、没有模板也没有数据库的访问。

Scrapy：Python的爬虫框架
Scrapy是一个使用Python编写的，轻量级的，简单轻巧，并且使用起来非常的方便。

⑹ 新媒体方面如何能做好数据分析和统计呢

一直以来，互联网形势都是变幻莫测，四处充满了可变性，随着移动时代的到来，老一套的传统营销方式也可能阻挡企业发展。企业如果再不主动涉及新媒体营销、以及做好大数据统计、融入新时代潮流，可能将遭遇始料不及的困境。
那么企业该如何将掌控的数据信息变为自己所用呢？通常可以运用大数据来洞悉消费者的行为变化，从而精准地分析用户的特点和喜好，最后挖掘出产品的潜在性，以及潜在使用价值用户人群，最终完成销售市场营销的精准化、场景化，这样一个完整的体系就建成了！关于大数据统计，亿仁网络认为企业首先需要做的是依据用户社会属性、消费者行为、生活方式等信息，抽象性地总结出一个标签化的用户画像，这其中就包括用户的性别、地区、年纪、文化教育水准，以及用户的兴趣爱好、知名品牌喜好、产品喜好。
接着，企业就要依靠大数据来进行数据分析，这样可以让你致力于一部分用户，而这群用户就能意味着特殊产品的大部分潜在顾客。最后，采集大数据最大的使用价值并不是事后分析，而是进行事前预测分析和推荐。通过大数据整合更改企业的营销方法，然后依靠顾客的个人行为数据信息去做推荐，这样才能做好！

导航:首页 > 网络数据 > 重构大数据统计豆瓣

重构大数据统计豆瓣

与重构大数据统计豆瓣相关的资料

友情链接