twitter图数据库_怎么处理大数据怎么处理双11这么多订单

『壹』 hdfs为什么能存储不同类型数据为什么能存储pb级的数据

“TB是一个计算机存储容量的单位，它等于2的40次方，或者接近一万亿个字节（即，一千千兆字节）。”
一提到数据量级，人们通常会联想到美国国会图书馆（见图）。德勤、麦肯锡、IBM、Gartner和移动广告公司Adfonic的数据专家向TechTarget记者介绍了PB级数据究竟有多大。

麦肯锡首席分析师Michael Chui指出，美国国会图书馆“在2011年4月前已经收集了235TB的数据，而一个PB相当于它的4倍。”
TechTarget自己的网络网站Whatis有关于PB大小的定义：“PB是数据存储容量的单位，它等于2的50次方个字节，或者在数值上大约等于1000个TB。”
未来学家Raymond Kurzweil他的论文中对PB的定义进行延伸：人类功能记忆的容量预计在1.25个TB。这意味着，800个人类记忆才相当于1个PB。
如果这样还不够清楚，那么Adfonic的CTO Wes Biggs给出了下面更直接的计算：
假设手机播放MP3的编码速度为平均每分钟1MB，而1首歌曲的平均时长为4分钟，那么1PB歌曲可以连续播放2000年。
如果智能手机相机拍摄相片的平均大小为3MB，打印照片的平均大小为8.5英寸，那么总共1PB的照片的并排排列长度就达到48000英里——大约可以环绕地球2周。
1PB足够存储整个美国人口的DNA，而且还能再克隆2倍。
DVD、战列舰和六国赛
从比特（bit）和字节（byte）开始，德勤的分析师还将他们的思考向以下方面进一步延伸。（1个比特是1个二进制位，可能是0或1;1个字节长8个二进制）：
如果以每秒1个位的速度数一下1PB所包含的位数，那么您需要2.85亿年才能数完。
如果每秒数1个字节，那么您需要数357万年。
保存1PB数据需要用掉22.3万张DVD。
保存1PB数据，需要用掉7.46亿张3.5英寸软盘;这7.46亿软盘重13422吨。这个重量仅仅比2艘Type 45驱逐舰轻一些。
人类身体细胞数据各不相同，但是数量最多的接近100万亿个，如果用1个位来表示1个细胞，那么1PB足够记录90个人的身体细胞，相当于橄榄球六国赛的全部球员。
谷歌、社交媒体和宇宙大爆炸
谷歌在2004年率先进军数字地图领域，并在2005年发布了谷歌地图和谷歌地球。现在，谷歌为用户提供了超过20PB（215亿MB）的地图影像——包括卫星图片、航拍照片和360度街景图片。
即使在2008年，谷歌每天处理的数据已经达到20 PB，一年就是7300 PB。
从那时起，社交媒体网站就开始生成PB级数据，它们逐渐成为所谓的“大数据”。
根据2012年2月1日Facebook向美国证券交易委员会提交的IPO文档记录，Facebook在1年前已经存储了100 PB数据。
在Twitter网站上，每分钟就有34000条微博出现。IBM非常关注于一个天文项目：“由于20个国家共同出资总计15亿欧元建设的平方公里阵列（Square Kilometer Array, SKA）是一个无线电天文望远镜，它可以观测宇宙大爆炸的衰弱信号。”
SKA（计划在2024年完成）估计整个宇宙每天将生成1376 PB数据，相当于每天传输的全球互联网流量的两倍。
只能尽量减少，而不能消除，常用减少误差的

『贰』图计算引擎Neo4j和Graphscope有什么区别

Neo4j是单机系统，主要做图数据库。GraphScope是由阿里巴巴达摩院智能计算实验室研发的图计算平台，是全球首个一站式超大规模分布式图计算平台，并且还入选了中国科学技术协会“科创中国”平台。Graphscope的代码在github.com/alibaba/graphscope上开源。SSSP算法上,GraphScope单机模式下平均要比Neo4j快176.38倍，最快在datagen-9.2_zf数据集上快了292.2倍。

『叁』有哪些轻型的非关系型数据库

常见的非关系型数据库有：1、mongodb；2、cassandra；3、redis；4、hbase；5、neo4j。其中mongodb是非常著名的NoSQL数据库，它是一个面向文档的开源数据库。
常见的几种非关系型数据库：
1、MongoDB
MongoDB是最著名的NoSQL数据库。它是一个面向文档的开源数据库。MongoDB是一个可伸缩和可访问的数据库。它在c++中。MongoDB同样可以用作文件系统。在MongoDB中，JavaScript可以作为查询语言使用。通过使用sharding MongoDB水平伸缩。它在流行的JavaScript框架中非常有用。
人们真的很享受分片、高级文本搜索、gridFS和map-rece功能。惊人的性能和新特性使这个NoSQL数据库在我们的列表中名列第一。
特点：提供高性能；自动分片；运行在多个服务器上；支持主从复制；数据以JSON样式文档的形式存储；索引文档中的任何字段；由于数据被放置在碎片中，所以它具有自动负载平衡配置；支持正则表达式搜索；在失败的情况下易于管理。
优点：易于安装MongoDB；MongoDB Inc.为客户提供专业支持；支持临时查询；高速数据库；无模式数据库；横向扩展数据库；性能非常高。
缺点：不支持连接；数据量大；嵌套文档是有限的；增加不必要的内存使用。
2、Cassandra
Cassandra是Facebook为收件箱搜索开发的。Cassandra是一个用于处理大量结构化数据的分布式数据存储系统。通常，这些数据分布在许多普通服务器上。您还可以添加数据存储容量，使您的服务保持在线，您可以轻松地完成这项任务。由于集群中的所有节点都是相同的，因此不需要处理复杂的配置。
Cassandra是用Java编写的。Cassandra查询语言(CQL)是查询Cassandra数据库的一种类似sql的语言。因此，Cassandra在最佳开源数据库中排名第二。Facebook、Twitter、思科(Cisco)、Rackspace、eBay、Twitter、Netflix等一些最大的公司都在使用Cassandra。
特点：线性可伸缩；；保持快速响应时间；支持原子性、一致性、隔离性和耐久性(ACID)等属性；使用Apache Hadoop支持MapRece；分配数据的最大灵活性；高度可伸缩；点对点架构。
优点：高度可伸缩；无单点故障；Multi-DC复制；与其他基于JVM的应用程序紧密集成；更适合多数据中心部署、冗余、故障转移和灾难恢复。
缺点：对聚合的有限支持；不可预知的性能；不支持特别查询。
3、Redis
Redis是一个键值存储。此外，它是最著名的键值存储。Redis支持一些c++、PHP、Ruby、Python、Perl、Scala等等。Redis是用C语言编写的。此外，它是根据BSD授权的。
特点：自动故障转移；将其数据库完全保存在内存中；事务；Lua脚本；将数据复制到任意数量的从属服务器；钥匙的寿命有限；LRU驱逐钥匙；支持发布/订阅。
优点：支持多种数据类型；很容易安装；非常快（每秒执行约11万组，每秒执行约81000次）；操作都是原子的；多用途工具（在许多用例中使用）。
缺点：不支持连接；存储过程所需的Lua知识；数据集必须很好地适应内存。
4、HBase
HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。
HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
5、neo4j
Neo4j被称为原生图数据库，因为它有效地实现了属性图模型，一直到存储层。这意味着数据完全按照白板的方式存储，数据库使用指针导航和遍历图。Neo4j有数据库的社区版和企业版。企业版包括Community Edition必须提供的所有功能，以及额外的企业需求，如备份、集群和故障转移功能。
特点：它支持唯一的约束；Neo4j支持完整的ACID(原子性、一致性、隔离性和持久性)规则；Java API: Cypher API和本机Java API；使用Apache Lucence索引；简单查询语言Neo4j CQL；包含用于执行CQL命令的UI: Neo4j Data Browser。
优点：容易检索其相邻节点或关系细节，无需连接或索引；易于学习Neo4j CQL查询语言命令；不需要复杂的连接来检索数据；非常容易地表示半结构化数据；大型企业实时应用程序的高可用性；简化的调优。
缺点：不支持分片

『肆』数据库分库分表（二）Twitter-Snowflake（64位分布式ID算法）分析与JAVA实现

Twitter-Snowflake算法产生的背景相当简单，为了满足Twitter每秒上万条消息的请求，每条消息都必须分配一条唯一的id，这些id还需要一些大致的顺序（方便客户端排序），并且在分布式系统中不同机器产生的id必须不同。各种主键ID生成策略对比，见常见分布式主键ID生成策略

把 41位的时间前缀 ， 10位的节点标识 ， 12位的sequence 组合在一起。
除了最高位bit标记为不可用以外，其余三组bit占位均可浮动，看具体的业务需求而定。 默认情况下41bit的时间戳，1970年算起可以支持该算法使用到2038年，10bit的工作机器id可以支持1024台机器，序列号支持1毫秒产生4096个自增序列id 。

Snowflake是Twitter在2010年用Scala语言写的一套主键生成策略，用Thrift对外发布主键生成服务，其中依赖了Twitter内部的Infrastructure，后来Twitter用 Twitter-server 代替了Snowflake，自2012年起就未更新。见 Twitter-Snowflake项目地址（Tags:snowflake-2010）
之前写了一个Java的实现，改自网上一个版本: Twitter的分布式自增ID算法Snowflake实现分析及其Java、Php和Python版。后来看到当当网的 Sharding-JDBC 分库分表中间件已实现了此算法。就直接在其中添加了一些新特性，已merge。( 具体实现 , 说明文档 )
添加3种IdGenerator实现。

用笔记本（i7-3632QM 2.2GHz 四核八线程）测试了下，每秒生成409万（理论上的峰值），CPU占用率18.5%。

『伍』如何通过python调用新浪微博的API来爬取数据

先上结论，通过公开的api如果想爬到某大v的所有数据，需要满足以下两个条件：
1、在你的爬虫开始运行时，该大v的所有微博发布量没有超过回溯查询的上限，新浪是2000，twitter是3200。
2、爬虫程序必须不间断运行。
新浪微博的api基本完全照搬twitter，其中接口的参数特性与底层的NoSQL密不可分，建议先看点Nosql数据库的设计理念有助于更好的理解api设计。
一般来说，如果决定爬某个大v，第一步先试获取该用户的基本信息，中间会包含一条最新的status，记下其中的id号作为基准，命名为baseId。
接口中最重要的两个参数：
since_id：返回ID比since_id大的微博（即比since_id时间晚的微博），默认为0。
max_id：返回ID小于或等于max_id的微博，默认为0。
出于各种原因，获取statuses的接口，固定为按id降序排列（scan_index_forward=false），即最新的statuses返回在前。假设该微博第一天上线，就一个用户，发了一百条，id是1到100。而你在该用户发了第50条的时候开始运行的爬虫，即baseId=50。

『陆』怎么处理大数据，怎么处理双11这么多订单

大数据（巨量数据集合（IT行业术语））
大数据（big data），指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》。中大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理。大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）、Veracity（真实性）。

具体操作：
整个处理流程可以概括为四步，分别是采集、导入和预处理、统计和分析，以及挖掘。
采集
大数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
导入/预处理
虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。
统计/分析
统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC 的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。
挖掘
与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes，主要使用的工具有Hadoop的Mahout等。
-

『柒』 nosql数据库的几大类型

1. 键值数据库
相关产品：Redis、Riak、SimpleDB、Chordless、Scalaris、Memcached
应用：内容缓存
优点：扩展性好、灵活性好、大量写操作时性能高
缺点：无法存储结构化信息、条件查询效率较低
使用者：网络云（Redis）、GitHub（Riak）、BestBuy（Riak）、Twitter（Ridis和Memcached）
2. 列族数据库
相关产品：BigTable、HBase、Cassandra、HadoopDB、GreenPlum、PNUTS
应用：分布式数据存储与管理
优点：查找速度快、可扩展性强、容易进行分布式扩展、复杂性低
使用者：Ebay（Cassandra）、Instagram（Cassandra）、NASA（Cassandra）、Facebook（HBase）
3. 文档数据库
相关产品：MongoDB、CouchDB、ThruDB、CloudKit、Perservere、Jackrabbit
应用：存储、索引并管理面向文档的数据或者类似的半结构化数据
优点：性能好、灵活性高、复杂性低、数据结构灵活
缺点：缺乏统一的查询语言
使用者：网络云数据库（MongoDB）、SAP（MongoDB）
4. 图形数据库
图形数据库-使用图作为数据模型来存储数据。
相关产品：Neo4J、OrientDB、InfoGrid、GraphDB
应用：大量复杂、互连接、低结构化的图结构场合，如社交网络、推荐系统等
优点：灵活性高、支持复杂的图形算法、可用于构建复杂的关系图谱
缺点：复杂性高、只能支持一定的数据规模
使用者：Adobe（Neo4J）、Cisco（Neo4J）、T-Mobile（Neo4J）

导航:首页 > 编程大全 > twitter图数据库

twitter图数据库

与twitter图数据库相关的资料

友情链接