『壹』 大数据是什么
作者:李丽
链接:https://www.hu.com/question/23896161/answer/28624675
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。
研发小组对大数据的定义:"大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。" Kelly说:"大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数据的极限"。 大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。
二、大数据分析
从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?
1、可视化分析
大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了
2、数据挖掘算法
大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。
3、预测性分析能力
大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。
4、数据质量和数据管理
大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。
大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。
三、大数据技术
1、数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
2、数据存取:关系数据库、NOSQL、SQL等。
3、基础架构:云存储、分布式文件存储等。
4、数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
5、统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
6、数据挖掘:分类
(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or
association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text,
Web ,图形图像,视频,音频等)
7、模型预测:预测模型、机器学习、建模仿真。
8、结果呈现:云计算、标签云、关系图等。
四、大数据特点
要理解大数据这一概念,首先要从"大"入手,"大"是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。
1、
数据体量巨大。从TB级别,跃升到PB级别。
2、
数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。
3、
价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
4、
处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的"大数据"不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。
五、大数据处理
大数据处理之一:采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
大数据处理之二:导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
大数据处理之三:统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
大数据处理之四:挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理
六、大数据应用与案例分析
大数据应用的关键,也是其必要条件,就在于"IT"与"经营"的融合,当然,这里的经营的内涵可以非常广泛,小至一个零售门店的经营,大至一个城市的经营。以下是关于各行各业,不同的组织机构在大数据方面的应用的案例,在此申明,以下案例均来源于网络,本文仅作引用,并在此基础上作简单的梳理和分类。
大数据应用案例之:医疗行业
[1] Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。
[2] 在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。
[3] 它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。
大数据应用案例之:能源行业
[1] 智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。
[2] 维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。
大数据应用案例之:通信行业
[1] XO Communications通过使用IBM SPSS预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM新的Netezza网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策。
[2] 电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。
[3] 中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。
[4] NTT docomo把手机位置信息和互联网上的信息结合起来,为顾客提供附近的餐饮店信息,接近末班车时间时,提供末班车信息服务。
『贰』 数据的逻辑结构主要有哪三种各有何特点三者之间存在怎样的联系
数据的逻辑结构类型有四种:集合结构、线性结构、树状结构和网络结构。
各类型特点:
1、集合结构:集合中任何两个数据元素之间都没有逻辑关系,组织形式松散。
2、线性结构:数据元素之间存在着“一对一”的线性关系的数据结构。始节点没有前驱但有一个后继,终端节点没有后继但有一个前驱。其余节点有且只有一个前驱和一个后继。
3、树状结构:数据元素之间存在“一对多”的关系。一个或多个节点的有限集合。所有节点都可以至少一个后继。
4、网络结构:通信系统的整体设计,它为网络硬件、软件、协议、存取控制和拓扑提供标准。数据元素之间存在“多对多”的关系。任何节点都可以有多个前驱和多个后驱。
联系:
集合结构、线性结构、树状结构和网络结构在计算机中的存储映像不同,但其本质都是逻辑结构,均反映数据元素到存储区的一个映射关系。
(2)关系数据主要存在哪里扩展阅读
逻辑结构设计:
逻辑结构设计是将概念结构设计阶段完成的概念模型,转换成能被选定的数据库管理系统支持的数据模型,即将E-R模型转换为关系模型。
把原始数据进行分解、合并后重新组织起来的数据库全局逻辑结构,包括所确定的关键字和属性、重新确定的记录结构和文件结构、所建立的各个文件之间的相互关系,形成本数据库的数据库管理员视图等。
『叁』 数据库中“关系模式”的定义是什么
关系模式是对关系的描写叙述。
在数据库中,关系是元组的集合,所以关系模式要内描写叙述容元组的集合,当中包含那些属性,属性来自域,属性与域之间的映射关系。
现实世界随着时间在不断地变化,因而在不同的时刻,关系模式的关系也会有所变化。但是,现实世界的许多己有事实限定了关系模式所有可能的关系必须满足一定的完整性约束条件,关系模式应当刻画出这些完整性约束条件。
(3)关系数据主要存在哪里扩展阅读:
1、数据库中的关系模式是型,而关系是值。
2、关系模式能够用五元组形式表示:R(U,D,Dom,F),当中R:表示关系名,U:表示属性集合,Dom,表示属性域(来自那个域),F:表示函数依赖。
3、可是普通情况下,我们通常把关系模式表示为:R(U)或者R(A,B)(当中A、B代表U中的属性)
4、关系是n个域的笛卡儿积的子集,组成关系的元组必须是笛卡儿积中使n目谓词为真的元组。所以关系模式必须描述该关系模式的关系全部元组。
『肆』 一份难得的数据库市场分析报告
目录
- 数据库分类维度:关系型/非关系型、交易型/分析型
- NoSQL数据库的进一步分类
- OLTP市场规模:关系型数据库仍占营收大头
- 数据库市场份额:云服务和新兴厂商主导NoSQL
- 开源数据库 vs. 商业数据库
- 数据库三大阵营:传统厂商和云服务提供商
最近由于时间原因我写东西少了,在公众号上也转载过几篇搞数据库朋友的大作。按说我算是外行,没资格在这个领域品头论足,而当我看到下面这份报告时立即产生了学习的兴趣,同时也想就能看懂的部分写点心得体会分享给大家。
可能本文比较适合普及性阅读,让数据库领域资深的朋友见笑了:)
数据库分类维度:关系型/非关系型、交易型/分析型
首先是分类维度,上图中的纵轴分类为Relational Database(关系型数据库,RDBMS)和Nonrelational Database (非关系型数据库,NoSQL),横轴的分类为Operational(交易型,即OLTP)和Analytical(分析型,即OLAP)。
按照习惯我们先看关系型数据库,左上角的交易型类别中包括大家熟悉的商业数据库Oracle、MS SQL Server、DB2、Infomix,也包括开源领域流行的MySQL(MariaDB是它的一个分支)、PostgreSQL,还有云上面比较常见的SQL Azure和Amazon Aurora等。
比较有意思的是,SAP HANA正好位于交易型和分析型的中间分界处,不要忘了SAP还收购了Sybase,尽管后者今天不够风光了,而早年微软的SQL Server都是来源于Sybase。Sybase的ASE数据库和分析型Sybase IQ还是存在的。
右上角的分析型产品中包括几款知名的列式数据仓库Pivotal Greenplum、Teradata和IBM Netezza(已宣布停止支持),来自互联网巨头的Google Big Query和Amazon RedShift。至于Oracle Exadata一体机,它上面运行的也是Oracle数据库,其最初设计用途是OLAP,而在后来发展中也可以良好兼顾OLTP,算是一个跨界产品吧。
再来看非关系型数据库,左下角的交易型产品中,有几个我看着熟悉的MongoDB、Redis、Amazon DynamoDB和DocumentDB等;右下角的分析型产品包括著名的Hadoop分支Cloudera、Hortonworks(这2家已并购),Bigtable(来自Google,Hadoop中的HBase是它的开源实现)、Elasticsearch等。
显然非关系型数据库的分类要更加复杂,产品在应用中的差异化也比传统关系型数据库更大。Willian Blair很负责任地对它们给出了进一步的分类。
NoSQL数据库的进一步分类
上面这个图表应该说很清晰了。非关系型数据库可以分为Document-based Store(基于文档的存储)、Key-Value Store(键值存储)、Graph-based(图数据库)、Time Series(时序数据库),以及Wide Cloumn-based Store(宽列式存储)。
我们再来看下每个细分类别中的产品:
文档存储 :MongoDB、Amazon DocumentDB、Azure Cosmos DB等
Key-Value存储 :Redis Labs、Oracle Berkeley DB、Amazon DynamoDB、Aerospike等
图数据库 :Neo4j等
时序数据库 :InfluxDB等
WideCloumn :DataStax、Cassandra、Apache HBase和Bigtable等
多模型数据库 :支持上面不只一种类别特性的NoSQL,比如MongoDB、Redis Labs、Amazon DynamoDB和Azure Cosmos DB等。
OLTP市场规模:关系型数据库仍占营收大头
上面这个基于IDC数据的交易型数据库市场份额共有3个分类,其中深蓝色部分的关系型数据库(RDBMS,在这里不统计数据挖掘/分析型数据库)占据80%以上的市场。
Dynamic Database(DDMS,动态数据库管理系统,同样不统计Hadoop)就是我们前面聊的非关系型数据库。这部分市场显得小(但发展势头看好),我觉得与互联网等大公司多采用开源+自研,而不买商业产品有关。
而遵循IDC的统计分类,在上图灰色部分的“非关系型数据库市场”其实另有定义,参见下面这段文字:
数据库市场份额:云服务和新兴厂商主导NoSQL
请注意,这里的关系型数据库统计又包含了分析型产品。Oracle营收份额42%仍居第一,随后排名依次为微软、IBM、SAP和Teradata。
代表非关系型数据库的DDMS分类中(这里同样加入Hadoop等),云服务和新兴厂商成为了主导,微软应该是因为云SQL Server的基础而小幅领先于AWS,这2家一共占据超过50%的市场,接下来的排名是Google、Cloudera和Hortonworks(二者加起来13%)。
上面是IDC传统分类中的“非关系型数据库”,在这里IBM和CA等应该主要是针对大型机的产品,InterSystems有一款在国内医疗HIS系统中应用的Caché数据库(以前也是运行在Power小机上比较多)。我就知道这些,余下的就不瞎写了。
开源数据库 vs. 商业数据库
按照流行度来看,开源数据库从2013年到现在一直呈现增长,已经快要追上商业数据库了。
商业产品在关系型数据库的占比仍然高达60.5%,而上表中从这列往左的分类都是开源占优:
Wide Cloumn:开源占比81.8%;
时序数据库:开源占比80.7%;
文档存储:开源占比80.0%;
Key-Value存储:开源占比72.2%;
图数据库:开源占比68.4%;
搜索引擎:开源占比65.3%
按照开源License的授权模式,上面这个三角形越往下管的越宽松。比如MySQL属于GPL,在互联网行业用户较多;而PostgreSQL属于BSD授权,国内有不少数据库公司的产品就是基于Postgre哦。
数据库三大阵营:传统厂商和云服务提供商
前面在讨论市场份额时,我提到过交易型数据库的4个巨头仍然是Oracle、微软、IBM和SAP,在这里William Blair将他们归为第一阵营。
随着云平台的不断兴起,AWS、Azure和GCP(Google Cloud Platform)组成了另一个阵营,在国外分析师的眼里还没有BAT,就像有的朋友所说,国内互联网巨头更多是自身业务导向的,在本土发展公有云还有些优势,短时间内将技术输出到国外的难度应该还比较大。(当然我并不认为国内缺优秀的DBA和研发人才)
第三个阵容就是规模小一些,但比较专注的数据库玩家。
接下来我再带大家简单过一下这前两个阵容,看看具体的数据库产品都有哪些。
甲骨文的产品,我相对熟悉一些的有Oracle Database、MySQL以及Exadata一体机。
IBM DB2也是一个庞大的家族,除了传统针对小型机、x86(好像用的人不多)、z/OS大型机和for i的版本之外,如今也有了针对云和数据挖掘的产品。记得抱枕大师对Informix的技术比较推崇,可惜这个产品发展似乎不太理想。
微软除了看家的SQL Server之外,在Azure云上还能提供MySQL、PostgreSQL和MariaDB开源数据库。应该说他们是传统软件License+PaaS服务两条腿走路的。
如今人们一提起SAP的数据库就想起HANA,之前从Sybase收购来的ASE(Adaptive Server Enterprise)和IQ似乎没有之前发展好了。
在云服务提供商数据库的3巨头中,微软有SQL Server的先天优势,甚至把它移植到了Linux拥抱开源平台。关系型数据库的创新方面值得一提的是Amazon Aurora和Google Spanner(也有非关系型特性),至于它们具体好在哪里我就不装内行了:)
非关系型数据库则是Amazon全面开花,这与其云计算业务发展早并且占据优势有关。Google当年的三篇经典论文对业界影响深远,Yahoo基于此开源的Hadoop有一段时间几乎是大数据的代名词。HBase和Hive如今已不再是人们讨论的热点,而Bigtable和BigQuery似乎仍然以服务Google自身业务为主,毕竟GCP的规模比AWS要小多了。
最后这张DB-Engines的排行榜,相信许多朋友都不陌生,今年3月已经不是最新的数据,在这里列出只是给大家一个参考。该排行榜几乎在每次更新时,都会有国内数据库专家撰写点评。
以上是我周末的学习笔记,班门弄斧,希望对大家有帮助。
参考资料《Database Software Market:The Long-Awaited Shake-up》
https://blocksandfiles.com/wp-content/uploads/2019/03/Database-Software-Market-White-Paper.pdf
扩展阅读:《 数据库&存储:互相最想知道的事 》
尊重知识,转载时请保留全文。感谢您的阅读和支持!
『伍』 如何做数据分析
数据分析行业应用,一般数据来源:智能手机 感知装置 物联网 社群媒体等 云计算存储.cda官网有很多行业案例,比如
风能发电业务场景
风力发电机有一个叶片,时间长了就要换,否则不安全,过去这个叶片一般10年换一次,因为没办法知道具体产品的使用情况,只能根据以往叶片老化的情况来估算。但这家公司在叶片上装了传感器,就能检测每个叶片的具体使用情况了,风大的地方,叶片老化快,可能8年就要换,风力均匀的地方,有些叶片可能用15年,这样就能节省资本更新的成本了。
而且,过去这家公司只生产设备,这些设备被卖到国外,具体安装到什么地方,他是不知道的,有了传感器,公司就能知道这些发电机被安装到哪里,这些地方的风力是大是小,一年四季哪天有风哪天有雨,这些数据都可以获取。根据这些数据,就能知道哪些地区风力资源丰富,有重点地规划未来市场。传统的行业利用大数据,就能更好地实现市场预判和销售提升,分分钟实现逆袭。
『陆』 为什么现在很多app进去都要查看我们通讯录,通话记录
放在以前,各类APP安装时需要的权限其实没有多少。而现在,哪怕是一款简简单单的APP,我们在安装时会发现它申请的权限也很多。这是为啥呢?我是 科技 和软件行业的工作者,所以对这一块还是比较了解的,现在将一些原因告诉大家:
1、 收集手机号资源 :
其实很多时候,APP安装时提示需要通讯录权限,这个权限可能和它本身的功能并没有什么关系,而是 APP服务商为了收集客户的资料,为后续的营销助力 。
2、 风控要求 :
其实很多APP是涉及风控的,比如像金融类APP、小额借贷类的APP,它们 为了风控需要,是要读取你的通讯录的,以便必要时能联系到你或者你的家人朋友。
所以我们经常在网络上看见,不少年轻人经历了网络借贷,然后遭到电话轰炸。我们了解了这个原理,其实就可以避免了,比如在安装这类APP时,通过手机手机严格禁止此APP读取通讯录权限,或者做个假的通讯录即可。
3、 实名制要求 :
随着工信部对于固话和手机的实名制要求, 现在的手机号已实现全面实名制了 。不像以前在大街上可以买到未实名的临时手机号,现在行不通了。
因为手机号是实名制的,所以一些 APP就可以通过用户的手机号绑定来实现实名认证流程,这样对于用户而言更加便捷 。按现在的趋势,未来手机号可能能证明一个人的身份。
综上,现在各类APP之所以要读通讯录,主要原因就是: 收集信息+实名制要求 。为了避免我们信息的泄露,建议大家在安装APP时拒绝此权限申请。当然了,有些APP如果读不了通讯录权限,甚至都无法正常运行,对于这类APP,如果必要则开启通讯录权限即可。
前面有回答说APP查看我们的通讯录和通话记录,是出于风控和实名制要求,很抱歉,我不认可这个理由哦。网贷/小额贷公司控制风险,要求的是贷款人提供身份证件,本人还要刷脸,联系电话也要验证的,哪有事后查看通讯记录、通话记录来控制风险的?真这么厉害,网络水军早被剿灭的干干净净。
真正的原因, 是 APP开发商利用通讯录、通话记录搜集个人隐私信息,无数人的这些信息汇成大数据,然后开发商利用这些大数据完成营销、推广,接地气儿说就是薅羊毛。
那么,APP开发商是如何利用大数据营销的呢?
首先,需要搜集用户信息,APP查看我们的通讯录、通话记录就是在搜集信息:通讯录记载了我们的社交信息(包括朋友、亲属、同事等),而通话记录可以反映通话频次、地理信息,从而分析出社交偏好、爱好等重要的个人隐私信息,再根据这些信息推送相应的广告。
举个简单的例子,你的通讯记录里有外卖电话,而且每个月有6次(列了个日常数字,方便说明)和外卖通话记录,连续四五个月都是如此,那么你的个人画像为喜欢 美食 ,而且爱用外卖的方式解决,APP开发商分析出这条信息后,可以通过APP向你弹送外卖广告,展开营销。
实际上,APP开发商还有一种简单粗暴的营销推广方式,查看你的通讯录后,再通过同步通讯录的方式,告诉你通讯录中其他联系人:”你的好友XX正在使用XXAPP“,通过短信的形式诱导他们下载该APP。
总之,除去部分APP为运行 正常 功能(外卖APP、地图APP必须索要定位权限,美颜APP必须索要摄像头权限,否则无法运用正常功能)而索要用户必要权限外,有部分APP向用户索要过多权限,就属于为营销而恶意侵犯隐私了。
这种APP,如果不是通讯类的还必须要允许访问通讯录联系人等,那么多半就是个流氓软件!
一般来说正规的APP只会建议开启通讯录,这些APP对我们不会造成太大的影响,它们无非是先根据你的通讯录帮你找到其他也正在使用这款软件的朋友,或是“自作主张”的推荐给通讯录中的其他人,这种权限我们完全可以选择不开启,对正常使用该软件几乎没有任何影响,如果以后需要开启也可以自己手动打开。
除了正规APP,其他的流氓软件不但会要求开启通讯录、通话记录,有些甚至会要求必须打开地理位置、允许删除通话记录、读取短信等,如果不允许,软件就无法使用一直闪退,这个时候建议大家还是直接删掉这个软件吧,否则你就会像“裸奔”一样暴露在这款APP面前。
举个例子,网络地图也会要求打开地理位置权限,但不打开同样可以进入软件,大不了就是无法获取当前位置没办法导航,手动输入位置后就可以查看路线了,在这种大数据时代,很多APP都在通过收集用户个人信息赚钱,如果允许了恶意APP查看通讯录,他们很有可能会根据你的通话记录和通讯录找到你的家人朋友然后把这些电话号捆绑出售。
下载APP时,最好选择正规的应用商店或官网,下载之前先查看软件有没有非常过分的权限要求以及下载人数和有没有广告,并不是说应用商店的软件就一定是非常安全和正规的,凡事没有绝对,他们完全可以不带任何病毒或捆绑插件只需要开启你的手机权限,然后贩卖。
更多优质内容,请持续关注镁客网~~
我本身是一个APP开发者 ,所以,知道的较多。
目前,你能知道很多APP需要查看你的通讯录、通话记录, 这个事情本身是好事。
安卓手机
放在以前,安卓手机要访问你的手机内存、通讯录、通话记录, 你根本不知道!
为什么这么说?
在以前,安卓手机系统还没有那么完善,但是其用户已经非常的多了。
需求变多之后,不光催生了一大堆的APP开发人员,也让某些人,产生了不好的想法。
那个时期,想什么流氓软件,你安装了之后,根本卸载不了。
像什么劫持APP页面的流氓APP,也有很多。
系统完善
现在,安卓手机经过这些年的发展,已经越来越完善了。
现在要访问手机的私密, 就要获取权限。
而获取数据,必须在用户授权后,才能获取到数据!
通讯录,通话记录用来干啥?
不同公司的不同APP,都会访问不同的权限。
其中,获取通讯录权限的比较多。
那么获取这方面权限为了干什么?
一种是为了产品更好的推广 ,当获取到了通讯录之后,就可以对比手机中的人群,那些还没有注册,那些已经注册。
没注册的可以邀请,注册了的可以互动,增加用户粘性。
另一种,就是金融类APP了 ,他们获取通讯录,通话记录,是为了风险控制。
比如说贷款APP,就要获取你手机的通讯录信息,来记录你的联系人,为了以后方便追帐。
那可以用新手机吗?
可以,但是这些公司的风控部门查不到通讯录信息,就会考虑要不要给你放款。
同理,通话记录也是如此!
当然,是否要授权给对应的APP,需要自己把握,如果你相信这款APP,那就授权,不相信,那就不授权,不使用!
比如,使用一个记事本的APP,它要访问你的摄像头、存储权限。
但你只想当一个记事本使用,这个时候,你觉得没必要,就不授权。
如果不授权就用不了,卸了这种流氓软件,换一个吧!
现在大多数安卓应用都会读取你的联系人、位置等权限。
虽然安卓系统可以禁止这些应用读取关键权限,但有的应用不开放相关权限的话就无法启动,非常令人头疼。那么这些应用取得这些权限究竟有什么用呢?目前应用经常用到的权限有以下几种:
一、联系人
这是最普遍的,几乎所有安卓应用都会读取你的通讯录联系人。从功能上来讲,读取联系人可以判断你的亲朋好友中有没有人使用同样的应用。比如微信的“添加朋友”里面有一个“手机联系人”,就需要用到手机通讯录的权限。通过这个权限可以看到你的通讯录中有谁也在用微信,方便添加好友。
当然,通讯录属于比较敏感的权限,正规的应用如果你不给它这个权限也能够正常使用,只不过类似查找通讯录好友的功能就用无法开启了。
二、位置
几乎所有的手机应用APP都会要求获取你的位置,因为只有知道你的位置才能够确定你是哪里人,需要什么生活服务。比如天气、外卖、叫车、本地新闻等功能,没有位置权限根本无法正常工作。如果你把微信的位置权限给关闭了,它就会拒绝启动。
另外手机的一些关键功能也许要位置全新,比如苹果的“查找我的iPhone”就是通过定位来实现的,如果关闭了位置功能,就无法定位手机的位置,手机丢失了也就无法再找回来了。
三、读取和发送短信
和短信相关的权限就比较敏感了,因为短信中包含了很多隐私内容,比如银行的帐号、验证码甚至密码等。如果泄露了这些关键短信内容,后果不堪设想。
而如果给予应用发送短信的权限,一些不正规的应用就有可能会在后台偷偷发送一些订购收费服务的短信,比如彩铃、 游戏 虚拟道具等。甚至可以在不知不觉中吸干用户的话费。所以一般情况下应该禁止应用读取和发送短信。
当然,让应用读取短信也有一个好处,就是当接受验证码的时候,应用可以自动读取验证码中的内容,省的用户再手动填写验证码。这一功能在手机支付等需要验证码的场合比较方便。
四、手机识别码
这个权限几乎所有的应用都会用到,手机识别码可以帮助应用确定你使用的是什么型号的手机,这对于用户来说基本上没有什么用。但对于应用开发者却十分有帮助,它可以帮助应用开发者统计使用这款应用的手机型号有哪些,有时候可以针对一些热门手机开发专门的功能。
比如iPhone 6s之后的苹果手机都配备了压感屏幕,一些应用就可以针对这种屏幕设计快捷菜单,并且根据手机识别码来判断,如果是iPhone 6s之后的手机,就可以启动压感屏幕的功能。
五、摄像头
很多用户觉得摄像头功能十分敏感,担心应用拥有摄像头权限之后会泄露隐私。但是现在很多应用都有扫一扫功能,如果不给它摄像头权限,那么扫一扫就无法正常使用了。当然如果一款应用不具备任何扫码和拍照功能,却要求摄像头权限,这个时候就需要注意了。
六、读写存储空间
这应该是比较基本的权限了,因为如果无法读写存储空间的话,应用就无法往手机中增加内容,比如下载和保存图片、视频什么的。 游戏 也许要通过写入存储空间来完成版本更新。几乎所有的应用都会用到读写存储空间的权限。
目前的手机APP在安装时都会索取用户手机上的相应功能,比如读取通讯录和通话记录、定位手机所在位置、摄像头使用权限等,有些APP要求的一些权限与其主要功能毫不相干。手机APP过度索取用户手机信息,这种情况可以分为三类:一种是申请获得用户隐私信息的权限留作备用,但是并不上传到其公司服务器;第二种是申请获得用户的隐私信息权限,然后将用户的隐私信息上传到其公司;第三种情况就是滥用已经上传到公司的用户隐私,包括用户的通讯录、通话记录及定位等隐私信息。
智能手机普及以后,手机APP寻求的权限越来越多。目前,一款手机APP只有具备了社交功能,可以做二次营销,才更有价值,也才能获得风险投资的青睐。“比如这个手电筒类APP,获取用户的定位信息后,就可以推送机主所在位置周边商家的广告。借助对用户定位信息,这款APP的商业价值就放大了。”
现在很多人习惯在手机上使用打车软件,拼车在都市白领中也很流行。国内有个拼车手机APP,安装时要求用户允许读取手机里的通讯录。但是,拼车去年公开提供下载的版本却偷偷将用户通讯录上传到本公司,而且竟然是以明文的方式上传用户手机号码,没有加密,任何有能力截获该信息的人都能看到该手机APP上传的用户通讯录,就如同在读一个Word文档一样。
另外一款手机APP,会将用户手机里的短信内容上传给本公司,而且在上传的时候,仅仅做过简单的编码。技术人员说,正版软件使用明文上传手机用户隐私信息最大的安全风险在于遭遇中间人攻击,如手机用户连接不安全的WiFi后,不法分子拦截了手机和WiFi之间的通信,这些使用明文传输的个人隐私数据就会直接被非法获取。
总结
现在很多手机应用都要求各种各样的权限,其中以联系人、短信、位置和手机识别码最为普遍,一方面是因为这几个权限的确是最常用到的。另一方,很多软件公司也在手机这些和用户隐私擦边的敏感数据,然后通过“大数据”、“云计算”等方式,来判断用户的喜好,并推送相关的广告内容。
比如用户在手机浏览器中搜索某款3C产品的信息,随后打开某东、某宝的应用之后,有很大机率能够看到相关3C产品的广告。这就是因为购物应用读取了用户的浏览器搜索记录,然后自动判断用户对这些产品有需求,从而开始有针对性的推送相关的广告。
尽管这些功能会让人产生隐私被窥探的感觉,但对于人们的日常生活其实也是有一定帮助的。不过有一定需要注意的是,在安装一些来历不明的应用时一定要注意避免开放关键权限,比如短信的读取和发送、相册的读取等。现在国产手机的系统也都做的十分人性化,在应用使用关键权限的时候都会有弹窗提示,尽可能的保护了用户的隐私不被泄露。
手机APP调用我们的通讯录信息可以分为两种情况:
那么,一起来看看APP为何会调用通讯录信息,又该如何避免个人信息的泄露呢?
手机软件APP为何会查看我们的通讯录
首先,我们先来说说良性调用,常见需要调用通讯录的多为一些社交软件。例如微信、qq、飞聊等软件,调用我们通讯录的信息有利于软件快速的帮助我们建立社交圈,这样用户可以灵活的选择是否添加通讯录中的好友。同时,通过用户关系的捆绑,能够增强用户使用软件的黏性,避免用户出现流失。
其次,我们再来说说恶性调用。分为两种情况,一类软件安装时会询问您是否授权访问,一类软件会偷偷在后台盗用您的相关信息。此类调用并非软件功能所需,而是淡村的为了获取个人数据,通过贩卖个人数据来获得非法的利润。
如何杜绝手机软件的恶意调用
苹果的iOS系统相对来说要好一些,只要软件安装均需要通过苹果商城才能下载使用(不过,苹果手机自带的后门程序较多,对于信息安全要就较高的也不建议使用)。问题较为严重的就是安卓手机,安卓手机软件安装的灵活性太强,无法确定随意安装的程序中是否存在恶意软件。这里建议大家使用手机厂家内置的软件市场进行下载,毕竟所有上传的软件已由厂商为我们进行了初次的把关。除此之外,对于较为默生的软件,安装时需要调用通讯录信息时,可以选择不允许,当软件具体使用通讯录信息时在进行放行。
对于一些陌生网站,大家也尽量不要填写个人数据。例如默些以手机号码来进行算命的网站,输入姓名的网站等等,殊不知,个人信息就这样悄悄的泄露出去。
不知道您是否因为个人信息的泄露遇到骚扰电话呢,最终是如何处理的呢?
现在的手机应用对用户权限的索取越来越多,他们的理由是让软件可以更好的运行。 实际上,建议大家在安装完软件打开后,当提示说索要通讯录权限时,尽量点击取消,不要给通讯录权限。 其他的权限,可根据软件的性质,适当的给到它,从而保证软件功能完整。
最近几年还好了些,因为手机系统的不断升级,加强了用户关系,所以软件索要权限都有提示,在早期的时候,连提示都没有,当我们打开软件后,默认获取它想要的权限。
如今人们的很多信息都是保存在手机里的,通讯录也是最有价值的信息。所以, 很多软件启动后在索要一些必要权限的同时,也会索要通讯录权限,这种情况下是可以完全不给它的,而且,不给它也并不会影响使用。
就拿支付宝来说,这是阿里巴巴旗下的APP,不管是安全性还是信任度方面,肯定是问题的吧。但是我也不会给它通讯录权限,照样使用的很正常。虽然每次通过支付宝给手机缴费的时候会提示我打开通讯录权限,但我每次都是自己手动输入,也照样不会存在使用问题。
试想一下你会发现,连支付宝这样的软件不给它通讯录权限都可以很好的运行,其他一些功能型的应用(如某某相机、某某天气等)给它通讯录权限有何用?
现在大环境比较好,流氓软件相对少了很多。但也不乏一些软件,根本用不到通讯录,而还是会索要用户的通讯录权限。其实也是为了做营销、做推广之类的。在此, 特意提醒大家,对于金融类的APP,一定别给它们通讯录权限。否则的话,它们会通过分析你的通讯录列表、信息等,以后给你或你通讯列表里的人发各种垃圾广告。
其实,如果你有留意的话就会发现,大部分APP在使用过程中并没有需要通讯录信息的,可是首次打开的时候却都会索要这一权限。站在用户角度来看的话,你可能没有什么损失,这只是你不知道,但站在开发商角度的话,它们就又获取了一批“手机号码”以及可供它们分析的短信“信息”。对于不良的开发商,可能就会做一些别有用心的事儿了。
所以,我给大家的建议就是, 当我们首次打开刚刚安装的软件时,不管它是什么软件,都不要给它通讯录权限。假如在后续使用时候,发现该软件确实需要此权限才能正常运行的话,那么可根据需要决定,要不要给它权限。这样,就能很好的保护自己的通讯信息不被泄露。
我是程序员爱编程,我从事互联网软件开发多年,我来回答一下这个问题。
我认为一些手机app在运行时会要求获取相应权限,我们要根据该app的性质和功能来判断它是否应该获取该项权限。
获取手机通讯录访问权限
一般情况下,带有社交性质的app都会要求获取手机通讯录的访问权限,例如qq、微信、飞聊等等。它的目的是为了根据你通讯录的手机号为我们推荐你的潜在好友。我们也可以选择不开启,app依然可以正常使用,之后我们也可以在软件设置中手动开启。
获取手机位置的权限
手机定位对于我们来讲也非常重要,一般带有导航性质的app会要求获取手机位置权限,例如各种地图、美团、各种快递等等。它的目的是定位我们的位置,为我们提供一些身边的服务。同样我们也可以选择不开启,之后在软件设置中开启。
获取通话记录的访问权限
说实话,这项权限在我使用的app中还没有遇到过,估计那些辅助拨号软件和辅助短信软件会用到吧,例如无忧通话录音等等。我觉得通话记录和短信过于私密,不建议对任何软件开通通话记录和短信的访问权限。
所以,我们要根据软件的用途来判断我们是否需要提供相应的权限给它, 如果我们不赋予权限app就不能用,那一定是流氓软件,一定要远离。
很简单啊,人家要你的数据,要你的关系链,进行推广和二次营销,从而获得更多的用户或者收益!
APP读取通讯录后就可以知道你这个当前用户有哪些联系人,是怎样一个关系链情况,同时通过其后台的大数据进行分析统计,然后再有针对性的对你通讯录上的人进行骚扰营销,最简单的方式可能就是发一条短信。
这里我举个例子,之前我经常收到脉脉的短信,上面写的是这样的:xx,某某对你很期待!ta向你发出邀请,希望添加你为最重要的职场人脉等等。
我一看,这某某就是我以前的同事,第一反映就想点短信中的链接。你看,脉脉这营销手段是可以的吧!其实这就是读取对方的通讯录后,系统自动根据通讯录上的手机号进行自动发送,从而诱导你来安装他的APP。由于通讯录上的联系人,基本上都是和你相关和认识的人,利用这种关系来进行营销,人们的戒备心理会不自然的下降,很容易上钩。而脉脉这种方式,还算 是 简单粗暴的,完全还可以更精准更隐蔽。
所以你知道现在为什么诈骗电话、垃圾短信这么多吗?很大程度就是我们把自己的信息交出去了,然后人家APP厂商再进行二次开发,好点的厂商就自己用,恶心点的就将你的信息在转手出去,然后咱们的信息就在黑色产业链中被充分利用。
现在我们的手机号承载着太多内容了,很多服务的帐号都是直接以手机号注册的,虽然注册时省事了,但是你的帐号安全性也更差了,APP读取下通讯录这些信息全有了。所以,对于莫名索取我们通讯录的APP应该说NO,而不是随意开放这个权限,并且是第一读取时就制止,等后续禁止就已经晚了。
感谢阅读,给点个赞鼓励下吧,欢迎关注【罗氏虫社】,谢谢!
我是一名产品经理,在项目过程中经常会遇到需要获取用户设备什么权限的问题,其中就包括通讯录这些。
首先说一下获取设备某个权限这件事情,这本身是Android和iOS系统为保护用户所做的权限管理行为,app在获取对应权限时必须经过用户同意,否则无法获得相应信息,所以就有了我们作为用户经常看到的,新安装一个app,会提示需要获取某个权限的弹框提示。
再说所为什么要获取通讯录,这主要是基于我们的通讯录,也就是手机号码,去匹配产品内的用户,使用场景有看你联系人好友有哪些,你可以邀请哪些通讯录好友成为新用户等等,主要还是基于产品某个功能的需要。但是有时候app确实存在过度索取权限的情况,如果你觉得这些权限不想交出去,可以拒绝,只不过相应的功能你就无法使用。
最终的决定权还是在用户手上。