① 大数据与个人信息保护
大数据与个人信息保护
数据为王的时代,对于用户隐私的保护必然会越来越受到重视。那么,个人隐私保护制度会对互联网的发展带来怎样的影响?如何才能在大数据应用的商业利益与公众的个人信息保护需求之间取得平衡?在互联网无时不在、无时不有的今天,我们的隐私在各种情况下被收集、被利用,甚至被滥用,有关个人信息保护的立法也是国家立法计划中的重要内容,我主要跟大家分享几个方面,首先什么是隐私,如果这一点达不成共识,讨论就没有意义了。第二,我们现在所谓隐私保护面临哪些问题?第三,面对这些问题,未来从法律上怎么解决这些问题?
隐私是一个法律概念
隐私简单地说,是一个人不想让别人知道的东西。但个人的生活、感情因人而异,大家对隐私的看法也不一样。很多朋友都讲,隐私体现的是一种个人的东西,这在我理解的话就是属于个人信息的范畴。很多人对什么是隐私有分歧,就同一个人来说也不确定自己哪些是隐私,或者有些时候是,有些时候不是,完全自己说了算。所以这样的社会里如果较起真来,或者在法律上要维权的话就混乱了。
隐私不是中国本土的概念,隐私是用美国隐私概念的瓶装入了欧洲隐私的酒拿到中国来的。欧美人并没有对隐私从不同的学科、不同的语境、不同的地域文化上做区分,在欧美问什么是隐私,分歧也很大,但可能会比中国好一些,因为这种隐私跟我们的文化水土不服。隐私是一个与地域文化传统关联十分密切的概念。
在欧洲,宗教信仰就是隐私,而在中国,谁会认为这是隐私呢?中国传统上并没有隐私的概念,有一个观念是阴私。但上世纪70年代末80年代初,从欧美翻译过来的隐私的概念传到中国后广泛传播,导致了现在中国的隐私泛滥、泛化,动不动就说侵犯隐私,但你问什么是隐私,他却无法给你准确的答案。
隐私应当做不同学科、不同语境、不同地域文化的理解。女性的三围、身高、体重是心理学或社会学上的隐私,一定不能将这些隐私,包括政治学、经济学意义上的隐私跟法律上的隐私混为一谈。法律上,隐私是通过隐私权来保护的,权利就是行为自由的边界。这个边界很清晰,其他人不能进入,否则就可以起诉他侵权。如果法律上的隐私内涵不确定、外延不明确,因人而异,就会出现混乱。
隐私与公共利益无关
隐私绝对是个人的东西,比如国家机关就没有隐私。法律上的隐私,是个人信息的一部分,但不是所有个人信息都是法律上的隐私,姓名、家庭住址、女性的三围绝对不是法律上所讲的隐私。中国的阴私概念是值得借鉴的,从1956年“民法草案”开始,到1982年的民法通则,这一段时间里中国的法律上就有阴私概念。阴私是指不好的事情,一般正常理性的人,这些事情、信息公布出去会让他名誉扫地,让他的社会尊严受到伤害。传统的阴私仅仅是指与性有关的一些东西,比如裸照、性生活、两性情感。这个价值取向值得我们认可,但缺点是内涵比较窄,仅限于与性有关的方面。
阴私的价值观我们要继承。在上世纪70年代、80年代之前,阴私内涵比较窄没有问题,但是发展到今天,价值取向扩大了。很多人认可隐私这个词,这就是中国传统阴私的概念,但是内容要扩展。所以法律上的隐私,不限于与性有关的,还包括不为人知的重大生理疾病缺陷,这些缺陷公布出去同样会让他受到歧视,或令他的名誉受到影响。
这里下一个定义,法律上的隐私是指与公共利益、社会利益没有直接关系,同时又与人的名誉和尊严有关的极少数个人信息,这是抽象出来的本质;包括但不限于裸照、性相关、情感经历、生理疾病等,这是范围和表象。很多学者批评中国民法通则没有规范隐私,不重视人权,但是最高法院的司法解释是把它作为名誉权来保护的,比如披露与性有关的东西,让人名誉扫地,就认为侵犯了名誉权。其实按我的理解,隐私权不独立,隐私与名誉是相联系的。这方面中国其实比欧美先进,中国有阴私概念,披露阴私即会使人名誉扫地。
与公共利益、社会利益的关系还要看具体情况。一般人的婚外情或者是两性的东西可能被认为是属于隐私,但是作为政治官员、作为公众人物,他们的某些个人信息可能与公共利益、社会利益有关系,所以这部分在一定范围内可以公开。一般人认为属于隐私的,他们要受到限制。但是无论如何,在披露这些政治人物或者公众人物隐私时也要考虑到他们作为一个人最起码的名誉和尊严,披露的方式要注意,比如将裸照放在网上是不可以接受的,不能因为是公众人物就不被保护。再比如犯罪记录,它有不同国家、不同文化的考量。有的以社会利益为本位的国家不把犯罪记录作为隐私,他们认为如果把犯罪记录作为隐私保护起来的话,会对周围人的安全带来隐患,虽然公开犯罪记录也可能会使被公开者的尊严受损。
难以操作的个人信息保护指令
我们现在说的个人信息、敏感信息的概念来自欧盟。欧盟与中国国情不同,拿过来没有可操作性。今天在讨论隐私遇到互联网时,一定要知道这个隐私是什么样的隐私,否则讨论就没有任何意义。欧美的隐私观,表面上看好像尊重了个人权利,好像很现代化,实际上不仅没有任何积极意义,还会带来很多消极的作用。现在所说的“隐私遇上互联网”的这个隐私,不是我讲的法律上的隐私,而是受到欧美隐私观影响的一种东西。
在个人信息中,姓名、家庭地址、电话号码都是在社会交往中正常产生的,我们反对的是骚扰电话、垃圾短信这样的滥用行为。现在买卖个人信息很常见,发送垃圾短信、骚扰电话,有人认为是侵犯隐私,这看起来非常诱人的想法实际上正是导致问题泛滥的根源。按照刑法修正案,情节严重的买卖个人信息是一种犯罪行为,但是起诉维权的成本特别高,侵权和犯罪的成本却特别低。现在的隐私观念听起来讲人权,但客观上不利于受害人维权。
我们现在的立法是学习欧盟的,全国人大常委会2012年通过一个规定,互联网公司在收集个人信息的时候应当征得当事人的同意,当事人有决定权是否让你收集;有知情权,你基于什么样的目的收集个人信息,收集以后存在什么地方;当事人也有查看的权利、删除的权利、修改的权利,比如信息记录不完整、有出入时可以进行修改;甚至还有被遗忘的权利———以前互联网上的信息,时过境迁不希望放在网上的时候有权请求删除,删除之后在互联网上就被遗忘了,所以是被遗忘的权利。
收集信息所涉及的同意、知情、查询、修改、删除权是欧盟1995年的个人信息保护指令中所规定的内容,去年修改时增加了被遗忘的权利,但是这个权利的落实需要技术上的一个先决条件,就是当事人必须知道自己的信息何时何地被何人收集在了什么地方,这样才能行使相关权利。欧盟的个人信息保护指令源于上世纪60年代末70年代初,那时只有银行、保险、电信公司和政府机构才有大型计算机,但现在,移动互联网的出现让信息的收集无时无处不在,每个人的工作单位、电话号码、家庭地址能说清楚何时何地被何人收集了吗?所以现在的立法和认识都远远过时了,没有办法操作。
去年欧洲讨论很激烈的是被遗忘的权利,最后勉强通过,我们马上将欧洲的东西引进过来。欧洲有没有大的互联网公司?一个都没有。欧盟像垂暮的老年,特别保守,极端推崇个人的权利、个人的自由,欧盟的隐私观就是极端个人主义自由观的体现。
互联网收集的信息多数不是隐私
当隐私遇到互联网,很多时候我们说的那个隐私其实并不是隐私。互联网收集信息无处不在无时不有,但收集的这些信息多数不属于隐私范畴:比如说在当当购书了,就会发现上网时会提示你买什么书;或者使用了搜索引擎,下次再使用时就会自动弹出相关的东西,很多人都错误地认为这是侵犯了隐私。排除政府的行为,对互联网企业来说,你要是认为它收集的信息侵犯了你的隐私,这十有八九是自作多情。互联网企业无需知道你是张三还是李四,它只需要有针对性地推广商品和服务。
在互联网背景下,要区分什么是我的个人信息,什么是可以找到我的信息。个人信息是由若干片断组合而成的,N个片断的组合才是我的个人信息。如果N -1个片断的话,不是完整的我,就不是个人信息了。所以行为偏好不是个人信息,个人信息是能够直接或间接识别出一个人的信息总和,单单行为偏好的数据不足以识别出一个完整的我。但是行为偏好数据可以让商家很快找到这个人所需要的服务,对双方都有好处。所以隐私遇到互联网,有一个观念要转变,很多人认为商家收集信息就是侵犯个人隐私,这是错误的,是对互联网的误解。一般来说互联网公司无需知道一个人的个人信息,也没有动机知道,知道对它没有任何好处,只有坏处。只有一种情况例外,就是比如公安机关依法定程序找互联网企业要信息。
现在的大数据时代还意味着,原来散落在互联网各个角落的信息,通过数据信息的收集、加工技术,海量数据将连在一起。这样,原来不能识别出一个人的N -1、N - 2、N -3个信息就可以还原为N个信息,就可以找到这个人,实行实名化。所以这里有一个原则,在大数据的背景下对数据的加工分析匹配过程一定要匿名化。匿名化对商家来说,就是处理的这些数据不会知道具体是谁的信息,只是数据而已。收集加工处理越精准,才越有利于用户和企业之间减少交易成本。当然还有一个原则,阴私是禁止收集、禁止加工的,但遵循匿名原则的话,这个问题就不存在了。
只要我们遵循以上的这些原则,隐私遇到互联网其实没有什么大问题,不像传说中那么恐怖。最重要的,一是要规范政府的行为,二是要规范企业的信息加工,使最后的匹配行为一定匿名化。如果这两点做到了,在互联网环境下,我们就不要老强调信息安全,害怕泄露隐私。现在我们在观念上本末倒置,强调信息的安全,事实上无法安全。
② 大数据时代,个人信息如何保护
大数据时代,个人信息如何保护
随着大数据应用领域不断涌现新风口,数据合规话题讨论迅速升温。在日前举行的“2017大数据合作与合规峰会”上,中国社会科学院法学研究所所长陈甦表示,互联网、大数据、人工智能等信息技术正在引发新一轮科技革命,数据已成为国家基础性战略资源。大数据合规、用户隐私保护备受瞩目。
近年来,大数据在广告、金融、医疗、出行、人工智能等领域的广泛应用,不仅推动了政府、企业、社会组织等的数字化转型,也使人们的生活变得更加智能化、便捷化。据预测,中国大数据产业市场未来5年内,仍将保持高速增长,到2020年,大数据产业规模将接近5万亿元。
大数据的技术发展与物联网、云计算、人工智能等新技术领域的联系将更加紧密。如何切实保护用户权益、促进数据合规运用、建立公平有序的竞争环境,已成为摆在数据合规发展面前的问题之一。
2017年9月,微信、京东商城等10家互联网产品和服务的企业共同签署了个人信息保护倡议书,承诺尊重用户知情权和控制权、遵守用户授权、保障用户的信息安全、保障产品和服务的安全可信、联合抵制黑色产业链、倡导行业自律、接受社会监督等。
腾讯集团法务副总裁江波表示,坚持“开放透明、用户控制、数据安全”的隐私保护原则,需要通过设计保护隐私,在切实保障用户数据安全的基础上,不断提升数据安全保护水平,规范大数据使用。
大数据是新时代的新型财富和资源。在数字经济的浪潮中,网络商品交易和服务、消费者权益、个人信息保护、数据争议、网络侵权等方面出现了一些新情况、新问题。对此,专家分析认为,要加快推进完善数据领域立法、提升监管执法效率,优化行业自律标准,构建大数据安全依法有效的保障制度。
中国法学会网络与信息法学研究会副会长周汉华表示,大数据、人工智能迅猛发展的过程中,企业之间的数据共享问题、数据控制者与数据主体之间的合规问题逐渐显现,对大数据产业的持续发展带来诸多挑战。
政府、行业、企业多方协作和共同努力为数字经济发展保驾护航,成为大数据时代发展的必然趋势;保障数据安全、规范数据使用,成为大数据时代行业发展的共识。
为落实《网络安全法》对个人信息保护的相关要求,中央网信办、工信部、公安部、国家标准委等四部门组成专家工作组,对微信、淘宝等10款网络产品和服务的隐私条款进行了评审,规范收集、保存、使用、转让用户个人信息的行为。
“此次隐私保护专项评审工作中,隐私条款透明度增强、用户选择权增多成为亮点。”中国电子技术化研究院副院长杨建军介绍,10款产品和服务在隐私政策方面均有不同程度提升,均做到明示其收集、使用个人信息的规则,并征求用户的明确授权。
目前,高效、流程化的数据合规管理对企业的实践提出更高要求。这包括建立隐私事务管理部门、规划数据保护战略、制定隐私政策程序和指南等方面。业内人士认为,在系统和程序设计中考虑隐私保护,开展隐私影响评估等工作,可以让隐私保护置于“前端”。在产品初期加入隐私保护理念,后期通过持续的监督和评估,巩固全生命周期管理策略。
加快建设数字中国,对于大数据的监管也需要新的思路。“如何切实保护消费者权益、促进数据合规运用、建立公平有序的竞争环境,需要带有审慎包容的态度,及时应对大数据领域的变化。”
③ 大数据时代,数据应该如何存储
PB或多PB级基础设施与传统大规模数据集之间的差别简直就像白天和黑夜的差别,就像在笔记本电脑上处理数据和在RAID阵列上处理数据之间的差别。"
当Day在2009年加入Shutterfly时,存储已经成为该公司最大的开支,并且以飞快的速度增长。
"每N个PB的额外存储意味着我们需要另一个存储管理员来支持物理和逻辑基础设施,"Day表示,"面对大规模数据存储,系统会更频繁地出问题,任何管理超大存储的人经常都要处理硬件故障。大家都在试图解决的根本问题是:当你知道存储的一部分将在一段时间内出现问题,你应该如何确保数据可用性,同时确保不会降低性能?"RAID问题解决故障的标准答案是复制,通常以RAID阵列的形式。但Day表示,面对庞大规模的数据时,RAID解决问题的同时可能会制造更多问题。在传统RAID数据存储方案中,每个数据的副本都被镜像和存储在阵列的不同磁盘中,以确保完整性和可用性。但这意味着每个被镜像和存储的数据将需要其本身五倍以上的存储空间。随着RAID阵列中使用的磁盘越来越大(从密度和功耗的角度来看,3TB磁盘非常具有吸引力),更换故障驱动器的时间也将变得越来越长。
"实际上,我们使用RAID并不存在任何操作问题,"Day表示,"我们看到的是,随着磁盘变得越来越大,当任何组件发生故障时,我们回到一个完全冗余的系统的时间增加。生成校验是与数据集的大小成正比的。当我们开始使用1TB和2TB的磁盘时,回到完全冗余系统的时间变得很长。可以说,这种趋势并没有朝着正确的方向发展。"
对于Shutterfly而言,可靠性和可用性是非常关键的因素,这也是企业级存储的要求。Day表示,其快速膨胀的存储成本使商品系统变得更具吸引力。当Day及其团队在研究潜在技术解决方案以帮助控制存储成本时,他们对于一项叫做纠删码(erasure code)的技术非常感兴趣。
采用擦除代码技术的下一代存储
里德-所罗门纠删码最初作为前向纠错码(Forward Error Correction, FEC)用于不可靠通道的数据传输,例如外层空间探测的数据传输。这项技术还被用于CD和DVD来处理光盘上的故障,例如灰尘和划痕。一些存储供应商已经开始将纠删码纳入他们的解决方案中。使用纠删码,数据可以被分解成几块,单块分解数据是无用的,然后它们被分散到不同磁盘驱动器或者服务器。在任何使用,这些数据都可以完全重组,即使有些数据块因为磁盘故障已经丢失。换句话说,你不需要创建多个数据副本,单个数据就可以确保数据的完整性和可用性。
基于纠删码的解决方案的早期供应商之一是Cleversafe公司,他们添加了位置信息来创建其所谓的分散编码,让用户可以在不同位置(例如多个数据中心)存储数据块或者说数据片。
每个数据块就其自身而言是无用的,这样能够确保隐私性和安全性。因为信息分散技术使用单一数据来确保数据完整性和可用性,而不是像RAID一样使用多个副本,公司可以节省多达90%的存储成本。
"当你将试图重组数据时,你并不一定需要提供所有数据块,"Cleversafe公司产品策略、市场营销和客户解决方案副总裁Russ Kennedy表示,"你生成的数据块的数量,我们称之为宽度,我们将重组数据需要的最低数量称之为门槛。你生成的数据块的数量和重组需要的数量之间的差异决定了其可靠性。同时,即使你丢失节点和驱动器,你仍然能够得到原来形式的数据。"