批判大数据_如何正确认识大数据的价值和效益

A. 什么叫大数据领域

大数据，指一般的软件工具难以捕捉、管理、分析的大容量数据，一般以“太字节”为单位。“专大数据属”之“大”，不仅仅在于“容量之大”，更大的意义在于：通过对海量数据的交换、整合、分析，发现新的知识，创造新的价值，带来“大知识”、“大科技”、“大利润”、“大发展”。

B. 如何正确认识大数据的价值和效益

1、数据使用必须承担保护的责任与义务

我国数据流通与数据交易主要存在以下问题：数据源活性不够，数据中介机构还处于起步阶段；多源数据的汇集技术尤其是非结构化数据分析技术滞后；缺乏熟悉不同行业并掌握在特定领域使用数据技术的人才。

数据的价值在于融合与挖掘，数据流通、交易有利于促进数据的融合和挖掘，搞活数据从而产生效益。数据共享开放、流通交易和数据保护及数据安全对数据技术提出严峻挑战，对法律的制定及执行提出了很高要求。为此，数据使用必须承担保护的责任与义务。

C. 应对大数据教师当有“转化”思维

应对大数据教师当有“转化”思维
教育信息化带来了教与学方式的深刻变革，大数据等新技术已经与教师教育产生深度融合，在促进教师专业发展、助推教师教育教学全方位变革与创新发展过程中的巨大潜力也取得了教育界的共识。很多学校将课堂作为推动学校内涵发展的主阵地，通过信息化手段对教师进行课堂观察、数据采集和分析，得出测评结果，然后制定相应的提升措施，不断促进教师教学水平的提升。教师要有大数据转化的主动自觉目前，以大数据技术为核心的课堂观察方法与技术改变了以往单纯凭借个人价值观和个人经验的听评课方式，实现了基于数据证据链的课堂教学行为大数据的诊断与分析：这种方法首先对教师的教学模式、讲授、提问、理答方式、师生对话等课堂教学的关键环节和关键因素进行观察，通过信息化手段进行大数据采集和记录，然后进行基于大数据证据链的综合分析与评价，指出本次课堂教学的特征、优缺点等，或者会给教师一份课堂大数据分析报告作为反馈。对于教师而言，阅读一份课堂观察大数据报告的文本不难，而真正发挥大数据的作用，将从中抽离出的结论反向“落地”，使之进入课堂教学的操作层面，实现大数据与教学实践之间的融通，从而将大数据变成教师反思教学行为的依据、开展课堂变革的线索、改进和提升教学水平的抓手，为学校内涵发展提供源源不断的内生性资源，则需要教师建立起数据“转化”的思维。目前，信息化手段被广泛应用于学校的管理、教育教学等领域，对大数据的转化、把握和利用已是无可回避的大趋势。面对这一挑战，教师要在大数据转化的三个环节形成自觉：首先是大数据输入的自觉，即教师需要有一定的“数商”，即能对大数据敏感，并能进行大数据收集、分析等输入的自觉；其次是大数据加工的自觉，即在大数据输入之后，教师需要有意识地培养自己将大数据与教学实践进行有效勾连，并将大数据转化为教学方法、教学设计等的自觉；最后是大数据输出的自觉，即在教学经验、成果等的表达、推广层面，教师需要自觉形成有数据、有依据、有证据地进行表达的习惯，使数据化表达成为教师教育教学生活的常态。教师要有大数据转化的行动逻辑和实践载体无论是从大数据到教学实践还是从教学实践到大数据的转化，都暗含着各自的转化逻辑。如，课堂教学观察大数据是以一定的教学、评价等理论模型作为依据和行动逻辑，将教师直观的、具体的、生动的、感性的课堂教学行为以一种高度抽象、概括和理性的形式呈现出来。同理，教师要充分挖掘和利用大数据，也需要按照一定的逻辑，依托教学领域的各种理论或实践智慧，生成关于教学模式、讲解、提问、理答方式、师生对话等大数据的转化策略、方式、效果及评价。教师需要一定的载体，才有可能将从大数据中提取到的信息转化落地。从一个教学过程的全景来看，大数据转化有三个载体：教学设计。对大数据进行转化的一度解读在教学设计阶段。即教师在进行教学行动之前，根据从大数据中提取到的信息、自身教学风格和学情进行教学设计，通过大数据精准地定位一个教学设计的优势、短板主要困难和障碍以及和没有大数据做依据的教学设计之间的差异，从而规划好下一步行动的“蓝图”。教学过程。对大数据进行转化的二度解读在教学过程阶段。即教师按照教学设计进行教学的过程中，有意识地通过一定的策略、方法将从大数据中提取到的信息与教学实践过程中的导入、讲解、提问、理答、对话等环节相互作用，从而实现预期的教学目标。此外，教师也需要在教学过程中对课堂现场生成的大数据加以识别和提取，并能够在此基础上进行利用和创造，将其转化为新的大数据。教学反思。对大数据进行转化的三度解读在教学反思阶段。即教师要对自己基于大数据的课堂教学进行反思，即通过前后数值的对比，分析自身的教学行为、课堂教学效果等通过大数据的引领所产生的变化，对哪些是预期变化，哪些是生成性变化进行判断；对哪些因素和细节通过大数据的帮助由抽象变得具体、由模糊变得清晰、由不准确变得准确等进行记录。反思之后，教师还要能够带着这样的反思和改进措施进入下一个教学设计和教学过程中，形成不断依靠大数据来提升课堂教学品质的循环。教师要有大数据转化的理性判断使用信息化手段对课堂教学进行大数据收集和分析处理，是教育通过与技术的结合来推动自身改革和创新的进步表现。可以预测，这种半智能化技术手段在教育领域的应用范围还会持续扩大和深入。但是，事物都有两面性，教师在拥抱这种技术手段的时候，也要对其保持理性，保持批判，尽量做到有“理”有“限”有“度”。大数据使用的“理”。“理”就是不单就数据谈数据，而是同时注重把握大数据背后的原理或理念。每一套大数据的产生，都建基于一定的原理或理念模型，而这些模型产生的背景、条件和核心要素等，有可能和当下的应用环境有所差异。因此，教师在使用大数据的时候，要努力追求做到不但知其“术”——能读懂大数据，更知其“道”——能把握大数据背后的原理和理念，从而更加智慧和灵活地使用大数据。大数据使用的“限”。“限”就是为大数据的使用范畴划定边界。任何一种工具的开发都是针对某一种特定的对象，因此，每一种工具的适用性都是有限的，教师需要对测评方法与测评对象的适切性保持清醒的认知。大数据作为一种测评方法，适合何种性质的学科、何种类型的教学都需要教师进行审慎的判断。大数据使用的“度”。“度”就是理性看待大数据手段的工具价值，不过度倚重数据。以大数据为代表的量化测评方法只是众多教学测评手段中的一种。尽管这种方法因其精准性、直观性等优势在当前学校课堂中得到相当广泛的应用，但因为教学过程是一个涉及教学技术、教育价值、师生心理变化等显性、隐性要素交相作用的过程，教师依然要重视传统质性测评方法的价值和作用，使二者有机结合，共同促进教学品质的提升。

D. 大数据再掀经济学方法论之争

大数据再掀经济学方法论之争

大数据时代带来的信息风暴，不仅改变着我们的生活、工作和思维，而且影响着人类认知视角，冲击着科学研究的基本方法。经济学被誉为社会科学“皇冠上的明珠”，其主要原因正是强调经验数据验证的实证主义较早在经济研究中得到应用。对经济学而言，大数据究竟是主流范式的革命，还是一个新的噱头？带着这样的问题，笔者于2015年6月下旬参加了中国社会科学院的“电子社会科学”考察团，赴英国了解当代信息和数据科技对社会科学研究的影响。
“相关性与因果性”：
新方法论之争？
当前关于大数据的一个重要分歧，就是“相关性与因果性”之争。大数据倡导者维克托·迈尔·舍恩伯格明确指出，大数据时代最大的转变就是放弃对因果关系的渴求，而代之以关注相关关系。在诺森比亚大学培训第一天的课堂讨论中，考察团就围绕这个问题展开了激烈辩论。
实际上，早在大数据时代之前，“因果性与相关性”问题就已经是认知哲学、统计学、经济学等领域中的一个老问题。从经济学基础方法论的角度来看，对“因果性与相关性”的辩论，是人类认知逻辑和科学研究基本问题“演绎与归纳”的现代升级版。19世纪中后期，德国历史学派与奥地利学派之间展开了“方法论之争”。奥地利学派创始人卡尔·门格尔坚持以逻辑演绎为基本分析方法。德国历史学派则怀疑抽象逻辑演绎对现实理解和解释的有效性，主张由于人类社会的复杂性，首先应该大量收集、整理各种历史数据，并且从历史数据中发现经验规律。这与当前大数据方法论主张放弃或者弱化对因果性的追求，注重从海量数据中发现相关性的观点如出一辙。从这个角度来说，德国历史学派可谓大数据“先锋”。
大数据带来的“相关性与因果性”新方法论之争不过是新瓶装旧酒，实质问题仍然是哲学认识论中经验论和唯理论对立的老问题。虽然是老问题，但在现代科学哲学认识论和新兴的知识社会学之中，仍然是一个争论焦点。

“你的理论假设是什么？”
“你的理论假设是什么？”这是在英国雷丁大学访问时，考察团成员钟春平教授向Jornvande Wetering博士提出的一个问题。Wetering博士介绍了正在进行的大数据项目“智慧城市”，该项目旨在通过收集整理大量城市相关数据和信息，改善城市治理和人民生活。在笔者看来，这个问题直指大数据的核心——大数据方法的应用是否可以脱离理论假设？
这个问题与前面的“方法论之争”密切相关。主流经济学对“方法论之争”的当事双方各打五十大板，认为“演绎与归纳”两者不可偏废，并且形成了标准的经济学实证模式——提出假设和模型，使用数据进行计量检验，由此将“演绎与归纳”在哲学认知上的冲突掩盖起来。新的“相关性与因果性”方法论之争迫使人们重新面对这个问题，并对实证主义经济学提出了挑战。如果按照弗里德曼的“实证主义经济学方法论”，预测是经济理论的根本目标和检验手段的话，对经济学理论而言，重要的问题就是“能否做出准确的预测”，而非“是否理解了真实的因果关系”。但是，大数据在探寻相关性方面的优势，正好构成了对目前主流经济学范式的批判和革命。至少有一部分大数据论者认为，不需要甚至不应该预设理论前提和假设，只需让数据自我呈现出规律。按照这种“大数据经济学”观点，“假设建模—数据检验”的现行标准方法似乎已经过时了。
就自身逻辑而言，奥地利学派的先验主义和逻辑演绎法倒是可以固守自身立场，并展开对大数据方法论的批判。毕竟探究世界真实状况和因果关系才是科学研究的核心目标，预测只不过是副产品。在奥地利学派看来，没有演绎逻辑和理论指导，历史学派甚至不能确定什么样的历史资料和数据才是重要的，值得收集和整理。这个批判对大数据同样有效。同样是在雷丁大学的访问之中，Nanda博士引述了IBM的报告：“人类社会每天生成的数据高达250兆亿个字节。”从奥地利学派的视角来看，如果脱离具体的理论前提和需要，这个数据量没有任何意义。生成数据实际上完全依赖于观察者的目标和理论假设。脱离了这个前提，在不同测量工具精度的条件下，人们完全可以生成无限的观察数据。

大英图书馆
在大数据时代会破产吗？
大英图书馆是英国的国家图书馆，拥有超过1.5亿件馆藏。大英图书馆不仅大量收录各种电子出版物，而且已经着手保存各种互联网网页内容。考虑到大数据时代还只是初露头角，未来人类社会所能产生的各种文本、图像等信息数据，无疑还会以指数级别增长。即使英国政府可以颁布法律使图书馆免费获得这些信息，保存信息所消耗的成本无疑也会以指数级别增长。大英图书馆乃至英国政府能否承受如此高的成本，着实令人怀疑。
这个“杞人忧天”的疑问，其实关系到“数据”或者“信息”的经济学属性，即从“要素”或“财货”角度来看待“数据”的成本收益问题。大数据理论有一种倾向，认为几乎所有数据都是有价值的，至少是具有潜在价值，哪怕暂时不知道如何利用，也许在未来可以得到重新认识，因此都值得收集和整理。这看起来似乎很有道理，但从经济学的角度看却是不能成立的，因为经济学的核心问题是“效率”，核心视角是“成本—收益”分析。不只是数据，任何事物都具有所谓“潜在”价值，但如果获得和保存它的成本超过了收益，那么在经济学者看来就是无效率的。
事实上，在信息时代之初，就有学者指出信息和数据具有“零边际成本”特性，将完全改造经济学，还有学者提出“新信息经济学”，主张软件等信息产品免费共享。大数据时代仍然面临同样的问题。部分学者主张数据是免费公共资源，具有巨大的数据分析外部性，最好由政府来提供。但经济学的基本逻辑在此仍然是有效的。虽然具有某些新特性，信息和数据仍然是“要素”和“财货”，需要付出成本，并且能够产生收益。不计成本地收集整理大数据是行不通的。类似地，经济学效率观点还对另一个大数据观点——所谓“全体数据”代替“随机样本”的新方法提出了挑战。“全体数据”固然有其优势，但放到经济学“成本—收益”的框架下来看，其方法本身就未必有效率了。

以上是小编为大家分享的关于大数据再掀经济学方法论之争的相关内容，更多信息可以关注环球青藤分享更多干货

E. 大数据主义者如何看待理论，因果与规律

大数据的兴抄起，给传统的科学哲学带来许多新挑战，特别是对诸如科学理论的作用、因果关系、科学规律等科学哲学的核心问题提出了有别于传统的新观点。齐磊磊博士概括总结了大数据相关学者的论述，在《哲学动态》杂志发表了题为《大数据经验主义——如何看待理论、因果与规律》的重要文章[1]。她在文中提出了大数据经验主义的概念，并系统提炼了大数据经验主义的科学哲学观点，这是大数据哲学的重要提炼和概括。她认为，大数据经验主义是一种新经验主义(以下简称为大数据主义)，并将其观点概括为三点：1.在科学理论问题上，大数据主义认为“理论已经终结”，否定科学理论对科学发现的作用；2.在关系到科学存亡的因果性问题上，大数据主义否定因果性的存在，提出由相关性取代因果性；3.在世界的本质问题上，大数据主义否定世界的规律性，认为世界的本质是混乱的。树立起大数据主义的靶子之后，齐磊磊进行了批判，并明确提出反对大数据主义对大数据的神化。

F. 大数据的定义是什么

大数据首先是一个非常大的数据集，可以达到TB(万亿字节)甚至ZB(十万亿亿字节)。这里面的数据可能既有结构化的数据，也有半结构化和非结构化的数据，而且来自于不同的数据源。

结构化的数据是什么呢？对于接触过关系型数据库的小伙伴来说，应该一点都不陌生。对了，就是我们关系型数据库中的一张表，每行都具有相同的属性。如下面的一张表：

（子标签的次序和个数不一定完全一致）

那什么又是非结构化数据呢?这类数据没有预定义完整的数据结构，在我们日常工作生活中可能更多接触的就是这类数据，比如，图片、图像、音频、视频、办公文档等等。

知道了这三类结构的数据，我们再来看看大数据的数据源有哪些呢?归纳起来大致有五种数据源。

一是社交媒体平台。如有名气的Facebook、Twitter、YouTube和Instagram等。媒体是比较受欢迎的大数据来源之一，因为它提供了关于消费者偏好和变化趋势的宝贵依据。并且因为媒体是自我传播的，可以跨越物理和人口障碍，因此它是企业深入了解目标受众、得出模式和结论、增强决策能力的方式。

二是云平台。公有的、私有的和第三方的云平台。如今，越来越多的企业将数据转移到云上，超越了传统的数据源。云存储支持结构化和非结构化数据，并为业务提供实时信息和随需应变的依据。云计算的主要特性是灵活性和可伸缩性。由于大数据可以通过网络和服务器在公共或私有云上存储和获取，因此云是一种高效、经济的数据源。

三是Web资源。公共网络构成了广泛且易于访问的大数据，个人和公司都可以从网上或“互联网”上获得数据。此外，国内的大型购物网站，淘宝、京东、阿里巴巴，更是云集了海量的用户数据。

四是IoT(Internet of Things)物联网数据源。物联网目前正处于迅猛发展势头。有了物联网，我们不仅可以从电脑和智能手机获取数据，还可以从医疗设备、车辆流程、视频游戏、仪表、相机、家用电器等方面获取数据。这些都构成了大数据宝贵的数据来源。

五是来自于数据库的数据源。现今的企业都喜欢融合使用传统和现代数据库来获取相关的大数据。这些数据都是企业驱动业务利润的宝贵资源。常见的数据库有MS Access、DB2、Oracle、MySQL以及大数据的数据库Hbase、MongoDB等。

我们再来总结一下，什么样的数据就属于大数据呢？通常来大数据有4个特点，这就是业内人士常说的4V，volume容量、 variety多样性、velocity速度和veracity准确性。

G. 大数据(Big Data)”一词已经变得没有以往那么红火了，为什么会这样呢

原因在于是在于盲目迷恋数据，不加批判地使用，那会引发灾难。

盲目迷恋数据与误用

“大数据”的问题并不在于数据本身很糟糕，也不在于大数据本身很糟糕：谨慎应用的话，大型数据集还是能够揭示其它途径发现不了的重要趋势。正如茱莉娅·罗斯·韦斯特（Julia Rose West）在最近给Slate撰写的文章里所说的，盲目迷恋数据，不加批判地使用，往往导致灾难的发生。

从本质来看，大数据不容易解读。当你收集数十亿个数据点的时候——一个网站上的点击或者光标位置数据；大型公共空间十字转门的转动次数；对世界各地每个小时的风速观察；推文——任何给定的数据点的来源会变得模糊。这反过来意味着，看似高级别的趋势可能只是数据问题或者方法造成的产物。但也许更重大的问题是，你所拥有的数据通常只是你真正想要知道的东西的一个指标。大数据不能解决那个问题——它反而放大了那个问题。

例如，民意调查被广泛用作衡量人们在选举中的投票意向的指标。然而，从汤姆·布拉德利（Tom Bradley）1982年在加州州长竞选中败北，到英国脱欧公投，再到特朗普的当选，数十年来结果出乎意料的选举一再提醒我们，民意测验和人们实际的投票意向之间并不总是完全一致。Facebook以往主要通过用户有没有点赞来估量他们对特定的帖子是否有兴趣。但随着经过算法优化的动态信息开始大量出现标题诱饵、点赞诱饵和婴儿照片——导致用户满意度明显下降——该公司的高层逐渐意识到，“点赞”这事并不一定意味着用户真的喜欢特定的内容。

指标和你实际上要估量的东西之间的差别越大，过于倚重它就越危险。以来自奥尼尔的著作的前述例子为例：学区使用数学模型来让教师的表现评估与学生的测验分数挂钩。学生测验分数与不在教师控制范围内的无数重要因素有关。大数据的其中一个优势在于，即便是在非常嘈杂的数据集里，你也可以发现有意义的关联性，这主要得益于数据量大以及理论上能够控制混杂变量的强大软件算法。例如，奥尼尔描述的那个模型，利用来自多个学区和体系的学生的众多人口结构方面的相关性，来生成测验分数的“预期”数据集，再拿它们与学生的实际成绩进行比较。（由于这个原因，奥尼尔认为它是“大数据”例子，尽管那个数据集并不够大，没达到该词的一些技术定义的门槛。）

试想一下，这样的系统被应用在同一所学校里面——拿每个年级的教师与其它年级的教师比较。要不是大数据的魔法，学生特定学年异常的测验分数会非常惹眼。任何评估那些测验的聪明人，都不会认为它们能够很好地反映学生的能力，更不用说教他们的老师了。

而前华盛顿特区教育局长李洋姬(Michelle Rhee)实行的系统相比之下更不透明。因为数据集比较大，而不是小，它必须要由第三方的咨询公司利用专门的数学模型来进行分析解读。这可带来一种客观性，但它也排除掉了严密质问任何给定的信息输出，来看看该模型具体如何得出它的结论的可能性。

例如，奥尼尔分析道，有的教师得到低评分，可能不是因为他们的学生表现糟糕，而是因为那些学生之前一年表现得出奇地好——可能因为下面那个年级的教师谎称那些学生表现很好，以提升他自己的教学评分。但对于那种可能性，学校高层并没什么兴趣去深究那种模型的机制来予以证实。

加入更多指标

并不是说学生测验分数、民意调查、内容排名算法或者累犯预测模型统统都需要忽视。除了停用数据和回归到奇闻轶事和直觉判断以外，至少有两种可行的方法来处理数据集和你想要估量或者预计的现实世界结果之间不完全相关带来的问题。

其中一种方法是加入更多的指标数据。Facebook采用这种做法已有很长一段时间。在了解到用户点赞不能完全反映他们在动态消息当中实际想要看到的东西以后，该公司给它的模型加入了更多的指标。它开始测量其它的东西，比如用户看一篇帖子的时长，他们浏览其点击的文章的时间，他们是在看内容之前还是之后点赞。Facebook的工程师尽可能地去权衡和优化那些指标，但他们发现用户大体上还是对动态消息里呈现的内容不满意。因此，该公司进一步增加测量指标：它开始展开大范围的用户调查，增加新的反应表情让用户可以传达更加细微的感受，并开始利用AI来按页面和按出版者检测帖子的标题党语言。该社交网络知道这些指标没有一个是完美的。但是，通过增加更多的指标，它理论上能够更加接近于形成可给用户展示他们最想要看到的帖子的算法。

这种做法的一个弊端在于，它难度大，成本高昂。另一个弊端在于，你的模型加入的变量越多，它的方法就会变得越错综复杂，越不透明，越难以理解。这是帕斯夸里在《黑箱社会》里阐述的问题的一部分。算法再先进，所利用的数据集再好，它也有可能会出错——而它出错的时候，诊断问题几无可能。“过度拟合”和盲目相信也会带来危险：你的模型越先进，它看上去与你过往所有的观察越吻合，你对它越有信心，它最终让你一败涂地的危险就越大。（想想次贷危机、选举预测模型和Zynga吧。）

H. 为何说大数据精准广告并不靠谱

为何说大数据精准广告并不靠谱
一、大数据精准广告内涵
大数据目前已经成为整个IT界(包含Internet Technology 以及Information Technology)最热的词汇之一，似乎任何一个话题，只要提到大数据，瞬间变得高大上。一夜之间，大数据已经代替主观的理性思考，成为智慧洞察的代名词。
但是当我们走过对大数据的顶礼膜拜阶段，揭开大数据实际应用的面纱，反而逐渐对充斥着话语世界的大数据进行反思。因为大数据在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考，科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过：“就今日言，有很多人忙碌于资料之无益累积，以致对问题之说明与解决，丧失了其对特殊的经济意义的了解。
以大数据的广告应用为例，精准广告投放应该是大数据最早的也是最容易产生直接收益的应用，如今少有广告公司没有宣称自己是大数据科技公司。大数据精准广告的核心内涵是什么？一言以蔽之，那就是程序化定向投放。其中定向是核心，程序化是手段。
以微信朋友圈为例，不定向区域，年初的公开价格CPM(每千次曝光成本，朋友圈广告价格远超一般媒体)40元，定向核心城市140元，定向重点城市90元，如果叠加定向性别，附加10%，再叠加H5外链(流量引导效果更好)，再附加20%。就像进口化妆品一样，先按一定比例征收关税，后按含税价格再征收增值税，再按含税价格征收消费税。
对于微信来说，客户地域、性别虽然也需要数据分析解读，但确认相对比较容易。对于其它数据公司来说，地域依然可以通过IP或手机终端GPS获取，但性别更可能就是一个数据分析出的可能属性。当然大数据并不仅仅分析如此简单的标签，对于媒体联盟而言，媒体选择项目众多，还会分析客户媒体偏好标签，还有时间段、人群属性、设备类型、偏好类型等多种定向组合方式。
好了，上面对于精准广告有了一个粗浅的介绍。那么大数据精准广告能带来什么样的价值？通常如下的故事是大数据广告公司经常提及的。
假如一个网站的广告位，每小时有1万人来浏览，则一小时曝光量为1万，之前的CPM为5元，那么一个手机广告主投放一小时广告，成本50元。这是传统广告投放的结果。现在有个大数据公司，来帮助该广告媒体更好的运营。该公司宣称它能够精准识别浏览客户的属性，告诉手机广告主，虽然1万人浏览该广告位，但真正适合投放手机的只有6千人次，剩下4千人次的曝光为无效曝光，因为剩下的人群只对服装感兴趣。
大数据公司建议广告主按照程序化投放，过滤掉不适合投放手机的4千人，仅对适合投放手机的6千人付费，假如单价不变，那么在保证相同效果的前提下，成本降低至30元。剩下的4千人大数据公司将其销售给服装广告主，成本为20元。由此，在相同的效果情况下，大数据广告大幅降低广告主的成本。当然事实上，由于RTB(实时竞价)机制的存在，当价格(效果相同)低到一定程度，不同手机广告主的相互竞价，使得真实价格一般高于30元，但肯定介于30元到原有预期成本50元之间，由此形成多方共同获益的理想局面。
这样的案例看上去Perfect，无懈可击。因为它解决了传统广告的低效问题，比如看起来有用，但又说不清楚到底有用在哪里，这个正是各公司财务总监所深恶痛绝的。是的，通过大数据广告，让一切花在广告上的钱更有依据，可以在线评估一条广告到底造成多少的印象(Impressions)，甚至多少点击，多少因此而下载使用，多少因此产生交易。
有问题吗？没问题。有问题吗？你什么意思，难道你要怀疑真理？
二、大数据精准广告没有看上去那么美好
本着证伪的原则，真理只有被证明为谬误的时候(理解其应用的局限及条件)，才算真理。因此我们必须先回答一个问题，广告是用来做什么的？
按照以前的共识，广告被视为品牌用来向那些无法面对面沟通的消费者去传达品牌的特性。因此广告虽然对销售有促进作用，但通常时候，广告的内容并不直接说服消费者去购买，就如中国移动曾经的获奖广告“沟通从心开始”一样。2010年出版的《品牌如何增长》(How Brands Grow)一书(说明，笔者未读过，希望将来能读到)，作者南澳大利亚大学教授拜伦在书中指出，广告要达到最好的效果，往往不需要去说服或灌输，只要让人在购买的时候回想起品牌的名字就可以了。市场研究机构Milward Brown创始人高登(Gordon Brown)就指出，广告的功能就是让一个摆在货架上的品牌变得“有趣”。
好吧，再回到大数据精准广告案例，其中一个最为关键的问题在于，大数据如何分析出这6千个浏览用户适合投放手机广告？对于这个问题，广告公司早有准备，给出如下的种种答案。
第一，从历史记录中寻找曾经使用过同类产品的客户进行匹配。通常使用的算法叫“协同过滤”，即由某些经验的相关性，找到潜在的适合用户。比如你玩过某款游戏，因此可认为你对该类型的其它游戏也有相同的需求。笔者并不否认该算法对某些领域确实有作用，比如游戏付费用户基本就是之前重度游戏使用用户。
但是抛开这些特殊领域，该算法内涵思想“品牌依靠忠诚的消费者发展壮大”与拜伦的理论完全矛盾。拜伦通过对销售数据进行统计学分析，他指出在所有成功的的品牌当中，大量的销售来自“轻顾客”(Light buyer)：也就是购买产品相对不那么频繁的顾客。可口可乐的生意并非依靠每天都喝可乐的人，而是数百万每年喝一次或两次的顾客。这种消费者模式在各个品牌、商品品类国家和时期都适用。无论是牙刷还是电脑，法国汽车或是澳大利亚银行，品牌依靠的是大规模人口——换句话说，大众——那些偶尔购买他们的人。
这个理论意义十分深远。这意味着你永远无法通过精准营销现有顾客来增加品牌的市场份额。而对现有顾客的精准营销，正是数字媒体所擅长的。
本着批判的精神来看待新出现未经检验的思想，笔者希望引用一下广东移动最近公布的用户换机特征数据。广东移动对旗下用户的终端迁移分析表明，使用苹果的用户升级终端，继续使用苹果手机的占比64%，忠诚度最高。但除苹果以外，其余忠诚度表现最好的华为、小米手机，更换4G后持续使用同品牌的占比不到30%。
这说明，你向苹果4或5用户推广苹果6是可行的，果粉效应推翻拜伦的理论，证实在部分领域依靠忠诚的消费者发展壮大是可行的。但除此以外，你向任何一个当前品牌的用户推广同品牌的手机终端都是不合时宜的。
因此，希望通过历史的电商数据分析推断用户下一步可能需要是无效的。就如向曾经购买过服装的用户推广服装，或许不如推广一卷纸或一桶油更为有效。
相反，成功的品牌需要找到一种方式来到达目标市场之外的群体。品牌的广告一定要用某种方式获得这部分人的兴趣——只有这样，当他们在准备购买的时候，该品牌才能自动出现在消费者的脑海中。
第二，如果“协同过滤”存在局限，广告公司会告诉你还有第二种算法，并不基于客户的历史行为记录，而是客户本身特征相似性，来找到与种子客户最为相似的客户群体。简称“Lookalike”。先需要广告主提供本则广告起到作用的典型用户，以手机为例，受广告影响感兴趣点击浏览或预购某手机的用户，大约几百或几千个。大数据公司通过Lookalike算法(专业的术语更可能是稀疏矩阵)，寻找与这几百/千个用户高度相似的其它数十万/百万客户群进行投放。
这类算法真正考验大数据平台的计算能力，因为并不是经验性的协同过滤，而是利用数十数百甚至上千个变量进行回归计算。最后按照相似性的概率打分，按照由高到低选择合适的用户群。
该模型的内涵其实很简单，就是广告要传达给应该传达的客户。比如奶粉广告目标用户就是养育0-3岁孩子的父母。如果知道要到达用户的具体身份，一切问题迎刃而解。但是对于网站或APP应用来说，并不清楚用户身份，唯一清楚的是客户的历史行为数据。而且由于数据本身的分割，有的专注于运营商，有的专注于APP联盟采集，有的专注于电商，有的专注于银行，要从分割的数据中推断出客户的身份信息，Lookalike就是不可避免的手段。
唯一的问题是，如果由几百个种子用户推断出新的几百个目标用户，准确性可能高达9成，但如果如某广告公司宣称，对康师傅辣味面进行移动DSP投放时，根据历史投放数据分析挖掘，形成样本库，再通过Lookalike技术进行人群放大，找到与目标受众相似度最高的潜在客户，扩展人群1367万，实际投放受众ID2089万。广告效果投放是最大化了，那么效果呢？在此，请允许我杜撰一个数字，很可能点击率由0.2%上升至0.3%，精准度提升50%。有意义吗？或许有，但绝对没有想象的那么明显。
第三，如果你们持续怀疑我们算法的有效性，那么我们可以就效果来谈合作，你们可以按照点击量(CPC)或者激活量(CPA)付费，如果达不到既定效果，我们会补量。这是大数据广告的终极武器。
终极武器一出，意味着广告的投放彻底沦陷为做点击、做激活的渠道，广告的“沟通消费者”初衷早被抛弃得一干二净。
通常一般消费决策遵行S(Solution)、I(Information)、V(Value)、A(Access)规则，意思是当用户产生一个需求，内心先就满足这个需求形成一个解决方案。比如说3G手机不好用，速度很慢覆盖不好，需要换一个4G终端就成为一个Solution。那么4G终端有哪些，重点考虑那些终端？消费者还是搜集信息，并非从网上搜索，而是根据以往的经历、品牌效应、周边朋友口碑自动回想那些品牌、哪些款式。传统广告的最重要功效应该就是这个阶段，当用户需要的时候，自动进入到用户视线。然后从多维度比较选择，确定首选购买品牌。最后就是去哪儿买，搜索哪儿有促销活动，哪里优惠力度最大。
根据SIVA模型，真正的以效果为导向的广告本质解决的是Access问题，最后的临门一脚。在这方面，搜索广告是真正的效果导向广告，比如淘宝的每一款商品后面都有超过1万家商户提供，到底用户去哪里购买，得付钱打广告，这就是效果广告。曾有报告对比过，搜索广告点击率高达40%以上。想一想网络、阿里靠什么为生，临门一脚的广告价格自然高到没边，据说一些医院购买网络性病、人流之类的搜索广告，单次流量价格高达数十或数百元。
搜索广告只有少数垄断接入公司才有的生意，大部分广告仍为展示类广告。如果展示类广告也朝效果类靠拢，从商业规律上属于本末倒置。
最后结果是，一方面，广告的内容充满人性的贪婪(优惠／便宜)与色欲(大胸美女)，被改造得不伦不类，上过一次当后，在沟通消费者方面反而起到负面作用。另一方面，广告公司沦落为做流量、做点击的公司，与北京望京、中关村著名的刷流量一条街没有本质的差异，最后谁真正点击了这些有效流量？曾有大数据公司分析过某款高端理财软件的阶段性用户群，与刷机、贪图小便宜的极低端用户高度相似。
三、多用靠谱的身份识别可能更有利于提升广告效果
写了这么多，大数据精准广告一无是处吗？不，怀疑真理是为了更好的应用真理。大数据广告的核心“程序化”与“定向投放”没有错，这代表移动互联网发展的趋势，也与满足特定市场、特定用户群的商品或服务广告传播需求完全匹配。问题在于目前的大数据实际能力与宣称的雄心还有巨大的差距。也就是说没有看上去的那么好。
所以，我们更应该回归广告的本来目的——更好的沟通消费者，来看待精准投放，而不是迷信大数据精准投放这样的噱头。那么什么最重要？显然不是不靠谱的协同过滤规则，也不是根本不知道原因的Lookalike，既然最重要的就是到达目标消费者，那么靠谱的身份识别应该就是精准广告的核心。
什么是靠谱的身份识别？对微信而言，判断重点活动城市是靠谱的，分析性别也相对靠谱，但如果微信告诉你说能够通过社交判断该用户是中产白领还是乡村农民，那一定是不靠谱的。因为朋友圈里宣称正在法国酒庄旅游的优雅女人或许正在出门买油条豆浆。
有时候用户使用的媒体本身就透露客户的身份特征。比如经常使用理财软件的在支付能力上较为靠谱，而使用孕宝APP的80%以上应该就是准妈妈，经常使用蜜芽的一定是宝宝出生不久的妈妈。有大数据公司给出过案例，对媒体本身进行定向和综合分析定向的效果相差无几，这就说明媒体定向是有效的，但是其它需求定向都等同于随机选择。
由于大数据本身就是不关注因果，只关注相关性，如果经过大数据洞察证实的协同规则，也可以算作靠谱的规则。比如游戏付费用户群基本上可以确定为一两千万ID的重度使用用户。
而要准确识别客户身份，多数据源的汇集与综合不可避免，围绕客户身份的各种洞察、相关性分析也是能力提升的必修功课，这或许更应该是大数据广告公司应持续修炼的核心能力。

I. 扒扒跟大数据有关的那些事儿

扒扒跟大数据有关的那些事儿

如今，业界和学术界一直在讨论一个词，那就是大数据。不管是学术圈还是IT圈，只要能谈论点儿大数据就显得很高大上。然而，大数据挖掘、大数据分析、大数据营销等等事情仅仅只是个开始，对大多数公司来说，大数据仍有很强的神秘色彩。于是，在我们还没有完全搞明白如何运用大数据进行挖掘时，各种过于神化大数据的舆论就已经不绝于耳了。当然，也有很多人直接批判大数据或大数据营销给我们造成的隐私威胁。也有很多人根本没有搞清楚什么是大数据，到底有什么价值。
于是，站在客观的角度，围绕下面几个问题与大家分享有关大数据的几个观点，也扒扒大数据的那些事儿：1、大数据营销和个人隐私泄露究竟有无因果和逻辑关系?
2、大数据营销到底能带给企业什么样的价值?到底能带给用户什么价值?用户是否全盘否定或反感大数据营销?
3、如何正确看待大数据?如何看待大数据和传统调查方法或统计学的关系?
4、大数据营销究竟面临什么样的挑战?
一、大数据的迅猛发展与数据隐私的忧虑相伴而生
社交媒体的出现，让用户数据的分享数量达到了难以估量的程度。而如今，社交媒体的种类有增无减，智能手机的更大普及，又让更多用户转移到移动互联网，从而又进一步贡献更多数据和内容。这样的数据增量让全球社交媒体的收入大涨，仅根据咨询公司Gartner2012年的研究结果显示，2012年全球社交媒体收入估计达到169亿美元。
一边是社交媒体因为大数据的盆钵满载，另一方面则是用户不断毫无保留的将个人信息交给互联网，这些信息包括年龄、性别、地域、生活状态、态度、行踪、兴趣爱好、消费行为、健康状况甚至是性取向等。一时间，针对海量用户信息的大数据挖掘、大数据分析、大数据精准营销、广告精准投放等等迅速被各大公司提上日程。
比如，一个发生在美国的真实故事就会告诉我们，利用数据挖掘如何掌握我们的行踪。一个美国家庭收到了一家商场投送的关于孕妇用品的促销劵，促销劵很明显是给给家中那位16岁女孩的。女孩的父亲很生气，并找商场讨说法。但几天后，这位父亲发现，16岁的女儿真怀孕了。而商场之所以未卜先知，正是通过若干商品的大量消费数据来预估顾客的怀孕情况。
类似的大数据挖掘和营销事件在今天更多的发生，尤其是社交媒体产生大量数据后。于是，许多人对个人隐私数据开始担忧，开始批判大数据精准营销侵犯了个人隐私，忧虑我们进入了大数据失控的时代，并将原因更多归结于社交媒体。
二、大数据营销和个人隐私泄露之间不能完全划等号!逻辑关系不成立!
如果客观的分析一下上述问题就会发现，这是一个难以分说的鸡生蛋还是蛋生鸡的问题。一味地批判大数据分析对个人用户数据的泄露或滥用是不客观的。
因为，社交媒体的本质在于分享和传播，社交媒体的出现的确满足了人们分享个人信息、晒各种数据的欲望，让人们在过去无声无息的生活中突然转移到了可以让全世界看到自己的平台上来。人们从而达到了内心的满足感和存在感。因此，单从个体的背后心理来考虑，社交媒体对他们来说是有益的，他们不认为自己贡献的是不可告人的秘密，既然分享出来，那一定是希望或允许别人看到的。因此，这是一种无形的默许的交易，用户乐意把自己的各种琐碎细节暴露于社交媒体，而对社交媒体上杂乱无章的海量用户数据进行有序的分类和分析也没有什么不妥。
当然，如果社交媒体平台随意滥用或泄露用户的后台数据，比如个人联系方式、家庭住址、银行等极为隐秘的信息，这的确是赤裸的侵犯隐私的行为，极其没有道德，必须要受到谴责和法律制裁。
但目前，许多大数据精准营销的前提是对用户在互联网上留下的公开显在的信息进行算法归类和内容分析，从而对海量用户进行人群划分，或者对小众群体进一步细分化，甚至达到某种程度上针对单个人的个性化定制，最终达到精准推送广告或有针对性推出营销活动的目的。
所以，从这个角度来看，大数据精准营销与个人主动分享和传播到网络上的信息数据之间并没有矛盾。人们起初或许会惊讶：为什么他们知道我想买什么?为什么他们知道我的需求?但随着“猜透心思”的推送行为让人们的生活越来越便利时，比如省去大量搜索、查找和对比产品或服务的时间，他们可能会十分习惯并依赖这种精准性，并不会在意他们本来就随意分享到网络上的杂乱信息被如何挖掘和利用。
因此，用户发布和分享的信息是否为隐私，在用户分享信息之前就做过慎重考量和筛选。这一点非常重要，这是侵犯隐私与否的界限。那些被用户选择为不适合发布或不希望别人知道的信息就是用户认为的隐私，而那些已经公开发布到社交媒体或网络上的信息则被用户认为是可以传播的。
所以，普通的对海量公开信息的分析、挖掘、归类，从而进行精准营销的大数据行为不能一味被骂成是对用户利益的损害。而那些对用户存储在某些位置、不希望被他人了解的信息(私人存储的信息)如果被别有用心的人泄露或利用，那这就是隐私侵犯行为。但这就不能归罪于大数据，而应质问存贮平台的安全性问题。
因此，我们不能过分解读大数据精准营销。其实，问题的本质在于，人们是否真的在意杂乱信息的去向(涉及到分享信息的背后心理和动机)?以及大数据营销是否真的触碰了人们不可告人的秘密或底线(需要对秘密和底线重新定义)?因为，如果人们默认分享的都是公开的，那么侵犯隐私的概念就是不成立的。如果人们有不希望别人知道的信息，也不会贸然在网络上分享和传播。
三、大数据营销究竟会给企业和用户带来什么价值?
讨论完上面的问题之后，我们是否应该诚恳对待大数据精准营销这件事?那么大数据营销究竟对于企业和用户两方面来说，都有什么样的价值?
1、对于企业的价值
让我们先看一个国外案例：
我们都知道美剧《纸牌屋》，提到《纸牌屋》的成功，最大的功劳便是大数据分析。因此，《纸牌屋》几乎成了大数据营销的经典案例，也是美国Netflix公司基于用户信息挖掘来决定内容生产的成功尝试。
Netflix的订阅用户达到了3000万左右，而大多数用户的观影都与精准推荐系统有关。Netflix会定时收集并分析用户观看电影或电视剧的行为，比如根据用户对电影的评分、用户的分享行为、用户的观影记录等信息去分析用户的收看习惯，从而推断用户喜欢什么样的影视剧，喜欢什么样的风格，喜欢什么样的导演和演员。在此基础上利用算法对用户感兴趣的视频进行推荐排序，直到用户找到最喜欢的影视剧。《纸牌屋》的导演和主演就是Netflix挖掘用户信息后的预测出来的。
那我们再看一个国内案例：
我们都知道阿里巴巴和新浪微博合作的事情，阿里巴巴斥资5.86亿入股新浪微博。除了网络上各大媒体分析的，认为阿里巴巴希望打造生态圈、强化流量入口、挑战腾讯等等原因之外，还有一个重要原因或许就是大数据营销的战略。
如今各大互联网大佬都在跑马圈地，圈住用户，谁能圈住用户，让用户在其平台上活跃，谁就掌握了用户的大量信息(包括显在的前台信息和隐藏的后台信息)。新浪微博在中国有几亿用户，这个量十分庞大，但如果新浪不能把这些用户产生的信息合理的利用，那么这些资源就是巨大的浪费。我们再看阿里巴巴，中国最大电商平台，它有产品，但是却没有完整的用户日常生活行为信息，只有购买信息，但这些购买信息不足以了解人群特点和喜好。所以，只有跟新浪微博合作，掌握大量用户的行为信息，从而对其分类，找到不同人群甚至不同个体的喜好、偏好、兴趣、爱好、习惯、传播习惯、分享路径等等，那么就能实现精准营销，甚至还可以通过不同用户的信息传播规律，而制定产品的最佳品牌传播途径。这是一座巨大的金矿。
新浪微博和阿里巴巴合作后，微博上出现了一些产品推荐信息，同时新浪微博已经推出支付功能。可以想象：未来你在微博上看到相关推荐的产品，恰好是你喜欢的产品，那么你就可以直接在微博上实现支付和购买。从而新浪微博和阿里巴巴各取所需，共享收益。当然，这是我个人的观察和分析，不过阿里巴巴的大数据战略也很明显了。
2、对于用户的价值
上述两个例子说的都是大数据带给企业的价值，那么，大数据营销对于用户来说，到底有没有价值?用户是否十分反感精准营销?让我们再来看看一个新的调查数据：
中国传媒大学国家广告研究院刚刚发布一份《2014中美移动互联网发展报告》，这份调查报告对比了中美两国用户移动互联网的使用习惯，以及移动用户对于移动广告的态度。
调查显示，最可能得到智能终端用户回应的广告内容为：(1)与用户要购买物品相关的广告(2)与要购买物品相关的优惠券(3)搞笑的广告(4)与用户最喜爱品牌相关的广告(5)与用户在线上访问过网站或使用过的应用相关的广告(6)与最近线上购物相关的广告(7)与用户所在场所相关的广告(8)与最近收听、收看的广播/电视相关的广告。(占比>=20%)
从这些数据我们可以看出，在8个结果中，有6个都是跟大数据精准营销扯上关系的。比如，与用户要购买物品相关的广告，更能引起用户的回应或互动。如何理解?大数据营销的前提就是计算并推测用户的真实需求，看用户需要购买什么相关产品，然后给用户直接推送用户想要的、喜欢的，做到了精准到达。那么用户呢?用户乐意对这样的推动广告或产品做出回应，因为这些广告少了对用户的打扰，并且让用户费劲心思对对比或货比三家后才购买的决策过程降低，节省了时间，让用户直接找到内心真正所需的产品或服务。
所以，这样的结果就表明，大数据精准营销并不是完全都会让用户反感，而是看你猜透用户心思的程度。因此，如果你推送的内容和用户想要购买的物品相关，与用户最喜爱的品牌相关等等。那么这种精准挖掘并不会受到用户的反感，反而会给用户带来便利。

以上是小编为大家分享的关于扒扒跟大数据有关的那些事儿的相关内容，更多信息可以关注环球青藤分享更多干货

导航:首页 > 网络数据 > 批判大数据

批判大数据

与批判大数据相关的资料

友情链接