第四范式大数据_大数据趋势与专业图书馆

㈠大数据与复杂网络

写这篇文章，有两个原因：

看了李院士的《大数据研究的科学价值》，有些感触。

我自己做了一段时间社交，也有一些想法。

之前也写过复杂网络的东西，但是都非常肤浅，没有真正的理解复杂网络，近期看了一些资料，有了进一步的理解。

李院士的文章，是从科学家的角度，理解大数据的价值。从文章中，我了解到以下几点：

数据inside：未来数据将数据转换为产品或者服务的人。

分析即服务：Aaas。构建一个统一的数据分析平台，提供丰富的api，供数据分析师进行分析，挖掘金矿。是一件很有用，同时也很有钱途的事业。

大数据的存储、计算、挖掘分析的技术，还需要更进一步的发展。一些同学，规划自己的职业生涯，把这个作为储备，现在开始学习，是一个非常好的选择。我之前做过一些存储相关的东西，存储还是要往多层方向发展。

在大数据中的个体之间存在着关系，有可能大数据的本质就是复杂网络的本质。为研究指名了一个方向。

第四范式：之前的研究都需要有模型，在大数据的背景之下：所有的模型都是错误的，进一步说，没有模型你也可以成功。

文章中，李院士提到大数据的本质，可能就是复杂网络的本质。这是因为大数据个体之间都是关系的。举个例子，互联网。个体是网页，网页和网页之间通过超链接互相链接，当然也可能有单向的。互联网就是一个复杂网络。其中的关系已经被验证了意义的重大——PageRank算法——搜索引擎的核心之一。另一方面，大数据的产生，整体分为两类：1）生物科学中，人脑细胞、神经元，基因等等。都是大数据。2）还有就是社会群体产生的。国内现在火热的微博。就每天会产生很大量的数据。在这两类中，我们都要考虑个体之间的关系，都有一些参数和性质：平均路径长度、度分布、聚集系数、核数和介数等。这些都可以归结到复杂网络的研究当中。不过，大数据的研究刚刚开始，其本质是否就是复杂网络所能解释的还很难说。复杂网络本身也在发展演变的过程中，几年之后，那时的复杂网络也不是现在的样子。但是，社交网络确确实实是复杂网络的体现。所以，通过复杂网络的理论，研究大数据，研究社交网络，一定是一个很好的方向。

说了半天的复杂网络，到底复杂网络是什么呢？这里，我只说说我对复杂网络的浅显理解。也欢迎大家指点、讨论。我们一般所说的复杂网络具备两个特点：

无尺度

小世界

看起来很玄的两个词，那么该如何理解呢？无尺度的概念，比较好理解：就是网络中的度分布满足幂律分布。幂律分布可以理解度的分布比较集中。我们以新浪微博为例，粉丝上千万那的人非常少，百万的人也非常少。更多的是几百粉丝的。直白一点说，就是粉丝非常多的人很少，很集中。粉丝比较少的，分布就比较广，比较多。我之前做微博数据分析的时候，有统计过几乎所有用户的粉丝数分布的。完全符合幂律的分布。如果大家需要，可以和我进一步讨论之类。我也可以找找之前的统计数据。

小世界我觉得需要从两个角度考虑：第一个，就是网络中两点的平均最短路径很小。著名的米尔格拉姆实验的第一个结果就是：六度分隔。意思就是在我们的世界上，你想联系任何一个人，你不认识的，平均就需要找5、6个人就可以了。随着社会的发展，facebook等社交网络兴起，这个度越来越小。有报道说，已经是4.5个人就可以了。这个事情比较有意思，前些日子，还有个开发者做了一个微博应用，计算你到某个明星的距离。很多人会想，是不是很远，是不是计算很复杂？其实都不是的，小世界的特性告诉我们，这个值会很小。同时，即使在线读取关注，深度搜索的暴力方式解决，这也是很快的。第二个，不仅仅平均最短路径很小，如果消息在网络中传播，会以很大的概率，通过最短路径传播到目的地。这个很重要，这个是根本。这个是，现在微博上进行微博营销的根本所在。如果没有这个特性，通过转发，甚至是大号的转发，很难出现传播爆发的情况，很难让更多的人知道。所以这个很重要，这个也是米尔格拉姆试验的第二个重要的结果。

其实上面两个结果，都有对应的模型，能够很好的证明，而且，在实际的社交网络中，也得到的验证。大家感兴趣，可以自己研究。

那么大数据，我们作为程序员、作为研究者，能够做什么呢？其实前面也说过了，主要就三点：

存储

计算

算法

我们围绕着这三块进行，无论是工程开发者，还是研究者，都可以在这个过程中发现问题，归纳共性，提炼本质，然后上升到科学的高度。

我目前还没有李老师的高度，我也是围绕着微博做了一些复杂网络相关的研究。我希望，以后，我的工作，也能够为大数据科学进步，起到一点点作用。那我的工作，就真的有价值了。

下面是我自己感兴趣的一些点，欢迎大家讨论：

复杂网络社团结构的发现，对应社交网络中的圈子挖掘。

社交网络中，特定领域，人物影响力的排名。

社交网络中，信息传播的研究

社交网络用户关系的存储

其中，1、2、4我做了比较多的尝试，1、2效果还不错，4没有好的方法。3目前只是了解阶段，还没有开始动手。

仅以此文，抛砖引玉。

【完】

㈡漫谈大数据的思想形成与价值维度

漫谈大数据的思想形成与价值维度

清华基于微博分析获得的大数据幸福指数发现人们周六最幸福，相信大家心情不错，因此今天不谈枯燥的技术。关于大数据的思维、理念、方法论已经被反复消费了，本来我想直接进入交互环节，继挺兄还是要求先有一部分规定动作，我就先自弹自唱几十分钟，既然是漫谈，也不见得扣题，说到哪里是哪里。各位有问题，我可以择时择机插入讨论。
先说大数据思想的形成吧。自从人类开始文字和数字，数据就开始产生。就数据增长曲线而言，极小的初值确实要经历漫长的过程达到人类能感知的曲线拐点。谷歌前CEO埃里克·施密特曾给出了一个有趣的数据：从人类文明曙光初现到2003年一共产生的数据，只相当于2010年两天产生的数据量。而一旦越过拐点，“大数据摩尔定律”的滚滚铁轮下，指数效应爆发：最近两年产生的数据量相当于之前产生的全部数据量。
在漫长的数据蓄水过程中，数学和统计学逐渐发展，人们开始注意对数据的量化分析，在人类进入信息时代以前这样的例子就不胜枚举。比如经济上，黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。又如军事，“向林彪学习数据挖掘”的桥段不论真假，其背后量化分析的思想无疑有其现实基础，而这一基础甚至可以回推到2000多年前，孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。
到上世纪50-60年代，磁带取代穿孔卡片机，启动了数据存储的革命。磁盘驱动器随即发明，它带来的最大想象空间并不是容量，而是随机读写的能力，这一下子解放了数据工作者的思维模式，开始数据的非线性表达和管理。数据库应运而生，从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用)，到网状数据库，再到现在通用的关系数据库。与数据管理同时发源的是决策支持系统(DSS)，80年代演变到商业智能(BI)和数据仓库，开辟了数据分析——也就是为数据赋予意义——的道路。
那个时代运用数据管理和分析最厉害的是商业。第一个数据仓库是为宝洁做的，第一个太字节的数据仓库是在沃尔玛。沃尔玛的典型应用是两个：一是基于retaillink的供应链优化，把数据与供应商共享，指导它们的产品设计、生产、定价、配送、营销等整个流程，同时供应商可以优化库存、及时补货;二是购物篮分析，也就是常说的啤酒加尿布。关于啤酒加尿布，几乎所有的营销书都言之凿凿，我告诉大家，是Teradata的一个经理编的，人类历史上从没有发生过，但是，先教育市场，再收获市场，它是有功的。
仅次于沃尔玛的乐购(Tesco)，强在客户关系管理(CRM)，细分客户群，分析其行为和意图，做精准营销。
这些都发生在90年代。00年代时，科研产生了大量的数据，如天文观测、粒子碰撞，数据库大拿吉姆·格雷等提出了第四范式，是数据方法论的一次提升。前三个范式是实验(伽利略从斜塔往下扔)，理论(牛顿被苹果砸出灵感，形成经典物理学定律)，模拟(粒子加速太贵，核试验太脏，于是乎用计算代替)。第四范式是数据探索。这其实也不是新鲜的，开普勒根据前人对行星位置的观测数据拟合出椭圆轨道，就是数据方法。但是到90年代的时候，科研数据实在太多了，数据探索成为显学。在现今的学科里，有一对孪生兄弟，计算XX学和XX信息学，前者是模拟/计算范式，后者是数据范式，如计算生物学和生物信息学。有时候计算XX学包含了数据范式，如计算社会学、计算广告学。
2008年克里斯·安德森(长尾理论的作者)在《连线》杂志写了一篇《理论的终结》，引起轩然大波。他主要的观点是有了数据，就不要模型了，或者很难获得具有可解释性的模型，那么模型所代表的理论也没有意义了。跟大家说一下数据、模型和理论。大家先看个粗糙的图。
首先，我们在观察客观世界中采集了三个点的数据，根据这些数据，可以对客观世界有个理论假设，用一个简化的模型来表示，比如说三角形。可以有更多的模型，如四边形，五边形。随着观察的深入，又采集了两个点，这时发现三角形、四边形的模型都是错的，于是确定模型为五边形，这个模型反映的世界就在那个五边形里，殊不知真正的时间是圆形。
大数据时代的问题是数据是如此的多、杂，已经无法用简单、可解释的模型来表达，这样，数据本身成了模型，严格地说，数据及应用数学(尤其是统计学)取代了理论。安德森用谷歌翻译的例子，统一的统计学模型取代了各种语言的理论/模型(如语法)，能从英文翻译到法文，就能从瑞典文翻译到中文，只要有语料数据。谷歌甚至能翻译克莱贡语(StarTrek里编出来的语言)。安德森提出了要相关性不要因果性的问题，以后舍恩伯格(下面称之为老舍)只是拾人牙慧了。
当然，科学界不认同《理论的终结》，认为科学家的直觉、因果性、可解释性仍是人类获得突破的重要因素。有了数据，机器可以发现当前知识疆域里面隐藏的未知部分。而没有模型，知识疆域的上限就是机器线性增长的计算力，它不能扩展到新的空间。在人类历史上，每一次知识疆域的跨越式拓展都是由天才和他们的理论率先吹起的号角。
2010年左右，大数据的浪潮卷起，这些争论迅速被淹没了。看谷歌趋势，”bigdata”这个词就是那个时间一下子蹿升了起来。吹鼓手有几家，一家是IDC，每年给EMC做digitaluniverse的报告，上升到泽字节范畴(给大家个概念，现在硬盘是太字节，1000太=1拍，阿里、Facebook的数据是几百拍字节，1000拍=1艾，网络是个位数艾字节，谷歌是两位数艾字节，1000艾=1泽);一家是麦肯锡，发布《大数据：创新、竞争和生产力的下一个前沿》;一家是《经济学人》，其中的重要写手是跟老舍同著《大数据时代》的肯尼思?库克耶;还有一家是Gartner，杜撰了3V(大、杂、快)，其实这3V在2001年就已经被编出来了，只不过在大数据语境里有了全新的诠释。
咱们国内，欢总、国栋总也是在2011年左右开始呼吁对大数据的重视。
2012年子沛的书《大数据》教育政府官员有功。老舍和库克耶的《大数据时代》提出了三大思维，现在已经被奉为圭臬，但千万别当作放之四海而皆准的真理了。
比如要数据全集不要采样。现实地讲，1.没有全集数据，数据都在孤岛里;2.全集太贵，鉴于大数据信息密度低，是贫矿，投入产出比不见得好;3.宏观分析中采样还是有用的，盖洛普用5000个样本胜过几百万调查的做法还是有实践意义;4.采样要有随机性、代表性，采访火车上的民工得出都买到票的结论不是好采样，现在只做固定电话采样调查也不行了(移动电话是大头)，在国外基于Twitter采样也发现不完全具有代表性(老年人没被包括);5.采样的缺点是有百分之几的偏差，更会丢失黑天鹅的信号，因此在全集数据存在且可分析的前提下，全量是首选。全量>好的采样>不均匀的大量。
再说混杂性由于精确性。拥抱混杂性(这样一种客观现象)的态度是不错的，但不等于喜欢混杂性。数据清洗比以前更重要，数据失去辨识度、失去有效性，就该扔了。老舍引用谷歌PeterNovig的结论，少数高质量数据+复杂算法被大量低质量数据+简单算法打败，来证明这一思维。Peter的研究是Web文本分析，确实成立。但谷歌的深度学习已经证明这个不完全对，对于信息维度丰富的语音、图片数据，需要大量数据+复杂模型。
最后是要相关性不要因果性。对于大批量的小决策，相关性是有用的，如亚马逊的个性化推荐;而对于小批量的大决策，因果性依然重要。就如中药，只到达了相关性这一步，但它没有可解释性，无法得出是有些树皮和虫壳的因导致治愈的果。西药在发现相关性后，要做随机对照试验，把所有可能导致“治愈的果”的干扰因素排除，获得因果性和可解释性。在商业决策上也是一样，相关性只是开始，它取代了拍脑袋、直觉获得的假设，而后面验证因果性的过程仍然重要。
把大数据的一些分析结果落实在相关性上也是伦理的需要，动机不代表行为。预测性分析也一样，不然警察会预测人犯罪，保险公司会预测人生病，社会很麻烦。大数据算法极大影响了我们的生活，有时候会觉得挺悲哀的，是算法觉得了你贷不贷得到款，谷歌每调整一次算法，很多在线商业就会受到影响，因为被排到后面去了。
下面时间不多了，关于价值维度，我贴一些以前讲过的东西。大数据思想中很重要的一点是决策智能化之外，还有数据本身的价值化。这一点不赘述了，引用马云的话吧，“信息的出发点是我认为我比别人聪明，数据的出发点是认为别人比我聪明;信息是你拿到数据编辑以后给别人，而数据是你搜集数据以后交给比你更聪明的人去处理。”大数据能做什么?价值这个V怎么映射到其他3V和时空象限中?
再贴上解释。“见微”与“知著”在Volume的空间维度。小数据见微，作个人刻画，我曾用《一代宗师》中“见自己”形容之;大数据知著，反映自然和群体的特征和趋势，我以“见天地、见众生”比喻之。“著”推动“微”(如把人群细分为buckets)，又拉动“微”(如推荐相似人群的偏好给个人)。“微”与“著”又反映了时间维度，数据刚产生时个人价值最大，随着时间decay最后退化为以集合价值为主。
“当下”和“皆明”在Velocity的时间维度。当下在时间原点，是闪念之间的实时智慧，结合过往(负轴)、预测未来(正轴)，可以皆明，即获得perpetual智慧。《西游记》里形容真假孙悟空，一个是“知天时、通变化”，一个是“知前后、万物皆明”，正好对应。为达到皆明，需要全量分析、预测分析和处方式分析(prescriptiveanalytics，为让设定的未来发生，需要采取什么样的行动)。
“辨讹”和“晓意”在Variety的空间维度。基于大体量、多源异质的数据，辨讹过滤噪声、查漏补缺、去伪存真。晓意达到更高境界，从非结构数据中提取语义、使机器能够窥探人的思想境界、达到过去结构化数据分析不能达到之高度。
先看知著，对宏观现象规律的研究早已有之，大数据的知著有两个新特点，一是从采样到全量，比如央视去年“你幸福吗”的调查，是街头的采样，前不久《中国经济生活大调查》关于幸福城市排名的结论，是基于10万份问卷(17个问题)的采样，而清华行为与大数据实验室做的幸福指数(继挺兄、我、还有多位本群群友参与)，是基于新浪微博数据的全集(托老王的福)，这些数据是人们的自然表达(而不是面对问卷时的被动应对)，同时又有上下文语境，因此更真实、也更有解释性。北上广不幸福，是因为空气还是房价或教育，在微博上更容易传播的积极情绪还是消极情绪，数据告诉你答案。《中国经济生活大调查》说“再小的声音我们都听得见”，是过头话，采样和传统的统计分析方法对数据分布采用一些简化的模型，这些模型把异常和长尾忽略了，全量的分析可以看到黑天鹅的身影，听到长尾的声音。
另一个特点是从定性到定量。计算社会学就是把定量分析应用到社会学，已经有一批数学家、物理学家成了经济学家、宽客，现在他们也可以选择成为社会学家。国泰君安3I指数也是一个例子，它通过几十万用户的数据，主要是反映投资活跃程度和投资收益水平的指标，建立一个量化模型来推知整体投资景气度。
再看见微，我认为大数据的真正差异化优势在微观。自然科学是先宏观、具体，进入到微观和抽象，这时大数据就很重要了。我们更关注社会科学，那是先微观、具体，再宏观、抽象，许小年索性认为宏观经济学是伪科学。如果市场是个体行为的总和，我们原来看到是一张抽象派的画，看不懂，通过客户细分慢慢可以形成一张大致看得懂的现实图景，不过是马赛克的，再通过微分、甚至定位个人，形成高清图。我们每一个人现在都生活在零售商的bucket中(前面说的乐购创造了这个概念)，最简单的是高收入、低收入这类反映背景的，再有就是反映行为和生活方式的，如“精打细算”、“右键点击一族”(使用右键的比较techsavvy)。反过来我们消费者也希望能够获得个性化的尊崇，Nobodywantstobenobodytoday。
了解并掌握客户比以往任何时候都更重要。奥巴马赢在大数据上，就是因为他知道西岸40-49岁女性的男神是乔治·克鲁尼，东岸同样年龄段女性的偶像则是莎拉·杰西卡·帕克(《欲望都市》的主角)，他还要更细分，摇摆州每一个郡每一个年龄段每一个时间段在看什么电视，摇摆州(俄亥俄)1%选民随时间变化的投票倾向，摇摆选民在Reddit上还是Facebook上，都在其掌握之中。
对于企业来说，要从以产品为中心，转到以客户(买单者)甚至用户(使用者)为中心，从关注用户背景到关注其行为、意图和意向，从关注交易形成转到关注每一个交互点/触点，用户是从什么路径发现我的产品的，决定之前又做了什么，买了以后又有什么反馈，是通过网页、还是QQ、微博或是微信。
再讲第三个，当下。时间是金钱，股票交易就是快鱼吃慢鱼，用免费股票交易软件有几秒的延迟，而占美国交易量60-70%的高频程序化交易则要发现毫秒级、低至1美分的交易机会。时间又是生命，美国国家大气与海洋管理局的超级计算机在日本311地震后9分钟发出海啸预警，已经太晚。时间还是机会。现在所谓的购物篮分析用的其实并不是真正的购物篮，而是结帐完的小票，真正有价值的是当顾客还拎着购物篮，在浏览、试用、选择商品的时候，在每一个触点影响他/她的选择。数据价值具有半衰期，最新鲜的时候个性化价值最大，渐渐退化到只有集合价值。当下的智慧是从刻舟求剑到见时知几，原来10年一次的人口普查就是刻舟求剑，而现在东莞一出事网络迁徙图就反映出来了。当然，当下并不一定是完全准确的，其实如果没有更多、更久的数据，匆忙对网络迁徙图解读是可能陷入误区的。
第四个，皆明。时间有限，就简单说了。就是从放马后炮到料事如神(predictiveanalytics)，从料事如神到运筹帷幄(prescriptiveanalytics)，只知道有东风是预测分析，确定要借箭的目标、并给出处方利用草船来借，就是处方性分析。我们现在要提高响应度、降低流失率、吸引新客户，需要处方性分析。
辨讹就是利用多源数据过滤噪声、查漏补缺和去伪存真。20多个省市的GDP之和超过全国的GDP就是一个例子，我们的GPS有几十米的误差，但与地图数据结合就能做到精确，GPS在城市的高楼中没有信号，可以与惯性导航结合。
晓意涉及到大数据下的机器智能，是个大问题，也不展开了。贴一段我的文章：有人说在涉及“晓意”的领域人是无法替代的。这在前大数据时代是事实。《点球成金(Moneyball)》讲的是数量化分析和预测对棒球运动的贡献，它在大数据背景下出现了传播的误区：一、它其实不是大数据，而是早已存在的数据思维和方法;二、它刻意或无意忽略了球探的作用。从读者看来，奥克兰竞技队的总经理比利·比恩用数量化分析取代了球探。而事实是，在运用数量化工具的同时，比恩也增加了球探的费用，军功章里有机器的一半，也有人的一半，因为球探对运动员定性指标(如竞争性、抗压力、意志力等)的衡量是少数结构化量化指标无法刻画的。大数据改变了这一切。人的数字足迹的无意识记录，以及机器学习(尤其是深度学习)晓意能力的增强，可能逐渐改变机器的劣势。今年我们看到基于大数据的情感分析、价值观分析和个人刻画，当这些应用于人力资源，已经或多或少体现了球探承担的作用。

以上是小编为大家分享的关于漫谈大数据的思想形成与价值维度的相关内容，更多信息可以关注环球青藤分享更多干货

㈢大数据趋势与专业图书馆

数据被称作信息化时代的石油，其重要性不言而喻。“大数据”通常被认为是一种数据量很大、数据形式多样化的非结构化数据。从产业角度，常常把这些数据与采集它们的工具、平台、分析系统一起称为“大数据”。在大数据时代，顺应大数据趋势，实现传统业务的转移，是带给国内专业图书馆的一个契机。

1.大数据与科学研究

2011年，麦肯锡研究院在《大数据：创新、竞争和生产率的下一个前沿》的报告中提出“大数据”时代已经到来。2012年3月，奥巴马政府发布了“大数据研究和发展计划”；2012年6月，联合国专门发布了大数据发展战略。这是联合国第一次就某一技术问题发布报告。“大数据”成为2012年热门词汇和研究热点之一。除了国家和研究机构，全球主要的大型IT商业公司均对大数据技术投入巨资，目的是利用大数据为国家治理、企业决策乃至个人生活提供服务。目前，科学研究正在进入一个崭新的阶段。在信息与网络技术迅速发展的推动下，大量从宏观到微观，从自然到社会的观察、感知、计算、仿真、模拟、传播等设施和活动产生出大量科学数据，形成被称为“大数据”的新的科学基础设施。数据不再仅仅是科学研究的结果，而且是科学研究活动的基础。科学家不仅通过对广泛的数据实时、动态地监测与分析来解决难以解决或不可触及的科学问题，更是把数据作为科学研究的对象和工具，基于数据来思考、设计和实施科学研究。以数据考察为基础，联合理论、实验和模拟为一体的数据密集计算的范式，成为与经验范式、理论范式和模拟范式并列的第四范式。数据被一起捕获或者由模拟器生成，处理后存储在计算机中，科研人员使用数据管理和统计学方法分析数据库和文档，据此产生创新思维和成果。这种科研模式被称为数据密集型范式，简称数据范式，是一种新的科研模式。

2.大数据与现有数据库技术的对比

大数据具有数据持续增加、体量巨大（Volume）、数据类型和来源多样（Variety）、速度快（Velocity）等特点。

3.大数据与新型数字图书馆

图书馆在科学文献（纸质或是电子）的组织与服务方面积累了丰富的经验，已成为科研活动和学术交流体系中的有力支撑。随着学术信息交流方式的变化，既有数据档案库，也有文献档案库，而数据则进入数据档案库中。因此，数据图书馆将成为未来数字图书馆的一部分。存储在各类数据库和文档系统中的科学数据，以及以业界标准化关系数据库所产生的元数据体系，将构成一种新型的、分布式的和整合式的数字图书馆。这种数字图书馆既包括传统数字图书馆的各类处理、管理、检索服务等功能，又包括数据转换、可视化和数据挖掘服务等新型数据服务功能。

4.大数据在专业研究领域中的应用

生物医学领域是大数据的先行者，这主要得益于美国国家医学图书馆基于科学数据建立的超级计算和数据处理平台。这些平台支持基础科学和应用科学的知识发现和数据关联，以及分析基础上的模拟仿真研究，为科研和政府决策提供服务。2007年，吉姆格雷扩展了其对数据密集型科学的看法，提出7个重要行动领域之一就是同国家医学图书馆支持生物科学一样，建立更多数字图书馆以支持其他科学。生物医学领域的数据量在飞速增长。欧洲分子生物实验室核酸序列数据库EMBL-Bank收到数据的速度每年递增200%；人类基因组计划2008年生产数据1万亿碱基对，2009年速率又翻一番；在生物医学文献编目中已经有1800万医学文章，每年增加接近百万篇。

美国国立医学图书馆的Entrez系统是美国国立医学图书馆建立的生命科学搜索引擎，它真正实现了数据和文献的交互性操作。用户可以在阅读论文的同时打开基因数据，跟随基因找到这个疾病，再回到文章（微软的WWT也实现了数据与文献的融合）。融合和交互操作可通过统一的链接、统一的标签和ID号实现。医学、生物学、心理学等学科领域的大型实验设备的实验型数据、人类基因数据中，有些由于观测和实验的不可重复性，有些由于时间、设备和经济等条件的限制，数据获取难度大，因此，数据的长期有效保存、科学管理、有条件共享和促进利用是极有意义和价值的一项工作。把全世界的数据都集成在一起，形成巨型的动态数据集，将诞生一个全球化的数据库。

5.国内专业图书馆的实践

专业图书馆的思考在实践方面，国内已经建立了一系列的科学数据平台，如科技部支持建设的科学数据共享工程等，但图书馆人员参与很少。在新的交流体系形成之际，专业图书馆应该深刻思考和研究支撑科研创造的信息服务环境；思考科研成果融合数据之后，形成的原始数据、派生数据和科学文献融为一体的新的信息环境下，如何提供信息和数据服务；研究数据科研基础设施建设和运行过程中信息机构的职责、作用和角色。从大量的数据中分析其潜在的价值将成为大数据时代图书馆的一大主要业务，并且提供这些业务的水平将决定着大数据时代图书馆的发展水平和方向。专业图书馆尤其要分析研究数据科学家的知识结构、基本素养、基本技能，并将此纳入培养计划加以实施，为未来社会提供所需人才。

㈣大数据分析的技术包括哪些

与传统的在线联机分析处理OLAP不同，对大数据的深度分析主要基于大规模的机版器学习技权术，一般而言，机器学习模型的训练过程可以归结为最优化定义于大规模训练数据上的目标函数并且通过一个循环迭代的算法实现。
1、编程语言：Python/R
2、数据库MySQL、MongoDB、Redis等
3、数据分析工具讲解、数值计算包、Pandas与数据库... 等
4、进阶：Matplotlib、时间序列分析/算法、机器学习... 等

㈤数据库问题：【站内发送消息】如何设计表结构

-- 一起4张表消息类别表,消息表,发送消息人员表,接收消息人员表
-- 至于会员要接收到信息后删除自己，其实可用标记处理而无作废，也就存在---回收站的概念，最后也可以彻底删除
-- 消息表单独拿出来不做任何处理,这样数据也不会冗余,发送人与接收人的处理分别可以单独处理
---------------消息类别表-----------------
TMessageType
FTypeID
FTypeName
FTypeMemo
---------------消息表---------------
TMessageInfo
FMessageID
FTypeName --(这里也不需要放置ID,为提高性能)直接放类别名称
FContent
FSendDate
---------------发送消息人员表-与消息表关联获取所有信息--------------
TSendMessage
FSendID --主键ID
FMessageID --TMessageInfo主键ID
FUserID --用户ID
FSendPerson --发送人
FCancel --是否作废标记，也可作为删除删除标记
---------------接收消息人员表-与消息表关联获取所有信息----
TReceiveMessage
FReceiveID
FMessageID
FUserID
FReadFtatus --是否读取
FCancel
-----------------用户表-----------------
TUserInfo(结构为你自己的)FUserID为主键ID

--SQL语句大概写法（我用SQLSERVER）
--1.发送所有人
INSERT INTO TReceiveMessage
(FMessageID,FUserID,FReadFtatus,FCancel)
SELECT FMessageID,FUserID ,0,0 --默认未读
FROM TUserInfo,TSendMessage
WHERE FSendID=@FSendID
--2.发送指定人
INSERT INTO TReceiveMessage
(FMessageID,FUserID,FReadFtatus,FCancel)
SELECT FMessageID,FUserID ,0,0 --默认未读
FROM TUserInfo,TSendMessage
WHERE FSendID=@FSendID AND FUserID=@FUserID
--TMessageInfo与其它2张消息表建立好主外键约束就行了

㈥大数据如何监测管理现代农业

大数据如何监测管理现代农业
随着海量信息的爆发，农业跨步迈入大数据时代。如同其他行业的大数据应用，通过技术手段获取、收集、分析数据，能够有效地解决农业生产和市场流通等问题。
在大数据的推动下，农业监测预警工作的思维方式和工作范式发生了根本性的变化，我国农产品监测预警信息处理和分析将向着系统化、集成化、智能化方向发展。本期嘉宾将带您了解大数据时代下，农产品监测预警如何运行以及未来面临的机遇。
大数据走进农业领域
数据库专家、图灵奖得主吉姆·格雷提出，数据密集型计算成为继试验科学、理论科学、计算科学之外的科学研究第四范式。大数据被学术界正式提出始于2008年9月《自然》杂志发表的“Big Data”系列专题文章，介绍了大数据应用所带来的挑战和机遇。
人们围绕研究数据的海量增加展开讨论。2011年，《科学》杂志刊登“Dealing with Data”专题，指出分析数据的能力远落后于获取数据的能力。
2012年3月，美国政府公布了“大数据研发计划”，基于大数据推动科研和创新。在我国，2012年5月香山科学会议第424次会议以“大数据”为主题，认为大数据时代已经来临，大数据已成为各行业共同面临的大问题。同年11月，香山科学会议第445次会议以“数据密集时代的科研信息化”为主题，讨论“大数据”时代的科研信息化问题。
这些事件都标志着“大数据”走入我们的生活。那么，大数据在农业中的应用如何？许世卫表示，“农业大数据是大数据在农业领域的应用和延展，是开展农产品监测预警工作的重要技术支撑。”
在他看来，农业大数据不仅保留了大数据自身具有的规模巨大、类型多样、价值密度低、处理速度快、精确度高和复杂度高等基本特征，还使得农业内部的信息流得到了延展和深化。
数据作为一种战略资源，可以有效地解决农业生产面临的复杂问题，从数据的获取、收集到分析，能够事半功倍地解决农业生产问题。
许世卫举例道，如通过传感器、作物本体检测手段，获取了土壤中的氮磷钾肥力等大量数据，对数据进行分析整理后可以有效指导农业生产中的施肥量、施肥时间等问题，进行合理规划，得出最合适的投入量，从而提高生产效率。
再如，大数据能够提前预测到未来市场的供给需求，可以有效降低生产投入并采取适当的措施进行智能化生产，对平抑物价起到调节作用。
大数据是监测预警的基础支撑
许世卫指出，农业大数据的数据获取、采集渠道和应用技术手段，无法通过人工调查得到数据，而需要依靠土壤传感器、环境传感器、作物长势生命本体传感器等手段支撑。由于技术更新、成本下降，使得农业有关生产市场流通等数据获取能力大幅提升。
“大数据使得农业进入全面感知时代，用总体替代样本成为可能；农业生产获得更多依靠数据的支撑，从此进入智慧农业时代；大量的数据可以优化生产布局，优化安排生产投入；大数据时代下，市场更有利于产销对接，在消费环节减少浪费以及减少产后损失。”许世卫说。
此外，大数据给农业的管理也带来变化。过去的农业管理主要依靠行政手段指导和安排生产，大数据有利于分析提取特征、总结趋势，通过市场信号的释放引导市场进而引导生产。
许世卫表示，农业大数据是现代化农业的高端管理工具。所谓监测预警就是监测数据，贯穿于农产品从生产到流通到消费到餐桌整个过程的产品流、物资流、资金流、信息流，使产销匹配、生产和运输匹配、生产和消费匹配。
农产品监测预警也是对农产品生产、市场运行、消费需求、进出口贸易及供需平衡等情况进行全产业链的数据采集、信息分析、预测预警与信息发布的全过程。
农产品监测预警还是现代农业稳定发展最重要的基础，大数据是做好监测预警工作的基础支撑。农业发展仍然面临着多重不安全因素，急需用大数据技术去突破困境。
这主要体现在：农业生产风险增加，急需提前获取灾害数据，早发现、早预警；农产品市场波动加剧，“过山车”式的暴涨暴跌时有发生，急需及时、全面、有效的信息，把握市场异常，稳定市场形势；食物安全事件频发，急需全程监管透明化，惩戒违规行为。
可以说，农产品监测预警对大数据的需求是迫切的。
农产品监测效果显著
农产品监测效果显著，大数据功不可没，主要体现在监测对象和内容更加细化、数据获取更加快捷、信息处理分析更加智能、数据服务更加精准等。
随着农业大数据的发展，数据粒度更加细化，农产品信息空间的表达更加充分，信息分析的内容和对象更加细化。
农业系统是一个包含自然、社会、经济和人类活动的复杂巨系统，在其中的生命体实时的“生长”出数据，呈现出生命体数字化的特征。农业物联网、无线网络传输等技术的蓬勃发展，极大地推动了监测数据的海量爆发，数据实现了由“传统静态”到“智能动态”的转变。
在大数据背景下，数据存储与分析能力将成为未来最重要的核心能力。未来人工智能、数据挖掘、机器学习、数学建模、深度学习等技术将被广泛应用，我国农产品监测预警信息处理和分析将向着系统化、集成化、智能化方向发展。
如中国农产品监测预警系统（China Agricultural Monitoring and Early Warning System，CAMES）已经在机理分析过程中实现了仿真化与智能化，做到了覆盖中国农产品市场上的953个主要品种，可以实现全天候即时性农产品信息监测与信息分析，用于不同区域不同产品的多类型分析预警。
在大数据的支撑下，智能预警系统通过自动获取农业对象特征信号，将特征信号自动传递给研判系统。研判系统通过对海量数据自动进行信息处理与分析判别，自动生成和显示结论结果，发现农产品信息流的流量和流向，在纷繁的信息中抽取农产品市场发展运行的规律。最终形成的农产品市场监测数据与深度分析报告，将为政府部门掌握生产、流通、消费、库存和贸易等产业链变化、调控稳定市场提供重要的决策支持。

㈦听清华大学教授讲科学研究的第四范式—基于大数据的研究

11月10日，周五，受谢教授和肖教授邀请，一起去了武大听大数据讲座。清华大学的一位80后教授—孟天广讲得很宏观很系统，简录如下。

观点：
1 大数据是种新研究方法，属于第四范式研究，不讲因果，只讲相关关系，通过相关关系来预测未来。
2大数据研究方法终结了传统的定量定性研究分野。
3大数据研究可视化，是优势。
4大数据研究方法也有一些批评：
方法批评、可行性批评、伦理批评。
5大数据研究方法使人文社科研究变得更有价值。出现一个新学科：计算人文社会科学，清华大学建立了一个新研究中心，招收双学位学生：大数据分析专业与其他专业。

导航:首页 > 网络数据 > 第四范式大数据

第四范式大数据

与第四范式大数据相关的资料

友情链接