Ⅰ 新冠不上传大数据是不是就是异常
新冠不上传大数据是异常。
因为新冠大数据是一直在更新的,只要有新情况就会第一时间显示,所以新冠不上传大数据一般就是异常了。
新冠一般指新型冠状病毒肺炎。新型冠状病毒肺炎(CoronaVirusDisease2019,COVID-19),简称“新冠肺炎”,世界卫生组织命名为“2019冠状病毒病”,是指2019新型冠状病毒感染导致的肺炎。2019年12月以来,湖北省武汉市部分医院陆续发现了多例有华南海鲜市场暴露史的不明原因肺炎病例,证实为2019新型冠状病毒感染引起的急性呼吸道传染病。
Ⅱ 20号以后那些省份疫情严重
大数据疫情观察(二):全国疫情高峰过了么?
腾景宏观金融大势研判
2022-12-23 17:23 · 来自北京
腾景宏观快报
2022年12月23日
大数据疫情观察(二):全国疫情高峰过了么?
—— 基于腾景AI高频模拟和预测
腾景高频和宏观研究团队
本期要点:
针对预测到底准不准,全国疫情是否已经见顶的问题,我们增加了28个城市的地铁客运量日度数据进行辅助判断。非网民样本的缺失可能会导致预测结果有偏。
大数据不完美,应用大数据做宏观经济预测并非完美无缺,我们分析了谷歌流感趋势何以失灵。原因可能包括:媒体对谷歌流感趋势(GFT)的大幅报道导致人们的搜索行为发生了变化,用户的搜索行为反过来也会影响GFT的预测结果。
当前全国疫情或尚未达峰,但是达峰进程可能会有所提前。借助地铁客运量数据进行辅助验证,我们判断北京、石家庄、武汉、重庆等城市已经度过疫情峰值,成都、天津、长沙、南京、西安等城市尚未达峰。
一、预测到底准不准?预期与现实相互验证
在上期《大数据疫情观察:中心城市率先迎来峰值》报告中,我们分析并给出了北京和河北部分城市疫情已经迎来“拐点”,成都、昆明等城市将陆续见顶的预测判断。根据网络搜索指数数据,北京网络“发烧”搜索指数持续下降,“咳嗽”搜索指数后于“发烧”见顶,这基本上印证了我们模型的预测。但是,我们也注意到2022年12月17日(上周六)全国范围内“发烧”指数见顶,这是否意味着全国疫情的见顶?如果这样,这个数据与一些防疫专家的春节前后见顶的判断就有所出入。也有专家认为全国疫情可能虽然尚未达峰,但是进程缩短了。
但根据字节跳动的“巨量算数”,抖音“发烧”搜索指数于12月17日见顶,但头条“发烧”搜索指数仍在震荡上行。在朋友圈广为传播的知乎“数据帝”的预测里面,2022年12月20日前后大部分省市相继达到感染高峰,那么,很多研究者都想确认的是,站在2022年12月23日,全国范围内的单日新增感染有没有达峰?有人认为预测很准,和自己这些天在互联网上对疫情的感知较为一致;有些人则认为不准,认为身边的亲戚朋友们都阳了,而预测进度条还不到一半,个人体感和预测结果有较大差异。
与此同时,我们注意到了在2022年12月16日前后,全国几乎所有城市、省份“发烧”搜索指数迎来了“先扬后抑”的脉冲式增长,后续日度数据再也没有高于16日当天的值。这意味着疫情最艰难的阶段已经度过了么?通过对网络、头条疫情病症搜索引擎数据进行数据挖掘和建模分析,可以为疫情未来趋势研判提供重要参考。不过我们理解,为了定量评价疫情进展,还需要引入更多数据。
由于没有权威数据作为参考,各类疫情的预测仅仅是基于直觉、推理或演绎的带有参数的模型预测,预测准不准,缺乏客观权威作为结果比较,所以很难客观衡量预测是否准确,只能通过参与这件预测的所有观众和读者通过微观的数据,周围疫情扩散程度去验证预测结果,一个城市不同群体感染的先后,不同城市感染达峰的节奏,都会对预测是否准确有不一样的理解。
模型有局限性,逻辑假设的适用性,缺乏权威数据作为验证,难道就不需要预测了吗?托马斯·库恩(Thomas Kuhn)和卡尔·波普尔(Karl Popper)就“科学哲学”这个概念展开了20世纪最具影响力的对峙。他们都以自己的方式深奥地从哲学的角度质疑科学的基本前提。库恩的《科学革命的结构》(The Structure of Scientific Revolutions)指出,即使现有的范式所预测的结果在现实中存在反例,现有的科学家也不会认为其范式有问题;只有可替代现有范式的新科学范式出现,并且反例达到了一定的数量,现有科学范式才可能被证伪,科学革命才会发生。从批判的角度来看对预测过程的否定也是发现新预测方法的过程。
量子基金的乔治·索罗斯(George Soros)推崇的哲学家卡尔·波普尔(Karl Popper)最著名的观点是科学是通过“可证伪性”(Falsifiability)进行的——人们无法证明假设是正确的,甚至无法通过归纳法获得真理的证据,但如果假设是错误的,则可以反驳它。根据波普尔的观点,只有可被经验证伪的理论体系才应被赋予真正的科学地位。因此,波普尔提倡大胆假设,用证伪的方式去不断试错,不断修正,而不是提出假说,然后到处找支持自己理论的根据。“证伪”也是索罗斯所一直推崇与实践的思考方式。
二、地铁客运量作为疫情达峰的重要辅助观察指标
因此,我们从疫情出发,回到经济,从多维度验证疫情的峰值。地铁客运量无疑是很好的观察指标,一个有地铁城市的客运量受若干因素影响:1、出行管制,2、出行意愿,3、地铁的便利程度。
从数据上来看,北京、上海作为全国地铁保有量最高的两个城市,也是日均客运量最高的两个城市,地铁数据较高的反映了疫情的高低,同时地铁客运量的日度数据公布滞后1-3天,还算比较及时,从数据收集角度看,地铁数据来自于物联网设备自动采集,人工干预的影响较小,数据具有充分的客观性,可以作为疫情的第二类主要观察变量。
图:上海地铁客运量
▲数据来源:Wind、腾景AI经济预测
上图是2019年12月至今的上海地铁客运量数据,比较明显的是2020年初的武汉疫情,2022年4月的上海疫情,和2022年12月的全国疫情。由于地铁客运量遵循周一至周五高,周六日低的原则,日度数据信息量有些冗余,后续我们通过比较周度平均数据,可以过滤短期的日内数据波动。
图:上海地铁客运量(7日移动平均)
▲数据来源:Wind、腾景AI经济预测
比较北京地铁客运量,也可以看出2022年4月,上海地铁停运7周左右,北京虽然没有停运,但周度地铁客运量均值从近三年日常的800万降低到100万以下。值得注意的是,2022年9月之后的北京地铁客运量明显低于上海,这一方面是疫情,另一方面也是北京地铁需要全网查验72小时核酸,11月24日进一步缩短到48小时,12月5日起这一政策被解除。
图:北京地铁客运量(7日移动平均)
▲数据来源:Wind、腾景AI经济预测
图:十大城市地铁客运量7日移动平均,协同性高度一致
▲数据来源:Wind、腾景AI经济预测
基于此数据,我们认为北京疫情高峰已过,但全国整体疫情高峰并非如网络搜索指数和头条指数显示的那样已经见顶,而是处于快速发展期。我们建立了四阶段数据模型,辅助验证各城市是否达峰。如下图所示,北京、武汉、重庆、沈阳、石家庄、兰州、昆明地铁客运量已经企稳回升,目前处于第四阶段;成都、天津、长春、郑州、广州、厦门、深圳、西安、上海、南京等城市仍处于达峰进程中的第三阶段。由于移动平均有可能会带来数据滞后,后面,我们用真实数据做了测试。
图:疫情扩散进程
▲数据来源:腾景AI经济预测
图:国内部分城市地铁客运量(7日移动平均)
注:十大城市是指:北京、上海、广州、成都、南京、武汉、西安、苏州、郑州、重庆,下同。
▲数据来源:Wind、腾景AI经济预测
在以日度为单位的疫情进展中,如果当天地铁出行数据出现回升,应该主要看两个数据,第一是同比(例如本周一,相较于上周一的客流量),第二看环比(例如今天相较于昨天的客流量)。
根据日度数据,北京地铁出行,无论是环比还是同比,均处于上行阶段,这与见顶判断一致,其他有可能见顶的是武汉、重庆、成都。而上海、广州、南京、苏州、西安等地铁客运量仍在持续下滑,这表明疫情仍在达峰进程中。
图:国内部分城市地铁客运量
▲数据来源:Wind、腾景AI经济预测
由于地铁客运量同比数据(相较于上周本日的数据)下滑严重,我们判断:上海、广州、南京、西安、苏州、郑州等城市的疫情仍在达峰进程中,北京、武汉、重庆同比转正,预计已度过疫情高峰。
图:28个城市地铁客运量及周度同比
▲数据来源:Wind、腾景AI经济预测
三、预期如何与现实相互影响?
放开疫情管制后的经验有很多,无论是疫情见顶的节奏,对消费,劳动参与率的影响,都有较多国家可以参考。这无疑给了我们一些预期,14亿人口的放开和中等规模人口国家放开又有所区别。国内传染病专家也在各类媒体上表示春节前后,明年一季度疫情达峰等等,释放这样的未来见顶信号。但是从北京和多数城市的感知中,疫情似乎见顶的早于我们的认知,那么到底哪里会出问题呢?
(一)政策指标失灵:古德哈特定律
当多数互联网参与者都知道网络搜索指数能够间接代表疫情的时候,它可能就不准了,在某种程度上,它就是古德哈特定律(Goodhart’s law)在疫情上的体现。古德哈特定律是出自于英国经济学家查尔斯·古德哈特(Charles Goodhart)的说法,指的是:当一个政策变成目标,它将不再是一个好的政策。其中一种解释为:一项社会指标或经济指标,一旦成为一个用以指引宏观政策制定的既定目标,那么该指标就会丧失其原本具有的信息价值。
毫无疑问,在大多数人不知道“网络疫情指数”的重要性的情况下,它大概率还是有效的,内涵逻辑为搜索量大数据间接反映了大部分的居民自发的网络搜索行为,“发烧”搜索在一定程度上和阳性有症状是一回事。但是,在官方媒体和自媒体都在报道的情况下,这一指标会引发更多的搜索,而这些搜索和疫情本身并没有关系,而是互联网流量带来的效应。
(二)网民搜索行为的偏移可能造成数据污染
我们比较了石家庄、兰州、北京、武汉、重庆、沈阳、昆明、成都、天津等城市的地铁客运量,发现都经历了政策放松而上行,疫情攀升客运量下行,疫情高峰度过再度上行这一数据变化模式。目前大部分城市仍处在疫情攀升客运量下行这一阶段,全国疫情的顶峰目前并没有到来,而网络指数给出的“发烧”搜索指数已经见顶,我们判断12月16日及之后的网络“发烧”搜索指数可能出现了异常,核心逻辑是12月16日(上周六),全国所有城市都出现了一个攀升,随后下降,这种能够同一时间影响所有城市的因素大概率不是以一定规律传播的病毒造成的,而是其他因素造成的数据“污染”。
(三)样本缺失:60岁及以上老年人非网民群体
我们知道网络指数(Bai Index)、头条指数(Toutiao Index)、微指数是基于海量网民行为数据进行数据挖掘分析的数据产品,因此非网民的行为数据自然被排除在研究样本之外。
中国互联网信息中心(CNNIC)2022年8月31日发布的第50次《中国互联网络发展状况统计报告》显示,截至2022年6月,我国非网民规模为3.62亿,这是一个不小的基数。从地区来看,我国非网民仍以农村地区为主,农村地区非网民占比为41.2%。从年龄来看,60岁及以上老年群体是非网民的主要群体。据此可见,非网民地域上主要分布在农村地区,年龄上以60岁及以上老年群体为主。
这个基数不小的非网民群体检索行为的缺失导致本来应该出现的检索结果游离于样本之外,导致“发烧”等病症搜索指数被低估。根据美国疾病控制与预防中心 (Centers for Disease Control and Prevention)的报告,患重症COVID-19的风险会随着年龄、残疾和基础疾病的增加而增加。在后期的奥密克戎期间(2022年4月-6月),大多数院内死亡发生在年龄≥65岁的成年人(81.9%)和患有三种或更多种基础疾病的人群(73.4%)中。
图:世界各国家和地区每日确诊的COVID-19病例(7日移动平均值)
注:由于检测有限,确诊病例数低于真实感染数,数据截至2022年12月21日
▲数据来源:约翰·霍普金斯大学CSSE COVID-19数据库,ourworldindata.org、腾景AI经济预测
图:世界各地区每日确诊的COVID-19病例(7 天滚动平均值)
注:由于检测有限,确诊病例数低于真实感染数,数据截至2022年12月21日
▲数据来源:约翰·霍普金斯大学CSSE COVID-19数据库,ourworldindata.org、腾景AI经济预测
(四)大数据不完美,谷歌流感趋势为何失灵?
早在1980年,未来学家阿尔温·托夫勒(Alvin Toffler)在《第三次浪潮》(The Third Wave)一书中,就提出了“大数据”(Big Data)的概念。自古至今,预测一直是人们十分期待的能力,而大数据预测则是数据最核心的应用,其逻辑是每一种非常规的变化事前一定有征兆,每一件事情都有迹可循,如果找到了征兆与变化之间的规律,就可以进行预测。
利用大数据方法和技术进行宏观经济研究和分析,在国际上已有先例。在大数据分析的视野中,它不仅仅是要搞清楚宏观统计规律,更要弄清宏观数据中的精细结构。基于研究的视角,大数据时代为宏观经济分析提供强大的支持,正在改变宏观经济研究范式。
各国央行等主流金融机构研发并采用即时预测模型以实时追踪经济状态的变化,在被大量社会化信息淹没前就找到可靠的信息源,从而动态地调整对经济指标的预期。包括纽约联储的Nowcasting模型、WEI模型、亚特兰大联储的GDPNow模型以及英格兰银行(BOE)的MIDAS模型等。
根据Didier Sornette教授的“龙王”理论,极端事件的发生有两个条件:系统的一致性与协同性。当系统的一致性非常强时,黑天鹅式的极端事件容易发生。当系统的一致性和协同性同时加强时,会发生超越“黑天鹅”(Black swan theory)的更极端的“龙王”事件。
“黑天鹅”也好,“龙王”也好,都不是孤立的事件,而是一系列强烈关联的事件,体现了正反馈的强大作用。什么时候股市可以预测?关键就在于股市变化前后关联的程度。
2008年谷歌推出的Google Flu Trends系统,其动机是能够及早发现疾病活动并迅速做出反应可以减少季节性流感和大流行性流感的影响,通过分析收集到的大量Google搜索查询,以揭示人群中是否存在流感样疾病。这个逻辑和想法其实很简单直观——如果你生病了,你很可能会在搜索引擎上搜索以查找信息,比如如何治疗。谷歌决定要跟踪这些搜索,并使用这些数据来尝试和预测流感流行,甚至在疾病控制中心(CDC)等医疗机构能够做到之前。
2009年通过谷歌累积的海量搜索数据,“谷歌流感趋势”成功预测了H1N1流感在美国境内的传播,一战成名。有报告指出,谷歌流感趋势能够在美国疾病控制和预防中心(CDC)报告流感爆发前10天预测区域性流感爆发。GFT这种预测能力显然具有重大的社会意义,可以为整个社会提前控制传染病疫情赢得先机。
于是谷歌在其网站上创建了一个奇特的方程式来计算出究竟有多少人感染了流感。简单理解的数据逻辑是这样的:人们的位置+谷歌上与流感相关的搜索查询+一些非常聪明的算法=美国流感患者的数量。
线性模型用于计算流感样疾病(Influenza-like illness, ILI)就诊的对数几率和(ILI)相关搜索查询的对数几率:
P是医生就诊访问的百分比,Q是在前面的步骤中计算的与ILI相关的查询分数。β0是截距,β1是系数,ε而是误差项。
谷歌流感趋势已被证明不是一直准确的,尤其是在2011年至2013年期间,它高估了相对流感发病率,并且在2012年至2013年流感季节的一个时间段内预测就诊次数是CDC记录的两倍。2013年《自然》杂志发表的一篇文章称,谷歌流感趋势将流感病例高估了约50%。
可以看到,应用大数据做宏观经济预测并非完美无缺。经济学家、作家Tim Harford认为,“谷歌流感趋势的失败凸显了不受约束的经验主义的危险”。对GFT失败的一种解释是,新闻中充斥着关于2012年12月流感媒体恐慌情绪,而这些报道激起了健康人的互联网搜索行为。
图:谷歌流感趋势ILI估计与CDC估计的比较
▲数据来源:Improving Google Flu Trends Estimates for the United States through Transformation, Leah J Martin, Biying Xu, Yutaka Yasui, 腾景AI经济预测
2013年,谷歌调整了算法,并回应称出现偏差的“罪魁祸首”是媒体对GFT的大幅报道导致人们的搜索行为发生了变化。GFT也似乎没有考虑引入专业的健康医疗数据以及专家经验,同时也并未对用户搜索数据进行“清洗”和“去噪”。谷歌在2011年之后推出“推荐相关搜索词”,也就是我们今天很熟悉的搜索关联词模式。研究人员分析,这些调整有可能人为推高了一些搜索指数,并导致对流行发病率的高估。举例来说,当用户搜索“发烧”,谷歌会同时给出“喉咙痛和发烧”、“如何治疗喉咙痛”等关联推荐词,这时用户可能会出于好奇等原因进行点击,造成用户使用的关键词并非用户本意的现象,从而影响GFT搜索数据的准确性。用户的搜索行为反过来也会影响GFT的预测结果。在充斥媒体报道和用户主观信息的搜索引擎的喧嚣世界里,也同样存在“预测即干涉”悖论。国内搜索引擎指数上大概率也会出现类似的情况,这是我们结合GFT的经验对预期差异给出的一种解释。
图:巨量算数“发烧”关联搜索词
▲数据来源:巨量算数、腾景AI经济预测
(本文执笔:吴卫、赵宕涵;编辑:何峰峰)
参考文献
[1] CNNIC:第50次《中国互联网络发展状况统计报告》
[2]https://www.cnnic.net.cn/NMediaFile/2022/0926/MAIN1664183425619U2MS433V3V.pdf
[3] Adjei S, Hong K, Molinari NM, et al. Mortality Risk Among Patients Hospitalized Primarily for COVID-19 During the Omicron and Delta Variant Pandemic Periods — United States, April 2020–June 2022. MMWR Morb Mortal Wkly Rep 2022;71:1182–1189. DOI:
[4]http://dx.doi.org/10.15585/mmwr.mm7137a4
[5]https://ourworldindata.org/grapher/daily-cases-covid-region?stackMode=relative
[6] Lazer, D., R. Kennedy, G. King, and A. Vespignani. 2014. “The Parable of Google Flu: Traps in Big Data Analysis.” Science 343 (6176) (March 14): 1203–1205.
更多重磅研究成果请关注公众号“腾景AI经济预测”。
搜索
天津感染高峰预测
天津死了多少新冠患者
全国疫情死亡总人数
中国疫情已死多少人
中央下达疫情最新政策
全国疫情最新消息
Ⅲ 大数据挖掘技术涉及哪些内容
大数据挖掘技术涉及的主要内容有:模式跟踪,数据清理和准备,基于分类的数据挖掘技术,异常值检测,关联,聚类。
基于大环境下的数据特点,挖掘技术与对应:
1.数据来源多, 大数据挖掘的研究对象往往不只涉及一个业务系统, 肯定是多个系统的融合分析, 因此,需要强大的ETL技术, 将多个系统的数据整合到一起, 并且, 多个系统的数据可能标准不同, 需要清洗。
2.数据的维度高, 整合起来的数据就不只传统数据挖掘的那一些维度了, 可能成百上千维, 这需要降维技术了。
3.大数据量的计算, 在单台服务器上是计算不了的, 这就需要用分布式计算, 所以要掌握各种分布式计算框架, 像hadoop, spark之类, 需要掌握机器学习算法的分布式实现。
数据挖掘:目前,还需要改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
想了解更多大数据挖掘技术,请关注CDA数据分析课程。CDA(Certified Data Analyst),即“CDA 数据分析”,是在数字经济大背景和人工智能时代趋势下,面向全行业的专业权威国际资格认证,旨在提升全民数字技能,助力企业数字化转型,推动行业数字化发展。国家发展战略的要求,岗位人才的缺口以及市场规模的带动,都从不同方面体现了数据分析师职业的重要性。大数据挖掘技术的学习,有利于提高人在职场的信誉度,增加职场竞争力,提高自己的经济地位。点击预约免费试听课。
Ⅳ 大数据是如何融入并改变我们的生活
大数据是如何融入并改变我们的生活
随着互联网以及各种智能设备的发展,人们的行为、位置、生理特征等等,无时无刻不在生成数据被这些设备所采集,然后通过网络源源不断的传输,在计算机上将有型的数据转化为无形的财富,融入人们的生活每个角落。
曾经有这样一个事情,美国明尼苏达地区有一男子向一家零售商店的店长投诉,称该公司最近给他十几岁的女儿邮寄婴儿服装和孕妇服装的优惠券。店长大方的向他道了歉。后来这个女孩的确怀孕了。可见大数据的无所不在,这家商店通过分析女儿购买无味湿纸巾和补镁药品的记录就猜到了。
有人把大数据形容为未来世界的石油,有人宣称掌握大数据的人可以像上帝一样俯瞰整个世界,美国政府甚至已经把对大数据的研究上升为国家战略。衣、食、住、行,大数据都能派上用场。大数据海量、多变、多样,与传统数据不可同日而语。
百货行业精准的广告投放
对零售业来说,大数据来自于消费者在数字世界的痕迹——网购记录、社交网络的行踪的集合,它们为理解消费者的行为提供了依据。比如,在网上买了一些衣服,在之后的一段时间,网页两侧的广告栏里不断出现与购买的衣服类似的服装的广告。
美国的百货店Kohl’s,曾贴出告示,让消费者进入商店后用手机搜索Kohl’s的折扣信息。当我溜达到某个柜台时,一张刚才搜索过但没买的商品的折扣券就会发到我的手机上。这当然会让商店卖出商品的几率增加,因为消费者在消费现场更容易被促销广告打动;据统计,70%的人会更乐于在这时收到折价券。这样既不会对消费者造成困扰,又可以使销售量上升。
食品行业个性化的定制
大数据在食品行业的应用悄然兴起。于是Co.Design版块的可视化数据设计师格斯·文茨瑞克(Gus Wezerek)和作家马克·威尔逊(Mark Wilson)与一家食品业资讯公司Food Genius一起合作,研究了8万8千份菜单和5千9百万个菜品制作出了这份美国各州最有特色的食品图表。
图表显示出每个州最有特色、独一无二的菜品。图表中还体现出了各地区5大类特别的饮食爱好。Food Genius还可以告诉餐馆什么样的描述最吸引客人,可以提升价格。什么样的配料组合可以最大化利润
大数据寻找人们最爱的房屋
谷歌住房搜索查询量变化可对住房市场发展趋势进行预测,得益于大数据分析的成功运用。前些年,有机构根据搜索量,对于不同地区的美国人喜欢的房屋进行了统计,调查中也出现了一些让人意想不到的结果。
比如康涅狄格州滑雪度假屋的搜索超过了科罗拉多等州,佛罗里达“顶层公寓”的搜索量也高于纽约。这些数据可以帮助房屋中介和地产商们知道人们更愿意住什么样的房屋,便可以投其所好的推荐和建造。
大数据带来出行新体验
对于汽车巨头福特公司,大数据则是在图纸设计出来之前就发挥了作用。新产品开发团队想知道新款休旅车的后门应该做成手动打开还是还是脚踏电动后门。用传统方式调查,结果不明朗。于是福特团队从社交网络上搜集大量信息后发现,人们都喜欢电动后门,这就成了福特的决策依据。
说到出行一定离不开地图,位于纽约的Citimap开发的社交地图为该领域带来新的活力,它展示的是一个基于社会关系的地图,用户可以在Citimap APP上创造自己的地图并与朋友分享,情侣可以创造他们的幽会地点,买手们可以创建购物地图,美食爱好者可以创造美食地图等等。与O2O相比,这样的地图数据更鲜活,更有针对性。
可以说我们正在经历着大数据的时代,是一次重大的时代转型,其信息风暴正在变革着人们的生活、工作和思维。在这场革新中我们会遇到困难,比如数据安全,隐私问题。但随着各项制度的明确,政府的推动和企业的自律,相信在我们未来的生活中,感受到更多的是大数据为我们生活带来的便捷和舒适。
以上是小编为大家分享的关于大数据是如何融入并改变我们的生活的相关内容,更多信息可以关注环球青藤分享更多干货
Ⅳ 大数据挖掘常用的方法有哪些
1. Analytic Visualizations(可视化分析)
不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。
2. Data Mining Algorithms(数据挖掘算法)
可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。
3. Predictive Analytic Capabilities(预测性分析能力)
数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。
4. Semantic Engines(语义引擎)
由于非结构化数据的多样性带来了数据分析的新的挑战,需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。
5. Data Quality and Master Data Management(数据质量和数据管理)
数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。
Ⅵ SAP系统的SD、MM、PP、FI、CO模块分别代表什么意思尼
SD(销售与分销),积极支援销售和分销活动,具有出色的定价、订单快速处理、按时交货,交互式多层次可变配置功能,并直接与盈利分析和生产计划模组连接。
MM(物料管理),以工作流程为导向的处理功能对所有采购处理最佳化,可自动评估供应商,透过精确的库存和仓储管理降低采购和仓储成本,并与发票核查相整合。
PP(生产计划),提供各种制造类型的全面处理:从重覆性生产、订制生产、订装生产,加工制造、批量及订存生产直至过程生产,具有扩展MPRⅡ的功能。FI(财务会计),集中公司有关会计的所有资料,提供完整的文献和全面的资讯,同时作为企业实行控制和规划的最新基础。
CO(管理会计),是公司管理系统中规划与控制工具的完整体系,具有统一的报表系统,协调公司内部处理业务的内容和过程。
(6)co大数据扩展阅读
SAP系统的优点
1、SAP是全球所有ERP产品中对企业构架和财务控制考虑得最细致的系统,也是整体控制逻辑和整体系统结构是最严谨的系统,可以让企业引进先进的管理理念;
2、对产品在各种行业的适用性考虑得最多的系统,既应用的行业最广;
3、SAP系统是整体稳定性最好的系统;
4、 应用最广的产品。它集成性好,财务、物资、项目、设备、人力资源等等功能都具备;
5、可以进行事前很好的控制,国内软件一般都是事后控制。
6、SAP有针对不同行业的解决方案,也有适合中小型企业的产品,如SAP Business One,SAP All-in-One,和云产品SAP Business ByDesign。
Ⅶ cognos怎么处理大数据
浅谈一下Cognos处理大数据的思路,仅针对10.2.1以下的版本,对于10.2.1当中引入的hadloop等分布式数据仓库等不做介绍。我们主要从一个一般中等项目当中,用怎样的思路来优化我们的查询。
我们主要从3个思路来思考大数据的处理
一、数据库层次
现在主流的Cognos项目,主要的开发模式还是基于rolap的dmr报表建模。因此,数据库的优化就显得由为重要。主要通过以下几个方面优化我们的数据库:
(1)维度id,维度层次id等关键减缩字段建立索引建立、维护。
(2)根据数据量的大小,按时间等进行分区优化。
(3)高速缓冲表MQT的使用
(4)表空间、缓冲池设置等
(5)数据库性能优化
二、Cognos Server优化
Cognos优化包括对配置文件的优化,集群的搭建,服务和日志的开启等基于cognos 软件安装,配置的优化,主要包括以下几个方面:
2.1 apache 配置优化
Timeout(超时)/MaxKeepAliveRequests(最大的请求数)/KeepAliveTimeout(请求超时)的优化配置
2.2Cognos自带tomcat配置调优
(1)可修改TOMCAT配置文件CRN_ROOT\tomcat.\conf\server.xml。其参数集中在行:
可以对maxProcessors(最大进程数)/AcceptCount(最大连接数) ConnectionTimeout(连接超时)进行修改
(2)文件路径:CRN_ROOT\tomcat.\conf\web.xml
可以对session-timeout进行修改.
2.3Cognos sever配置文件优化
2.3.1 reportservice.xml优化
文件路径:CRN_ROOT\ webapps\p2pd\WEB-INF\services\ reportservice.xml
注:修改文件后,重启服务后配置生效。
包括以下参数 max_process(交互报表处理进程数,和cpu有关) inger_process(交互报表初始化进程数,和cpu优关)
max_non_affine_connections_per_process(交互报表所占线程数) idle_process_check_interval_ms(空闲检测时间)
queue_time_limit_ms(报表服务队列时间限制) async_wait_timeout_ms(Dispatcher请求等待同步时间)
2.3.2 batchreportservice.xml
文件路径:CRN_ROOT\ webapps\p2pd\WEB-INF\services\ batchreportservice.xml
注:修改文件后,重启服务后配置生效。
包括以下参数 max_process(服务批量报表处理所占进程数) linger_process(服务批量报表处理初始化进程数)
max_non_affine_connections_per_process(服务批量报表处理所占线程数) idle_process_check_interval_ms(空闲进程检测时间间隔)
idle_process_max_idle_ticks(空闲进程检测标记) queue_time_limit_ms(批量报表处理排队时间限制) async_wait_timeout_ms(Dispatcher请求等待同步时间)
2.3.3 CQEConfig.xml
主要是与数据库参数设置,文件路径:CRN_ROOT\configuration\ CQEConfig.xml.sample
注:将CQEConfig.xml.sample文件名修改为CQEConfig.xml后,重启服务后配置生效。
可以修改以下参数:Timeout(应用数据库连接超时设置) PoolSize(应用数据库连接池最大连接数设置) queryReuse(查询缓冲设置)
2013-07-08 0
分享
答案对人有帮助,有参考价值1
曾力 - Cognos讲师、Cognos独立顾问、数据仓库架构师 2013-07-08 回答
2.3.4 ppds_cfg.xml
主要进行缓存和日志参数设置,文件路径:\cognos\c8\configuration\ ppds_cfg.xml
注:重启服务后配置生效。
可以修改以下参数:ReadCacheSize(可减少用户访问时服务器的磁盘IO。提高访问速度。) pcQueryLogFile(建议生产环境关闭该日志的跟踪,一般默认也是关闭状态)
2.4 Cognos content store优化
2.4.1优化内容库连接服务
内容库最好外配为db2 oracle等数据库,不要用自带的derby.因为项目中的日志信息会非常多,严重影响内容库的效率。
Cognos Administration,在系统下选择选择对应的服务,选择ContentManagerService的属性,设置相应的连接参数信息。
2.4.2日志优化
适当开启各个cognos服务的日志级别,越高级的级别对应更详细,更明确的日志,但也会影响整个系统的效率。
这是一把双刃剑,需要适当调整。日志级别设置得越高,就越降低系统性能。通常情况下,您可以将级别设置为
“最小”或“基本”来收集错误,或设置为“请求”来收集错误和警告。
2.5提高访问数据库速度
Cognos和数据库间参数在cer\bin\cogdm.ini文件中,(根据版本不同是安装目录的数字,根据连接的数据库不同,是对应数据库名称的关键字)
以oracle数据库为例,参数在cogdmor.ini文件中,打开这个文件查找字符串Fetch Number of Rows=去掉这行前面的分号,将10改成2000;
这样这行就成了Fetch Number of Rows=2000,表示是每次从数据库取2000条数据。其他数据库基本上都有类似的配置。用以提高从数据库中提取数据的速度。
2.6加大缓存
cer\bin\Cer.ini(*根据版本不同是安装目录的数字):
SortMemory=5120
(这里 SortMemory 单位是 2kbytes,5120代表 2k x 5120 = 10M)(技巧:一般 SortMemory 取空闲内存的十分之一到八分之一大小)
2.7修改cognos configuration中的参数来优化
在cognos configuration中有很多参数可以优化来提高整体软件的运行效率,比如增加内存、增加查询缓存
2.8分布式部署
分布式部署可以大大提升Cognos服务器的负载能力,同时容错保护功能可以使服务器更为稳定的运行,很好的支持大用户量的并发使用。
2013-07-08 0
答案对人有帮助,有参考价值1
曾力 - Cognos讲师、Cognos独立顾问、数据仓库架构师 2013-07-08 回答
3.报表设计优化
Cognos报表作为一个工具,在非cube模式下,最终我们执行报表查询的时候,我们的报表发送到数据库进行查询的本质还是sql,所以,在我们制作一张报表的时候,我们要尽可能的利用fm,rs当中的功能,优化报表最终执行生成的SQL实现整个报表的优化。而CUBE模式下,我们更多要考虑配置、存放和数据库大小所造成的影响,下面我会细细说来。
2013-07-08 0
答案对人有帮助,有参考价值1
曾力 - Cognos讲师、Cognos独立顾问、数据仓库架构师 2013-07-08 回答
3.1 FM建模优化
3.1.1手写SQL定制查询主题
右键点击查询主题的菜单项Edit Definition…可以进入SQL语句编写框,调整查询主题的SQL语句。默认情况下,这里的SQL语句为Cognos SQL类型。如果需要编写应用数据库可以直接运行的本地SQL需要将这里的SQL类型进行设置。点击右上方的Options按钮,选择SQL Settings标签页,选择SQL Type为Native。这个时候,我们手写SQL就非常注重这个SQL的优化,尽量避免SELECT *,用EXISTS替代IN,多使用DECODE来进行判断,条件语句注意点等常用SQL优化策略,编写对应的SQL.
3.1.2尽量使用特定数据的数据库函数
在菜单项Actions中选择Specify Package Function List…指定报表定制中可以使用的数据库函数列表。将除应用数据库意外的其他数据库类型从Selected function sets中选到Available function sets中,尽量使用特定数据库的自带函数可以提高查询效率。
3.1.3表关联设定
在建立表关联尽量避免使用外关联关系(包括左外关联、右外关联、全外关联)。外关联的使用会使数据库的查询压力骤增,从而影响前端报表的生成。在星型结构、雪花型结构的数据仓库模型中,尽量按照一对一、一对多的关联关系设定维表与实事表之间的关联,Cognos Server会依照这里的关联关系自动优化提交给数据库的SQL语句。如果关联关系中出现了环状连接关系,可以通过别名表或是快捷键的方式解决环状连接问题.
3.1.4Edit Governors查询性能设置
在菜单项Project中选择Edit Governors,可以设置查询的查询性能
Report table limits 该属性设置报表中运行SQL所涉及的TABLE数量
Data retrieval limits 该属性设置报表中运行SQL返回结果的数量
Query execution time limits 该属性设置报表中运行SQL的执行时间
Large text items limit 该属性设置报表中运行SQL返回大文字块的字符数量限制
2013-07-08 0
答案对人有帮助,有参考价值1
曾力 - Cognos讲师、Cognos独立顾问、数据仓库架构师 2013-07-08 回答
3.2 RS报表调优
3.2.1报表函数的使用
在报表函数的使用上,尽可能使用应用数据库能够解析的本地数据库函数,函数列表中的通用函数,在处理时会将函数放在报表服务器进行运算,从而增大了报表服务器的性能开销。
3.2.2 观察查询的SQL
我们选择查询页面,GENERATE SQL/MDX观察这个报表生成的SQL并进行不断优化,
3.3.33.2 RS报表调优
3.2.1报表函数的使用
在报表函数的使用上,尽可能使用应用数据库能够解析的本地数据库函数,函数列表中的通用函数,在处理时会将函数放在报表服务器进行运算,从而增大了报表服务器的性能开销。
3.2.2 观察查询的SQL
我们选择查询页面,GENERATE SQL/MDX观察这个报表生成的SQL并进行不断优化,
3.3.3查询字段、查询表顺序调整
根据数据库的优化策略,可能需要将查询字段的顺序进行调整,可以在Data Items窗口中进行设置。查询SQL语句中,From关键字后面的表顺序是按照select关键字后出现的字段顺序进行设置的。在为表顺序进行设置时,属性为Identifier或Attribute的字段比属性为Fact的字段在为表排序时的优先级要高,即,先以Identifier、Attribute字段的出现顺序为表进行排序,如果没有上述两类字段,才以Fact字段的出现顺序为表进行排序。
3.3.4聚合前后设置过滤条件
将过滤条件的Application属性设置为After aggregation或Before aggregation可以调整过滤条件在聚合前或是聚合后生效。After aggregation生成过滤条件的SQL语句使用的是关键字having,而Before aggregation生成过滤条件的SQL语句使用的是关键字where。
3.3.5取消报表自动分组提高明细报表查询速度
如果报表要展现明细数据,不想使用任何汇总,我们可以到此报表对应的查询中将自动分组属性定义为否。修改地方:对象的属性Auto Group & Summarize可以设置当前SQL语句的查询中是否加入distinct、sum、group by这样的关键字。默认情况下,该属性设置为Yes,可以根据查询情况关掉此开关项,减少SQL语句的复杂度。
3.3.6自动排序设置
在Query的Auto-sort属性中可以为查询设置是否自动排序。如果选择是,则会在生成的SQL语句中自动加入Order By关键字,排序字段将自动根据数据项的属性进行设置(如果查询字段的usage属性为Attribute、Identifier则排序,如果为Fact则不排序);如果选择否、则不排序;如果选择最小,则根据数据项的排序属性进行排序设置。默认值为最小。
3.3.7报表Processing设置
在Query的Processing属性中可以为查询设置SQL的处理设置。Cognos Report Studio会将报表的所有设置首先转换为Cognos SQL提交给报表服务器,服务器在进行必要处理后,会将SQL语句转换为应用数据库本地执行的SQL语句,进行数据库处理。为提高报表的处理速度,要尽可能的将报表的处理运算放在数据库进行,以保证其运行速度。将该属性设置为Database only会将报表页面生成的Cognos SQL不经报表服务器处理全部转换为数据库能够执行的本地数据库SQL,如果将该属性设置为Limited Local,则将报表页面生成的Cognos SQL先进行必要的报表服务器运算,然后再将剩余的部分提交给数据库进行本地SQL的处理。默认值为Framework中为Datasource对象的设置的queryProcessing属性。
3.3.8使用With子句
在Query的Use SQL With Clause属性中可以为查询设置是否使用With子句。部分数据库例如Oracle支持With关键字,当查询中嵌套子查询时,可以通过With子句的使用,减轻报表服务器对Cognos SQL的处理,从而提升报表的运行性能。如果将该属性设置为Yes,则允许使用With关键字,查询中生成的Native SQL将出现With子句;如果将该属性设置为No,虽然拒绝使用With关键字。默认值为Framework中Edit Governors下的Use WITH clause when generating SQL属性设置。
3.3.9报表服务器本地缓存设置
在Query的Use Local Cache属性中可以为查询设置是否使用本地缓存。如果将该属性设置为Yes,则启用服务器的本地缓存,服务器将为查询结果保存在session中,当用户在浏览器内再次打开同一张报表时,查询结果将取自缓存,从而减轻了数据库的负载压力;如果将该属性设置为No,则禁用服务器的本地缓存,查询结果全部取自数据库的实时数据。默认值为Framework中Edit Governors下的Allow usage of local cache属性设置。
我用的是finereport,比这个方便