Ⅰ 新冠不上傳大數據是不是就是異常
新冠不上傳大數據是異常。
因為新冠大數據是一直在更新的,只要有新情況就會第一時間顯示,所以新冠不上傳大數據一般就是異常了。
新冠一般指新型冠狀病毒肺炎。新型冠狀病毒肺炎(CoronaVirusDisease2019,COVID-19),簡稱「新冠肺炎」,世界衛生組織命名為「2019冠狀病毒病」,是指2019新型冠狀病毒感染導致的肺炎。2019年12月以來,湖北省武漢市部分醫院陸續發現了多例有華南海鮮市場暴露史的不明原因肺炎病例,證實為2019新型冠狀病毒感染引起的急性呼吸道傳染病。
Ⅱ 20號以後那些省份疫情嚴重
大數據疫情觀察(二):全國疫情高峰過了么?
騰景宏觀金融大勢研判
2022-12-23 17:23 · 來自北京
騰景宏觀快報
2022年12月23日
大數據疫情觀察(二):全國疫情高峰過了么?
—— 基於騰景AI高頻模擬和預測
騰景高頻和宏觀研究團隊
本期要點:
針對預測到底准不準,全國疫情是否已經見頂的問題,我們增加了28個城市的地鐵客運量日度數據進行輔助判斷。非網民樣本的缺失可能會導致預測結果有偏。
大數據不完美,應用大數據做宏觀經濟預測並非完美無缺,我們分析了谷歌流感趨勢何以失靈。原因可能包括:媒體對谷歌流感趨勢(GFT)的大幅報道導致人們的搜索行為發生了變化,用戶的搜索行為反過來也會影響GFT的預測結果。
當前全國疫情或尚未達峰,但是達峰進程可能會有所提前。藉助地鐵客運量數據進行輔助驗證,我們判斷北京、石家莊、武漢、重慶等城市已經度過疫情峰值,成都、天津、長沙、南京、西安等城市尚未達峰。
一、預測到底准不準?預期與現實相互驗證
在上期《大數據疫情觀察:中心城市率先迎來峰值》報告中,我們分析並給出了北京和河北部分城市疫情已經迎來「拐點」,成都、昆明等城市將陸續見頂的預測判斷。根據網路搜索指數數據,北京網路「發燒」搜索指數持續下降,「咳嗽」搜索指數後於「發燒」見頂,這基本上印證了我們模型的預測。但是,我們也注意到2022年12月17日(上周六)全國范圍內「發燒」指數見頂,這是否意味著全國疫情的見頂?如果這樣,這個數據與一些防疫專家的春節前後見頂的判斷就有所出入。也有專家認為全國疫情可能雖然尚未達峰,但是進程縮短了。
但根據位元組跳動的「巨量算數」,抖音「發燒」搜索指數於12月17日見頂,但頭條「發燒」搜索指數仍在震盪上行。在朋友圈廣為傳播的知乎「數據帝」的預測裡面,2022年12月20日前後大部分省市相繼達到感染高峰,那麼,很多研究者都想確認的是,站在2022年12月23日,全國范圍內的單日新增感染有沒有達峰?有人認為預測很准,和自己這些天在互聯網上對疫情的感知較為一致;有些人則認為不準,認為身邊的親戚朋友們都陽了,而預測進度條還不到一半,個人體感和預測結果有較大差異。
與此同時,我們注意到了在2022年12月16日前後,全國幾乎所有城市、省份「發燒」搜索指數迎來了「先揚後抑」的脈沖式增長,後續日度數據再也沒有高於16日當天的值。這意味著疫情最艱難的階段已經度過了么?通過對網路、頭條疫情病症搜索引擎數據進行數據挖掘和建模分析,可以為疫情未來趨勢研判提供重要參考。不過我們理解,為了定量評價疫情進展,還需要引入更多數據。
由於沒有權威數據作為參考,各類疫情的預測僅僅是基於直覺、推理或演繹的帶有參數的模型預測,預測准不準,缺乏客觀權威作為結果比較,所以很難客觀衡量預測是否准確,只能通過參與這件預測的所有觀眾和讀者通過微觀的數據,周圍疫情擴散程度去驗證預測結果,一個城市不同群體感染的先後,不同城市感染達峰的節奏,都會對預測是否准確有不一樣的理解。
模型有局限性,邏輯假設的適用性,缺乏權威數據作為驗證,難道就不需要預測了嗎?托馬斯·庫恩(Thomas Kuhn)和卡爾·波普爾(Karl Popper)就「科學哲學」這個概念展開了20世紀最具影響力的對峙。他們都以自己的方式深奧地從哲學的角度質疑科學的基本前提。庫恩的《科學革命的結構》(The Structure of Scientific Revolutions)指出,即使現有的範式所預測的結果在現實中存在反例,現有的科學家也不會認為其範式有問題;只有可替代現有範式的新科學範式出現,並且反例達到了一定的數量,現有科學範式才可能被證偽,科學革命才會發生。從批判的角度來看對預測過程的否定也是發現新預測方法的過程。
量子基金的喬治·索羅斯(George Soros)推崇的哲學家卡爾·波普爾(Karl Popper)最著名的觀點是科學是通過「可證偽性」(Falsifiability)進行的——人們無法證明假設是正確的,甚至無法通過歸納法獲得真理的證據,但如果假設是錯誤的,則可以反駁它。根據波普爾的觀點,只有可被經驗證偽的理論體系才應被賦予真正的科學地位。因此,波普爾提倡大膽假設,用證偽的方式去不斷試錯,不斷修正,而不是提出假說,然後到處找支持自己理論的根據。「證偽」也是索羅斯所一直推崇與實踐的思考方式。
二、地鐵客運量作為疫情達峰的重要輔助觀察指標
因此,我們從疫情出發,回到經濟,從多維度驗證疫情的峰值。地鐵客運量無疑是很好的觀察指標,一個有地鐵城市的客運量受若干因素影響:1、出行管制,2、出行意願,3、地鐵的便利程度。
從數據上來看,北京、上海作為全國地鐵保有量最高的兩個城市,也是日均客運量最高的兩個城市,地鐵數據較高的反映了疫情的高低,同時地鐵客運量的日度數據公布滯後1-3天,還算比較及時,從數據收集角度看,地鐵數據來自於物聯網設備自動採集,人工干預的影響較小,數據具有充分的客觀性,可以作為疫情的第二類主要觀察變數。
圖:上海地鐵客運量
▲數據來源:Wind、騰景AI經濟預測
上圖是2019年12月至今的上海地鐵客運量數據,比較明顯的是2020年初的武漢疫情,2022年4月的上海疫情,和2022年12月的全國疫情。由於地鐵客運量遵循周一至周五高,周六日低的原則,日度數據信息量有些冗餘,後續我們通過比較周度平均數據,可以過濾短期的日內數據波動。
圖:上海地鐵客運量(7日移動平均)
▲數據來源:Wind、騰景AI經濟預測
比較北京地鐵客運量,也可以看出2022年4月,上海地鐵停運7周左右,北京雖然沒有停運,但周度地鐵客運量均值從近三年日常的800萬降低到100萬以下。值得注意的是,2022年9月之後的北京地鐵客運量明顯低於上海,這一方面是疫情,另一方面也是北京地鐵需要全網查驗72小時核酸,11月24日進一步縮短到48小時,12月5日起這一政策被解除。
圖:北京地鐵客運量(7日移動平均)
▲數據來源:Wind、騰景AI經濟預測
圖:十大城市地鐵客運量7日移動平均,協同性高度一致
▲數據來源:Wind、騰景AI經濟預測
基於此數據,我們認為北京疫情高峰已過,但全國整體疫情高峰並非如網路搜索指數和頭條指數顯示的那樣已經見頂,而是處於快速發展期。我們建立了四階段數據模型,輔助驗證各城市是否達峰。如下圖所示,北京、武漢、重慶、沈陽、石家莊、蘭州、昆明地鐵客運量已經企穩回升,目前處於第四階段;成都、天津、長春、鄭州、廣州、廈門、深圳、西安、上海、南京等城市仍處於達峰進程中的第三階段。由於移動平均有可能會帶來數據滯後,後面,我們用真實數據做了測試。
圖:疫情擴散進程
▲數據來源:騰景AI經濟預測
圖:國內部分城市地鐵客運量(7日移動平均)
註:十大城市是指:北京、上海、廣州、成都、南京、武漢、西安、蘇州、鄭州、重慶,下同。
▲數據來源:Wind、騰景AI經濟預測
在以日度為單位的疫情進展中,如果當天地鐵出行數據出現回升,應該主要看兩個數據,第一是同比(例如本周一,相較於上周一的客流量),第二看環比(例如今天相較於昨天的客流量)。
根據日度數據,北京地鐵出行,無論是環比還是同比,均處於上行階段,這與見頂判斷一致,其他有可能見頂的是武漢、重慶、成都。而上海、廣州、南京、蘇州、西安等地鐵客運量仍在持續下滑,這表明疫情仍在達峰進程中。
圖:國內部分城市地鐵客運量
▲數據來源:Wind、騰景AI經濟預測
由於地鐵客運量同比數據(相較於上周本日的數據)下滑嚴重,我們判斷:上海、廣州、南京、西安、蘇州、鄭州等城市的疫情仍在達峰進程中,北京、武漢、重慶同比轉正,預計已度過疫情高峰。
圖:28個城市地鐵客運量及周度同比
▲數據來源:Wind、騰景AI經濟預測
三、預期如何與現實相互影響?
放開疫情管制後的經驗有很多,無論是疫情見頂的節奏,對消費,勞動參與率的影響,都有較多國家可以參考。這無疑給了我們一些預期,14億人口的放開和中等規模人口國家放開又有所區別。國內傳染病專家也在各類媒體上表示春節前後,明年一季度疫情達峰等等,釋放這樣的未來見頂信號。但是從北京和多數城市的感知中,疫情似乎見頂的早於我們的認知,那麼到底哪裡會出問題呢?
(一)政策指標失靈:古德哈特定律
當多數互聯網參與者都知道網路搜索指數能夠間接代表疫情的時候,它可能就不準了,在某種程度上,它就是古德哈特定律(Goodhart』s law)在疫情上的體現。古德哈特定律是出自於英國經濟學家查爾斯·古德哈特(Charles Goodhart)的說法,指的是:當一個政策變成目標,它將不再是一個好的政策。其中一種解釋為:一項社會指標或經濟指標,一旦成為一個用以指引宏觀政策制定的既定目標,那麼該指標就會喪失其原本具有的信息價值。
毫無疑問,在大多數人不知道「網路疫情指數」的重要性的情況下,它大概率還是有效的,內涵邏輯為搜索量大數據間接反映了大部分的居民自發的網路搜索行為,「發燒」搜索在一定程度上和陽性有症狀是一回事。但是,在官方媒體和自媒體都在報道的情況下,這一指標會引發更多的搜索,而這些搜索和疫情本身並沒有關系,而是互聯網流量帶來的效應。
(二)網民搜索行為的偏移可能造成數據污染
我們比較了石家莊、蘭州、北京、武漢、重慶、沈陽、昆明、成都、天津等城市的地鐵客運量,發現都經歷了政策放鬆而上行,疫情攀升客運量下行,疫情高峰度過再度上行這一數據變化模式。目前大部分城市仍處在疫情攀升客運量下行這一階段,全國疫情的頂峰目前並沒有到來,而網路指數給出的「發燒」搜索指數已經見頂,我們判斷12月16日及之後的網路「發燒」搜索指數可能出現了異常,核心邏輯是12月16日(上周六),全國所有城市都出現了一個攀升,隨後下降,這種能夠同一時間影響所有城市的因素大概率不是以一定規律傳播的病毒造成的,而是其他因素造成的數據「污染」。
(三)樣本缺失:60歲及以上老年人非網民群體
我們知道網路指數(Bai Index)、頭條指數(Toutiao Index)、微指數是基於海量網民行為數據進行數據挖掘分析的數據產品,因此非網民的行為數據自然被排除在研究樣本之外。
中國互聯網信息中心(CNNIC)2022年8月31日發布的第50次《中國互聯網路發展狀況統計報告》顯示,截至2022年6月,我國非網民規模為3.62億,這是一個不小的基數。從地區來看,我國非網民仍以農村地區為主,農村地區非網民佔比為41.2%。從年齡來看,60歲及以上老年群體是非網民的主要群體。據此可見,非網民地域上主要分布在農村地區,年齡上以60歲及以上老年群體為主。
這個基數不小的非網民群體檢索行為的缺失導致本來應該出現的檢索結果游離於樣本之外,導致「發燒」等病症搜索指數被低估。根據美國疾病控制與預防中心 (Centers for Disease Control and Prevention)的報告,患重症COVID-19的風險會隨著年齡、殘疾和基礎疾病的增加而增加。在後期的奧密克戎期間(2022年4月-6月),大多數院內死亡發生在年齡≥65歲的成年人(81.9%)和患有三種或更多種基礎疾病的人群(73.4%)中。
圖:世界各國家和地區每日確診的COVID-19病例(7日移動平均值)
註:由於檢測有限,確診病例數低於真實感染數,數據截至2022年12月21日
▲數據來源:約翰·霍普金斯大學CSSE COVID-19資料庫,ourworldindata.org、騰景AI經濟預測
圖:世界各地區每日確診的COVID-19病例(7 天滾動平均值)
註:由於檢測有限,確診病例數低於真實感染數,數據截至2022年12月21日
▲數據來源:約翰·霍普金斯大學CSSE COVID-19資料庫,ourworldindata.org、騰景AI經濟預測
(四)大數據不完美,谷歌流感趨勢為何失靈?
早在1980年,未來學家阿爾溫·托夫勒(Alvin Toffler)在《第三次浪潮》(The Third Wave)一書中,就提出了「大數據」(Big Data)的概念。自古至今,預測一直是人們十分期待的能力,而大數據預測則是數據最核心的應用,其邏輯是每一種非常規的變化事前一定有徵兆,每一件事情都有跡可循,如果找到了徵兆與變化之間的規律,就可以進行預測。
利用大數據方法和技術進行宏觀經濟研究和分析,在國際上已有先例。在大數據分析的視野中,它不僅僅是要搞清楚宏觀統計規律,更要弄清宏觀數據中的精細結構。基於研究的視角,大數據時代為宏觀經濟分析提供強大的支持,正在改變宏觀經濟研究範式。
各國央行等主流金融機構研發並採用即時預測模型以實時追蹤經濟狀態的變化,在被大量社會化信息淹沒前就找到可靠的信息源,從而動態地調整對經濟指標的預期。包括紐約聯儲的Nowcasting模型、WEI模型、亞特蘭大聯儲的GDPNow模型以及英格蘭銀行(BOE)的MIDAS模型等。
根據Didier Sornette教授的「龍王」理論,極端事件的發生有兩個條件:系統的一致性與協同性。當系統的一致性非常強時,黑天鵝式的極端事件容易發生。當系統的一致性和協同性同時加強時,會發生超越「黑天鵝」(Black swan theory)的更極端的「龍王」事件。
「黑天鵝」也好,「龍王」也好,都不是孤立的事件,而是一系列強烈關聯的事件,體現了正反饋的強大作用。什麼時候股市可以預測?關鍵就在於股市變化前後關聯的程度。
2008年穀歌推出的Google Flu Trends系統,其動機是能夠及早發現疾病活動並迅速做出反應可以減少季節性流感和大流行性流感的影響,通過分析收集到的大量Google搜索查詢,以揭示人群中是否存在流感樣疾病。這個邏輯和想法其實很簡單直觀——如果你生病了,你很可能會在搜索引擎上搜索以查找信息,比如如何治療。谷歌決定要跟蹤這些搜索,並使用這些數據來嘗試和預測流感流行,甚至在疾病控制中心(CDC)等醫療機構能夠做到之前。
2009年通過谷歌累積的海量搜索數據,「谷歌流感趨勢」成功預測了H1N1流感在美國境內的傳播,一戰成名。有報告指出,谷歌流感趨勢能夠在美國疾病控制和預防中心(CDC)報告流感爆發前10天預測區域性流感爆發。GFT這種預測能力顯然具有重大的社會意義,可以為整個社會提前控制傳染病疫情贏得先機。
於是谷歌在其網站上創建了一個奇特的方程式來計算出究竟有多少人感染了流感。簡單理解的數據邏輯是這樣的:人們的位置+谷歌上與流感相關的搜索查詢+一些非常聰明的演算法=美國流感患者的數量。
線性模型用於計算流感樣疾病(Influenza-like illness, ILI)就診的對數幾率和(ILI)相關搜索查詢的對數幾率:
P是醫生就診訪問的百分比,Q是在前面的步驟中計算的與ILI相關的查詢分數。β0是截距,β1是系數,ε而是誤差項。
谷歌流感趨勢已被證明不是一直准確的,尤其是在2011年至2013年期間,它高估了相對流感發病率,並且在2012年至2013年流感季節的一個時間段內預測就診次數是CDC記錄的兩倍。2013年《自然》雜志發表的一篇文章稱,谷歌流感趨勢將流感病例高估了約50%。
可以看到,應用大數據做宏觀經濟預測並非完美無缺。經濟學家、作家Tim Harford認為,「谷歌流感趨勢的失敗凸顯了不受約束的經驗主義的危險」。對GFT失敗的一種解釋是,新聞中充斥著關於2012年12月流感媒體恐慌情緒,而這些報道激起了健康人的互聯網搜索行為。
圖:谷歌流感趨勢ILI估計與CDC估計的比較
▲數據來源:Improving Google Flu Trends Estimates for the United States through Transformation, Leah J Martin, Biying Xu, Yutaka Yasui, 騰景AI經濟預測
2013年,谷歌調整了演算法,並回應稱出現偏差的「罪魁禍首」是媒體對GFT的大幅報道導致人們的搜索行為發生了變化。GFT也似乎沒有考慮引入專業的健康醫療數據以及專家經驗,同時也並未對用戶搜索數據進行「清洗」和「去噪」。谷歌在2011年之後推出「推薦相關搜索詞」,也就是我們今天很熟悉的搜索關聯詞模式。研究人員分析,這些調整有可能人為推高了一些搜索指數,並導致對流行發病率的高估。舉例來說,當用戶搜索「發燒」,谷歌會同時給出「喉嚨痛和發燒」、「如何治療喉嚨痛」等關聯推薦詞,這時用戶可能會出於好奇等原因進行點擊,造成用戶使用的關鍵詞並非用戶本意的現象,從而影響GFT搜索數據的准確性。用戶的搜索行為反過來也會影響GFT的預測結果。在充斥媒體報道和用戶主觀信息的搜索引擎的喧囂世界裡,也同樣存在「預測即干涉」悖論。國內搜索引擎指數上大概率也會出現類似的情況,這是我們結合GFT的經驗對預期差異給出的一種解釋。
圖:巨量算數「發燒」關聯搜索詞
▲數據來源:巨量算數、騰景AI經濟預測
(本文執筆:吳衛、趙宕涵;編輯:何峰峰)
參考文獻
[1] CNNIC:第50次《中國互聯網路發展狀況統計報告》
[2]https://www.cnnic.net.cn/NMediaFile/2022/0926/MAIN1664183425619U2MS433V3V.pdf
[3] Adjei S, Hong K, Molinari NM, et al. Mortality Risk Among Patients Hospitalized Primarily for COVID-19 During the Omicron and Delta Variant Pandemic Periods — United States, April 2020–June 2022. MMWR Morb Mortal Wkly Rep 2022;71:1182–1189. DOI:
[4]http://dx.doi.org/10.15585/mmwr.mm7137a4
[5]https://ourworldindata.org/grapher/daily-cases-covid-region?stackMode=relative
[6] Lazer, D., R. Kennedy, G. King, and A. Vespignani. 2014. 「The Parable of Google Flu: Traps in Big Data Analysis.」 Science 343 (6176) (March 14): 1203–1205.
更多重磅研究成果請關注公眾號「騰景AI經濟預測」。
搜索
天津感染高峰預測
天津死了多少新冠患者
全國疫情死亡總人數
中國疫情已死多少人
中央下達疫情最新政策
全國疫情最新消息
Ⅲ 大數據挖掘技術涉及哪些內容
大數據挖掘技術涉及的主要內容有:模式跟蹤,數據清理和准備,基於分類的數據挖掘技術,異常值檢測,關聯,聚類。
基於大環境下的數據特點,挖掘技術與對應:
1.數據來源多, 大數據挖掘的研究對象往往不只涉及一個業務系統, 肯定是多個系統的融合分析, 因此,需要強大的ETL技術, 將多個系統的數據整合到一起, 並且, 多個系統的數據可能標准不同, 需要清洗。
2.數據的維度高, 整合起來的數據就不只傳統數據挖掘的那一些維度了, 可能成百上千維, 這需要降維技術了。
3.大數據量的計算, 在單台伺服器上是計算不了的, 這就需要用分布式計算, 所以要掌握各種分布式計算框架, 像hadoop, spark之類, 需要掌握機器學習演算法的分布式實現。
數據挖掘:目前,還需要改進已有數據挖掘和機器學習技術;開發數據網路挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術;突破基於對象的數據連接、相似性連接等大數據融合技術;突破用戶興趣分析、網路行為分析、情感語義分析等面向領域的大數據挖掘技術。
想了解更多大數據挖掘技術,請關注CDA數據分析課程。CDA(Certified Data Analyst),即「CDA 數據分析」,是在數字經濟大背景和人工智慧時代趨勢下,面向全行業的專業權威國際資格認證,旨在提升全民數字技能,助力企業數字化轉型,推動行業數字化發展。國家發展戰略的要求,崗位人才的缺口以及市場規模的帶動,都從不同方面體現了數據分析師職業的重要性。大數據挖掘技術的學習,有利於提高人在職場的信譽度,增加職場競爭力,提高自己的經濟地位。點擊預約免費試聽課。
Ⅳ 大數據是如何融入並改變我們的生活
大數據是如何融入並改變我們的生活
隨著互聯網以及各種智能設備的發展,人們的行為、位置、生理特徵等等,無時無刻不在生成數據被這些設備所採集,然後通過網路源源不斷的傳輸,在計算機上將有型的數據轉化為無形的財富,融入人們的生活每個角落。
曾經有這樣一個事情,美國明尼蘇達地區有一男子向一家零售商店的店長投訴,稱該公司最近給他十幾歲的女兒郵寄嬰兒服裝和孕婦服裝的優惠券。店長大方的向他道了歉。後來這個女孩的確懷孕了。可見大數據的無所不在,這家商店通過分析女兒購買無味濕紙巾和補鎂葯品的記錄就猜到了。
有人把大數據形容為未來世界的石油,有人宣稱掌握大數據的人可以像上帝一樣俯瞰整個世界,美國政府甚至已經把對大數據的研究上升為國家戰略。衣、食、住、行,大數據都能派上用場。大數據海量、多變、多樣,與傳統數據不可同日而語。
百貨行業精準的廣告投放
對零售業來說,大數據來自於消費者在數字世界的痕跡——網購記錄、社交網路的行蹤的集合,它們為理解消費者的行為提供了依據。比如,在網上買了一些衣服,在之後的一段時間,網頁兩側的廣告欄里不斷出現與購買的衣服類似的服裝的廣告。
美國的百貨店Kohl』s,曾貼出告示,讓消費者進入商店後用手機搜索Kohl』s的折扣信息。當我溜達到某個櫃台時,一張剛才搜索過但沒買的商品的折扣券就會發到我的手機上。這當然會讓商店賣出商品的幾率增加,因為消費者在消費現場更容易被促銷廣告打動;據統計,70%的人會更樂於在這時收到折價券。這樣既不會對消費者造成困擾,又可以使銷售量上升。
食品行業個性化的定製
大數據在食品行業的應用悄然興起。於是Co.Design版塊的可視化數據設計師格斯·文茨瑞克(Gus Wezerek)和作家馬克·威爾遜(Mark Wilson)與一家食品業資訊公司Food Genius一起合作,研究了8萬8千份菜單和5千9百萬個菜品製作出了這份美國各州最有特色的食品圖表。
圖表顯示出每個州最有特色、獨一無二的菜品。圖表中還體現出了各地區5大類特別的飲食愛好。Food Genius還可以告訴餐館什麼樣的描述最吸引客人,可以提升價格。什麼樣的配料組合可以最大化利潤
大數據尋找人們最愛的房屋
谷歌住房搜索查詢量變化可對住房市場發展趨勢進行預測,得益於大數據分析的成功運用。前些年,有機構根據搜索量,對於不同地區的美國人喜歡的房屋進行了統計,調查中也出現了一些讓人意想不到的結果。
比如康涅狄格州滑雪度假屋的搜索超過了科羅拉多等州,佛羅里達「頂層公寓」的搜索量也高於紐約。這些數據可以幫助房屋中介和地產商們知道人們更願意住什麼樣的房屋,便可以投其所好的推薦和建造。
大數據帶來出行新體驗
對於汽車巨頭福特公司,大數據則是在圖紙設計出來之前就發揮了作用。新產品開發團隊想知道新款休旅車的後門應該做成手動打開還是還是腳踏電動後門。用傳統方式調查,結果不明朗。於是福特團隊從社交網路上搜集大量信息後發現,人們都喜歡電動後門,這就成了福特的決策依據。
說到出行一定離不開地圖,位於紐約的Citimap開發的社交地圖為該領域帶來新的活力,它展示的是一個基於社會關系的地圖,用戶可以在Citimap APP上創造自己的地圖並與朋友分享,情侶可以創造他們的幽會地點,買手們可以創建購物地圖,美食愛好者可以創造美食地圖等等。與O2O相比,這樣的地圖數據更鮮活,更有針對性。
可以說我們正在經歷著大數據的時代,是一次重大的時代轉型,其信息風暴正在變革著人們的生活、工作和思維。在這場革新中我們會遇到困難,比如數據安全,隱私問題。但隨著各項制度的明確,政府的推動和企業的自律,相信在我們未來的生活中,感受到更多的是大數據為我們生活帶來的便捷和舒適。
以上是小編為大家分享的關於大數據是如何融入並改變我們的生活的相關內容,更多信息可以關注環球青藤分享更多干貨
Ⅳ 大數據挖掘常用的方法有哪些
1. Analytic Visualizations(可視化分析)
不管是對數據分析專家還是普通用戶,數據可視化是數據分析工具最基本的要求。可視化可以直觀的展示數據,讓數據自己說話,讓觀眾聽到結果。
2. Data Mining Algorithms(數據挖掘演算法)
可視化是給人看的,數據挖掘就是給機器看的。集群、分割、孤立點分析還有其他的演算法讓我們深入數據內部,挖掘價值。這些演算法不僅要處理大數據的量,也要處理大數據的速度。
3. Predictive Analytic Capabilities(預測性分析能力)
數據挖掘可以讓分析員更好的理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。
4. Semantic Engines(語義引擎)
由於非結構化數據的多樣性帶來了數據分析的新的挑戰,需要一系列的工具去解析,提取,分析數據。語義引擎需要被設計成能夠從「文檔」中智能提取信息。
5. Data Quality and Master Data Management(數據質量和數據管理)
數據質量和數據管理是一些管理方面的最佳實踐。通過標准化的流程和工具對數據進行處理可以保證一個預先定義好的高質量的分析結果。
Ⅵ SAP系統的SD、MM、PP、FI、CO模塊分別代表什麼意思尼
SD(銷售與分銷),積極支援銷售和分銷活動,具有出色的定價、訂單快速處理、按時交貨,互動式多層次可變配置功能,並直接與盈利分析和生產計劃模組連接。
MM(物料管理),以工作流程為導向的處理功能對所有采購處理最佳化,可自動評估供應商,透過精確的庫存和倉儲管理降低采購和倉儲成本,並與發票核查相整合。
PP(生產計劃),提供各種製造類型的全面處理:從重覆性生產、訂制生產、訂裝生產,加工製造、批量及訂存生產直至過程生產,具有擴展MPRⅡ的功能。FI(財務會計),集中公司有關會計的所有資料,提供完整的文獻和全面的資訊,同時作為企業實行控制和規劃的最新基礎。
CO(管理會計),是公司管理系統中規劃與控制工具的完整體系,具有統一的報表系統,協調公司內部處理業務的內容和過程。
(6)co大數據擴展閱讀
SAP系統的優點
1、SAP是全球所有ERP產品中對企業構架和財務控制考慮得最細致的系統,也是整體控制邏輯和整體系統結構是最嚴謹的系統,可以讓企業引進先進的管理理念;
2、對產品在各種行業的適用性考慮得最多的系統,既應用的行業最廣;
3、SAP系統是整體穩定性最好的系統;
4、 應用最廣的產品。它集成性好,財務、物資、項目、設備、人力資源等等功能都具備;
5、可以進行事前很好的控制,國內軟體一般都是事後控制。
6、SAP有針對不同行業的解決方案,也有適合中小型企業的產品,如SAP Business One,SAP All-in-One,和雲產品SAP Business ByDesign。
Ⅶ cognos怎麼處理大數據
淺談一下Cognos處理大數據的思路,僅針對10.2.1以下的版本,對於10.2.1當中引入的hadloop等分布式數據倉庫等不做介紹。我們主要從一個一般中等項目當中,用怎樣的思路來優化我們的查詢。
我們主要從3個思路來思考大數據的處理
一、資料庫層次
現在主流的Cognos項目,主要的開發模式還是基於rolap的dmr報表建模。因此,資料庫的優化就顯得由為重要。主要通過以下幾個方面優化我們的資料庫:
(1)維度id,維度層次id等關鍵減縮欄位建立索引建立、維護。
(2)根據數據量的大小,按時間等進行分區優化。
(3)高速緩沖表MQT的使用
(4)表空間、緩沖池設置等
(5)資料庫性能優化
二、Cognos Server優化
Cognos優化包括對配置文件的優化,集群的搭建,服務和日誌的開啟等基於cognos 軟體安裝,配置的優化,主要包括以下幾個方面:
2.1 apache 配置優化
Timeout(超時)/MaxKeepAliveRequests(最大的請求數)/KeepAliveTimeout(請求超時)的優化配置
2.2Cognos自帶tomcat配置調優
(1)可修改TOMCAT配置文件CRN_ROOT\tomcat.\conf\server.xml。其參數集中在行:
可以對maxProcessors(最大進程數)/AcceptCount(最大連接數) ConnectionTimeout(連接超時)進行修改
(2)文件路徑:CRN_ROOT\tomcat.\conf\web.xml
可以對session-timeout進行修改.
2.3Cognos sever配置文件優化
2.3.1 reportservice.xml優化
文件路徑:CRN_ROOT\ webapps\p2pd\WEB-INF\services\ reportservice.xml
註:修改文件後,重啟服務後配置生效。
包括以下參數 max_process(交互報表處理進程數,和cpu有關) inger_process(交互報表初始化進程數,和cpu優關)
max_non_affine_connections_per_process(交互報表所佔線程數) idle_process_check_interval_ms(空閑檢測時間)
queue_time_limit_ms(報表服務隊列時間限制) async_wait_timeout_ms(Dispatcher請求等待同步時間)
2.3.2 batchreportservice.xml
文件路徑:CRN_ROOT\ webapps\p2pd\WEB-INF\services\ batchreportservice.xml
註:修改文件後,重啟服務後配置生效。
包括以下參數 max_process(服務批量報表處理所佔進程數) linger_process(服務批量報表處理初始化進程數)
max_non_affine_connections_per_process(服務批量報表處理所佔線程數) idle_process_check_interval_ms(空閑進程檢測時間間隔)
idle_process_max_idle_ticks(空閑進程檢測標記) queue_time_limit_ms(批量報表處理排隊時間限制) async_wait_timeout_ms(Dispatcher請求等待同步時間)
2.3.3 CQEConfig.xml
主要是與資料庫參數設置,文件路徑:CRN_ROOT\configuration\ CQEConfig.xml.sample
註:將CQEConfig.xml.sample文件名修改為CQEConfig.xml後,重啟服務後配置生效。
可以修改以下參數:Timeout(應用資料庫連接超時設置) PoolSize(應用資料庫連接池最大連接數設置) queryReuse(查詢緩沖設置)
2013-07-08 0
分享
答案對人有幫助,有參考價值1
曾力 - Cognos講師、Cognos獨立顧問、數據倉庫架構師 2013-07-08 回答
2.3.4 ppds_cfg.xml
主要進行緩存和日誌參數設置,文件路徑:\cognos\c8\configuration\ ppds_cfg.xml
註:重啟服務後配置生效。
可以修改以下參數:ReadCacheSize(可減少用戶訪問時伺服器的磁碟IO。提高訪問速度。) pcQueryLogFile(建議生產環境關閉該日誌的跟蹤,一般默認也是關閉狀態)
2.4 Cognos content store優化
2.4.1優化內容庫連接服務
內容庫最好外配為db2 oracle等資料庫,不要用自帶的derby.因為項目中的日誌信息會非常多,嚴重影響內容庫的效率。
Cognos Administration,在系統下選擇選擇對應的服務,選擇ContentManagerService的屬性,設置相應的連接參數信息。
2.4.2日誌優化
適當開啟各個cognos服務的日誌級別,越高級的級別對應更詳細,更明確的日誌,但也會影響整個系統的效率。
這是一把雙刃劍,需要適當調整。日誌級別設置得越高,就越降低系統性能。通常情況下,您可以將級別設置為
「最小」或「基本」來收集錯誤,或設置為「請求」來收集錯誤和警告。
2.5提高訪問資料庫速度
Cognos和資料庫間參數在cer\bin\cogdm.ini文件中,(根據版本不同是安裝目錄的數字,根據連接的資料庫不同,是對應資料庫名稱的關鍵字)
以oracle資料庫為例,參數在cogdmor.ini文件中,打開這個文件查找字元串Fetch Number of Rows=去掉這行前面的分號,將10改成2000;
這樣這行就成了Fetch Number of Rows=2000,表示是每次從資料庫取2000條數據。其他資料庫基本上都有類似的配置。用以提高從資料庫中提取數據的速度。
2.6加大緩存
cer\bin\Cer.ini(*根據版本不同是安裝目錄的數字):
SortMemory=5120
(這里 SortMemory 單位是 2kbytes,5120代表 2k x 5120 = 10M)(技巧:一般 SortMemory 取空閑內存的十分之一到八分之一大小)
2.7修改cognos configuration中的參數來優化
在cognos configuration中有很多參數可以優化來提高整體軟體的運行效率,比如增加內存、增加查詢緩存
2.8分布式部署
分布式部署可以大大提升Cognos伺服器的負載能力,同時容錯保護功能可以使伺服器更為穩定的運行,很好的支持大用戶量的並發使用。
2013-07-08 0
答案對人有幫助,有參考價值1
曾力 - Cognos講師、Cognos獨立顧問、數據倉庫架構師 2013-07-08 回答
3.報表設計優化
Cognos報表作為一個工具,在非cube模式下,最終我們執行報表查詢的時候,我們的報表發送到資料庫進行查詢的本質還是sql,所以,在我們製作一張報表的時候,我們要盡可能的利用fm,rs當中的功能,優化報表最終執行生成的SQL實現整個報表的優化。而CUBE模式下,我們更多要考慮配置、存放和資料庫大小所造成的影響,下面我會細細說來。
2013-07-08 0
答案對人有幫助,有參考價值1
曾力 - Cognos講師、Cognos獨立顧問、數據倉庫架構師 2013-07-08 回答
3.1 FM建模優化
3.1.1手寫SQL定製查詢主題
右鍵點擊查詢主題的菜單項Edit Definition…可以進入SQL語句編寫框,調整查詢主題的SQL語句。默認情況下,這里的SQL語句為Cognos SQL類型。如果需要編寫應用資料庫可以直接運行的本地SQL需要將這里的SQL類型進行設置。點擊右上方的Options按鈕,選擇SQL Settings標簽頁,選擇SQL Type為Native。這個時候,我們手寫SQL就非常注重這個SQL的優化,盡量避免SELECT *,用EXISTS替代IN,多使用DECODE來進行判斷,條件語句注意點等常用SQL優化策略,編寫對應的SQL.
3.1.2盡量使用特定數據的資料庫函數
在菜單項Actions中選擇Specify Package Function List…指定報表定製中可以使用的資料庫函數列表。將除應用資料庫意外的其他資料庫類型從Selected function sets中選到Available function sets中,盡量使用特定資料庫的自帶函數可以提高查詢效率。
3.1.3表關聯設定
在建立表關聯盡量避免使用外關聯關系(包括左外關聯、右外關聯、全外關聯)。外關聯的使用會使資料庫的查詢壓力驟增,從而影響前端報表的生成。在星型結構、雪花型結構的數據倉庫模型中,盡量按照一對一、一對多的關聯關系設定維表與實事表之間的關聯,Cognos Server會依照這里的關聯關系自動優化提交給資料庫的SQL語句。如果關聯關系中出現了環狀連接關系,可以通過別名表或是快捷鍵的方式解決環狀連接問題.
3.1.4Edit Governors查詢性能設置
在菜單項Project中選擇Edit Governors,可以設置查詢的查詢性能
Report table limits 該屬性設置報表中運行SQL所涉及的TABLE數量
Data retrieval limits 該屬性設置報表中運行SQL返回結果的數量
Query execution time limits 該屬性設置報表中運行SQL的執行時間
Large text items limit 該屬性設置報表中運行SQL返回大文字塊的字元數量限制
2013-07-08 0
答案對人有幫助,有參考價值1
曾力 - Cognos講師、Cognos獨立顧問、數據倉庫架構師 2013-07-08 回答
3.2 RS報表調優
3.2.1報表函數的使用
在報表函數的使用上,盡可能使用應用資料庫能夠解析的本地資料庫函數,函數列表中的通用函數,在處理時會將函數放在報表伺服器進行運算,從而增大了報表伺服器的性能開銷。
3.2.2 觀察查詢的SQL
我們選擇查詢頁面,GENERATE SQL/MDX觀察這個報表生成的SQL並進行不斷優化,
3.3.33.2 RS報表調優
3.2.1報表函數的使用
在報表函數的使用上,盡可能使用應用資料庫能夠解析的本地資料庫函數,函數列表中的通用函數,在處理時會將函數放在報表伺服器進行運算,從而增大了報表伺服器的性能開銷。
3.2.2 觀察查詢的SQL
我們選擇查詢頁面,GENERATE SQL/MDX觀察這個報表生成的SQL並進行不斷優化,
3.3.3查詢欄位、查詢表順序調整
根據資料庫的優化策略,可能需要將查詢欄位的順序進行調整,可以在Data Items窗口中進行設置。查詢SQL語句中,From關鍵字後面的表順序是按照select關鍵字後出現的欄位順序進行設置的。在為表順序進行設置時,屬性為Identifier或Attribute的欄位比屬性為Fact的欄位在為表排序時的優先順序要高,即,先以Identifier、Attribute欄位的出現順序為表進行排序,如果沒有上述兩類欄位,才以Fact欄位的出現順序為表進行排序。
3.3.4聚合前後設置過濾條件
將過濾條件的Application屬性設置為After aggregation或Before aggregation可以調整過濾條件在聚合前或是聚合後生效。After aggregation生成過濾條件的SQL語句使用的是關鍵字having,而Before aggregation生成過濾條件的SQL語句使用的是關鍵字where。
3.3.5取消報表自動分組提高明細報表查詢速度
如果報表要展現明細數據,不想使用任何匯總,我們可以到此報表對應的查詢中將自動分組屬性定義為否。修改地方:對象的屬性Auto Group & Summarize可以設置當前SQL語句的查詢中是否加入distinct、sum、group by這樣的關鍵字。默認情況下,該屬性設置為Yes,可以根據查詢情況關掉此開關項,減少SQL語句的復雜度。
3.3.6自動排序設置
在Query的Auto-sort屬性中可以為查詢設置是否自動排序。如果選擇是,則會在生成的SQL語句中自動加入Order By關鍵字,排序欄位將自動根據數據項的屬性進行設置(如果查詢欄位的usage屬性為Attribute、Identifier則排序,如果為Fact則不排序);如果選擇否、則不排序;如果選擇最小,則根據數據項的排序屬性進行排序設置。默認值為最小。
3.3.7報表Processing設置
在Query的Processing屬性中可以為查詢設置SQL的處理設置。Cognos Report Studio會將報表的所有設置首先轉換為Cognos SQL提交給報表伺服器,伺服器在進行必要處理後,會將SQL語句轉換為應用資料庫本地執行的SQL語句,進行資料庫處理。為提高報表的處理速度,要盡可能的將報表的處理運算放在資料庫進行,以保證其運行速度。將該屬性設置為Database only會將報表頁面生成的Cognos SQL不經報表伺服器處理全部轉換為資料庫能夠執行的本地資料庫SQL,如果將該屬性設置為Limited Local,則將報表頁面生成的Cognos SQL先進行必要的報表伺服器運算,然後再將剩餘的部分提交給資料庫進行本地SQL的處理。默認值為Framework中為Datasource對象的設置的queryProcessing屬性。
3.3.8使用With子句
在Query的Use SQL With Clause屬性中可以為查詢設置是否使用With子句。部分資料庫例如Oracle支持With關鍵字,當查詢中嵌套子查詢時,可以通過With子句的使用,減輕報表伺服器對Cognos SQL的處理,從而提升報表的運行性能。如果將該屬性設置為Yes,則允許使用With關鍵字,查詢中生成的Native SQL將出現With子句;如果將該屬性設置為No,雖然拒絕使用With關鍵字。默認值為Framework中Edit Governors下的Use WITH clause when generating SQL屬性設置。
3.3.9報表伺服器本地緩存設置
在Query的Use Local Cache屬性中可以為查詢設置是否使用本地緩存。如果將該屬性設置為Yes,則啟用伺服器的本地緩存,伺服器將為查詢結果保存在session中,當用戶在瀏覽器內再次打開同一張報表時,查詢結果將取自緩存,從而減輕了資料庫的負載壓力;如果將該屬性設置為No,則禁用伺服器的本地緩存,查詢結果全部取自資料庫的實時數據。默認值為Framework中Edit Governors下的Allow usage of local cache屬性設置。
我用的是finereport,比這個方便