導航:首頁 > 網路數據 > 關於大數據的文獻綜述

關於大數據的文獻綜述

發布時間:2023-08-31 23:54:48

1. 有關大數據應用的論文(2)

有關大數據應用的論文篇二

《大數據技術對財務管理的影響》

摘 要:大數據可以快速幫助財務部門建立財務分析工具,而不是單純做賬。大數據應該不僅僅局限於本單位的微觀數據,更為重要的關注其他單位的宏觀數據。大數據技術不僅帶來了企事業單位財務數據搜集的便利和挑戰,而且也衍生出了諸多關於單位人員個人信息保密等問題的積極探索。本文主要研究大數據技術(meta-data或big data)對企業或事業單位財務管理的影響,以期為財務數據管理的安全性提供一種分析的依據和保障。

關鍵詞:大數據;財務管理;科學技術;知識進步

數據是一個中性概念。人類自古以來幾千年的輝煌變遷,無外乎就是數據的搜集和使用過程而已。縱觀古今中外的人際交流與合作,充滿著爾虞我詐和勾心鬥角,那麼他們在爭什麼呢?實際上是在爭奪信息資源;歷史上品相繁多的戰爭,實際上不是在維持什麼所謂的正義和和平,抑或為了人間的正道,而是在爭奪數據的使用權;“熙熙攘攘皆為利往、攘攘熙熙皆為利來”的世俗變遷邏輯已經讓位於數據游戲的哲學法則。人類自英國產業革命以來所陸續發明的技術,盡管被人們美其名曰“第四次科技革命的前沿技術”,實際上不過就是“0”和“1”兩個數字的嬉戲而已。正如有學者指出的,汽車技術、生命科學技術、基因技術、原子能技術、宇宙航天技術、納米技術、電子計算機技術,看起來美輪美奐,實則隱含著殺機,那就是由於人們把技術當成了目的後,導致了“技術專制”後的“技術腐敗”和“技術災難”。人類一方面在懶惰基因的誘惑下,發明了諸多所謂的機械裝置,中國叫“機巧”;另一方面又在勤奮的文化下,發明了諸多抑制懶惰的制度和機制。本來想尋求節儉,結果卻越來越奢侈;本來想節約,結果卻越來越浪費;本來想善良,結果卻越來越邪惡;本來想美好,結果卻越來越醜陋。正如拉美特里所說:“人是什麼?一半是天使,一半是野獸。當人拚命想成為天使的時候,其實他會逐漸變成野獸;當人想極力崇拜野獸的時候,結果會逐漸接近天使。”我們不是在宣講宿命的技術,我們只是在預測技術的宿命。本文主要研究大數據技術(meta-data或big data)對企業或事業單位財務管理的影響,以期為財務數據管理的安全性提供一種分析的依據和保障。

一、大數據技術加大了財務數據收集的難度

財務數據的收集是一個復雜的系統工程,國際上一般採用相對性原則,即首先利用不完全統計學的知識對數據進行初步的計算,接著對粗糙的數據進行系統的羅列,最後對類型化的數據進行明分梳理。使用者如果想進入該資料庫,就必須擁有注冊的用戶名和密碼。由於國際上對於網路數據的監督均採取了實名注冊的模式,所以一旦該用戶進入到核心資料庫之後想竊取數據,一般都會暴露自己的bug地址源,網管可以循著這一唯一性存留,通過雲計算迅速找到該網路終端的IP地址,於是根據人機互動原理,再加上各種網吧所安裝的監控平台,可以迅速找到資料庫的剽竊者。如果按照上述數據變遷邏輯,那麼財務數據的收集似乎變得易如反掌,而事實並非如此。因為:①數據的量化指標受制於雲計算伺服器的安全性。當雲伺服器受到不可抗力的打擊,如地震、水患、瘟疫、鼠疫、火災、原子能泄露或各種人為破壞的作用,數據會呈現離散型散落。這時的數據丟失會演變成數字災難;②各種數據版權的擁有者之間很難實現無縫隙對接。比如在經過不同伺服器的不同數據流之間,很難實現現實意義上的自由流通。正如專家所指出的,教育伺服器的事業單位的人員數據、行政部門人事管理部門的保密性數據、軍事單位的軍事數據、醫療衛生事業的數據、工商注冊數據、外事數據等在無法克服實際權力的分割陷阱之前,很難實現資源的共享,這時對數據的所謂搜集都會演化為“不完全抽樣”的數字假象。由此而衍生的資料庫充其量只是一部分無用的質料而已。

二、大數據技術影響了財務數據分析的准確性

對於搞財務管理的人來說,財務數據的收集只是有效實現資源配置的先決條件,真正有價值的或者說最為關鍵的環節是對財務數據的分析。所謂“財務數據分析”是指專業的會計人員或審計人員對紛繁復雜的單位人力資源信息進行“去魅”的過程。所謂“去魅”就是指去粗取精、去偽存真、由此及彼、由表及裡、內外互聯,彼此溝通、跨級交流、跨界合作。在較為嚴格的學術意義上,分析的難度廣泛存在與財務工作人員的日常生活中。大數據技術盡管為數據的搜集提供了方便法門,但同時加大了財務人員的工作量和工作難度。原先只是在算盤或者草稿紙上就可以輕松解決的數據計算,現在只能藉助於計算機和雲圖建模。對於一些藉助於政治權力因素或者經濟利益因素,抑或是藉助於自身的人際關系因素上升到財務管理部門的職工來說,更大的挑戰開始了。他們不知道如何進行數據流的圖譜分析,不知道基於計算機軟體技術的集成線路技術的跌級分類,不知道基於非線性配置的液壓傳動技術的模板沖壓技術,不知道逆向網路模型來解決外部常態財務變數的可篡改問題。由於技術不過硬,導致了領導安排的任務不能在規定的時間內完成,即時倉促做完的案例,也會因為數據分析技術的落後而授人以柄,有的脾氣不好的領導可能會大發雷霆;脾氣好的領導只是強壓著內心的怒火,那種以靜制動的魄力和安靜更是攝魂奪魄。所以說數據分析難度的增加不是由於財務人員的良心或善根缺失,在很大程度上是由於技術的進步和大數據理念給我們帶來的尖銳挑戰。對於普通的沒有家庭和社會背景的財務管理人員來說,能做的或者說唯一可做的就是尊重歷史發展的周期律,敬畏生生不息的科學革命,認真領會行政首長的戰略意圖,提升自己的數據分析技術,升華在自身的“硬實力”。否則覬覦於領導的良心發現和疏忽大意,期望技術的靜止或者倒退,抑或是在違法犯罪之後天真的認為可以相安無事,可能都只會落得“恢恢乎如喪家之犬”的境遇。

三、大數據技術給財務人事管理帶來了挑戰

一個單位的財務人事管理牽扯到方方面面的問題,其意義不可小視。一般來講,單位在遴選財務管理部門管理人員的時候,大多從德才績行四個方面全面權衡。然而這種“四有標准”卻隱含著潛在的危機和不可避免的長遠威脅,這其中的緣由就在於人性的復雜性和不可猜度性。歷史和現實一再告訴人們,單純看眼前的表現和話語的華麗,不僅不能對人才的素質進行准確的評價,而且還會導致官員的遠期腐敗和隱性腐敗。對於中國的腐敗,國人大多重視了制度和道德的緣起,卻往往忽視了財務管理的因素。試想如果財務管理人員牢牢踐行“焦裕祿精神”,不對任何政治權力開綠燈,國有資產又如何流出國庫而了無人知曉呢?事實上,中國的所有腐敗,不論是國有資產的國外流失抑或是國內流失,都在很大程度上與財務人員有關,可能有些管理人員會強調那不是自己的責任,出納簽字是領導的授意,會計支出費用那是長官的意思清晰表示。實際上,處於權力非法授予的簽字、蓋章、取現、流轉和變相洗錢都是違法的,甚至是犯罪的。間接故意也是應當追究責任的。值得高興的是,伴隨著數字模擬技術的演進,財務管理中的腐敗現象和人事管理科學化問題得到了極大的改善,相關領導伸手向財務要錢的行為,不僅會受到數據進入許可權的限制,而且還會受到跟數據存留的監控,只要給予單位科技人員以足夠的許可權,想查找任何一筆資金的走向就變得非常簡單,而且對於每一筆資金的經手者的信息也會了如指掌。這在一定程度上減少了只會指揮、不懂電腦的首長的孵化幾率。

四、大數據技術加大了單位信息保密的難度

IMA(美國注冊會計師協會)研發副總裁Raef・Lawson博士曾經指出:“客觀上講,大數據技術的正面效用是非常明顯的,但一個不容迴避的事實是大數據技術為財務信息的安全性提出了越來越嚴峻的挑戰。我們已經注意到,在歐洲大陸、美洲大陸已經存在基於數據泄露而產生的各種抗議活動,這些活動牽扯到美國的數據竊聽丑聞、俄羅斯對軍事數據的強制性戰友舉動、以色列數據專家出賣阿拉伯世界經濟數據的案件、在東方的中國香港一部分利用數據的竊取而發家致富的頂尖級黑客專家。”在數據集成的拓撲領域,大數據技術的保密性挑戰肇始於蟻群演算法的先天性缺陷。本來數據流的控制是依靠各種所謂的交易密碼,實際上這些安全密碼只是數據的另一種分類和組合而已。在數據的非線性組合和線路的真空組裝模式下,任何密碼都只是阻擋了技術侏儒的暫時性舉動,而沒有超出技術本身的惰性存在。當一個hacker掌握了源代碼的介質性接洽技術之後,所剩下的就是信息和數據的搜集了,只要有足夠的數據源,信息的戶的幾乎是輕而易舉的。

2003年,北京的一家名為飛塔公司的防火牆安全軟體在中關村科技城閃亮上市。該安全控制軟體的開發者隨機開發了一款名曰MAZE天網的軟體,並且採用了“以其之矛攻其之盾”的攻防策略。測試的結果是盡管maze的源代碼採用了24進制蝶形加密技術,但 FortiGate防火牆技術仍然能夠阻擋住善意木馬對電腦終端用戶信息的剽竊和非法利用。FortiWeb已經通過全球權威的ICSA認證,可以阻斷如跨站腳本、SQL注入、緩沖區溢出、遠程文件包含、拒絕服務,同時防止敏感資料庫外泄,為企事業單位Web應用提供了專業級的應用安全防護。飛塔公司之所以耗費人力和物力去開發這一新型的換代產品,就在於大數據時代對單位信息保密性的沖擊。試想,如果一個單位連職工最起碼的個人信息都不能安全存儲的話,那麼財務管理的科學性和人本性將從何談起?只能說,即使在人權保護意識相對薄弱的法治環境里,我們也應該盡量提升自己的保密意識,加強對個人信息的保護和合理運用。

作者簡介:田惠東(1967- ),女,漢族,河北定興人,副高級會計師,本科學歷,研究方向:財務管理,單位:保定市第一醫院

2. 大數據存儲與應用特點及技術路線分析

大數據存儲與應用特點及技術路線分析

大數據時代,數據呈爆炸式增長。從存儲服務的發展趨勢來看,一方面,對數據的存儲量的需求越來越大;另一方面,對數據的有效管理提出了更高的要求。大數據對存儲設備的容量、讀寫性能、可靠性、擴展性等都提出了更高的要求,需要充分考慮功能集成度、數據安全性、數據穩定性,系統可擴展性、性能及成本各方面因素。

大數據存儲與應用的特點分析

「大數據」是由數量巨大、結構復雜、類型眾多數據構成的數據集合,是基於雲計算的數據處理與應用模式,通過數據的整合共享,交叉復用形成的智力資源和知識服務能力。其常見特點可以概括為3V:Volume、Velocity、Variety(規模大、速度快、多樣性)。

大數據具有數據規模大(Volume)且增長速度快的特性,其數據規模已經從PB級別增長到EB級別,並且仍在不斷地根據實際應用的需求和企業的再發展繼續擴容,飛速向著ZB(ZETA-BYTE)的規模進軍。以國內最大的電子商務企業淘寶為例,根據淘寶網的數據顯示,至2011年底,淘寶網最高單日獨立用戶訪問量超過1.2億人,比2010年同期增長120%,注冊用戶數量超過4億,在線商品數量達到8億,頁面瀏覽量達到20億規模,淘寶網每天產生4億條產品信息,每天活躍數據量已經超過50TB.所以大數據的存儲或者處理系統不僅能夠滿足當前數據規模需求,更需要有很強的可擴展性以滿足快速增長的需求。

(1)大數據的存儲及處理不僅在於規模之大,更加要求其傳輸及處理的響應速度快(Velocity)。

相對於以往較小規模的數據處理,在數據中心處理大規模數據時,需要服務集群有很高的吞吐量才能夠讓巨量的數據在應用開發人員「可接受」的時間內完成任務。這不僅是對於各種應用層面的計算性能要求,更加是對大數據存儲管理系統的讀寫吞吐量的要求。例如個人用戶在網站選購自己感興趣的貨物,網站則根據用戶的購買或者瀏覽網頁行為實時進行相關廣告的推薦,這需要應用的實時反饋;又例如電子商務網站的數據分析師根據購物者在當季搜索較為熱門的關鍵詞,為商家提供推薦的貨物關鍵字,面對每日上億的訪問記錄要求機器學習演算法在幾天內給出較為准確的推薦,否則就丟失了其失效性;更或者是計程車行駛在城市的道路上,通過GPS反饋的信息及監控設備實時路況信息,大數據處理系統需要不斷地給出較為便捷路徑的選擇。這些都要求大數據的應用層可以最快的速度,最高的帶寬從存儲介質中獲得相關海量的數據。另外一方面,海量數據存儲管理系統與傳統的資料庫管理系統,或者基於磁帶的備份系統之間也在發生數據交換,雖然這種交換實時性不高可以離線完成,但是由於數據規模的龐大,較低的數據傳輸帶寬也會降低數據傳輸的效率,而造成數據遷移瓶頸。因此大數據的存儲與處理的速度或是帶寬是其性能上的重要指標。

(2)大數據由於其來源的不同,具有數據多樣性的特點。

所謂多樣性,一是指數據結構化程度,二是指存儲格式,三是存儲介質多樣性。對於傳統的資料庫,其存儲的數據都是結構化數據,格式規整,相反大數據來源於日誌、歷史數據、用戶行為記錄等等,有的是結構化數據,而更多的是半結構化或者非結構化數據,這也正是傳統資料庫存儲技術無法適應大數據存儲的重要原因之一。所謂存儲格式,也正是由於其數據來源不同,應用演算法繁多,數據結構化程度不同,其格式也多種多樣。例如有的是以文本文件格式存儲,有的則是網頁文件,有的是一些被序列化後的比特流文件等等。所謂存儲介質多樣性是指硬體的兼容,大數據應用需要滿足不同的響應速度需求,因此其數據管理提倡分層管理機制,例如較為實時或者流數據的響應可以直接從內存或者Flash(SSD)中存取,而離線的批處理可以建立在帶有多塊磁碟的存儲伺服器上,有的可以存放在傳統的SAN或者NAS網路存儲設備上,而備份數據甚至可以存放在磁帶機上。因而大數據的存儲或者處理系統必須對多種數據及軟硬體平台有較好的兼容性來適應各種應用演算法或者數據提取轉換與載入(ETL)。

大數據存儲技術路線最典型的共有三種:

第一種是採用MPP架構的新型資料庫集群,重點面向行業大數據,採用Shared Nothing架構,通過列存儲、粗粒度索引等多項大數據處理技術,再結合MPP架構高效的分布式計算模式,完成對分析類應用的支撐,運行環境多為低成本 PC Server,具有高性能和高擴展性的特點,在企業分析類應用領域獲得極其廣泛的應用。

這類MPP產品可以有效支撐PB級別的結構化數據分析,這是傳統資料庫技術無法勝任的。對於企業新一代的數據倉庫和結構化數據分析,目前最佳選擇是MPP資料庫。

第二種是基於Hadoop的技術擴展和封裝,圍繞Hadoop衍生出相關的大數據技術,應對傳統關系型資料庫較難處理的數據和場景,例如針對非結構化數據的存儲和計算等,充分利用Hadoop開源的優勢,伴隨相關技術的不斷進步,其應用場景也將逐步擴大,目前最為典型的應用場景就是通過擴展和封裝 Hadoop來實現對互聯網大數據存儲、分析的支撐。這裡面有幾十種NoSQL技術,也在進一步的細分。對於非結構、半結構化數據處理、復雜的ETL流程、復雜的數據挖掘和計算模型,Hadoop平台更擅長。

第三種是大數據一體機,這是一種專為大數據的分析處理而設計的軟、硬體結合的產品,由一組集成的伺服器、存儲設備、操作系統、資料庫管理系統以及為數據查詢、處理、分析用途而特別預先安裝及優化的軟體組成,高性能大數據一體機具有良好的穩定性和縱向擴展性。

以上是小編為大家分享的關於大數據存儲與應用特點及技術路線分析的相關內容,更多信息可以關注環球青藤分享更多干貨

3. 如果我們的研究主題為大數據,應檢索哪些文獻

1.[期刊論文]數據科學與大數據技術專業的教材建設探索

期刊:《新聞文化建設》 | 2021 年第 002 期

摘要:隨著大數據時代的到來,信息技術蓬勃發展,國家大力推進大數據產業的發展,鼓勵高校設立數據科學和數據工程相關專業。在趨勢的推動下,許多高校成立了數據科學與大數據技術專業。本文通過研究數據科學與大數據技術專業的發展現狀,探索新專業下人才培養的課程設置及教材建設等問題,同時介紹高等教育出版社在數據科學與大數據技術專業教材建設方面的研發成果。

關鍵詞:數據科學與大數據技術專業;課程設置;教材建設

鏈接:https://www.zhangqiaokeyan.com/academic-journal-cn_detail_thesis/0201289060336.html

---------------------------------------------------------------------------------------------------

2.[期刊論文]數據科學與大數據技術專業課程體系探索

期刊:《科教文匯》 | 2021 年第 002 期

摘要:該文闡述了數據科學與大數據專業的設置必要性、專業的培養目標和知識能力結構,最後探索了數據科學與大數據專業的技術性課程體系設置方法.希望該文內容對數據科學與大數據技術專業的培養方案制訂和課程體系構造具有一定的指導意義和參考價值.

關鍵詞:數據科學;大數據技術;課程體系

鏈接:https://www.zhangqiaokeyan.com/academic-journal-cn_science-ecation-article-collects_thesis/0201284684572.html

---------------------------------------------------------------------------------------------------

3.[期刊論文]數據科學與大數據技術專業實驗實踐教學探析

期刊:《長春大學學報(自然科學版)》 | 2021 年第 001 期

摘要:近些年各種信息數據呈爆炸式增長,在這種背景下,國家在2015年印發了關於大數據技術人才培養的相關文件,每年多個高校的大數據相關專業獲批.數據量的增長對數據處理的要求越來越高,各行業涉及信息數據的范圍越來越廣,對大數據專業人才的需求越來越多.為了應對社會需求,如何科學地規劃數據科學與大數據專業的本科教育,尤其在當前注重實踐操作的背景下,如何制定適合的實驗實踐教學方案,更好滿足社會需求.

關鍵詞:數據科學;大數據;實踐教學

鏈接:https://www.zhangqiaokeyan.com/academic-journal-cn_journal-changchun-university_thesis/0201288750604.html

4. 大數據的概念

大數據概述
專業解釋:大數據英文名叫big data,是一種IT行業術語,是指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
通俗解釋:大數據通俗的解釋就是海量的數據,顧名思義,大就是多、廣的意思,而數據就是信息、技術以及數據資料,合起來就是多而廣的信息、技術、以及數據資料。
大數據提出時間
「大數據」這個詞是由維克托·邁爾-舍恩伯格及肯尼斯·庫克耶於2008年8月中旬共同提出。
大數據的特點
Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)-由IBM提出。
大數據存在的意義和用途是什麼?
看似大數據是一個很高大上的感覺,和我們普通人的生活相差甚遠,但是其實不然!大數據目前已經存在我們生活中的各種角落裡了,舉個例子,我們現在目前最關心的疫情情況數據,用的就是大數據的技術,可以實時查看確診人數以及各種疫情數據。
大數據存在的意義是什麼?
從剛才的舉例中我們基本可以了解,大數據是很重要的,其存在的意義簡單來說也是為了幫助人們更直觀更方便的去了解數據。而通過了解這些數據後又可以更深一步的去挖掘其他有價值的數據,例如今日頭條/抖音等產品,通過對用戶進行整理和分析,然後根據用戶的各種數據來判斷用戶的喜愛,進而推薦用戶喜歡看的東西,這樣做不僅提升了自身產品的體驗度,也為用戶提供了他們需要的內容。
大數據的用途有哪些?
要說大數據的用途,那可就相當廣泛了,基本各行各業都可以運用到大數據的知識。如果簡單理解的話,可分為以下四類:
用途一:業務流程優化
大數據更多的是協助業務流程效率的提升。能夠根據並運用社交網路數據信息 、網站搜索及其天氣預告找出有使用價值的數據信息,這其中大數據的運用普遍的便是供應鏈管理及其派送線路的提升。在這兩個層面,自然地理精準定位和無線通信頻率的鑒別跟蹤貨物和送大貨車,運用交通實時路況線路數據信息來選擇更好的線路。人力資源管理業務流程也根據大數據的剖析來開展改善,這這其中就包含了職位招聘的調整。
用途二:提高醫療和研發
大型數據分析應用程序的計算能力允許我們在幾分鍾內解碼整個dna。可以創造新的治療方法。它還能更好地掌握和預測疾病。如同大家配戴智能手錶和別的能夠轉化成的數據信息一樣,互聯網大數據還可以協助病人盡快醫治疾患。現在大數據技術已經被用於醫院監測早產兒和生病嬰兒的狀況。通過記錄和分析嬰兒的心跳,醫生預測可能的不適症狀。這有助於醫生更好地幫助寶寶。
用途三:改善我們的城市
大數據也被用於改進我們在城市的生活起居。比如,依據城市的交通實時路況信息,運用社交媒體季節變化數據信息,增加新的交通線路。現階段,很多城市已經開展數據分析和示範點新項目。
用途四:理解客戶、滿足客戶服務需求
互聯網大數據的運用在這個行業早已廣為人知。重點是如何使用大數據來更好地掌握客戶及其興趣和行為。企業非常喜歡收集社交數據、瀏覽器日誌、分析文本和感測器數據,以更全面地掌握客戶。一般來說,建立數據模型是為了預測。
如何利用大數據?
那我們了解了這么多關於大數據的知識,既然大數據這么好,我們怎麼去利用大數據呢?那這個就要說到大數據的工具BI了,BI簡單理解就是用來分析大數據的工具,從數據的採集到數據的分析以及挖掘等都需要用到BI,BI興起於國外,比較知名的BI工具有Tableau、Power BI等;而國內比較典型的廠家就是億信華辰了。雖然BI興起於國外,但是這些年隨著國內科技的進步以及不斷的創新,目前國內BI在技術上也不比國外的差,而且因為國內外的差異化,在BI的使用邏輯上,國內BI更符合國內用戶的需求。

5. 大數據概念是如何產生的

大數據概念產生過程:大數據的名稱來自於未來學家托夫勒所著的《第三次浪潮》,盡管「大數據」這個詞直到最近才受到人們的高度關注,但早在1980年,著名未來學家托夫勒在其所著的《第三次浪潮》中就熱情地將「大數據」稱頌為「第三次浪潮的華彩樂章」。《自然》雜志在2008年9月推出了名為「大數據」的封面專欄。從2009年開始「大數據」才成為互聯網技術行業中的熱門詞彙。大數據,又稱巨量資料,指的是所涉及的數據資料量規模巨大到無法通過人腦甚至主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。大數據的採集:科學技術及互聯網的發展,推動著大數據時代的來臨,各行各業每天都在產生數量巨大的數據碎片,數據計量單位已從從Byte、KB、MB、GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。大數據時代數據的採集也不再是技術問題,只是面對如此眾多的數據,我們怎樣才能找到其內在規律。
更多關於大數據概念是如何產生的,進入:https://www.abcgonglue.com/ask/99689e1615995935.html?zd查看更多內容

6. 《大數據時代》01 什麼是大數據

今天我們第一本解讀的是《大數據時代》這本書。

大數據是這幾年特別火的一個詞,那究竟什麼是大數據呢?

字面意思可以理解為大數據就是數量巨大的數據,而這些巨大的數據再結合雲計算、人工智慧、物聯網等技術會對於我們的生活、工作都會帶來翻天覆地的影響。

芝加哥大學商學院教授、麥肯錫公司創始人,麥肯錫稱:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」

而我們今天所講的這本《大數據時代》是國外大數據研究的先河之作,本書作者舍恩伯格被譽為「大數據商業應用第一人」。舍恩伯格在書中前瞻性地指出,大數據帶來的信息風暴正在變革我們的生活、工作和思維,大數據開啟了一次重大的時代轉型,並用三個部分講述了大數據時代的思維變革、商業變革和管理變革。對於身處於大數據時代額我們可謂是會產生異常極大的思維方式的變革。

舍恩伯格最具洞見之處在於,他明確指出,大數據時代最大的轉變就是,放棄對因果關系的渴求,而取而代之關注相關關系。也就是說只要知道「是什麼」,而不需要知道「為什麼」。這就顛覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰。

下面我們就進入到《大數據時代》這本書中去吧。

首先來看第一個話題大數據的思維變革

大數據與三個重大的思維變革有關,而這三個轉變是相互作用的。

一.不是隨機樣本,而是全體數據

解釋一下就是分析事物相關的所有數據,而不是僅僅依靠分析少量的數據樣本。

二是不是精確性,而是混雜性

就是要接受數據的紛繁復雜,而不再追求准確性。

三是不是因果關系,而是相關關系

即不再追求難以摸索的因果關系,轉而關注事物的相關關系。

這三個在大數據時代思維變革的轉變我們會在接下來節目中一一講解。

今天我們這一節先講解:不是隨機樣本,而是全體樣本,這一思維的變革。

小數據時代的隨機抽樣

為什麼這么說呢?在我們過去技術並不發達的時候,只能用少量數據來進行隨機采樣是最高效的方式,即利用最少的數據來獲取更多的信息。

在19世紀時美國的人口普查中,因為數據的變化超過了當時的人口普查統計分析能力,有人提出到數據無比龐大時可以進行有目的的選擇,具有選出代表性的樣本是最恰當的方式,這就是隨機抽樣。並且還非常有見解的提出:采樣分析的精確性是隨著采樣隨機性的增加而大幅的提高與樣本的數量增加關系並不大,也就是說,隨機采樣樣本的隨機性比數量的多少更為重要。

而在當時,政府確實也採用了隨機調查的方式來對於經濟和人口進行了200多次小規模的調查,除此之外,在商業領域也會採用隨機調查的方式來抽取部分商品來檢查商品的質量安全。

隨機抽樣取得了巨大的成功,成為了現代社會,現代測量領域的主心骨,但這只是一條捷徑,是不可能收集和分析全部數據情況下的選擇,他本身就有很多的缺陷。

隨機抽樣的缺陷

第一,它的成功依賴於采樣的絕對隨機性,但在實現中絕對的隨機性是非常困難,一旦分析過程中存在任何「偏見」,分析結果就會相去甚遠。

第二,隨機采樣不適宜用於考察此類別的情況,也就是說隨機抽樣,一旦繼續細分錯誤率會大大增加,比如說你想調查大學生玩手機的情況,您採取的調查結果可能會有3%的誤差,但如果又把這個調查結果根據性別地域、收入來進行細分,那結果就會變得更為不準確。

因此當人們想要了解更深層次的細分領域的情況,採用隨機采樣的方法顯然是不可取的,在宏觀領域起作用的方法,在微觀領域上失去了作用,隨機采樣就像是模擬照片,列印再遠看會是非常不錯,但是一旦聚焦在某個點,就會變得模糊不清。

全部數據的采樣方式

現在我們正在步入了大數據時代,我們需要一中新的數據採集模式----全數據模式,即樣本等於總體。

我們這個時代收集數據,並不像過去那樣困難,手機導航、社交網站、微博、微信這些隨時隨地或主動或被動的收集你所產生的信息,並且通過計算機就可以輕而易舉地完成數據處理。

採取全部數據的采樣方式,可以不用考慮隨機抽樣所考慮的隨機性,並且在細分領域也會發揮極大的作用,一個很好的例子,就是日本國民體育運動相撲之中所產生的非法操控比賽結果。

相撲比賽和其他比賽有所不同的就是選手需要在15場比賽之中的大部分場次獲得勝利,才能保持排名和收入。這樣一來就會出現收益不對稱的情況,比如說一個7勝7負的選手,遇到一個8勝6負的選手,比賽結果對於第一個選手會比對第二個選手更為重要。列維特和達根發現在這種情況下,需要贏的那個選手,最可能會贏,這是為什麼呢?有沒有可能是選手的求勝心呢?當然有可能,但並不是完全!有數據顯示需要贏的選手,求勝心,也只能把勝率增加25%。並且對於數據進一步分析發現,選手如果幫助上一次失利的一方的話,當他們再次相遇時,對方會回報回來。

這種情況在相撲界是顯而易見的,但若是隨機抽樣就無法發現這個情況。而大數據通過分析所有比賽,用極大的數據來捕捉到這個情況。

還有關於大數據應用的例子是:2009年,谷歌公司將5000萬條美國最頻繁的檢索詞條和美國疾控中心在2003年至2008年季節性流感傳播實際數據進行比較,成功預測了甲型H1N1流感的出現。

現在2021年,利用大數據來預測新冠肺炎的發展情況,已經成為我們日常新聞報道的一部分了。

在大數據時代的到來,讓我們可以利用技術,從不同角度更細致的觀察和研究數據的方方面面,使我們的調查更為精準。

回顧一下我們這一節所講的過去的調查是採用小部分的數據來進行抽樣調查,這一方法有顯著的缺點

首先是抽樣分析依賴於采樣的隨機性,而一旦數據出現」偏見「,結果便會大相徑庭

第二抽樣分析也只適用於宏觀分析,對於更加微觀的調查結果並不理想。

如今的技術環境已經有了很大的改善,在大數據時代進行抽樣分析就是在汽車時代騎馬一樣,我們要分析與事物相關的而所有數據,而不僅僅是少量的數據。

以上就是我們本期全部內容,下一期我會講到大數據時代下思維變革的後兩個思維變革。

我的節目首發平台是公眾號「悅讀深入思考」關注還有更多內容

7. 大數據的產生與發展現狀研究

摘 要:大數據的產生給未來信息技術帶來新的機遇與挑戰。大數據對數據處理的有效性、實時性提出了更高要求,需要根據大數據的特點對當前數據處理技術實施變革,從而形成更有益於大數據採集、存儲、處理、管理、分析、共享的新興技術。本文從大數據的產生與發展、特徵、主要應用以及大數據所帶來的挑戰等方面進行闡述與分析。

關鍵詞 :大數據 物聯網 信息處理 海量計算

一、大數據的產生與發展現狀

隨著物聯網、雲計算等信息技術的飛速發展,大數據技術(Big Data)也越發進入人們的視線。大數據是用傳統方法或工具很難處理或分析的數據信息。目前,人們對大數據的理解還不夠全面和深入,關於大數據的含義也沒有一個統一的定義。亞馬遜大數據科學家John Rauser認為:大數據是超過任何一台計算機處理能力的龐大數據量。Informatica 的中國區首席顧問但彬指出:大數據是海量數據與復雜類型的數據的結合。而維基網路則把大數據定義成諸多大而復雜的、難以用當前資料庫處理的數據集合。

大數據研究受到國內外學術界和工業界的廣泛關注,已成為當今信息時代全世界討論的熱點。2008年,Nature雜志就推出大數據專刊,計算社區聯盟也在同一年發表了報告《Big data computing; Creating revolutionary breakthroughs in commerce, science and society》,報告闡述了解決大數據問題所需的關鍵技術以及所面臨的挑戰。美國奧x政府於2012年3月在白宮網站發布了《大數據研究和發展倡議》,提出了通過收集、處理海量、復雜的數據信息,從而提升能力,加快科學和工程領域的創新步伐,轉變學習教育模式,強化美國本土的安全」。2011年1月,微軟公司同惠普公司合作開發了一系列能夠提升生產力,同時提高決策速度的設備。此外,歐盟委員會也提出駕駁大數據浪潮的戰略思路,日本發布的《面向 2020 的 ICT綜合戰略》也提出需要構造大量豐富的數據基礎。

近年來,我國也積極開展對大數據的研究。2011年10月,工信部確認京滬深杭等 5 城市為「雲計算中心」試點城市。2012年6月,中國計算機學會青年計算機科技論壇也舉辦了「大數據時代,智謀未來」學術報告研討會。大數據及其科學研究方法涉及應用領域很廣,並將與國計民生密切相關的科學決策、金融工程以及知識經濟領域緊緊接合。

二、大數據的特點

目前,企業界和學術界都一致認為,大數據具有4個「V」特徵,即:容量(Volume)、種類(Variety)、速度(Velocity)和至關重要的`價值(Value)。

(1) 容量(Volume)巨大。海量的數據集從TB 級別提升到PB 級別。

(2) 種類(Variety)繁多。大數據數據源有多種,數據格式和種類不同於以前所規定的結構化數據范疇。

(3)價值(Value)密度低。如視頻的例子,在不間斷連續監控的過程中,可能有意義的數據僅有一兩秒。

(4)速度(Velocity)快。包含大量實時、在線數據處理分析的需求1秒鍾定律。

三、大數據應用的領域

大數據產業的發展將推動全球經濟由粗放型向集約型轉變,這將對提升企業整體競爭力和政府監管能力具有意義深遠的影響。

商業作為大數據的重要應用領域。沃爾瑪公司通過對消費者購物行為等一系列非結構化數據的分析,了解不同顧客的購物習慣,公司從所銷售的數據進行分析,從而選出適合在一起搭配出售的商品;淘寶也針對買家開設了大數據平台,為客戶量身打造了一整套完善的網購體驗產品。

大數據在金融業也起到了至關重要的作用。美國Equifax公司利用大數據技術,通過對其的資料庫中與財務有關的記錄海量信息進行索引處理和交叉分享,從而得到客戶的個人信用等級,以推斷出客戶的支付需求與能力。

隨著大數據在醫療與生命科學研究過程中的廣泛應用和不斷擴展。2010年,中國公布的《十二五規劃》指出:要重點建設國家級、省級和地市級三級醫療衛生信息平台,建設電子病歷和電子檔案兩個最為基礎的資料庫。各級醫院也將在醫療信息倉庫、數據中心等領域加大投入,醫療數據信息的存儲將愈加被關注,醫療信息中心的關注焦點也將由傳統的計算領域轉為存儲領域。

除此之外,大數據在製造業領域也有著廣闊的應用。製造業企業積累了廣泛的數據信息,在開展對業務數據進行技術管理的同時,企業需要通過大數據處理技術來幫助決策者從資料庫儲存的海量信息中找到有價值的信息,並且對其進行分析處理,從而增強決策的正確性、規避風險。

四、大數據所面臨的挑戰

大數據技術使人們能夠更好地利用之前不能使用的各個數據類型,找出被忽略的信息,促進企業組織更加高效、智能。但隨著對大數據研究的不斷深入,人們也更加意識到當大數據技術向人們敞開「方便之門」的同時,也帶來了眾多的挑戰:

(1)大數據需要更為專業化的管理技術人才。

(2) 大數據的合理利用需要解決容量大、類別多和時效性高的數據處理問題。

(3)大數據的利用對信息安全提出了更高要求。

(4)大數據的集成與管理問題。

這些挑戰已成為關繫到未來大數據發展的重要因素,同時也成為未來引領大數據發展的推動力。

五、結束語

大數據已經逐步滲透到人們工作生活的諸多領域中,對於大數據的研究也在不斷的深化。本文針對大數據的產生與發展、特徵、主要應用以及大數據所帶來的挑戰等方面進行闡述與分析。大數據的發展還處於初級階段,還有更為廣闊的空間需要人們不斷開拓,如何合理地利用大數據、更加高效地處理大數據來為人們服務仍需要廣大研究者不斷地研究和探索。

參考文獻:

[1]劉智慧,張泉靈.大數據技術研究綜述[J].浙江大學學報,2014,46(6):957- 972.

[2]嚴霄鳳,張德馨.大數據研究[J].計算機技術與發展,2013,23(4):168-172.

[3]劉俊.基於大數據流的Multi-Agent系統模型研究[J].計算機技術與發展, 2007,17(5):166-169.

閱讀全文

與關於大數據的文獻綜述相關的資料

熱點內容
手機上看不到電腦上的文件 瀏覽:626
關於ps的微信公眾號 瀏覽:612
矩陣論教程 瀏覽:971
字體文件分系統嗎 瀏覽:921
編程一級考試要帶什麼證件 瀏覽:923
extjs表格修改前數據 瀏覽:612
什麼是資料庫的函數 瀏覽:722
oppo手機怎麼用數據線連接電腦 瀏覽:247
恆智天成備份文件在哪裡 瀏覽:976
電腦沒聯網怎麼拷貝文件 瀏覽:224
wps工具欄怎麼換成中文 瀏覽:338
win7和xp共享文件 瀏覽:883
蘋果4代音量鍵沒反應 瀏覽:827
怎樣打開tif文件 瀏覽:153
java下載文件zip 瀏覽:440
qq瀏覽器壓縮文件怎麼設密碼 瀏覽:526
黃埔數控編程哪裡好 瀏覽:406
mac109升級1010 瀏覽:691
在java的菜單如何導入文件 瀏覽:982
現在什麼網站銷量最高 瀏覽:760

友情鏈接