大數據收集很困難_大數據怎麼收集

㈠大數據發展遇到的困境

大數據的理念已經被追捧多年，但是還遠未達到人們想像的完全實用的程度。大數據的發展受阻主要表現在以下幾個方面:

1.數據基礎的缺失

大數據發展的前提條件是要有豐富的數據源，對於製造業，IT行業數據化程度比較高，雖然缺少資源共享和信息交換，但至少可以在公司內部探索和嘗試。

但對於教育，醫療行業數據化程度還是遠遠落後於大數據時代的需求。單從患者的角度考慮，自己在各個醫院的病例和居家檢測的醫學數據。如果將這些數據利用起來，就會遇到數據源不算，數據格式不統一，隱私問題等等。

2.數據孤島之踵

不同的數據源獨立存在，不能夠互相共享，形成了一個個數據孤島。

政府部門缺乏數據開放的動力，由於其掌握的數據有一定的敏感性而趨於保守態度。比如稅務部門的個人納稅信息會涉及到個人隱私，公安部門的監控信息更是涉及到個人的人身安全問題。

各大企業不會隨便開放自身有價值的數據，因為它有巨大的商業價值，也關繫到企業的生死存亡。比如搜索引擎，谷歌的搜尋效果比其他的好，其實他們的技術差別不大。真正的差異是谷歌的數據量大，能夠找到最佳的搜索策略。而其他的搜索引擎則相反，從而造成惡性循環。

即使沒有商業競爭，企業也會盡量獨占數據。比如航空公司的航班晚點，他不會提前通知，而會出於商業利益選擇在乘客登記結束後廣播通知。

3.難以突破創新的瓶頸

對於相應行業數據壟斷的大企業，利用自身壟斷地位阻礙創新使壟斷地位更加堅固。搜索引擎就是一個很好的案例，還有某互聯網公司利用資源優勢模仿競爭對手的創新產品，並且擠垮對手。

4.個人隱私

個人信息越來越多的被別人掌握，我們既不能阻止，也不知道會產生怎樣的後果。一方面，我們的虛擬世界和實際生活軌跡可以通過大數據洞察一切，預測我們的行為。另一方面，作為數據的主人，卻不知道數據如何被記錄，流向哪裡，被誰利用，這個過程我們一無所知。

大數據的發展需要解決個人隱私問題。一方面不能被無限制的使用，每個人都有對個人隱私有知情權，拒絕的權利。另一方面需要將個人隱私數據找到安全，可靠的方法共享，這樣大數據才能夠發展。

5.其他方面

數據的泛濫，盲目的崇拜等

㈡如何應對物聯網時代下數據採集的機遇與挑戰

大數據泛指巨量的數據集，因可從中挖掘出有價值的信息而受到重視。《華爾街日報》將大數據時代、智能化生產和無線網路革命稱為引領未來繁榮的三大技術變革。麥肯錫公司的報告指出數據是一種生產資料，大數據是下一個創新、競爭、生產力提高的前沿。世界經濟論壇的報告認定大數據為新財富，價值堪比石油。因此，發達國家紛紛將開發利用大數據作為奪取新一輪競爭制高點的重要抓手。

大數據時代的來臨

互聯網特別是移動互聯網的發展，加快了信息化向社會經濟各方面、大眾日常生活的滲透。有資料顯示，1998年全球網民平均每月使用流量是1MB（兆位元組），2000年是10MB，2003年是100MB，2008年是1GB（1GB等於1024MB），2014年將是10GB。全網流量累計達到1EB（即10億GB或1000PB）的時間在2001年是一年，在2004年是一個月，在2007年是一周，而2013年僅需一天，即一天產生的信息量可刻滿1.88億張DVD光碟。我國網民數居世界之首，每天產生的數據量也位於世界前列。淘寶網站每天有超過數千萬筆交易，單日數據產生量超過50TB（1TB等於1000GB），存儲量40PB(1PB等於1000TB)。網路公司目前數據總量接近1000PB，存儲網頁數量接近1萬億頁，每天大約要處理60億次搜索請求，幾十PB數據。一個8Mbps（兆比特每秒）的攝像頭一小時能產生3.6GB數據，一個城市若安裝幾十萬個交通和安防攝像頭，每月產生的數據量將達幾十PB。醫院也是數據產生集中的地方。現在，一個病人的CT影像數據量達幾十GB，而全國每年門診人數以數十億計，並且他們的信息需要長時間保存。總之，大數據存在於各行各業，一個大數據時代正在到來。

信息爆炸不自今日起，但近年來人們更加感受到大數據的來勢迅猛。一方面，網民數量不斷增加，另一方面，以物聯網和家電為代表的聯網設備數量增長更快。2007年全球有5億個設備聯網，人均0.1個；2013年全球將有500億個設備聯網，人均70個。隨著寬頻化的發展，人均網路接入帶寬和流量也迅速提升。全球新產生數據年增40%，即信息總量每兩年就可以翻番，這一趨勢還將持續。目前，單一數據集容量超過幾十TB甚至數PB已不罕見，其規模大到無法在容許的時間內用常規軟體工具對其內容進行抓取、管理和處理。

數據規模越大，處理的難度也越大，但對其進行挖掘可能得到的價值更大，這就是大數據熱的原因。首先，大數據反映輿情和民意。網民在網上產生的海量數據，記錄著他們的思想、行為乃至情感，這是信息時代現實社會與網路空間深度融合的產物，蘊含著豐富的內涵和很多規律性信息。根據中國互聯網路信息中心統計，2012年底我國網民數為5.64億，手機網民為4.2億，通過分析相關數據，可以了解大眾需求、訴求和意見。其次，企業和政府的信息系統每天源源不斷產生大量數據。根據賽門鐵克公司的調研報告，全球企業的信息存儲總量已達2.2ZB（1ZB等於1000EB），年增67％。醫院、學校和銀行等也都會收集和存儲大量信息。政府可以部署感測器等感知單元，收集環境和社會管理所需的信息。2011年，英國《自然》雜志曾出版專刊指出，倘若能夠更有效地組織和使用大數據，人類將得到更多的機會發揮科學技術對社會發展的巨大推動作用。

大數據應用的領域

大數據技術可運用到各行各業。宏觀經濟方面，IBM日本公司建立經濟指標預測系統，從互聯網新聞中搜索影響製造業的480項經濟數據，計算采購經理人指數的預測值。印第安納大學利用谷歌公司提供的心情分析工具，從近千萬條網民留言中歸納出六種心情，進而對道瓊斯工業指數的變化進行預測，准確率達到87%。製造業方面，華爾街對沖基金依據購物網站的顧客評論，分析企業產品銷售狀況；一些企業利用大數據分析實現對采購和合理庫存量的管理，通過分析網上數據了解客戶需求、掌握市場動向。有資料顯示，全球零售商因盲目進貨導致的銷售損失每年達1000億美元，這方面的數據分析大有作為。

在農業領域，矽谷有個氣候公司，從美國氣象局等資料庫中獲得幾十年的天氣數據，將各地降雨、氣溫、土壤狀況與歷年農作物產量的相關度做成精密圖表，預測農場來年產量，向農戶出售個性化保險。在商業領域，沃爾瑪公司通過分析銷售數據，了解顧客購物習慣，得出適合搭配在一起出售的商品，還可從中細分顧客群體，提供個性化服務。在金融領域，華爾街「德溫特資本市場」公司分析3.4億微博賬戶留言，判斷民眾情緒，依據人們高興時買股票、焦慮時拋售股票的規律，決定公司股票的買入或賣出。阿里公司根據在淘寶網上中小企業的交易狀況篩選出財務健康和講究誠信的企業，對他們發放無需擔保的貸款。目前已放貸300多億元，壞賬率僅0.3%。

在醫療保健領域，「谷歌流感趨勢」項目依據網民搜索內容分析全球范圍內流感等病疫傳播狀況，與美國疾病控制和預防中心提供的報告對比，追蹤疾病的精確率達到97%。社交網路為許多慢性病患者提供臨床症狀交流和診治經驗分享平台，醫生藉此可獲得在醫院通常得不到的臨床效果統計數據。基於對人體基因的大數據分析，可以實現對症下葯的個性化治療。在社會安全管理領域，通過對手機數據的挖掘，可以分析實時動態的流動人口來源、出行，實時交通客流信息及擁堵情況。利用簡訊、微博、微信和搜索引擎，可以收集熱點事件，挖掘輿情，還可以追蹤造謠信息的源頭。美國麻省理工學院通過對十萬多人手機的通話、簡訊和空間位置等信息進行處理，提取人們行為的時空規律性，進行犯罪預測。在科學研究領域，基於密集數據分析的科學發現成為繼實驗科學、理論科學和計算科學之後的第四個範例，基於大數據分析的材料基因組學和合成生物學等正在興起。

麥肯錫公司2011年報告推測，如果把大數據用於美國的醫療保健，一年產生潛在價值3000億美元，用於歐洲的公共管理可獲得年度潛在價值2500億歐元；服務提供商利用個人位置數據可獲得潛在的消費者年度盈餘6000億美元；利用大數據分析，零售商可增加運營利潤60%，製造業設備裝配成本會減少50%。

大數據技術的挑戰和啟示

目前，大數據技術的運用仍存在一些困難與挑戰，體現在大數據挖掘的四個環節中。首先在數據收集方面。要對來自網路包括物聯網和機構信息系統的數據附上時空標志，去偽存真，盡可能收集異源甚至是異構的數據，必要時還可與歷史數據對照，多角度驗證數據的全面性和可信性。其次是數據存儲。要達到低成本、低能耗、高可靠性目標，通常要用到冗餘配置、分布化和雲計算技術，在存儲時要按照一定規則對數據進行分類，通過過濾和去重，減少存儲量，同時加入便於日後檢索的標簽。第三是數據處理。有些行業的數據涉及上百個參數，其復雜性不僅體現在數據樣本本身，更體現在多源異構、多實體和多空間之間的交互動態性，難以用傳統的方法描述與度量，處理的復雜度很大，需要將高維圖像等多媒體數據降維後度量與處理，利用上下文關聯進行語義分析，從大量動態而且可能是模稜兩可的數據中綜合信息，並導出可理解的內容。第四是結果的可視化呈現，使結果更直觀以便於洞察。目前，盡管計算機智能化有了很大進步，但還只能針對小規模、有結構或類結構的數據進行分析，談不上深層次的數據挖掘，現有的數據挖掘演算法在不同行業中難以通用。

大數據技術的運用前景是十分光明的。當前，我國正處在全面建成小康社會征程中，工業化、信息化、城鎮化、農業現代化任務很重，建設下一代信息基礎設施，發展現代信息技術產業體系，健全信息安全保障體系，推進信息網路技術廣泛運用，是實現四化同步發展的保證。大數據分析對我們深刻領會世情和國情，把握規律，實現科學發展，做出科學決策具有重要意義，我們必須重新認識數據的重要價值。

為了開發大數據這一金礦，我們要做的工作還很多。首先，大數據分析需要有大數據的技術與產品支持。發達國家一些信息技術（IT）企業已提前發力，通過加大開發力度和兼並等多種手段，努力向成為大數據解決方案提供商轉型。國外一些企業打出免費承接大數據分析的招牌，既是為了練兵，也是為了獲取情報。過分依賴國外的大數據分析技術與平台，難以迴避信息泄密風險。有些日常生活信息看似無關緊要，其實從中也可摸到國家經濟和社會脈搏。因此，我們需要有自主可控的大數據技術與產品。美國政府2012年3月發布《大數據研究與發展倡議》，這是繼1993年宣布「信息高速公路」之後又一重大科技部署，聯邦政府和一些部委已安排資金用於大數據開發。我們與發達國家有不少差距，更需要國家政策支持。

中國人口居世界首位，將會成為產生數據量最多的國家，但我們對數據保存不夠重視，對存儲數據的利用率也不高。此外，我國一些部門和機構擁有大量數據卻不願與其他部門共享，導致信息不完整或重復投資。政府應通過體制機制改革打破數據割據與封鎖，應注重公開信息，應重視數據挖掘。美國聯邦政府建立統一數據開放門戶網站，為社會提供信息服務並鼓勵挖掘與利用。例如，提供各地天氣與航班延誤的關系，推動航空公司提升正點率。

大數據的挖掘與利用應當有法可依。去年底全國人大通過的加強網路信息保護的決定是一個好的開始，當前要盡快制定「信息公開法」以適應大數據時代的到來。現在很多機構和企業擁有大量客戶信息。應當既鼓勵面向群體、服務社會的數據挖掘，又要防止侵犯個體隱私；既提倡數據共享，又要防止數據被濫用。此外，還需要界定數據挖掘、利用的許可權和范圍。大數據系統本身的安全性也是值得特別關注的，要注意技術安全性和管理制度安全性並重，防止信息被損壞、篡改、泄露或被竊，保護公民和國家的信息安全。

大數據時代呼喚創新型人才。蓋特納咨詢公司預測大數據將為全球帶來440萬個IT新崗位和上千萬個非IT崗位。麥肯錫公司預測美國到2018年需要深度數據分析人才44萬—49萬，缺口14萬—19萬人；需要既熟悉本單位需求又了解大數據技術與應用的管理者150萬，這方面的人才缺口更大。中國是人才大國，但能理解與應用大數據的創新人才更是稀缺資源。

大數據是新一代信息技術的集中反映，是一個應用驅動性很強的服務領域，是具有無窮潛力的新興產業領域；目前，其標准和產業格局尚未形成，這是我國實現跨越式發展的寶貴機會。我們要從戰略上重視大數據的開發利用，將它作為轉變經濟增長方式的有效抓手，但要注意科學規劃，切忌一哄而上。

㈢大數據怎麼收集

通過數據抓取和數據監測，整合成一個巨大的資料庫——產業經濟數據監測、預測與政策模擬平台

㈣ 7個因素決定大數據的復雜性如何處理

7個因素決定大數據的復雜性如何處理

我們談論了很多關於復雜數據及其為你的商業智能帶來的挑戰和機遇，但是導致數據復雜化的是什麼呢？

以及你如何區分你的公司當前的數據是否是「復雜的」，亦或不久的將來會變得復雜？本文將解決這些問題。

為什麼這很重要？

當你試圖將數據轉化為商業價值時，它的復雜度很可能會預示你將面對的困難程度——復雜數據的准備和分析通常要比簡單數據更加困難，以及通常需要一組不同的BI 工具來實現。復雜數據在可以「成熟的」分析和可視化之前需要額外的准備工作和數據模型。因此重要的是，通過了解您目前的數據的復雜程度以及它在未來的復雜性趨向，來評估您的大數據/商業智能項目是否能夠勝任這一任務。

簡單測試：大數據或者異構數據

在高級層面上，有兩種基本的跡象表明你的數據可能被視為是復雜的：

你的數據很「大」：我們把大放在引號里是因為它貌似符合「大數據」術語的含義。然而事實是，處理海量數據在計算資源需要處理巨大的數據集方面提出了一個挑戰，就像把小麥從谷殼分開的困難，或者說在一個巨大的原始信息中辨別信號和雜音。

你的數據來自許多不同的數據源：多重數據源通常意味著臟數據，或者遵循著不同的內部邏輯結構的簡單的多個數據集。為了確保數據源有統一的數據語言，數據必須被轉換或整合到一個中央資源庫。

可以認為這是兩個最初的（可供選擇的）徵兆：如果你正處理大數據或異構數據，你應當開始思考數據的復雜性。但是深究一下，對你的公司的數據的復雜性，以下有7個更具體的指標。

（注意，以上兩點之間有相似之處，但不互相排除——反之，例如，離散數據往往意味著各種各樣的數據結構類型）

7個因素決定你的數據的復雜性

1、數據結構

不同數據源的數據，或甚至來自同一個源的不同表，通常設計同樣的信息但結構卻完全不同：

舉例來說，想像你們人力資源部有三種不同的表格，一個是員工個人信息表，另一個是員工職位和薪資表第三個是員工職位要求表，諸如此類——而你們財務部門隨同保險、福利和其他花費一起記錄同樣的信息到單個表中。另外，在這些表中的一些表可能提到員工的全名，而另一些則只有名字的首字母，或者二者的結合。為了從所有表中有效使用數據，同時不丟失或重復信息，需要數據建模或准備工作。

這是最簡單的用例：更進一步復雜化的是處理最初沒有適當地模式的非結構化數據源（例如NoSQL 資料庫）。

2、數據大小

再次回到模糊的「大數據」概念，你收集的數據量會影響你需要用來分析它的軟硬體的類型。這個可以通過原始大小來衡量：位元組，TB或PB——數據增長越大，越有可能「窒息」廣泛使用的內存資料庫（IMDB），依賴於轉化壓縮數據到伺服器內存。其他因素包括多元異構數據——包含很多數據行的表（Excel，可以說是最常用的數據分析工具，最大行數限制為1048576行），或結構化數據——包含很多數據列的表。

你將會發現在分析工具和方法上用於分析100,000行數據和那些用於分析1億行數據的是明顯不同的。

3、數據細節

你想要探索的數據的粒度水平。當創建一個儀表盤或報表，展現總結或聚合數據時常常比讓終端用戶鑽取到每一個細節更容易實現——然而這是以犧牲數據分析的深度和數據挖掘為代價而做的權宜之計。

創建一個BI系統，使其具有顆粒向海量數據鑽取處理分析的能力，（不依賴於預定義查詢，聚合或匯總表）

4、查詢語言

不同的數據源有不同的數據語言：雖然SQL是從常見數據源和RDBMS提取數據的主要手段，但是當使用第三方平台時你會經常需要通過它自己的API和語法去連接它，以及解析用於訪問數據的數據模型和協議。

你的BI工具需要足夠靈活的根據數據源允許這種本地連接的方式，或者通過內置插件或API訪問，否則你會發現你自己將不得不重復一個繁瑣的導出數據到表格SQL資料庫數據倉庫的過程，然後導入到你的商業智能軟體里，從而使你的分析變得麻煩。

5、數據類型

一方面動態數據以表格形式存儲，處理的大多是數值型數據，但是大規模和非結構化的機器數據完全是另外一回事兒，就像是文字數據集存儲在MongoDB中，當然了，更別提像視頻音頻這種超大規模的非結構化數據了。

不同的數據類型具有不同的規則，為使得商業決策建立在對公司數據的全面考慮的基礎上，找到一種建立單一可信來源的方法是至關重要的。

6、離散數據

數據存儲在多個位置：例如，組織里的不同部門，本地或雲（付費存儲或通過雲應用），來自客戶或供應商的外部數據等。這種數據不僅收集起來很困難（簡單來說是由於及時而有效的接收數據而需要的利益相關者的數量）。而且一旦收集了——在不同的數據集交叉引用和分析之前，通常需要「清理」或標准化，因為每個本地數據集是根據相關組織應用程序自身的實際和關注收集數據。

7、數據量的增長

最終，你不僅需要考慮當前數據，還有數據的增長或變化的速度。如果經常更新數據源，或經常增加新的數據源，這將會消耗你的軟硬體資源（無論何時當源數據發生重大更改時,不是非常先進的系統都需要重新獲取整個數據集）,以及上述提到的關於結構、類型、大小的復合性問題等。

怎樣掌控復雜數據？

如果你認同上述的一個或更多以及你的數據剛剛好是復雜的，不要絕望：理解，是找到一個合適的解決方案的第一步，以及復雜數據的分析本身不需要過於復雜。我們將在未來的文章中涉及解決復雜數據的方法，但是你將想問自己的第一件事可能是——控制復雜數據你實際需要多少BI系統。

以上是小編為大家分享的關於7個因素決定大數據的復雜性如何處理的相關內容，更多信息可以關注環球青藤分享更多干貨

㈤大數據面行業發展面臨哪些現實困境

1、大部分數據都是孤立的，與其他類型的數據隔離開來，無法進行宏觀全面的分析。例如，財務數據很難與消費者數據輕松匯總，以獲得關於特定客戶行為對公司財務績效影響的更深刻的見解。
2、很難足夠快地處理大數據以使洞察有用。大多數類型的數據的價值都是短暫的，消費者今天所做的將在明天和後天發生改變。為了獲得最大利益，企業需要能夠快速提供行動指導的洞察，但大多數傳統的資料庫系統無法以必要的速度處理數據。
3、收集的大部分數據都被浪費掉了。負責在海量數據中尋找業務問題「答案」的業務分析師必須過濾掉不相關的數據，並找出可能存在答案的特定數據集。結果，估計有60%至73%的數據未提供價值。如今，另一個主要的數據來源正在推動潮流——物聯網數據。物聯網在許多方面加劇了數據問題，但它也提供了解決方案。

㈥如何提高收集數據和分析數據的能力

談一些個人的工作經驗，希望對後來人有幫助。首先總結下平時數據分析的一般步驟。

---------------------------濃縮精華版--------------------------------

第一步：數據准備：（70%時間）

獲取數據（爬蟲，數據倉庫）

驗證數據

數據清理（缺失值、孤立點、垃圾信息、規范化、重復記錄、特殊值、合並數據集）

使用python進行文件讀取csv或者txt便於操作數據文件（I/O和文件串的處理，逗號分隔）

抽樣（大數據時。關鍵是隨機）

存儲和歸檔

第二步：數據觀察（發現規律和隱藏的關聯）

單一變數：點圖、抖動圖；直方圖、核密度估計；累計分布函數

兩個變數：散點圖、LOESS平滑、殘差分析、對數圖、傾斜

多個變數：假色圖、馬賽克圖、平行左邊圖

第三步：數據建模
推算和估算（均衡可行性和成本消耗）

縮放參數模型（縮放維度優化問題）

建立概率模型（二項、高斯、冪律、幾何、泊松分布與已知模型對比）

第四步：數據挖掘

選擇合適的機器學習演算法（蒙特卡洛模擬，相似度計算，主成分分析）

大數據考慮用Map/Rece

得出結論，繪制最後圖表

循環到第二步到第四步，進行數據分析，根據圖表得出結論完成文章。

------------------------------業務分析版--------------------------------
「無尺度網路模型」的作者艾伯特-拉斯洛·巴拉巴西認為——人類93%的行為是可以預測的。數據作為人類活動的痕跡，就像金礦等待發掘。但是首先你得明確自己的業務需求，數據才可能為你所用。

1. 數據為王，業務是核心
了解整個產業鏈的結構
制定好業務的發展規劃

衡量的核心指標有哪些

有了數據必須和業務結合才有效果。首先你需要摸清楚所在產業鏈的整個結構，對行業的上游和下游的經營情況有大致的了解。然後根據業務當前的需要，指定發展計劃，從而歸類出需要整理的數據。最後一步詳細的列出數據核心指標（KPI），並且對幾個核心指標進行更細致的拆解，當然具體結合你的業務屬性來處理，找出那些對指標影響幅度較大的影響因子。前期資料的收集以及業務現況的全面掌握非常關鍵。

2. 思考指標現狀，發現多維規律
熟悉產品框架，全面定義每個指標的運營現狀

對比同行業指標，挖掘隱藏的提升空間

拆解關鍵指標，合理設置運營方法來觀察效果

爭對核心用戶，單獨進行產品用研與需求挖掘

發現規律不一定需要很高深的編程方法，或者復雜的統計公式，更重要的是培養一種感覺和意識。不能用你的感覺去揣測用戶的感覺，因為每個人的教育背景、生活環境都不一樣。很多數據元素之間的關系沒有明顯的顯示，需要使用直覺與觀察（數據可視化技術來呈現）。

3. 規律驗證，經驗總結
發現了規律之後不能立刻上線，需要在測試機上對模型進行驗證。

P.S.數學建模能力對培養數感有一定的幫助
推薦兩個論壇：
數學建模與數學應用論壇(Mathematical Modeling and Mathematical Applications Forum)

數學中國 (數學建模)-最專業的數學理論研究、建模實踐平台

㈦收集大數據真的有那麼難么

在談及大數據概念時，人們經常會問：到底什麼是大數據看面對這個問題，不同專的人都有不同的理解，也能描述屬出很多不同的話語來。但如果用一句話來概括，應該怎樣描述看

其實大數據是一種現象，這種現象就是舍恩伯格的大數據時代書中描述的大數據的4V特徵，即數據體量巨大(Volume)、數據類型繁多(Variety)、價值密度低(Value)、處理速度快(Velocity)。擁有這4V特徵的數據都叫大數據。
透過現象看本質，大數據的本質是什麼。大數據的本質還是數據，只是數據量比以前大了一點點。從數據的角度看，數據的價值不在於其本身，而在於其分析後的商業價值。因此大數據的價值也在其分析後的商業價值。谷歌使用大數據進行的流感預測，使人們感受到了大數據帶來的巨大商業價值，因此人們紛紛利用大數據進行商業分析。

㈧如何解決大數據4個特點帶來的四個困難

我覺得大數據是現代非常值得研究關注的一個課題，困難很多。

導航:首頁 > 網路數據 > 大數據收集很困難

大數據收集很困難

與大數據收集很困難相關的資料

友情鏈接