大數據2注_關於大數據的幾個問題！

1. 什麼是大數據要簡單通俗點的解釋

這是一個非常好的問題，作為一名大數據從業者，我來回答一下。

在當前的大數據時代，不僅IT（互聯網）行業的人需要了解大數據相關知識，傳統行業的從業者和普通大學生也都應該了解一定的大數據知識，在產業互聯網和新基建計劃的推動下，未來大數據技術將全面開始落地應用，大數據也將重塑整個產業結構。

了解大數據首先要從大數據的概念開始，不同於人工智慧概念，大數據概念還是相對比較明確的，而且大數據的技術體系也已經趨於成熟了。解釋大數據概念，可以從數據自身的特點入手，然後進一步從場景、應用和行業來逐漸展開。

大數據自身的特點往往集中在五個方面，分別是數據量、數據結構多樣性、數據價值密度、數據增長速度和可信度，對於這五個維度的理解和認知，是了解大數據概念的關鍵。當然，隨著大數據技術的發展和在行業領域的應用，關於數據自身的維度也有了一定程度的擴展，這些擴展本身也是對大數據概念的一種豐富和完善。

數據量大是大數據的一個重要特徵，但是數據量本身是一個匯集的概念，並不是只有很大的數據才稱為大數據，傳統信息系統所產生的「小數據」也是大數據的一個重要組成部分，這一點一定要有清晰的認知。當前從大數據的數據來源來看，主要集中在三個渠道，包括互聯網、物聯網和傳統信息系統，物聯網數據當前占據的比例比較大，相信在5G時代，物聯網將依然是大數據的主要數據來源。

數據結構多樣性是大數據的另一個重要特點，不同於創新信息系統（ERP）當中的數據，大數據的數據類型是非常復雜的，既有結構化數據，也有非結構化數據和半結構化數據，這對於傳統的數據處理技術提出了巨大的挑戰，這也是推動大數據技術產生的一個重要原因。在工業互聯網時代，大數據的數據結構多樣性會進一步得到體現，這對於數據價值化過程也提出了新的挑戰。

數據價值密度往往是衡量數據價值的重要基礎，相對於傳統的信息系統來說，大數據當中的數據價值密度是比較低的，這就需要有更快速和便捷的方式，來完成數據的價值化提取過程，而這也正是當前大數據平台所關注的核心能力之一。實際上，早期的Hadoop、Spark平台之所以能夠脫穎而出，一個重要的原因就是其數據處理（排序）速度比較快。

數據增長速度快是大數據的另一個重要表現，通常傳統信息系統的數據增量是可以預測的，或者說增長速度是可控的，但是在大數據時代，數據增長速度已經大大突破了傳統數據處理所能承載的極限。數據增長是一個相對的概念，相對於消費互聯網來說，產業互聯網所帶來的數據增量可能會更加客觀，因此產業互聯網時代會進一步打開大數據的價值空間。

最後，大數據還有一個特點就是數據本身的真實性，大數據時代所帶來的一個重要副作用就是數據真假難辨，這也是當前大數據技術所要重點解決的問題之一。從當前大型互聯網平台所採用的方法來看，通常是技術和管理相結合的方式，比如通過為用戶認證就能夠解決一部分數據的真實性（專業性）問題。

如果有互聯網、大數據、人工智慧等方面的問題，或者是考研方面的問題，都可以在評論區留言，或者私信我！

博士時候就是做大數據。

最通俗一點就是很多條數據。

我們做大數據研究呢，就是高效的處理數據，對未來做一些預測，建議等。

例如，全中國人大多數都是10點睡覺。睡覺前看一看手機。那我們做推廣時候，就可以選擇9點半的時間。

大數據沒有什麼特別神秘的地方，就是數據多一點。

大數據這個詞其實流行了很久了，與我們的生活息息相關，並不陌生，現在我們生活中的大平台基本上都用到大數據，淘寶，拼多多，美團，滴滴等都用到大數據，如今大數據基本上無處不在。

一、大數據是什麼意思

大數據(big data),IT行業術語,是指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

二、大數據特徵

容量(Volume):數據的大小決定所考慮的數據的價值和潛在的信息;

種類(Variety):數據類型的多樣性;

速度(Velocity):指獲得數據的速度;

可變性(Variability):妨礙了處理和有效地管理數據的過程。

真實性(Veracity):數據的質量。

復雜性(Complexity):數據量巨大,來源多渠道。

價值(value):合理運用大數據,以低成本創造高價值。

三、大數據的歷史發展

人類誕生以來，數據就開始膨脹，時代交替，工業革命，互聯網時代，5G時代，人工智慧時代，都是數據的一次次發展，數據的不斷精準，加快了人類的新陳代謝，大數據推動歷史發展。

四、大數據意義

大數據的價值體現在以下幾個方面:

1、對大量消費者提供產品或服務的企業可以利用大數據進行精準營銷;

2、做小而美模式的中小微企業可以利用大數據做服務轉型;

3、面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值。

4、各大領域的科研需要大數據，加快技術變革和換代如醫療，環保，公共政府服務

5、航空航天，軍事領域因為大數據也會得到突飛猛進的提升。

生活工作中所有的流水賬信息就是大數據，在信息化時代，它通過特定模式的整合、分析，使人得到對自己有用的、有指導性的結論。參加工作時講台塑數字化、表單化、信息化，一晃二十年了，應該就是大數據的雛形，但那會信息化能力不足，沒人這么稱呼。管理是千變萬幻，主線未變，大數據也僅僅是一種方法，只是更符合形勢，更有效。小名流水賬，大名大數據。

舉個例子，大數據記錄了一個愛抽煙的男人。晚上一般是先抽煙以後刷牙。有一天男士刷了牙以後抽煙。第二天app開始推送了tt。根據兩天的記錄了刷牙到抽煙的時間，第三天app推送了加厚版的tt。一個半月後某天記錄到男人一直抽煙，便推送了某家專科醫院。再過了一個月，發現男人再無抽煙，推送了鉑爵旅拍。

從前有個大爺，在證券公司車庫上班，給證券公司大戶、老闆看守車，這么一個工作。

這位大爺特別喜歡炒股，他也不會技術分析，什麼基本面分析！每當呢，車庫裡面的車停的非常少的時候，這位大爺就買進股票，這大爺也不知道什麼股票好，什麼股票不好，就隨便買，等車庫裡面的車停的越來越多了，每次都停滿了的時候，這位大爺就買出股票。每次都能賺到錢！！！

這就是非常簡單的大數據，大爺利用車庫里車的多少來判斷市場的火熱程度，人棄我取，等到全民炒股的時候，市場就會出現泡沫，這時候離「崩盤」也就不遠了

大數據通俗的解釋就是海量的數據，顧名思義，大就是多、廣的意思，而數據就是信息、技術以及數據資料，合起來就是多而廣的信息、技術、以及數據資料。

大數據簡單的說就是市場調研的升級版。包括騰訊，阿里巴巴等這些具有大量用戶的公司，對其客戶在其平台的所有行為發布的所有內容進行採集分類和分析。而這些數據有分成共性和個性。從所有人中採集出共性有助於發覺商機，了解客戶痛點，更好地推出客戶滿意的產品，比如很多化妝品公司就會跟淘寶購買數據從而研發出更貼合市場需求的產品。而從你個人採集的數據屬於個性，系統會通過你個人的數據採集進行相對於的推薦和改變，也就是我們經常說的ai智能，例子像我們的淘寶現在都是千人千面，每人手機打開的淘寶推薦的東西都不一樣，這些就是大數據的效果。

大數據通俗來說就是有個機器，把你生活中的點點滴滴都記錄下來，形成一種特定的形式！

大數據簡單來說：就是海量的信息！不論用途，不論方向，就是簡單地信息收集，參數收集，所有這些匯總起來就是大數據。大數據，不是隨機樣本，而是所有數據！

而大數據分析，就是針對這些信息進行識別，再進行分類，將其有事件變為數據化，概率化，然後應用於各種商業用途。

以上是對大數據簡單地解讀。那麼大數據的意義何在呢？

隨著大數據的發展，企業的技術研發、應用和落地在前期就能獲得預期，能避免很多無所謂的浪費，以便於將有限的資源集中到開發更適合時代的企業產業。

商業決策可以通過數據分析來獲取更為准確的信息和方向，最終能幫助決策者能更為准確直觀的指導業務實踐。

人工智慧離不開數據。隨著人工智慧的發展，數據能模擬的更加人性化，也更個人化，也更適合於各種不同場景的應用。大數據的價值在於它是目前解決這個時代更新最有效的方法。

但對於我個人而言，比較抵觸過度的大數據和互聯網，原因如下：

一、當各類app通過我的使用習慣，推薦各種我搜索過一次的各種商業廣告時，我會有種隱私被人冒犯的憤怒；

二、當你在使用各類軟體時，都會被要求提供個人信息以便於獲得更好的用戶體驗，這無形中增加了個人數據泄露的風險；

三、當數據化盛行，似乎人性變得無處安放；

四、一旦行業固化，人們想要突破階層將變得不可能，擁有大量數據的將遙遙領先，後發的行人，將一輩子連望其項背的資格都沒有，可以預見社會將會成為一潭死水，毫無興趣和生機。

2. 大數據分析要注意哪些問題

1、從過時的事務戰略開端

世界瞬息萬變，沒有發展到適用於第四次工業革命的商業戰略就不會具有吸引力。您的數據戰略應支撐適用於當今世界的事務體系。在過時的事務戰略方面，投入精力和資產來搜集和分析數據似乎很糟糕。您不只不能抵達應該抵達的當地，而且會浪費時刻和資源來實現方針。

2、隨意搜集數據

從一開端，可能很誘人直接反彈並搜集整個點上的數據，而沒有恰當的思路來了解這將如何協助您的事務。原始信息一般對大多數事務用戶而言什麼也沒說，而很多信息泛濫而樹立巨大的資料庫則沒有任何特定的優點或有用的意圖，除非佔用您的時刻和資產。

3、投資回報率有限

為了有效地處理客戶數據的重要事務資源，安排需求技術來簡化數據搜集，隨著信息量的動搖而主動擴展並為包含人工智慧在內的中心事務提供支撐，一起還要考慮到自界說。安排犯下的一個典型過錯是，從這些進步中尋求短期的投資回報，而不是專心於其為企業帶來的長期價值和優勢。

4、忽略數據質量

下一個最重要的視點是確保您擁有出色的數據。您可能有很多來自正確來歷並契合您方針的數據;在任何情況下，這都不會破壞對數據的准確性和可猜測性的要求。巨大的安排實際上僅僅招聘人員來整理很多數據，以確保一致性和統一性。

5、隱私和法令問題

在任何數據項意圖開端，都應樹立恰當的數據管理。應界說對道德運用數據以及數據運用的法令和隱私問題的考慮。客戶的信任至關重要。客戶應該堅信您將安全地使用他們的信息，而且他們會從答應您使用他們的信息中取得實在的價值。

6、缺少專門的商業智能團隊

在有效地搜集數據之後，許多安排以為很難從數據中取得價值和洞察力，主要是因為他們沒有投入滿足的資源來樹立專門的BI組來協助他們搜集、分析和共享數據，以及推動進步的方法。

關於大數據分析要注意哪些問題，青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣，希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容，可以點擊本站的其他文章進行學習。

3. 關於大數據的幾個問題！

大數據就是大量數據了，比如淘寶網存儲的用戶信息，用戶購買記錄等，這個版數據量達權到PB級了。
大數據帶來的優勢不好說啊，見過這樣的大數據才有感覺。
大數據應用：最直觀還是淘寶、京東這些，有沒有注意到你瀏覽過、買過一些產品之後，有些廣告推送就會給推送相關產品，這就是大數據的應用，通過分析你的購買記錄，分析你可能感興趣的商品，比如你買過嬰兒奶粉，那你對紙尿褲、濕紙巾可能就感興趣，這些都是後台大數據分析平台乾的事情。
同上。
理解不夠深刻，覺得可做的事情挺多，尤其是政府，大數據很有用，比如城市交通狀況的預測、停車引導等等，比如犯罪嫌疑人的追蹤（這個需要多方面的技術配合）。

4. 大數據是什麼

作者：李麗
鏈接：https://www.hu.com/question/23896161/answer/28624675
來源：知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請註明出處。

"大數據"是一個體量特別大，數據類別特別大的數據集，並且這樣的數據集無法用傳統資料庫工具對其內容進行抓取、管理和處理。 "大數據"首先是指數據體量(volumes)?大，指代大型數據集，一般在10TB?規模左右，但在實際應用中，很多企業用戶把多個數據集放在一起，已經形成了PB級的數據量；其次是指數據類別(variety)大，數據來自多種數據源，數據種類和格式日漸豐富，已沖破了以前所限定的結構化數據范疇，囊括了半結構化和非結構化數據。接著是數據處理速度（Velocity）快，在數據量非常龐大的情況下，也能夠做到數據的實時處理。最後一個特點是指數據真實性（Veracity）高，隨著社交數據、企業內容、交易與應用數據等新數據源的興趣，傳統數據源的局限被打破，企業愈發需要有效的信息之力以確保其真實性及安全性。
"大數據"是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看，"大數據"指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶採用非傳統處理方法的數據集。
亞馬遜網路服務（AWS）、大數據科學家JohnRauser提到一個簡單的定義：大數據就是任何超過了一台計算機處理能力的龐大數據量。
研發小組對大數據的定義："大數據是最大的宣傳技術、是最時髦的技術，當這種現象出現時，定義就變得很混亂。" Kelly說："大數據是可能不包含所有的信息，但我覺得大部分是正確的。對大數據的一部分認知在於，它是如此之大，分析它需要多個工作負載，這是AWS的定義。當你的技術達到極限時，也就是數據的極限"。大數據不是關於如何定義，最重要的是如何使用。最大的挑戰在於哪些技術能更好的使用數據以及大數據的應用情況如何。這與傳統的資料庫相比，開源的大數據分析工具的如Hadoop的崛起，這些非結構化的數據服務的價值在哪裡。
二、大數據分析
從所周知，大數據已經不簡簡單單是數據大的事實了，而最重要的現實是對大數據進行分析，只有通過分析才能獲取很多智能的，深入的，有價值的信息。那麼越來越多的應用涉及到大數據，而這些大數據的屬性，包括數量，速度，多樣性等等都是呈現了大數據不斷增長的復雜性，所以大數據的分析方法在大數據領域就顯得尤為重要，可以說是決定最終信息是否有價值的決定性因素。基於如此的認識，大數據分析普遍存在的方法理論有哪些呢？
1、可視化分析
大數據分析的使用者有大數據分析專家，同時還有普通用戶，但是他們二者對於大數據分析最基本的要求就是可視化分析，因為可視化分析能夠直觀的呈現大數據特點，同時能夠非常容易被讀者所接受，就如同看圖說話一樣簡單明了
2、數據挖掘演算法
大數據分析的理論核心就是數據挖掘演算法，各種數據挖掘的演算法基於不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點，也正是因為這些被全世界統計學家所公認的各種統計方法（可以稱之為真理）才能深入數據內部，挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的演算法才能更快速的處理大數據，如果一個演算法得花上好幾年才能得出結論，那大數據的價值也就無從說起了。
3、預測性分析能力
大數據分析最終要的應用領域之一就是預測性分析，從大數據中挖掘出特點，通過科學的建立模型，之後便可以通過模型帶入新的數據，從而預測未來的數據。
4、數據質量和數據管理
大數據分析離不開數據質量和數據管理，高質量的數據和有效的數據管理，無論是在學術研究還是在商業應用領域，都能夠保證分析結果的真實和有價值。
大數據分析的基礎就是以上五個方面，當然更加深入大數據分析的話，還有很多很多更加有特點的、更加深入的、更加專業的大數據分析方法。
三、大數據技術
1、數據採集：ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成，最後載入到數據倉庫或數據集市中，成為聯機分析處理、數據挖掘的基礎。
2、數據存取：關系資料庫、NOSQL、SQL等。
3、基礎架構：雲存儲、分布式文件存儲等。
4、數據處理：自然語言處理(NLP，NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言，所以自然語言處理又叫做自然語言理解(NLU，NaturalLanguage Understanding)，也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支，另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。
5、統計分析：假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析（最優尺度分析）、bootstrap技術等等。
6、數據挖掘：分類
（Classification）、估計（Estimation）、預測（Prediction）、相關性分組或關聯規則（Affinity grouping or
association rules）、聚類（Clustering）、描述和可視化、Description and Visualization）、復雜數據類型挖掘(Text,
Web ,圖形圖像，視頻，音頻等)
7、模型預測：預測模型、機器學習、建模模擬。
8、結果呈現：雲計算、標簽雲、關系圖等。
四、大數據特點
要理解大數據這一概念，首先要從"大"入手，"大"是指數據規模，大數據一般指在10TB(1TB=1024GB)規模以上的數據量。大數據同過去的海量數據有所區別，其基本特徵可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity)，即體量大、多樣性、價值密度低、速度快。
1、
數據體量巨大。從TB級別，躍升到PB級別。
2、
數據類型繁多，如前文提到的網路日誌、視頻、圖片、地理位置信息，等等。
3、
價值密度低。以視頻為例，連續不間斷監控過程中，可能有用的數據僅僅有一兩秒。
4、
處理速度快。1秒定律。最後這一點也是和傳統的數據挖掘技術有著本質的不同。物聯網、雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的感測器，無一不是數據來源或者承載的方式。
大數據技術是指從各種各樣類型的巨量數據中，快速獲得有價值信息的技術。解決大數據問題的核心是大數據技術。目前所說的"大數據"不僅指數據本身的規模，也包括採集數據的工具、平台和數據分析系統。大數據研發目的是發展大數據技術並將其應用到相關領域，通過解決巨量數據處理問題促進其突破性發展。因此，大數據時代帶來的挑戰不僅體現在如何處理巨量數據從中獲取有價值的信息，也體現在如何加強大數據技術研發，搶占時代發展的前沿。
五、大數據處理
大數據處理之一：採集
大數據的採集是指利用多個資料庫來接收發自客戶端（Web、App或者感測器形式等）的數據，並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如，電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據，除此之外，Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中，其主要特點和挑戰是並發數高，因為同時有可能會有成千上萬的用戶來進行訪問和操作，比如火車票售票網站和淘寶，它們並發的訪問量在峰值時達到上百萬，所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間進行負載均衡和分片的確是需要深入的思考和設計。
大數據處理之二：導入/預處理
雖然採集端本身會有很多資料庫，但是如果要對這些海量數據進行有效的分析，還是應該將這些來自前端的數據導入到一個集中的大型分布式資料庫，或者分布式存儲集群，並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算，來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大，每秒鍾的導入量經常會達到百兆，甚至千兆級別。
大數據處理之三：統計/分析
統計與分析主要利用分布式資料庫，或者分布式計算集群來對存儲於其內的海量數據進行普通的分析和分類匯總等，以滿足大多數常見的分析需求，在這方面，一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata，以及基於MySQL的列式存儲Infobright等，而一些批處理，或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大，其對系統資源，特別是I/O會有極大的佔用。
大數據處理之四：挖掘
與前面統計和分析過程不同的是，數據挖掘一般沒有什麼預先設定好的主題，主要是在現有數據上面進行基於各種演算法的計算，從而起到預測（Predict）的效果，從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的Kmeans、用於統計學習的SVM和用於分類的NaiveBayes，主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很復雜，並且計算涉及的數據量和計算量都很大，常用數據挖掘演算法都以單線程為主。
整個大數據處理的普遍流程至少應該滿足這四個方面的步驟，才能算得上是一個比較完整的大數據處理
六、大數據應用與案例分析
大數據應用的關鍵，也是其必要條件，就在於"IT"與"經營"的融合，當然，這里的經營的內涵可以非常廣泛，小至一個零售門店的經營，大至一個城市的經營。以下是關於各行各業，不同的組織機構在大數據方面的應用的案例，在此申明，以下案例均來源於網路，本文僅作引用，並在此基礎上作簡單的梳理和分類。
大數據應用案例之：醫療行業
[1] Seton Healthcare是採用IBM最新沃森技術醫療保健內容分析預測的首個客戶。該技術允許企業找到大量病人相關的臨床醫療信息，通過大數據處理，更好地分析病人的信息。
[2] 在加拿大多倫多的一家醫院，針對早產嬰兒，每秒鍾有超過3000次的數據讀取。通過這些數據分析，醫院能夠提前知道哪些早產兒出現問題並且有針對性地採取措施，避免早產嬰兒夭折。
[3] 它讓更多的創業者更方便地開發產品，比如通過社交網路來收集數據的健康類App。也許未來數年後，它們搜集的數據能讓醫生給你的診斷變得更為精確，比方說不是通用的成人每日三次一次一片，而是檢測到你的血液中葯劑已經代謝完成會自動提醒你再次服葯。
大數據應用案例之：能源行業
[1] 智能電網現在歐洲已經做到了終端，也就是所謂的智能電表。在德國，為了鼓勵利用太陽能，會在家庭安裝太陽能，除了賣電給你，當你的太陽能有多餘電的時候還可以買回來。通過電網收集每隔五分鍾或十分鍾收集一次數據，收集來的這些數據可以用來預測客戶的用電習慣等，從而推斷出在未來2~3個月時間里，整個電網大概需要多少電。有了這個預測後，就可以向發電或者供電企業購買一定數量的電。因為電有點像期貨一樣，如果提前買就會比較便宜，買現貨就比較貴。通過這個預測後，可以降低采購成本。

[2] 維斯塔斯風力系統，依靠的是BigInsights軟體和IBM超級計算機，然後對氣象數據進行分析，找出安裝風力渦輪機和整個風電場最佳的地點。利用大數據，以往需要數周的分析工作，現在僅需要不足1小時便可完成。
大數據應用案例之：通信行業
[1] XO Communications通過使用IBM SPSS預測分析軟體，減少了將近一半的客戶流失率。XO現在可以預測客戶的行為，發現行為趨勢，並找出存在缺陷的環節，從而幫助公司及時採取措施，保留客戶。此外，IBM新的Netezza網路分析加速器，將通過提供單個端到端網路、服務、客戶分析視圖的可擴展平台，幫助通信企業制定更科學、合理決策。
[2] 電信業者透過數以千萬計的客戶資料，能分析出多種使用者行為和趨勢，賣給需要的企業，這是全新的資料經濟。
[3] 中國移動通過大數據分析，對企業運營的全業務進行針對性的監控、預警、跟蹤。系統在第一時間自動捕捉市場變化，再以最快捷的方式推送給指定負責人，使他在最短時間內獲知市場行情。
[4] NTT docomo把手機位置信息和互聯網上的信息結合起來，為顧客提供附近的餐飲店信息，接近末班車時間時，提供末班車信息服務。

5. 大數據的內容是什麼

問題一：大數據都包括什麼內容？你好，
第一，你可以直接網路搜索。
第二，根據我的理解，所有你在互聯網上留下的痕跡就是大數據。
比如很多購物網站，會根據你以前的購買記錄，在你再次到該網站的時候，在頁面底部出現「猜你喜歡」，推薦幾個你可能喜歡的東西。比如淘寶、天貓、京東這些購物網站。
有時候，還會定期發郵件給你，推薦你一些商品，比如做的比較好的，像亞馬遜。
希望能對你有所幫助，有什麼問題我們可以繼續交流

問題二：什麼是大數據？大數據是什麼意思？「大數據」是近年來IT行業的熱詞，大數據在各個行業的應用逐漸變得廣泛起來，如2014年的兩會，我們聽得最多的也是大數據分析，那麼，什麼是大數據呢，大數據時代怎麼理解呢，一起來看看吧。
大數據的定義。大數據，又稱巨量資料，指的是所涉及的數據資料量規模巨大到無法通過人腦甚至主流軟體工具，在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。
大數據的特點。數據量大、數據種類多、要求實時性強、數據所蘊藏的價值大。在各行各業均存在大數據，但是眾多的信息和咨詢是紛繁復雜的，我們需要搜索、處理、分析、歸納、總結其深層次的規律。
大數據的採集。科學技術及互聯網的發展，推動著大數據時代的來臨，各行各業每天都在產生數量巨大的數據碎片，數據計量單位已從從Byte、KB、MB、 GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。大數據時代數據的採集也不再是技術問題，只是面對如此眾多的數據，我們怎樣才能找到其內在規律。
大數據的挖掘和處理。大數據必然無法用人腦來推算、估測，或者用單台的計算機進行處理，必須採用分布式計算架構，依託雲計算的分布式處理、分布式資料庫、雲存儲和虛擬化技術，因此，大數據的挖掘和處理必須用到雲技術。
互聯網是個神奇的大網，大數據開發也是一種模式，你如果真想了解大數據，可以來這里，這個手機的開始數字是一八七中間的是三兒零最後的是一四二五零，按照順序組合起來就可以找到，我想說的是，除非你想做或者了解這方面的內容，如果只是湊熱鬧的話，就不要來了。
大數據的應用。大數據可應用於各行各業，將人們收集到的龐大數據進行分析整理，實現資訊的有效利用。舉個本專業的例子，比如在奶牛基因層面尋找與產奶量相關的主效基因，我們可以首先對奶牛全基因組進行掃描，盡管我們獲得了所有表型信息和基因信息，但是由於數據量龐大，這就需要採用大數據技術，進行分析比對，挖掘主效基因。例子還有很多。
大數據的意義和前景。總的來說，大數據是對大量、動態、能持續的數據，通過運用新系統、新工具、新模型的挖掘，從而獲得具有洞察力和新價值的東西。以前，面對龐大的數據，我們可能會一葉障目、可見一斑，因此不能了解到事物的真正本質，從而在科學工作中得到錯誤的推斷，而大數據時代的來臨，一切真相將會展現在我么面前。
商業智能的技術體系主要有數據倉庫（Data Warehouse，DW）、聯機分析處理（OLAP）以及數據挖掘（Data Mining，DM）三部分組成。
數據倉庫是商業智能的基礎,許多基本報表可以由此生成,但它更大的用處是作為進一步分析的數據源。所謂數據倉庫（DW）就是面向主題的、集成的、穩定的、不同時間的數據 *** ，用以支持經營管理中的決策制定過程。多維分析和數據挖掘是最常聽到的例子,數據倉庫能供給它們所需要的、整齊一致的數據。
在線分析處理（OLAP）技術則幫助分析人員、管理人員從多種角度把從原始數據中轉化出來、能夠真正為用戶所理解的、並真實反映數據維特性的信息，進行快速、一致、交互地訪問，從而獲得對數據的更深入了解的一類軟體技術。
數據挖掘（DM）是一種決策支持過程，它主要基於AI、機器學習、統計學等技術，高度自動化地分析企業原有的數據，做出歸納性的推理，從中挖掘出潛在的模式，預測客戶的行為，幫助企業的決策者調整市場策略，減少風險，做出正確的決策。
商業智能的應用范圍
1.采購管理
2.財務管理
3.人力資源管理
4.客戶服務
5.配銷管......>>

問題三：什麼是大數據大數據是一個體量特別大，數據類別特別大的數據集，並且這樣的數據集無法用傳統資料庫工具對其內容進行抓取、管理和處理。大數據首先是指數據體量(volumes)?大，指代大型數據集，一般在10TB?規模左右，但在實際應用中，很多企業用戶把多個數據集放在一起，已經形成了PB級的數據量；其次是指數據類別(variety)大，數據來自多種數據源，數據種類和格式日漸豐富，已沖破了以前所限定的結構化數據范疇，囊括了半結構化和非結構化數據。接著是數據處理速度（Velocity）快，在數據量非常龐大的情況下，也能夠做到數據的實時處理。最後一個特點是指數據真實性（Veracity）高，隨著社交數據、企業內容、交易與應用數據等新數據源的興趣，傳統數據源的局限被打破，企業愈發需要有效的信息之力以確保其真實性及安全性。
數據採集：ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成，最後載入到數據倉庫或數據集市中，成為聯機分析處理、數據挖掘的基礎。
數據存取：關系資料庫、NOSQL、SQL等。
基礎架構：雲存儲、分布式文件存儲等。
數據處理：自然語言處理(NLP，NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機理解自然語言，所以自然語言處理又叫做自然語言理解(NLU，NaturalLanguage Understanding)，也稱為計算語言學(putational Linguistics。一方面它是語言信息處理的一個分支，另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。
統計分析：假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析（最優尺度分析）、bootstrap技術等等。
數據挖掘：分類（Classification）、估計（Estimation）、預測（Prediction）、相關性分組或關聯規則（Affinity grouping or association rules）、聚類（Clustering）、描述和可視化、Description and Visualization）、復雜數據類型挖掘(Text, Web ,圖形圖像，視頻，音頻等)
模型預測：預測模型、機器學習、建模模擬。
結果呈現：雲計算、標簽雲、關系圖等。
要理解大數據這一概念，首先要從大入手，大是指數據規模，大數據一般指在10TB(1TB=1024GB)規模以上的數據量。大數據同過去的海量數據有所區別，其基本特徵可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity)，即體量大、多樣性、價值密度低、速度快。
第一，數據體量巨大。從TB級別，躍升到PB級別。
第二，數據類型繁多，如前文提到的網路日誌、視頻、圖片、地理位置信息，等等。
第三，價值密度低。以視頻為例，連續不間斷監控過程中，可能有用的數據僅僅有一兩秒。
第四，處理速度快。1秒定律。最後這一點也是和傳統的......>>

問題四：什麼是大數據大數據是什麼意思「大數據」不是「數據分析」的另一種說法！大數據具有規模性、高速性、多樣性、而且無處不在等全新特點，具體地說，是指需要通過快速獲取、處理、分析和提取有價值的、海量、多樣化的交易數據、交互數據為基礎，針對企業的運作模式提出有針對性的方案。由於物聯網和智能可穿戴的普及帶來的，生產線上普通的藍領員工，前台電話員，等企業內的低階員工也成為產生大數據的數據內容的一部分，數據的產生除了來自社交網路，網站，電子商務網站，郵箱外，智能手機，各種感測器，和物聯網，智能可穿戴設備。
大數據營銷與傳統營銷最顯著的區別是大數據可以深入到營銷的各個環節，使營銷無處不在。如用戶的偏好？上網的時間段？上網主要瀏覽頁？對頁面和產品的點擊次數？網站上的用戶評價對他的影響？他會在哪些地方分享對產品和購物過程的體驗？這些都是對用戶網上消費和品牌關注度的深入分析，可以直接影響用戶消費的傾向等商業效果。
大數據徹底改變企業內部運作模式，以往的管理是「領導怎麼說？」現在變成「大數據的分析結果」，這是對傳統領導力的挑戰，也推動企業管理崗位人才的定義。不僅懂企業的業務流程，還要成為數據專家，跨專業的要求改變過去領導力主要體現在經驗和過往業績上，如今熟練掌握大數據分析工具，善於運用大數據分析結果結合企業的銷售和運營管理實踐是新的要求。
當然大數據對企業的作用一個不可迴避的關鍵因素是數據的質量，有句話叫「垃圾進，垃圾出」指的是如果採集的是大量垃圾數據會導致出來的分析結果也是毫無意義的垃圾。此外，企業內部是否會形成一個個孤立的數據孤島，數據是否會成就企業內某些人或團隊新的權力，導致數據不能得到實時有效地分享，這些都會是阻礙大數據在企業中有效應用的因素。
而隨著大數據時代的到來，對大數據商業價值的挖掘和利用逐漸成為行業人士爭相追捧的利潤焦點。業內人士稱，電商企業通過大數據應用，可以探索個人化、個性化、精確化和智能化地進行廣告推送和推廣服務，創立比現有廣告和產品推廣形式性價比更高的全新商業模式。同時，電商企業也可以通過對大數據的把握，尋找更多更好地增加用戶粘性，開發新產品和新服務，降低運營成本的方法和途徑。

問題五：大數據到底是什麼東西？基於大數據→企業網上支付與結算
基於大數據→銀行的融資參考依據
基於大數據→優化庫存周轉
基於大數據→按需按量按地定產，高效自營

問題六：大數據時代：大數據是什麼？大數據是什麼？是一種運營模式，是一種能力，還是一種技術，或是一種數據 *** 的統稱？今天我們所說的「大數據」和過去傳統意義上的「數據」的區別又在哪裡？大數據的來源又有哪些？等等。當然，我不是專家學者，我無法給出一個權威的，讓所有人信服的定義，以下所談只是我根據自己的理解進行小結歸納，只求表達出我個人的理解，並不求全面權威。先從「大數據」與「數據」的區別說起吧，過去我們說的「數據」很大程度上是指「數字」，如我們所說的客戶量，業務量，營業收入額，利潤額等等，都是一個個數字或者是可以進行編碼的簡單文本，這些數據分析起來相對簡單，過去傳統的數據解決方案（如資料庫或商業智能技術）就能輕松應對；而今天我們所說的「大數據」則不單純指「數字」，可能還包括「文本，圖片，音頻，視頻……」等多種格式，其涵括的內容十分豐富，如我們的博客，微博，輕博客，我們的音頻視頻分享，我們的通話錄音，我們位置信息，我們的點評信息，我們的交易信息，互動信息等等，包羅萬象。用正規的語句來概括就是，「數據」是結構化的，而「大數據」則包括了「結構化數據」「半結構化數據」和「非結構化數據」。關於「結構化」「半結構化」「非結構化」可能從字面上比較難理解，在此我試著用我的語言看能否形象點地表達出來：由於數據是結構化的，數據分析可以遵循一定現有規律的，如通過簡單的線性相關，數據分析可以大致預測下個月的營業收入額；而大數據是半結構化和非結構化的，其在分析過程中遵循的規律則是未知的，它通過綜合方方面面的信息進行模擬，它以分析形式評估證據，假設應答結果，並計算每種可能性的可信度，通過大數據分析我們可以准確找到下一個市場熱點。基於此，或許我們可以給「大數據」這樣一個定義，「大數據」指的是收集和分析大量信息的能力，而這些信息涉及到人類生活的方方面面，目的在於從復雜的數據里找到過去不容易昭示的規律。相比「數據」，「大數據」有兩個明顯的特徵：第一，上文已經提到，數據的屬性是包括結構化、非結構化和半結構化數據；第二，數據之間頻繁產生交互，大規模進行數據分析，並實時與業務結合進行數據挖掘。解決了大數據是什麼，接下來還有一個問題，大數據的來源有哪些？或者這個問題這樣來表達會更清晰「大數據的數據來源有哪些？」對於企業而言，大數據的數據來源主要有兩部分，一部分來自於企業內部自身的信息系統中產生的運營數據，這些數據大多是標准化、結構化的。（若繼續細化，企業內部信息系統又可分兩類，一類是「基幹類系統」，用來提高人事、財會處理、接發訂單等日常業務的效率；另一類是「信息類系統」，用於支持經營戰略、開展市場分析、開拓客戶等。）傳統的商業智能系統中所用到的數據基本上數據該部分。而另外一部分則來自於外部，包括廣泛存在於社交網路、物聯網、電子商務等之中的非結構化數據。這些非結構化數據由源於 Facebook、Twitter、LinkedIn 及其它來源的社交媒體數據構成，其產生往往伴隨著社交網路、移動計算和感測器等新的渠道和技術的不斷涌現和應用。具體包括了：如，呼叫詳細記錄、設備和感測器信息、GPS 和地理定位映射數據、通過管理文件傳輸協議傳送的海量圖像文件、Web 文本和點擊流數據、科學信息、電子郵件等等。由於來源不同，類型不同的數據透視的是同一個事物的不同的方面，以消費客戶為例，消費記錄信息能透視客戶的消費能力，消費頻率，消費興趣點等，渠道信息能透視客戶的渠道偏好，消費支付信息能透視客戶的支付渠道情況，還有很多，如，客戶會否在社交網站上分享消費情況，消費前後有否在搜索引擎上搜索過相關的關鍵詞等等，這些信息（或說數據）......>>

問題七：大數據是什麼，干什麼用的？包含哪些內容？哪些技術？解決什麼問題？大數據指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據 *** ，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。通過大數據分析，可以預測交通路況實況，比如網路地圖的實時公交，了解客戶信用，比如支付寶實名認證大數據背後的花唄借唄信用積累大數據研究顯示，我國的數據總量正在以年均50%以上的速度持續增長，預計到2020年在全球的佔比將達到21%。產業新形態不斷出現，催生了個性化定製、智慧醫療、智能交通等一大批新技術新應用新業態。大數據主要的三大就業方向：大數據系統研發類人才、大數據應用開發類人才和大數據分析類人才。

問題八：大數據可以做什麼用處太多了
首先，精準化定製。
主要是針對供需兩方的，獲取需方的個性化需求，幫助供方定準定位目標，然後依據需求提 *** 品，最終實現供需雙方的最佳匹配。
具體應用舉例，也可以歸納為三類。
一是個性化產品，比如智能化的搜索引擎，搜索同樣的內容，每個人的結果都不同。或者是一些定製化的新聞服務，或者是網游等。
第二種是精準營銷，現在已經比較常見的互聯網營銷，網路的推廣，淘寶的網頁推廣等，或者是基於地理位置的信息推送，當我到達某個地方，會自動推送周邊的消費設施等。
第三種是選址定位，包括零售店面的選址，或者是公共基礎設施的選址。
這些全都是通過對用戶需求的大數據分析，然後供方提供相對定製化的服務。
應用的第二個方向，預測。
預測主要是圍繞目標對象，基於它過去、未來的一些相關因素和數據分析，從而提前做出預警，或者是實時動態的優化。
從具體的應用上，也大概可以分為三類。
一是決策支持類的，小到企業的運營決策，證券投資決策，醫療行業的臨床診療支持，以及電子政務等。
二是風險預警類的，比如疫情預測，日常健康管理的疾病預測，設備設施的運營維護，公共安全，以及金融業的信用風險管理等。
第三種是實時優化類的，比如智能線路規劃，實時定價等。

問題九：大數據的內容和基本含義？「大數據」是近年來IT行業的熱詞，大數據在各個行業的應用逐漸變得廣泛起來，如2014年的兩會，我們聽得最多的也是大數據分析，那麼，什麼是大數據呢，什麼是大數據概念呢，大數據概念怎麼理解呢，一起來看看吧。
1、大數據的定義。大數據，又稱巨量資料，指的是所涉及的數據資料量規模巨大到無法通過人腦甚至主流軟體工具，在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。
2、大數據的採集。科學技術及互聯網的發展，推動著大數據時代的來臨，各行各業每天都在產生數量巨大的數據碎片，數據計量單位已從從Byte、KB、MB、GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。大數據時代數據的採集也不再是技術問題，只是面對如此眾多的數據，我們怎樣才能找到其內在規律。
3、大數據的特點。數據量大、數據種類多、要求實時性強、數據所蘊藏的價值大。在各行各業均存在大數據，但是眾多的信息和咨詢是紛繁復雜的，我們需要搜索、處理、分析、歸納、總結其深層次的規律。
4、大數據的挖掘和處理。大數據必然無法用人腦來推算、估測，或者用單台的計算機進行處理，必須採用分布式計算架構，依託雲計算的分布式處理、分布式資料庫、雲存儲和虛擬化技術，因此，大數據的挖掘和處理必須用到雲技術。
5、大數據的應用。大數據可應用於各行各業，將人們收集到的龐大數據進行分析整理，實現資訊的有效利用。舉個本專業的例子，比如在奶牛基因層面尋找與產奶量相關的主效基因，我們可以首先對奶牛全基因組進行掃描，盡管我們獲得了所有表型信息和基因信息，但是由於數據量龐大，這就需要採用大數據技術，進行分析比對，挖掘主效基因。例子還有很多。
6、大數據的意義和前景。總的來說，大數據是對大量、動態、能持續的數據，通過運用新系統、新工具、新模型的挖掘，從而獲得具有洞察力和新價值的東西。以前，面對龐大的數據，我們可能會一葉障目、可見一斑，因此不能了解到事物的真正本質，從而在科學工作中得到錯誤的推斷，而大數據時代的來臨，一切真相將會展現在我么面前。

問題十：大數據具體學習內容是啥？ HADOOPP 是一個能夠對大量數據進行分布式處理的軟體框架。但是HADOOPP 是以一種可靠、高效、可伸縮的方式進行處理的。HADOOPP 是可靠的，因為它假設計算元素和存儲會失敗，因此它維護多個工作數據副本，確保能夠針對失敗的節點重新分布處理。HPCC高性能計算與通信」的報告。開發可擴展的計算系統及相關軟體，以支持太位級網路傳輸性能，開發千兆比特網路技術，擴展研究和教育機構及網路連接能力。Storm是自由的開源軟體，一個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流，用於處理HADOOPP的批量數據。為了幫助企業用戶尋找更為有效、加快HADOOPP數據查詢的方法，Apache軟體基金會近日發起了一項名為「Drill」的開源項目。RapidMiner是世界領先的數據挖掘解決方案，在一個非常大的程度上有著先進技術。它數據挖掘任務涉及范圍廣泛，包括各種數據藝術，能簡化數據挖掘過程的設計和評價。Pentaho BI 平台不同於傳統的BI 產品，它是一個以流程為中心的，面向解決方案(Solution)的框架。其目的在於將一系列企業級BI產品、開源軟體、API等等組件集成起來，方便商務智能應用的開發。IT JOB

6. 大數據：Hadoop入門

什麼是大數據：
（1.）大數據是指在一定時間內無法用常規軟體對其內容進行抓取，管理和處理的數據集合，簡而言之就是數據量非常大，大到無法用常規工具進行處理，如關系型資料庫，數據倉庫等。這里「大」是一個什麼量級呢？如在阿里巴巴每天處理數據達到20PB（即20971520GB）.
2.大數據的特點：
（1.）體量巨大。按目前的發展趨勢來看，大數據的體量已經到達PB級甚至EB級。
（2.）大數據的數據類型多樣，以非結構化數據為主，如網路雜志，音頻，視屏，圖片，地理位置信息，交易數據，社交數據等。
（3.）價值密度低。有價值的數據僅佔到總數據的一小部分。比如一段視屏中，僅有幾秒的信息是有價值的。
（4.）產生和要求處理速度快。這是大數據區與傳統數據挖掘最顯著的特徵。
3.除此之外還有其他處理系統可以處理大數據。
Hadoop （開源）
Spark（開源）
Storm（開源）
MongoDB（開源）
IBM PureDate（商用）
Oracle Exadata（商用）
SAP Hana（商用）
Teradata AsterData（商用）
EMC GreenPlum（商用）
HP Vertica（商用）
註：這里我們只介紹Hadoop。
二：Hadoop體系結構
Hadoop來源：
Hadoop源於Google在2003到2004年公布的關於GFS（Google File System），MapRece和BigTable的三篇論文，創始人Doug Cutting。Hadoop現在是Apache基金會頂級項目，「
Hadoop」一個虛構的名字。由Doug Cutting的孩子為其黃色玩具大象所命名。
Hadoop的核心：
（1.）HDFS和MapRece是Hadoop的兩大核心。通過HDFS來實現對分布式儲存的底層支持，達到高速並行讀寫與大容量的儲存擴展。
（2.）通過MapRece實現對分布式任務進行處理程序支持，保證高速分區處理數據。
3.Hadoop子項目：
（1.）HDFS：分布式文件系統，整個Hadoop體系的基石。
（2.）MapRece/YARN：並行編程模型。YARN是第二代的MapRece框架，從Hadoop 0.23.01版本後，MapRece被重構，通常也稱為MapRece V2，老MapRece也稱為 MapRece V1。
（3.）Hive：建立在Hadoop上的數據倉庫，提供類似SQL語音的查詢方式，查詢Hadoop中的數據，
（5.）HBase:全稱Hadoop Database，Hadoop的分布式的，面向列的資料庫，來源於Google的關於BigTable的論文，主要用於隨機訪問，實時讀寫的大數據。
（6.）ZooKeeper：是一個為分布式應用所設計的協調服務，主要為用戶提供同步，配置管理，分組和命名等服務，減輕分布式應用程序所承擔的協調任務。
還有其它特別多其它項目這里不做一一解釋了。
三：安裝Hadoop運行環境
用戶創建：
（1.）創建Hadoop用戶組，輸入命令：
groupadd hadoop
（2.）創建hser用戶，輸入命令：
useradd –p hadoop hser
（3.）設置hser的密碼，輸入命令：
passwd hser
按提示輸入兩次密碼
（4.）為hser用戶添加許可權，輸入命令：
#修改許可權
chmod 777 /etc/sudoers
#編輯sudoers
Gedit /etc/sudoers
#還原默認許可權
chmod 440 /etc/sudoers
先修改sudoers 文件許可權，並在文本編輯窗口中查找到行「root ALL=（ALL）」，緊跟後面更新加行「hser ALL=（ALL） ALL」，將hser添加到sudoers。添加完成後切記還原默認許可權，否則系統將不允許使用sudo命令。
（5.）設置好後重啟虛擬機，輸入命令：
Sudo reboot
重啟後切換到hser用戶登錄
安裝JDK
（1.）下載jdk-7u67-linux-x64.rpm,並進入下載目錄。
（2.）運行安裝命令:
Sudo rpm –ivh jdk-7u67-linux-x64.rpm
完成後查看安裝路徑，輸入命令：
Rpm –qa jdk –l
記住該路徑，
（3.）配置環境變數，輸入命令：
Sudo gedit /etc/profile
打開profile文件在文件最下面加入如下內容
export java_HOME=/usr/java/jdk.7.0.67
export CLASSPATH=$ JAVA_HOME/lib:$ CLASSPATH
export PATH=$ JAVA_HOME/bin:$PATH
保存後關閉文件，然後輸入命令使環境變數生效：
Source /etc/profile
（4.）驗證JDK，輸入命令：
Java –version
若出現正確的版本則安裝成功。
配置本機SSH免密碼登錄：
（1.）使用ssh-keygen 生成私鑰與公鑰文件，輸入命令：
ssh-keygen –t rsa
（2.）私鑰留在本機，公鑰發給其它主機（現在是localhost）。輸入命令：
ssh--id localhost
（3.）使用公鑰來登錄輸入命令：
ssh localhost
配置其它主機SSH免密登錄
（1.）克隆兩次。在VMware左側欄中選中虛擬機右擊，在彈出的快捷鍵菜單中選中管理---克隆命令。在克隆類型時選中「創建完整克隆」，單擊「下一步」，按鈕直到完成。
（2.）分別啟動並進入三台虛擬機，使用ifconfig查詢個主機IP地址。
（3.）修改每台主機的hostname及hosts文件。
步驟1：修改hostname，分別在各主機中輸入命令。
Sudo gedit /etc/sysconfig/network
步驟2：修改hosts文件：
sudo gedit /etc/hosts
步驟3：修改三台虛擬機的IP
第一台對應node1虛擬機的IP：192.168.1.130
第二台對應node2虛擬機的IP：192.168.1.131
第三台對應node3虛擬機的IP：192.168.1.132
（4.）由於已經在node1上生成過密鑰對，所有現在只要在node1上輸入命令：
ssh--id node2
ssh--id node3
這樣就可以將node1的公鑰發布到node2，node3。
（5.）測試SSH,在node1上輸入命令：
ssh node2
#退出登錄
exit
ssh node3
exit
四：Hadoop完全分布式安裝
1. Hadoop有三種運行方式：
（1.）單機模式：無須配置，Hadoop被視為一個非分布式模式運行的獨立Java進程
（2.）偽分布式：只有一個節點的集群，這個節點即是Master（主節點，主伺服器）也是Slave（從節點，從伺服器），可在此單節點上以不同的java進程模擬分布式中的各類節點
（3.）完全分布式：對於Hadoop,不同的系統會有不同的節點劃分方式。
2.安裝Hadoop
（1.）獲取Hadoop壓縮包hadoop-2.6.0.tar.gz,下載後可以使用VMWare Tools通過共享文件夾，或者使用Xftp工具傳到node1。進入node1 將壓縮包解壓到/home/hser目錄下，輸入命令： #進入HOME目錄即：「/home/hser」
cd ~
tar –zxvf hadoop-2.6.0.tar.gz
（2.）重命名hadoop輸入命令：
mv hadoop-2.6.0 hadoop
（3.）配置Hadoop環境變數，輸入命令：
Sudo gedit /etc/profile
將以下腳本加到profile內：
#hadoop
export HADOOP_HOME=/home/hser/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
保存關閉，最後輸入命令使配置生效
source /etc/profile
註：node2，和node3都要按照以上配置進行配置。
3.配置Hadoop
（1.）hadoop-env.sh文件用於指定JDK路徑。輸入命令：
[hser@node1 ~]$ cd ~/hadoop/etc/hadoop
[hser@node1 hadoop]$ gedit hadoop-env.sh
然後增加如下內容指定jDK路徑。
export JAVA_HOME=/usr/java/jdk1.7.0_67
（2.）打開指定JDK路徑,輸入命令：
export JAVA_HOME=/usr/java/jdk1.7.0_67
（4.）core-site.xml:該文件是Hadoop全局配置，打開並在元素中增加配置屬性如下：

fs.defaultFs hdfs://node1:9000 hadoop.tmp.dir file:/home/hser/hadoop/tmp 這里給出了兩個常用的配置屬性，fs.defaultFS表示客戶端連接HDFS時，默認路徑前綴，9000是HDFS工作的埠。Hadoop.tmp.dir如不指定會保存到系統的默認臨時文件目錄/tmp中。（5.）hdfs-site.xml:該文件是hdfs的配置。打開並在元素中增加配置屬性。（6.）mapred-site.xml:該文件是MapRece的配置，可從模板文件mapred-site.xml.template中復制打開並在元素中增加配置。（7.）yarn-site.xml:如果在mapred-site.xml配置了使用YARN框架，那麼YARN框架就使用此文件中的配置，打開並在元素中增加配置屬性。（8.）復制這七個命令到node2,node3。輸入命令如下： scp –r /home/hser/hadoop/etc/hadoop/ hser@node2:/home/hser/hadoop/etc/ scp –r /home/hser/hadoop/etc/hadoop/ hser@node3:/home/hser/hadoop/etc/ 4.驗證：下面驗證hadoop是否正確（1.）在Master主機（node1）上格式化NameNode。輸入命令： [hser@node1 ~]$ cd ~/hadoop [hser@node1 hadoop]$ bin/hdfs namenode –format （2）關閉node1,node2 ,node3,系統防火牆並重啟虛擬機。輸入命令： service iptables stop sudo chkconfig iptables off reboot （3.）輸入以下啟動HDFS： [hser@node1 ~]$ cd ~/hadoop （4.）啟動所有 [hser@node1 hadoop]$ sbin/start-all.sh （5.）查看集群狀態： [hser@node1 hadoop]$ bin/hdfs dfsadmin –report （6.）在瀏覽器中查看hdfs運行狀態，網址：http://node1:50070 （7.）停止Hadoop。輸入命令： [hser@node1 hadoop]$ sbin/stop-all.sh 五：Hadoop相關的shell操作（1.）在操作系統中/home/hser/file目錄下創建file1.txt,file2.txt可使用圖形界面創建。 file1.txt輸入內容： Hello World hi HADOOP file2.txt輸入內容 Hello World hi CHIAN （2.）啟動hdfs後創建目錄/input2 [hser@node1 hadoop]$ bin/hadoop fs –mkdir /input2 （3.）將file1.txt.file2.txt保存到hdfs中: [hser@node1 hadoop]$ bin/hadoop fs –put -/file/file*.txt /input2/ （4.）[hser@node1 hadoop]$ bin/hadoop fs –ls /input2

7. 詳細解讀你所不了解的「大數據」

詳細解讀你所不了解的「大數據」
進入2012年，大數據(bigdata)一詞越來越多地被提及，人們用它來描述和定義信息爆炸時代產生的海量數據，並命名與之相關的技術發展與創新。它已經上過《》《華爾街日報》的專欄封面，進入美國白宮官網的新聞，現身在國內一些互聯網主題的講座沙龍中，甚至被嗅覺靈敏的證券公司等寫進了投資推薦報告。
一、大數據出現的背景
進入2012年，大數據(bigdata)一詞越來越多地被提及，人們用它來描述和定義信息爆炸時代產生的海量數據，並命名與之相關的技術發展與創新。它已經上過《》《華爾街日報》的專欄封面，進入美國白宮官網的新聞，現身在國內一些互聯網主題的講座沙龍中，甚至被嗅覺靈敏的證券公司等寫進了投資推薦報告。
數據正在迅速膨脹並變大，它決定著企業的未來發展，雖然現在企業可能並沒有意識到數據爆炸性增長帶來問題的隱患，但是隨著時間的推移，人們將越來越多的意識到數據對企業的重要性。大數據時代對人類的數據駕馭能力提出了新的挑戰，也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。
最早提出大數據時代到來的是全球知名咨詢公司麥肯錫，麥肯錫稱：「數據，已經滲透到當今每一個行業和業務職能領域，成為重要的生產因素。人們對於海量數據的挖掘和運用，預示著新一波生產率增長和消費者盈餘浪潮的到來。」「大數據」在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日，卻因為近年來互聯網和信息行業的發展而引起人們關注。
大數據在互聯網行業指的是這樣一種現象：互聯網公司在日常運營中生成、累積的用戶網路行為數據。這些數據的規模是如此龐大，以至於不能用G或T來衡量，大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。

二、什麼是大數據？
信息技術領域原先已經有「海量數據」、「大規模數據」等概念，但這些概念只著眼於數據規模本身，未能充分反映數據爆發背景下的數據處理與應用需求，而「大數據」這一新概念不僅指規模龐大的數據對象，也包含對這些數據對象的處理和應用活動，是數據對象、技術與應用三者的統一。
1、大數據(bigdata)，或稱巨量資料，指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具，在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。大數據對象既可能是實際的、有限的數據集合，如某個政府部門或企業掌握的資料庫，也可能是虛擬的、無限的數據集合，如微博、微信、社交網路上的全部信息。
大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看，「大數據」指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶採用非傳統處理方法的數據集。
亞馬遜網路服務(AWS)、大數據科學家JohnRauser提到一個簡單的定義：大數據就是任何超過了一台計算機處理能力的龐大數據量。研發小組對大數據的定義：「大數據是最大的宣傳技術、是最時髦的技術，當這種現象出現時，定義就變得很混亂。」Kelly說：「大數據是可能不包含所有的信息，但我覺得大部分是正確的。對大數據的一部分認知在於，它是如此之大，分析它需要多個工作負載，這是AWS的定義。
2、大數據技術，是指從各種各樣類型的大數據中，快速獲得有價值信息的技術的能力，包括數據採集、存儲、管理、分析挖掘、可視化等技術及其集成。適用於大數據的技術，包括大規模並行處理（MPP）資料庫，數據挖掘電網，分布式文件系統，分布式資料庫，雲計算平台，互聯網，和可擴展的存儲系統。
3、大數據應用，是指對特定的大數據集合，集成應用大數據技術，獲得有價值信息的行為。對於不同領域、不同企業的不同業務，甚至同一領域不同企業的相同業務來說，由於其業務需求、數據集合和分析挖掘目標存在差異，所運用的大數據技術和大數據信息系統也可能有著相當大的不同。惟有堅持「對象、技術、應用」三位一體同步發展，才能充分實現大數據的價值。
當你的技術達到極限時，也就是數據的極限」。大數據不是關於如何定義，最重要的是如何使用。最大的挑戰在於哪些技術能更好的使用數據以及大數據的應用情況如何。這與傳統的資料庫相比，開源的大數據分析工具的如Hadoop的崛起，這些非結構化的數據服務的價值在哪裡。

三、大數據的類型和價值挖掘方法
1、大數據的類型大致可分為三類：
1)傳統企業數據（Traditionalenterprisedata）：包括 CRMsystems的消費者數據，傳統的ERP數據，庫存數據以及賬目數據等。
2)機器和感測器數據（Machine-generated/sensor data）：包括呼叫記錄（CallDetailRecords），智能儀表，工業設備感測器，設備日誌（通常是Digital exhaust），交易數據等。
3)社交數據（Socialdata）：包括用戶行為記錄，反饋數據等。如Twitter，Facebook這樣的社交媒體平台。
2、大數據挖掘商業價值的方法主要分為四種：
1)客戶群體細分，然後為每個群體量定製特別的服務。
2)模擬現實環境，發掘新的需求同時提高投資的回報率。
3)加強部門聯系，提高整條管理鏈條和產業鏈條的效率。
4)降低服務成本，發現隱藏線索進行產品和服務的創新。
四、大數據的特點
業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特徵。具體來說，大數據具有4個基本特徵：
1、是數據體量巨大
數據體量(volumes)大，指代大型數據集，一般在10TB規模左右，但在實際應用中，很多企業用戶把多個數據集放在一起，已經形成了PB級的數據量;網路資料表明，其新首頁導航每天需要提供的數據超過1.5PB（1PB=1024TB），這些數據如果列印出來將超過5千億張A4紙。有資料證實，到目前為止，人類生產的所有印刷材料的數據量僅為200PB。
2、是數據類別大和類型多樣
數據類別(variety)大，數據來自多種數據源，數據種類和格式日漸豐富，已沖破了以前所限定的結構化數據范疇，囊括了半結構化和非結構化數據。現在的數據類型不僅是文本形式，更多的是圖片、視頻、音頻、地理位置信息等多類型的數據，個性化數據占絕對多數。
3、是處理速度快
在數據量非常龐大的情況下，也能夠做到數據的實時處理。數據處理遵循「1秒定律」，可從各種類型的數據中快速獲得高價值的信息。
4、是價值真實性高和密度低
數據真實性(Veracity)高，隨著社交數據、企業內容、交易與應用數據等新數據源的興趣，傳統數據源的局限被打破，企業愈發需要有效的信息之力以確保其真實性及安全性。以視頻為例，一小時的視頻，在不間斷的監控過程中，可能有用的數據僅僅只有一兩秒。

五、大數據的作用
1、對大數據的處理分析正成為新一代信息技術融合應用的結點
移動互聯網、物聯網、社交網路、數字家庭、電子商務等是新一代信息技術的應用形態，這些應用不斷產生大數據。雲計算為這些海量、多樣化的大數據提供存儲和運算平台。通過對不同來源數據的管理、處理、分析與優化，將結果反饋到上述應用中，將創造出巨大的經濟和社會價值。
大數據具有催生社會變革的能量。但釋放這種能量，需要嚴謹的數據治理、富有洞見的數據分析和激發管理創新的環境(RamayyaKrishnan,卡內基·梅隆大學海因茲學院院長)。
2、大數據是信息產業持續高速增長的新引擎
面向大數據市場的新技術、新產品、新服務、新業態會不斷涌現。在硬體與集成設備領域，大數據將對晶元、存儲產業產生重要影響，還將催生一體化數據存儲處理伺服器、內存計算等市場。在軟體與服務領域，大數據將引發數據快速處理分析、數據挖掘技術和軟體產品的發展。
3、大數據利用將成為提高核心競爭力的關鍵因素
各行各業的決策正在從「業務驅動」轉變「數據驅動」。對大數據的分析可以使零售商實時掌握市場動態並迅速做出應對；可以為商家制定更加精準有效的營銷策略提供決策支持；可以幫助企業為消費者提供更加及時和個性化的服務；在醫療領域，可提高診斷准確性和葯物有效性；在公共事業領域，大數據也開始發揮促進經濟發展、維護社會穩定等方面的重要作用。
4、大數據時代科學研究的方法手段將發生重大改變
例如，抽樣調查是社會科學的基本研究方法。在大數據時代，可通過實時監測、跟蹤研究對象在互聯網上產生的海量行為數據，進行挖掘分析，揭示出規律性的東西，提出研究結論和對策。

六、大數據的商業價值
1、對顧客群體細分
「大數據」可以對顧客群體細分，然後對每個群體量體裁衣般的採取獨特的行動。瞄準特定的顧客群體來進行營銷和服務是商家一直以來的追求。雲存儲的海量數據和「大數據」的分析技術使得對消費者的實時和極端的細分有了成本效率極高的可能。
2、模擬實境
運用「大數據」模擬實境，發掘新的需求和提高投入的回報率。現在越來越多的產品中都裝有感測器，汽車和智能手機的普及使得可收集數據呈現爆炸性增長。Blog、Twitter、Facebook和微博等社交網路也在產生著海量的數據。
雲計算和「大數據」分析技術使得商家可以在成本效率較高的情況下，實時地把這些數據連同交易行為的數據進行儲存和分析。交易過程、產品使用和人類行為都可以數據化。「大數據」技術可以把這些數據整合起來進行數據挖掘，從而在某些情況下通過模型模擬來判斷不同變數(比如不同地區不同促銷方案)的情況下何種方案投入回報最高。
3、提高投入回報率
提高「大數據」成果在各相關部門的分享程度，提高整個管理鏈條和產業鏈條的投入回報率。「大數據」能力強的部門可以通過雲計算、互聯網和內部搜索引擎把」大數據」成果和「大數據」能力比較薄弱的部門分享，幫助他們利用「大數據」創造商業價值。
4、數據存儲空間出租
企業和個人有著海量信息存儲的需求，只有將數據妥善存儲，才有可能進一步挖掘其潛在價值。具體而言，這塊業務模式又可以細分為針對個人文件存儲和針對企業用戶兩大類。主要是通過易於使用的API，用戶可以方便地將各種數據對象放在雲端，然後再像使用水、電一樣按用量收費。目前已有多個公司推出相應服務，如亞馬遜、網易、諾基亞等。運營商也推出了相應的服務，如中國移動的彩雲業務。
5、管理客戶關系
客戶管理應用的目的是根據客戶的屬性(包括自然屬性和行為屬性)，從不同角度深層次分析客戶、了解客戶，以此增加新的客戶、提高客戶的忠誠度、降低客戶流失率、提高客戶消費等。對中小客戶來說，專門的CRM顯然大而貴。不少中小商家將飛信作為初級CRM來使用。比如把老客戶加到飛信群里，在群朋友圈裡發布新產品預告、特價銷售通知，完成售前售後服務等。
6、個性化精準推薦
在運營商內部，根據用戶喜好推薦各類業務或應用是常見的，比如應用商店軟體推薦、IPTV視頻節目推薦等，而通過關聯演算法、文本摘要抽取、情感分析等智能分析演算法後，可以將之延伸到商用化服務，利用數據挖掘技術幫助客戶進行精準營銷，今後盈利可以來自於客戶增值部分的分成。
以日常的「垃圾簡訊」為例，信息並不都是「垃圾」，因為收到的人並不需要而被視為垃圾。通過用戶行為數據進行分析後，可以給需要的人發送需要的信息，這樣「垃圾簡訊」就成了有價值的信息。在日本的麥當勞，用戶在手機上下載優惠券，再去餐廳用運營商DoCoMo的手機錢包優惠支付。運營商和麥當勞搜集相關消費信息，例如經常買什麼漢堡，去哪個店消費，消費頻次多少，然後精準推送優惠券給用戶。
7、數據搜索
數據搜索是一個並不新鮮的應用，隨著「大數據」時代的到來，實時性、全范圍搜索的需求也就變得越來越強烈。我們需要能搜索各種社交網路、用戶行為等數據。其商業應用價值是將實時的數據處理與分析和廣告聯系起來，即實時廣告業務和應用內移動廣告的社交服務。
運營商掌握的用戶網上行為信息，使得所獲取的數據「具備更全面維度」，更具商業價值。典型應用如中國移動的「盤古搜索」。

七、大數據對經濟社會的重要影響
1、能夠推動實現巨大經濟效益
比如對中國零售業凈利潤增長的貢獻，降低製造業產品開發、組裝成本等。預計2013年全球大數據直接和間接拉動信息技術支出將達1200億美元。
2、能夠推動增強社會管理水平
大數據在公共服務領域的應用，可有效推動相關工作開展，提高相關部門的決策水平、服務效率和社會管理水平，產生巨大社會價值。歐洲多個城市通過分析實時採集的交通流量數據，指導駕車出行者選擇最佳路徑，從而改善城市交通狀況。
3、如果沒有高性能的分析工具，大數據的價值就得不到釋放
對大數據應用必須保持清醒認識，既不能迷信其分析結果，也不能因為其不完全准確而否定其重要作用。
1)由於各種原因，所分析處理的數據對象中不可避免地會包括各種錯誤數據、無用數據，加之作為大數據技術核心的數據分析、人工智慧等技術尚未完全成熟，所以對計算機完成的大數據分析處理的結果，無法要求其完全准確。例如，谷歌通過分析億萬用戶搜索內容能夠比專業機構更快地預測流感暴發，但由於微博上無用信息的干擾，這種預測也曾多次出現不準確的情況。
2)必須清楚定位的是，大數據作用與價值的重點在於能夠引導和啟發大數據應用者的創新思維，輔助決策。簡單而言，若是處理一個問題，通常人能夠想到一種方法，而大數據能夠提供十種參考方法，哪怕其中只有三種可行，也將解決問題的思路拓展了三倍。
所以，客觀認識和發揮大數據的作用，不誇大、不縮小，是准確認知和應用大數據的前提。

八、總結
不管大數據的核心價值是不是預測，但是基於大數據形成決策的模式已經為不少的企業帶來了盈利和聲譽。
1、從大數據的價值鏈條來分析，存在三種模式：
1)手握大數據，但是沒有利用好；比較典型的是金融機構，電信行業，政府機構等。
2)沒有數據，但是知道如何幫助有數據的人利用它；比較典型的是IT咨詢和服務企業，比如，埃森哲，IBM，Oracle等。
3)既有數據，又有大數據思維；比較典型的是Google，Amazon，Mastercard等。
2、未來在大數據領域最具有價值的是兩種事物：
1)擁有大數據思維的人，這種人可以將大數據的潛在價值轉化為實際利益；
2)還未有被大數據觸及過的業務領域。這些是還未被挖掘的油井，金礦，是所謂的藍海。
大數據是信息技術與專業技術、信息技術產業與各行業領域緊密融合的典型領域，有著旺盛的應用需求、廣闊的應用前景。為把握這一新興領域帶來的新機遇，需要不斷跟蹤研究大數據，不斷提升對大數據的認知和理解，堅持技術創新與應用創新的協同共進，加快經濟社會各領域的大數據開發與利用，推動國家、行業、企業對於數據的應用需求和應用水平進入新的階段。

8. 大數據主要學習什麼呢

大數據技術與應用專業旨在培養學生系統掌握數據管理及數據挖掘方法，成為具備大數據分析處理、數據倉庫管理、大數據平台綜合部署、大數據平台應用軟體開發和數據產品的可視化展現與分析能力的高級專業大數據技術人才。

大數據技術與應用專業的學生需要學習的內容有面向對象程序設計、Hadoop實用技術、數據挖掘、機器學習、數據統計分析、高等數學、Python編程、JAVA編程、資料庫技術、Web開發、Linux操作系統、大數據平台搭建及運維、大數據應用開發、可視化設計與開發等。

2大數據技術專業的就業方向
1、互聯網電商方向

作為當前最熱門的風口，互聯網電商是互聯網領域應用於實踐最多的地方，也是積累技術資源最豐富、資金最雄厚、人才需求量最大的部分。大數據技術與應用專業畢業生可以從事互聯網電商運營維護、日常管理、消費大數據分析、金融數據風控管理等相關技術工作。目前大到已經上市的頭部電商平台小到社區電商，這些技術人才的缺口都比較大。

2、零售金融方向

零售金融與互聯網電商雖然同屬於消費大范疇領域，但是具體而言，零售電商的范圍要小於互聯網電商，比互聯網電商更需要精準對接消費群體和消費群體的愛好、收入等特徵。大數據技術與應用專業畢業生可以從事基於計算機、移動互聯網、電子信息、電子商務技術、電子金融等領域的數據分布式程序開發、大數據集成平台的應用、開發等方面的工作。適合在零售金融企業承擔相關技術服務工作，也可在IT領域從事計算機應用工作。

導航:首頁 > 網路數據 > 大數據2注

大數據2注

與大數據2注相關的資料

友情鏈接