⑴ 大數據存儲與應用特點及技術路線分析
大數據存儲與應用特點及技術路線分析
大數據時代,數據呈爆炸式增長。從存儲服務的發展趨勢來看,一方面,對數據的存儲量的需求越來越大;另一方面,對數據的有效管理提出了更高的要求。大數據對存儲設備的容量、讀寫性能、可靠性、擴展性等都提出了更高的要求,需要充分考慮功能集成度、數據安全性、數據穩定性,系統可擴展性、性能及成本各方面因素。
大數據存儲與應用的特點分析
「大數據」是由數量巨大、結構復雜、類型眾多數據構成的數據集合,是基於雲計算的數據處理與應用模式,通過數據的整合共享,交叉復用形成的智力資源和知識服務能力。其常見特點可以概括為3V:Volume、Velocity、Variety(規模大、速度快、多樣性)。
大數據具有數據規模大(Volume)且增長速度快的特性,其數據規模已經從PB級別增長到EB級別,並且仍在不斷地根據實際應用的需求和企業的再發展繼續擴容,飛速向著ZB(ZETA-BYTE)的規模進軍。以國內最大的電子商務企業淘寶為例,根據淘寶網的數據顯示,至2011年底,淘寶網最高單日獨立用戶訪問量超過1.2億人,比2010年同期增長120%,注冊用戶數量超過4億,在線商品數量達到8億,頁面瀏覽量達到20億規模,淘寶網每天產生4億條產品信息,每天活躍數據量已經超過50TB.所以大數據的存儲或者處理系統不僅能夠滿足當前數據規模需求,更需要有很強的可擴展性以滿足快速增長的需求。
(1)大數據的存儲及處理不僅在於規模之大,更加要求其傳輸及處理的響應速度快(Velocity)。
相對於以往較小規模的數據處理,在數據中心處理大規模數據時,需要服務集群有很高的吞吐量才能夠讓巨量的數據在應用開發人員「可接受」的時間內完成任務。這不僅是對於各種應用層面的計算性能要求,更加是對大數據存儲管理系統的讀寫吞吐量的要求。例如個人用戶在網站選購自己感興趣的貨物,網站則根據用戶的購買或者瀏覽網頁行為實時進行相關廣告的推薦,這需要應用的實時反饋;又例如電子商務網站的數據分析師根據購物者在當季搜索較為熱門的關鍵詞,為商家提供推薦的貨物關鍵字,面對每日上億的訪問記錄要求機器學習演算法在幾天內給出較為准確的推薦,否則就丟失了其失效性;更或者是計程車行駛在城市的道路上,通過GPS反饋的信息及監控設備實時路況信息,大數據處理系統需要不斷地給出較為便捷路徑的選擇。這些都要求大數據的應用層可以最快的速度,最高的帶寬從存儲介質中獲得相關海量的數據。另外一方面,海量數據存儲管理系統與傳統的資料庫管理系統,或者基於磁帶的備份系統之間也在發生數據交換,雖然這種交換實時性不高可以離線完成,但是由於數據規模的龐大,較低的數據傳輸帶寬也會降低數據傳輸的效率,而造成數據遷移瓶頸。因此大數據的存儲與處理的速度或是帶寬是其性能上的重要指標。
(2)大數據由於其來源的不同,具有數據多樣性的特點。
所謂多樣性,一是指數據結構化程度,二是指存儲格式,三是存儲介質多樣性。對於傳統的資料庫,其存儲的數據都是結構化數據,格式規整,相反大數據來源於日誌、歷史數據、用戶行為記錄等等,有的是結構化數據,而更多的是半結構化或者非結構化數據,這也正是傳統資料庫存儲技術無法適應大數據存儲的重要原因之一。所謂存儲格式,也正是由於其數據來源不同,應用演算法繁多,數據結構化程度不同,其格式也多種多樣。例如有的是以文本文件格式存儲,有的則是網頁文件,有的是一些被序列化後的比特流文件等等。所謂存儲介質多樣性是指硬體的兼容,大數據應用需要滿足不同的響應速度需求,因此其數據管理提倡分層管理機制,例如較為實時或者流數據的響應可以直接從內存或者Flash(SSD)中存取,而離線的批處理可以建立在帶有多塊磁碟的存儲伺服器上,有的可以存放在傳統的SAN或者NAS網路存儲設備上,而備份數據甚至可以存放在磁帶機上。因而大數據的存儲或者處理系統必須對多種數據及軟硬體平台有較好的兼容性來適應各種應用演算法或者數據提取轉換與載入(ETL)。
大數據存儲技術路線最典型的共有三種:
第一種是採用MPP架構的新型資料庫集群,重點面向行業大數據,採用Shared Nothing架構,通過列存儲、粗粒度索引等多項大數據處理技術,再結合MPP架構高效的分布式計算模式,完成對分析類應用的支撐,運行環境多為低成本 PC Server,具有高性能和高擴展性的特點,在企業分析類應用領域獲得極其廣泛的應用。
這類MPP產品可以有效支撐PB級別的結構化數據分析,這是傳統資料庫技術無法勝任的。對於企業新一代的數據倉庫和結構化數據分析,目前最佳選擇是MPP資料庫。
第二種是基於Hadoop的技術擴展和封裝,圍繞Hadoop衍生出相關的大數據技術,應對傳統關系型資料庫較難處理的數據和場景,例如針對非結構化數據的存儲和計算等,充分利用Hadoop開源的優勢,伴隨相關技術的不斷進步,其應用場景也將逐步擴大,目前最為典型的應用場景就是通過擴展和封裝 Hadoop來實現對互聯網大數據存儲、分析的支撐。這裡面有幾十種NoSQL技術,也在進一步的細分。對於非結構、半結構化數據處理、復雜的ETL流程、復雜的數據挖掘和計算模型,Hadoop平台更擅長。
第三種是大數據一體機,這是一種專為大數據的分析處理而設計的軟、硬體結合的產品,由一組集成的伺服器、存儲設備、操作系統、資料庫管理系統以及為數據查詢、處理、分析用途而特別預先安裝及優化的軟體組成,高性能大數據一體機具有良好的穩定性和縱向擴展性。
以上是小編為大家分享的關於大數據存儲與應用特點及技術路線分析的相關內容,更多信息可以關注環球青藤分享更多干貨
⑵ 比特幣最先運用了哪種技術大數據 物聯網人工智慧 區塊鏈
區塊鏈。以下來是摘自AEX交易所自幣網路中關於比特幣的詳細介紹:
比特幣(BitCoin)的概念最初由中本聰在2009年提出,根據中本聰的思路設計發布的開源軟體以及建構其上的P2P網路。比特幣是一種P2P形式的數字貨幣。點對點的傳輸意味著一個去中心化的支付系統。與大多數貨幣不同,比特幣不依靠特定貨幣機構發行,它依據特定演演算法,通過大量的計算產生,比特幣經濟使用整個P2P網路中眾多節點構成的分布式資料庫來確認並記錄所有的交易行為,並使用密碼學的設計來確保貨幣流通各個環節安全性。P2P的去中心化特性與演演算法本身可以確保無法通過大量製造比特幣來人為操控幣值。基於密碼學的設計可以使比特幣只能被真實的擁有者轉移或支付。這同樣確保了貨幣所有權與流通交易的匿名性。比特幣與其他虛擬貨幣最大的不同,是其總數量非常有限,具有極強的稀缺性。該貨幣系統曾在4年內只有不超過1050萬個,之後的總數量將被永久限制在2100萬個。比特幣可以用來兌現,可以兌換成大多數國家的貨幣。使用者可以用比特幣購買一些虛擬物品,比如網路游戲當中的衣服、帽子、裝備等,只要有人接受,也可以使用比特幣購買現實生活當中的物品。
⑶ 大數據分析一般用什麼工具分析_大數據的分析工具主要有哪些
在大數據處理分析過程中常用的六大工具:
1、Hadoop
Hadoop是一個能夠對大量數據進行分布式處理的軟體框架。但是Hadoop是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop還是可伸縮的,能夠處理PB級數據。此外,Hadoop依賴於社區伺服器,因此它的成本比較低,任何人都可以使用。
2、HPCC
HPCC,HighPerformanceComputingand(高性能計算與通信)的縮寫。1993年,由美國科學、工程、技術聯邦協調理事會向國會提交了「重大挑戰項目:高性能計算與通信」的報告,也就是被稱為HPCC計劃的報告,即美國總統科學戰略項目,其目的是通過加強研究與開發解決一批重要的科學與技術挑戰問題。HPCC是美國實施信息高速公路而上實施的指槐蘆計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發可擴展的計算系統及相關軟體,以支持太位級網路傳輸性能,開發千兆比特網路技術,擴展研究和教育機構及網路連接能力。
3、Storm
Storm是自由的開源軟體,一個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流,用於處理Hadoop的批量數據。Storm很簡單,支持許多種編程語言,使用起來非常有趣明余。
4、ApacheDrill
為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法,Apache軟體基金會近日發起了一項名為「Drill」的開源項目。ApacheDrill實現了Google'sDremel.
據Hadoop廠商MapR公司產品經理TomerShiran介紹,「Drill」已經作為Apache孵化器項目來運作,將面向全球軟體工程師持續推廣。
5、RapidMiner
RapidMiner是世界領先的數據挖掘解決方案,在一個非常大的程度上有著先進技術。它數據挖掘任務涉及范圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。
6、PentahoBI
PentahoBI平台不同於傳統的BI產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在於將一系列企業級BI產品、開源軟體、API等等組件集成起來,方便商務智能應用的開發。它的出現,使得一系列的面向商務智能的獨立產品如Jfree、Quartz等等,能夠集成在一起,構成一項項復雜的、完整的商務智能解決方案。
1、大數據是一個含義廣泛的術語,是指數據集,如此龐大而復雜的,他們需要專門設計的硬體和軟體工具進行處理。該數據集通常是萬億或EB的大小。
2、這些數據集收集自各種各樣的來源:
a、感測器、氣候信息、公開的信息、如雜志、報紙、文章。
b、大數據產生的其他例子包括購買交易記錄、網路日誌、病歷、事監控、視頻和圖像檔案、及大型電子商務。
c、大數據分析是在研究大量的數據的過程中尋找模式,相關性和其他唯帶有用的信息,可以幫助企業更好地適應變化,並做出更明智的決策。
⑷ 大數據修仙【還我數據】
數字化vs 紙質 英國廣播公司(BBC)1986年為了紀念原版《末日審判書》出版900周年,花費了250萬英鎊,開展了「末日審判項目(Domesday Project)」――一個現代版的《末日審判書》。900年前的《末日審判書》是1086年威廉一世下令對英國土地使用情況進行大規模調查的結果匯編。900年後,為了「末日審判項目」,超過100萬英國人貢獻了文本、照片和視頻資料。考慮到這些資料應當永久保存下去,於是它們被存儲在兩張定製的光碟上,並使用BBC的特殊計算機閱讀顯示,以便後人能了解20世紀人們的生活情況。
但僅僅15年後,當有人試圖使用同樣的計算機來閱讀光碟上的資料時,卻沒有成功。與此同時,那本抄寫在羊皮紙上的原版《末日審判書》卻還依然保存在英國檔案睜裂館里,900多年後的今天,凡是懂得拉丁文的人都可以翻閱。
同樣,那些十幾年前把數據存儲在5.25英寸軟盤上或使用WordStar格式文本的人現在都面臨著與BBC「末日審判項目」相似的問題,除非我們採取有效的保護措施,否則,大批已經生成的數字信息極有可能在我們有生之年就無法讀出和使用了。
這種情況不能完全歸咎於計算機行業越來越快的更新換代,實際上,數字存儲技術天生就存在缺陷。2004年11月,美國國家檔案記錄局電子檔案處的處長曾公開承認,將電子資料保存10年以上(更不用說永遠保存),「仍然是全球性的難題。各國政府、大公司以至個人,都還解決不了。」
數據劫難
美國加州聖何塞的數據存儲顧問Tom Coughlin說,如果把硬碟從電腦上拆下來後放在辦公室的架子上,它最終可能將無法使用。他解釋說,因為每天的溫度有變化,熱能跑到存儲介質裡面去,會慢慢引起存儲信息的磁性顆粒出現自發逆轉,直到原始數據丟失。不過,一般前10年不會出現數據丟失的問題,但10年後,誰也說不準數據何時就會變得無法使用。
Tom Coughlin說,磁帶也面臨同樣的問題,但一般幾十年後才會因熱擦除而丟失數據,那是由於磁帶的比特密度低於硬碟。但是,磁帶也有自己的問題:脫層。當磁性介質與磁帶脫離,或者受到黴菌侵蝕時,就會出現脫層。有時候,磁帶介質不得不重新經過烘焙工藝,以便能最後一次讀取數據,並將其內容遷移到另外的介質上。
USB快閃記憶體檔也會受到熱擦除的影響,並且還面臨著更大的風險,因為它們用的是最廉價的控制器。Tom Coughlin說:「我不會將USB快閃記憶體檔用於歸檔。」如果使用USB快閃記憶體檔歸檔,那就要祈求USB埠在幾十年後仍能使用,而誰也不知道筆記本電腦在20年後將會是啥樣,更不用說50年後了。
至於DVD和CD,美國國會圖書館的項目經理Bill LeFurgy說,他所在的單位曾用烤箱對DVD和CD做了加速老化試驗,結果發現,其碟片之間存在著很大的差異,就連同一品牌的悉局閉碟片之間也有很大差異。他說:「有些壽命可以達到10年,而另外一些的壽命卻短得多。5年後,我就要擔心可靠性了。」
其他存儲專業人士也抱怨,DVD的傳輸速度太慢,不適合於歸檔。DVD的傳輸速度通常不到磁帶的1/4;另外,每存儲數GB內容,就要更換DVD碟片。
與其他存儲介質一樣,CD和DVD同樣存在其閱讀器在幾十年後是否還在的問題。
在線存儲的生命力
那麼在線存儲如何呢?在線存儲時,當硬體設備啟動後,可立即訪問。其中的數據不斷受到檢測,以確保其完整性,並易於復制。但美國斯坦福大學圖書館負責「大量拷貝確保數據安全(LOCKSS)」項目的首席科學家David S.H.Rosenthal卻抱怨,在線存儲也可能很快遭到損壞,眼下還看不到具有歸檔所必需的長期可靠性。
Rosenthal調查了讓1PB的在線存儲數據在100年後仍可使用的可能性達到50%有何要求。他在分析了眾多存儲服務商發布的有關磁碟維護的數據後發現,要達到1PB數據在100年後仍可使用的目標,在線存儲的可靠性必須提高10億倍。
他指出,就算我們真的有望把在線存儲的可靠性提高10億倍,也根本沒有現實的方法來測試這樣一種系統,總臘碧不能給它接通電源,然後等上100年吧?
由於數字化數據的存活率如此之低,所生成的數字格式的信息又如此之多,「50年後我們可能會面臨數字黑暗時代,將來的學者們將無法了解我們現在的文化。」美國電影藝術與科學學院(奧斯卡頒獎組織)的科學和技術委員會理事Andy Maltz說。
數據保存標准
由於日漸意識到這個問題,眾多組織一直在致力於解決歸檔問題,著重研究如何減小格式過時帶來的風險。
防止格式過時通常需要編制元數據詞典。元數據是指有關文件的信息,與文件一同存儲。那樣一來,將來的用戶不會像科學家在1999年那樣陷入困境:他們無法解讀含有美國宇航局在1975年火星探測數據的磁帶。最終是科學家找到了一些列印資料,才得以分析出大約1/3的數據。
除了標准外,還有一個更棘手的管理問題。網路存儲工業協會(SNIA)的發言人Donald Post,也是總部設在芝加哥的專門從事檔案管理的Imerge咨詢公司的合夥人,他說:「大多數組織都無法告訴你,某些電子內容要保留多久;只有5%到10%的組織在用足夠詳細的元數據對內容進行標記」,以便員工知道數據要保留多久。與此同時,在試圖保留的數據中有80%是重復數據,但它們並沒有花時間來丟棄這些重復數據。95%的組織認為,進行例行備份就是足夠有效的保護了。
Donald Post說,企業的IT經理們沒有迫切要求用商業解決方案來解決這個問題,因此,廠商們也就不急於提供相應的解決方案。不過,他預計,隨著廠商們認識到數字化歸檔產品的商業潛力,這種情況在今後3年內會有所改變。
為數據注入活力
當然,一些組織成功地應對了數字化歸檔這一挑戰。
美國國家檔案館負責電子檔案歸檔項目的系統工程主管Dyung Le指出:「大多數國家都有數據保存問題。」歸檔磁帶每10年就要重新拷貝,國家檔案館的每份檔案至少有3份拷貝,並且至少1份拷貝保存在異地。他估計,檔案館管理的數據量超過400TB。
由於誰也不知道幾百年後會使用什麼樣的計算機應用程序,基於文本的材料通常轉換成ASCII的XML格式。各種元數據保存在文件中,包括可用做搜索輔助手段的描述性數據。Dyung Le說,XML文件用保存元數據實施策略(PREMIS)標準的擴展機制來存儲元數據,這項數字保存標准同樣基於XML和ASCII,由聯機計算機圖書館中心(Online Computer Library Center)制定。
Dyung Le說,目前沒有用於非文本數據的類似XML的過渡格式。因此,如果企業想歸檔資料,只能記下該資料採用的格式,並計劃最終把它遷移到將來的一種主導性的應用程序格式,但必須在仍有轉換原始格式的系統的時候這么做。換句話說,必須對將來會使用什麼格式做出最准確的猜想,然後在還能轉換的時候轉換過去。
他解釋說,檔案管理員還要能夠核實保存的材料是有效拷貝。可以通過為每個文件創建散列鍵(Hash key)來做到這一點。散列鍵跟著文件移動。提供拷貝時,檔案管理員還必須核實文件特徵是否有變化;倘若文件特徵發生了變化,資料的意義會隨之變化。Dyung Le補充說,由於這個原因,有時候文本必須以原始格式來保存,因為大家認為格式對文本的含義來說必不可少。
其他美國聯邦政府機構、州檔案館和圖書館,有時甚至私人圖書館也面臨著數字化保存問題。Bill LeFurgy說,按照美國國會的指示,國會圖書館為它們啟動了國家數字信息基礎設施和保存計劃(NDIIPP)。NDIIPP的官員正與約170個利益相關者(包括行業組織和外國政府)合作,它們在DigitalPreservation.gov上發布了一整套工具和服務。
美國國會圖書館本身保存了約167TB的數字內容,包括關於全國大選的網站和關於「卡特里娜」颶風等重大事件的信息。Bill LeFurgy說,與美國國家檔案館一樣,國會圖書館也保留了多份拷貝,力求避免格式過時。
美國地質勘探局地球資源觀察和科學中心的檔案管理員John Faundeen說,由於要存儲平時的衛星勘測數據,地質勘探局每月要為其檔案增加約50TB的數據量,現在管理著約4.5PB(包括拷貝)的數據量。
該中心實行三份拷貝的存儲策略:第一份拷貝是在線拷貝,第二份是近線拷貝,第三份是離線拷貝。這符合信息生命周期管理的存儲策略,許多企業的IT部門都採用這種策略。地球資源觀察和科學中心每過三、五年就要設法將數據轉移到新的存儲介質上。John Faundeen解釋說,該中心還設法按日期跟蹤所用的所有介質,以免出現它使用的某種介質不再得到廠商支持的情況。每隔一年,該中心就會調查離線介質行業,了解市面上的新介質。
電影和圖書館
遭遇困境
數字化數據並非是永久性的這一顯然的事實,使電影業大為震驚。據美國電影藝術與科學學院的Maltz稱,好萊塢採用數字化技術之前,所依靠的是電影膠片,用這種介質歸檔的電影保留了一個世紀。該學院在2007年的一項調查發現,用膠片保存一部商業影片的原始版材料的長期成本為每年1059美元;若採用數字格式,成本要高出11倍,每年高達12514美元。
Maltz說,若使用數字化技術,你得每過三、五年就要更換數據格式和存儲介質,還要更換技術基礎設施,不然你的數據可能恢復不了。
該學院已啟動了幾個項目試圖解決這個問題。比如說,著力開發適用於電影業的圖像文件互換格式和元數據標准;還構建了一個實驗性的數字保存系統。Maltz如此評述好萊塢的數字化計劃:「我可以說,到最後它們比我們當初了解的要復雜得多。」
美國斯坦福大學圖書館的LOCKSS項目負責人Vicky Reich說,數字材料的非永久性對圖書館來說也是個問題。不但資料可能一眨眼工夫就會丟失,搗亂分子也會隨意塗改,而且不留下任何證據。她說:「紙質圖書館也經常會受到侵擾。」她介紹,圖書館面臨的挑戰包括有些人不贊同書籍或雜志文章中的某些觀點,於是撕掉了事。但如果是印刷出版物,通常在某個地區的多家圖書館藏有好幾份副本,所以有人想徹底清除某一部分材料,不太可能完全得逞。
LOCKSS項目在數字領域採用了同樣的分散方法。參與項目的各圖書館(目前有約200家,主要是大學圖書館)先配一台電腦,專門用於該歸檔項目。這台電腦必須連接互聯網,至少有2TB存儲空間,並安裝開源LOCKSS軟體。然後,每家圖書館從大約420家允許對其出版物進行歸檔的出版商那裡選擇資料,圖書館獲准後也可以自行選擇別的來源。然後,這些電腦搜索來源、拷貝材料。圖書館電腦充當原始網站的代理系統,當原始網站無法提供點擊查閱服務時,它會提供該服務。
從同一來源選擇資料的LOCKSS電腦會對內容進行比較,必要時還能進行修復。Vicky Reich說,根本不用磁帶備份,因為這些電腦已經彼此給對方備份了。
不樂觀的未來
總而言之,那些負責監管數字化歸檔的人對於未來似乎都不甚樂觀。
Maltz說:「眼下沒有辦法解決核心技術問題,那就是我們的基礎設施沒有考慮到長期保存需求。」
美國地質勘探局的John Faundeen說:「關鍵是保持警惕。歸檔方面的工作必須堅持不懈。你不能滿足於以前的工作,而必須不斷往前看。」
美國國家檔案館的Dyung Le說:「這是個永無止境的過程,形勢只會變得越來越嚴峻。」數據格式的數量在不斷增加,國家檔案館保存的數據量隨時會變得不堪重負。他說,不過,「我們處理的數據會得到妥善保存,對此我很有信心。」
最後聽聽Tom Coughlin是怎麼說的:「如果你想讓數據保存永久,絕不能讓它靜靜地待在那裡。數據一定要活動起來。你必須維護數據,否則它可能終將丟失。」
制訂中的歸檔標准
網路存儲工業協會(SNIA)主席兼EMC公司的高級技術專家Wayne Adams說,該協會已經制訂了下列三項標准來解決歸檔問題:
XAM(可擴展訪問方法):Wayne Adams說,這項標准把應用程序與數據分離開來,「以便你獨立管理數據,不用擔心以後應用程序的遷移。不然想使用15年以後的數據,就得把整個系統裝入到時間膠囊(time capsule)中。」據SNIA聲稱,XAM含有元數據定義,幫助歸檔數據實現應用程序的互操作性,並讓數據更容易搜索。SNIA的網站列出了13家組織提供的基於XAM的產品或服務。
SIRF(自含式信息保存格式):這項標准有可能讓將來的用戶不必使用原始應用程序,就可以查詢歸檔文件。SNIA的資料稱它是「定義了適合長期存儲數據信息的邏輯容器格式的一項規范。」
CDMI(雲數據管理介面):據 Wayne Adams聲稱,這項標準定義了元數據及其他存儲參數,因而適用於歸檔。
CommVault與Dell聯合推出DL Appliance
CommVault公司日前宣布與戴爾聯合推出由CommVault Simpana 8軟體驅動的Dell PowerVault DL Backup to Disk Appliance,進一步加強了兩家公司穩固的OEM合作夥伴關系。作為Dell PowerVault產品系列的最新成員,該產品將數據管理與可擴展性、雲服務支持、更高速的吞吐量、優化的重復數據刪除功能整合在一起,同時擁有更小巧的機型,從而獲得了更低的成本和更高的運營效率。新的DL Appliance具有獨特的優勢,非常適合於遠程辦公以及任何需要向(從)公共或私有存儲雲環境進行重復數據刪除、備份、歸檔以及恢復數據的業務。它能夠在2U的空間內提供高達24TB的內部存儲容量,並可擴展至300TB以上,存儲擴展功能非常強大。DL Appliance還提供了基於數據塊的端到端重復數據刪除功能,在執行備份操作時能夠實現高達3TB/小時的重復數據刪除吞吐率。CommVault針對DL Appliance的嵌入式重復數據刪除功能進行了優化,從而可使所需存儲空間減少高達95%。
EMC創單節點NAS性能記錄
EMC公司日前發布新的NAS性能基準,展現了EMC Celerra存儲系統具有卓越的性能及擴展性。此次公布的SPEC sfs2008測試數據用於測量網路文件系統的性能。SPEC sfs2008_nfs.v3的測試結果表明,作為業內首個採用64位Intel Xeon 5600先進處理器實現性能倍增的存儲系統,配置單個活動刀片的EMC Celerra VG8 NAS網關,比其他公司配置兩個活動NAS機頭的最新系統性能更高,能夠處理更大的工作負荷。EMC Celerra模塊化結構讓這一性能可以擴展到多達8個刀片,創造更高的性能與擴展性。
UIT SV1000 M系列
新品亮相
UIT公司日前正式推出了面向中小企業、安防監控、網路存儲、視頻編輯等多種應用的存儲新品UIT SV1000 M系列,這是繼BX1200/1600、SV1200/1600系列產品後,UIT發布的第三代應用存儲產品。SV1000 M系列採用了高性能的Intel Nehalem架構硬體平台,使系統穩定性顯著提升,並可根據應用需求實現性能優化,是一款支持豐富的數據存儲和管理功能的入門級IP SAN/NAS存儲系統。SV1000 M系列優化了iSCSI、NAS服務,大大增強了穩定性,保證大壓力環境下的業務連續性,同時,UIT自主研發的RAID技術,在性能調優和應用維護上相比傳統RAID卡更方便,又解決了傳統軟RAID普遍存在的穩定性問題,並且可明顯降低設備成本。由於不同的應用對存儲性能有不同的要求,SV1000 M系列產品均可針對不同的應用進行性能調優。另外,SV1000 M還可以嵌入視頻監控軟體,能夠通過流媒體協議從編碼器下載錄像,並具有編索引存儲功能和檢索取數據功能。
Infortrend SAS新品提升50%性能
Infortrend近日宣布,其EonStor DS系列新增6Gb/s SAS端到端存儲系統,它較之之前的3Gb/s SAS系統,可為音頻/視頻DAS(直接連接存儲)應用提供50%的性能提升。這一性能的增強為媒體公司,其中包括優化內容編輯和同步播放或不同HD(高清晰度)文件重放,都帶來顯著的業務優勢。由於其在保持流暢的數據流的同時,支持在監測網路中添加更多的攝像頭,監控公司將切實受益於該系統的卓越性能。新系統可提供高達2500MB/s的讀取和1100MB/s的寫入性能,從而為復雜的編輯操作提供所需的支持。EonStor DS 6Gb/s SAS存儲系統的性能水平同樣還支持媒體公司同時播放或重放不同的HD內容。另外,新的EonStor DS機型增強的性能,使監控公司在保持平穩的數據傳輸的同時,可以添加更多的攝像頭到網路中。
⑸ 為什麼有人說「炒幣不如屯幣,買幣不如挖礦」
首先強調一句,這是對大多數普通人來說的,而且只針對部分幣種(比特幣、以太坊)。
先說說為什麼炒幣不如屯幣。很簡單,因為對大多數人來說,炒幣技術都太爛了,頻繁的交易除了養活了交易所,賺不到多少錢,遠遠不如選擇優質幣種後拿住來鄭大的簡單。
再說說為什麼買幣不如挖幣。所謂挖礦,其實可以理解成低成本的買幣,買打折的幣,所以說,從這個角度看,買幣當然不如挖礦。
但上面這仔叢高個說法,也存在一些漏洞。
有些人就是天賦異稟,炒幣專家,就是能從炒幣賺錢。
而挖礦看似美好,其實對新人來說有很多坑,畢竟大多數人沒有條件自建礦場,只能選擇託管和雲算力,而這都存在乙方不靠譜的可能性。
總之,大家還是要學會變通,選擇最適合自己的幣圈賺錢辦法。
這么跟你說吧,2020年3月份,
一個以太坊86美金,現在最高1800美金
一個比特幣3800美金,現在最高48000美金
你自己想想,屯一年,你會賺多少錢
1.風險高:金融行業很早就有句的名言:高收益伴隨的是高風險,炒幣也一樣;
2.前期需要做大量功課:這和購買股票有些類似,你需要了解你投資目標的團隊、白皮書、應用場景、背景等等基本信息進行前期深入了解和認知,在此基礎上才能更好的做出判斷,這可不是剛進場的小白能學的來的。
通過以上炒幣與挖礦的對比,挖礦收益遠遠高於炒幣,屬於一種進可攻退可守的方式。
現在幣價低,有人說買礦機不如直接買幣,其實不然,買幣必須承擔幣價下跌的風險,風險與收益並存,而買礦機則是「旱澇保收「、保值上升,作為投資者來說,長遠的眼光看礦機生產幣;而在沒有豐富的市場經驗時所作出買幣的決定只是投機者的選擇!
挖礦的優勢:
1.風險小:挖掘比特幣的風險遠遠小於其他幣;
2.利潤大:只要能夠將成本控制好並形成規模,利潤是十分客觀的;
3.不費心:只要設定好挖礦程序、做好日常維護保障礦機運行,你就坐等BTC入賬吧。
囤幣的優勢:
1.門檻低:幾乎和股市一樣進入門檻低,交易門檻幾乎沒有;
2.成本低:和那些單價動輒數萬的礦機和大面積的廠房比起來,囤幣的那些錢與之相比,就不算什麼了,另一方面就是,囤幣基本要付出的就是時間;
總結:所以把用挖礦產生的幣囤起來未嘗不是一種進可攻退可守的方式。
忽悠你委託挖礦的,都是把你的錢投資買幣了!古代種糧食的有幾個發大財的,都是靠販賣糧食賺錢!
囤幣與炒幣
不知道大家都是怎麼看的。仁者見仁智者見智。這不是一個單選題,沒有人極化到說囤幣是最好的或者說炒幣是最好的。本來是要對比的策略,卻演化成兩個都好。曾經的魚和熊掌不能兼得,如今卻是魚要吃,熊掌更要吃。
不過這個世界上又有多少人又能做大魚和熊掌兼得,炒幣和囤幣並不是物品,也不是有或者沒有的關系。它們僅僅是一個如果將自身資產放大的策略,只是,結果也許是無限縮小。
我並不知道大家炒幣或者囤幣到底賺錢如何,這種隱私的事情,很少人會說出來。不過我想大部分人炒幣並不怎麼賺錢。炒幣,炒山寨幣,或者主流幣,目的無法玩波段,炒作熱點。既然是炒作,本身的價值自然是會被擴大,虛無的價格又有誰知道有多少水分。
過於貪婪
我並不想否認炒幣的價值,在很多人眼中,炒幣是來錢最快的,囤幣是收益最穩的。在我的認知當中,很多人追求炒幣的風險投資,總是認為自己可以買在低點附近,恰好逃頂。
人有失足,馬有失蹄。這種不常見的錯誤,在炒幣關鍵的時刻往往是經常出現。在我的炒幣生涯中,這種錯誤卻是不少。可以說,我炒幣時候,在買進的時候,雖然談不上底部但也是相差不遠。可是總是失敗,貪婪的人性讓我忘卻了高點出貨,猶豫不決最終造成巨大的虧損。
我想我這樣的經歷大部分人都是有的,被莊家玩弄得傷痕累累之後,默默選擇了念尺定投囤幣。畢竟,在幣圈的定投,雖然收益相對而言少一些,但是比存在銀行還是強上數倍的。
定投的失敗,我的經歷基本上都是沒有出貨到位。嘴上喊著別人貪婪我恐懼,結果卻是別人貪婪我還要貪。過於貪婪,在山寨幣炒作的博弈當中往往是傷害最深的那些。以後倘若炒幣,還是降低慾望為好。
缺乏真正的分析
利益的追逐無論合適都不會讓人放棄的,明知山有虎,偏向虎山行。畢竟我們需要虎骨虎皮。炒幣的利潤還是相對難以吃到,於是大家慢慢學習分析,看蠟燭圖,學習各種指標的意義。書讀多了,彷彿自己也很智慧了,指點幣圈,預測走勢,彷彿都是那麼准確。
在行情當中尋找規律,在規律當中尋找變倉的點位,然後開啟自己的騷操作。相信不少人用自己所學的東西去判斷未來走勢,然後進行交易,通過結果來驗證自己判斷能力,這的確是一個提升自己分析能力的好方法。
不過,既然被收割了,自然是炒幣操作失敗。K線的走勢,全無規律,所謂的規律不過是陷阱上的誘餌罷了。
當然,幣圈也是高級的分析玩家,帶領大家奮斗戰場。
比如幣圈的反指蔡曙,聽說很多人喜歡跟著他反向操作。如果一個人失敗率如此之高,我是不信的。記得一次線下,有人問過他,結果是他對行情進行了大數據分析。也因此證明了,反指背後,是存在技術的。
我個人對幣圈行情的數據分析並不了解,近的來說,在流動性挖礦破滅之前,江卓爾曾經說過自己數學建模預測流動性挖礦的暴富破滅。無論怎樣,未來的行情,已然不是一本精通k線分析書可以預測的了。
這種事情就像,王者裡面別人已然六神裝了,自己卻是基礎裝備。如此畢竟,不被收人頭還能做什麼唉。炒幣,別人開著程序,我們還在看那些不懂的指標。未來,我想,專注於炒幣的玩家還是先把數據分析程序搞定。不然的話,又怎能躲過莊家無情的鐮刀。雖說炒幣門檻僅僅是注冊一個賬號,但是想要成為炒幣中的成功玩家,門檻卻是極高了。倘若無法成為鐮刀,那何必在炒幣世界做一個韭菜呢?
幣種選擇
炒幣,選擇的幣種也是極其重要的。炒幣總是風險的博弈,為了倍數,也許不少人會追求一些瞬間暴漲而且無人問津的幣種。這一類項目,火幣就有,而且前幾天也出現過。面對這樣的漲幅,我是看不懂的。自己是買到低點也無法出貨的。
個人認為,項目如此拉盤,無法吸引人氣順便收割一波。上面說過,別人都已經使用大數據進行計算了,也許大家的資金東西甚至個人情緒都在計算之內。總之,在莊家的眼裡,我們認為的渾濁的幣圈也許是極其透明的!我並不知道玩那樣的幣種能否賺錢,但是到沒有聽說過那位的騷操作能夠在其中盈利到。
曾經有人說,在低點分批買入這類幣種,然後等他們拉盤。這樣的想法我也是有過,但是也是未曾聽聞誰從中盈利了。幣圈很可怕,我擔心,莊家已然把一切都計算好了,在程序面前,我還是認輸吧。
無論選擇怎樣的幣種炒作,吃波段,最重要的還是選對幣種,選擇那些有價值的項目。起碼這樣的項目在隨著幣圈蓬勃發展的時候,會向上走的而不是突然拉盤突然收割。
炒幣是最費腦子的事情,人類的計算能力以及感情用事已然無法與計算機得到的結果相抗衡了。炒幣盈利的門檻極高極高,囤幣的門檻卻是極低,買了就放著,不會擔心被收割。不過這本質上的,還是能力的差距。匹夫無罪,懷璧其罪。沒有能力永遠無法保障收益,還是遠離這無情博弈吧。
畢竟我們的辛苦,在別人的眼中,是無力的是微小的是脆弱的。
炒幣和囤幣的區別就是炒股短線和長線的區別。看好了一隻股票,長期持有,風險反而比短線小。比特幣長期持有,大概率是賺錢的。短期反而風險很大,容易血本無歸。
原話是「炒幣不如囤幣,囤幣不如挖礦」,炒幣是二級市場短線交易,囤幣也是二級市場買現貨低吸高拋,挖礦也是自身成本價獲取數字貨幣,屬於實體投資!前面兩者是純粹的金融行為,後者是實體+金融。
那為什麼有這個說法呢?炒幣是屬於短線交易,需要投資者對行情的判斷有較好的准確覺,較強的倉位控制和止盈止損策略。有的人第一次賺錢,第二次賺錢,第三次虧錢可能就把前面兩次賺的錢都虧了。更有甚者去玩合約,加杠桿,風險性就更大了。囤幣的玩家是趨於對未來長期性行情的預判,克服中途幣價漲跌的恐懼心理而堅定持有。有句話叫「幣價下跌只要資產縮水,賣出去了才是真正虧損」,囤幣者能較好把握行情趨勢,賺取較大利潤。挖礦是一次性投入礦機成本,期間支付電費,產出的直接是數字貨幣。由於是實體投資,首先是收回成本的過程其次才是盈利,大部分的礦工屬於被動型囤幣。由於成本比購買現貨要低,受幣價波動的影響較小,穩定的產出,使得礦工抗風險能力更強。由於礦工的產出是每天到賬並且能夠提現,所以礦工資金的靈活性較好,應對資金需求的時候能夠及時解決。只要礦機的產出大於投入,礦工就有源源不斷的收益。雖然按天算看著較少,但是架不住每天都有啊。
還有其他方面就不細說了,歡迎討論!
炒幣為什麼不如屯幣? 這個很簡單,交易市場上有個2/8法則,講的意思就是市場裡面80%的人都是賠錢的或者沒有賺到錢的,而剩下的20%的人才是真正賺錢的人,而且很能掙錢。
做交易賺錢看似簡單,一買一賣就完成了一次交易。 大家都想著高拋低吸、高拋低吸低買高賣,但最終卻變成了追漲殺跌。 每一個人在炒幣前都認為自己是那20%裡面的,但最後都和那80%的人一樣成了"韭菜"。
加密貨幣市場是7天24小時不間斷可以進行交易的,同時交易所提供的杠桿和合約也放大了人性的貪婪,讓人覺得幣圈就是一個賭場,再加上現在的市場越來越偏向機構化,折讓普通人能從機構手中賺到錢的概率幾乎為零。 這也是為什麼有人說杠桿合約交易,十死無生。靠炒幣賺錢的人鳳毛麟角。
再說說為什麼買幣不如挖礦,很多人買幣之後,想要一直屯著等漲價,這個想法是不錯的,但是實際操作起來是很難的。為什麼這么說? 因為 「守幣比守寡都難」, 市場跌宕起伏會讓很多持幣者情緒起伏,看到幣價大漲就忍不住想要馬上兌現自己手中的利潤,看到大跌就馬上要止損,真正擺正心態,把握大趨勢者可以說是少之又少。
挖礦 是區塊鏈領域最傳統的投資方式,目前我們所看到的幣圈大佬基本上都是從挖礦起家的,在2019年胡潤富豪榜區塊鏈領域的榜單,其中前12名中有9名是因為挖礦而上榜的,可見挖礦才是幣圈真正致富的秘籍。
挖礦就像你有一隻會下蛋的母雞,每天都會給你下一兩個雞蛋,而雞蛋即可以拿去賣錢變現(將挖出來的幣賣的),也可以把雞蛋孵成小雞(屯幣長期持有)。
所以說挖礦是相對最保險的一種投資方式,同時抗波動風險的能力也更強。挖礦同時也是一個長期堅持的過程,短時間的波動對於礦工的心態影響並不大,所以選擇挖礦的投資人往往能夠把握住市場的大行情。
本文僅代表作者個人觀點,不構成投資建議。投資有風險,入市需謹慎。
所謂「炒幣」,本質上就是低買高賣,賺取差價,這里的關鍵點在於把握買和賣的時機,事實上,這一點是很難准確把握的,萬一時機沒把握好,搞成個低賣搞買,那就得不償失了。所以,「炒幣」的風險很大!
所謂「屯幣」,就是把幣存起來,靜等它增值。這樣一來,麻煩事確實省了不少,但是也有他的問題:一是周期長的問題,二是大趨勢不好把握的問題。周期長,很多人等不及,現代人很浮躁,沒有幾個人會願意慢慢變富。大趨勢不好把握,未來他是漲還是跌,誰都不知道,另外還有很多偶然性因素。總而言之,風險也是比較大的,時間成本也會比較高。
所謂「買幣」,買來干什麼?炒或者屯,在此不贅述。
所謂「挖礦」,就是備好工具(礦機、電腦)去開采幣,這是一個從無到有的過程,付出的成本代價(工具損耗、電費)比較小,所以比較劃算。
總體來說,挖礦是最劃算的!
最後我要科普一下「挖礦」這個事。
比特幣等數字貨幣實際上就是一個很復雜的一個方程的一些特解,此方程理論上有多少個特解,就有多少了幣。所謂「挖礦」,也叫開采數字貨幣,實際上就是用電腦去解方程,不斷地去試特解,試出來了就挖到礦了。這就好比我們的面前有一個保險箱,我們不知道密碼,我們可以去不停地試,一旦試成功了,裡面的東西就歸你了,也就是挖到礦了。
屯幣有風險
⑹ 比特幣漲破10萬元,年內價格翻4倍,它是騙局嗎
比特幣已經上漲的趨勢很高,其實比特幣是一個騙局,最後終究會泡沫化,吸引的就是一些不知情的人進入其中被資本方割韭菜。
三、比特幣是泡沫經濟比特幣如今不斷高漲的勢頭,也讓很多人看到了其中的利益,也就不斷的投入這個市場中,大筆的金錢不斷湧入。可同樣的一旦比特幣的市場出現飽和,那麼必然的也就無利可圖,到時候比特幣的市場也會出現極其大的震盪。目前比特幣一路變紅的趨勢,其實僅僅只是短期內的效應,到未來的時候,比特幣還會像從前一樣陷入泡沫經濟之中。
⑺ 大數據與熵 臨界分析
大數據與熵:臨界分析
大數據的踐行者們不僅在思維上進行了轉變,在數據處理上同樣採取「大數據」的方法:分析全體而不是樣本,不追求精確性,「知其然,不知其所以然」(註:第三句是筆者歸納,原文意思是只要知道「是什麼」,不必知道「為什麼」,或只問相關性,不問因果關系)。同時宣布傳統的抽樣方法已經過時,不能適應當今互聯網信息社會的要求。
上述斷言過於武斷。如果斷言的目的是為了強調面對信息爆炸,人們必須不斷地尋找新的方法,包括「大數據方法」,來分析和處理數據,那麼如何誇大和渲染,都是可以理解並接受的;但是,如果斷言的目的是為了勸導人們放棄傳統的抽樣理論,轉而皈依「大數據思維」,這就值得商榷。
縱觀科技史,人們對物體運動規律的研究,牛頓定律曾被認為絕對正確。但隨著科學家們對微觀粒子世界,高速運動(近似光速)物體的研究,牛頓定律不再適用,而代之以量子力學和相對論。但這並不意味著牛頓定律的死亡,在人們生活所及的物理社會里,仍然是牛頓定律起主導作用。
信息社會也是如此,信息的不斷膨脹、變化、繁雜使得傳統抽樣統計方法顯得力不從心,於是所謂的「大數據思維」出現了。但「大數據」究竟是要取代傳統方法,還只是傳統方法的補充,有待於進一步的觀察。
質疑:
對於「大數據思維」的三個轉變,可以提出三點質疑:首先,如果通過分析少量的樣本數據就可以得到事物的准確性質,是否還有必要花費成本去搜集全體數據?其次,如果能夠得到准確數據,還有必要刻意追求不準確嗎?最後,如果能夠了解到因果關系,會視而不見,只去分析相關嗎?
合理的解釋是:首先,如果通過分析少量的樣本數據無法得到事物的性質,人們不得不花費更多成本去搜集全體數據來分析。其次,如果得不到准確數據,人們不得不接受不那麼准確的、差強人意的數據來進行分析。最後,如果不能夠了解到因果關系,人們會退而求其次,以分析相關關系來了解事物。
基於上述解釋,大數據方法不應該是刻意為之,而應該是不得已而為之。換言之,大數據方法僅在傳統的抽樣統計方法不起作用的時候有其用武之地。這就像只有當物體的運動速度接近於光速時我們才用相對論取代牛頓定律。
當然,不可否認,在飛速發展的網路空間里,人們的研究對象,即數據,變得越來越龐大,越來越繁雜模糊,越來越非結構化,這一大趨勢使人們樂於接受大數據思維。舉個不太恰當的例子,當人們不能解釋許多自然現象時,更容易接受某種宗教的解釋。
在信息爆炸的今天,傳統的抽樣統計方法不僅不應該被拋棄,而應該通過一系列改進得到加強,成為高效、實時反映事物狀態的主要手段之一。同時,我們歡迎並樂意採用新的方法,比如如日中天的「大數據方法」以及可能的「模糊數據方法」等等。
至此,一個關鍵問題出現了:面對一個具體事物,如何確定應該用傳統方法還是大數據方法?當物理學家研究微觀粒子之間的作用力時,會採用量子力學;研究一個橋梁受力時,會採用牛頓力學。信息或數據專家們有這樣的理論或判別標准嗎?本文下一小節將對此展開討論。
分析:
首先,考察一般意義上的選取樣本大小的規則。
定理:設X1,X2…Xn為獨立同分布隨機變數,分布為p(x), x∈(x1,x2..xn),則一般抽樣樣本大小S為:
S = λ*2 ^H(X) …………………………(1)
其中:λ是常數,H(X)= -∑p(xi)*log
p(xi),即隨機變數X的熵。
例1:了解總體為N個人對某事物的看法,是或否兩個選擇,其熵約為1,(假設兩種回答人數基本相當),則在一定的置信度、置信區間的要求下(本文不做精確的抽樣理論推導,僅舉例定性說明,以下同),S隨著N的增加(比如到10萬)逐步趨向為一個常數;400,此時λ=200。 可以證明,當其它條件不變,隨著熵增加,S指數增加,λ保持不變。
換一個方式解釋λ。
定義1:λ是在一次抽樣中,「典型狀態」出現的期望值。
定義2:典型狀態指該狀態出現概率等於或近似等於相同熵值平均分布下各狀態出現概率的那個狀態。
舉例來說,X服從一個8狀態平均分布,其熵為3比特,其每個狀態都是「典型狀態」,其出現概率都是1/8。
如果X服從一個12個狀態的分布,其狀態分布概率為
p(x1,x2,x3,x4,x5…x12)=(1/3,1/5,1/6,1/7,1/8,1/15…1/50),H(X) ~=3 比特。其典型狀態是 x5, 出現概率為1/8.
基於上述規定,如果λ取1,H(X)=3,則樣本大小S =8,在一次抽樣中,典型狀態(出現概率1/8)出現次數的期望值為1,等於λ。但狀態出現是依概率的,盡管期望值為1,但觀察值也可能為0,2,3…,這樣的估計誤差過大。
如果λ取100,H(X)=3,則樣本大小S =800,在一次抽樣中,典型狀態出現的期望值為100,等於λ。其實際觀察值在極大概率下落在95-105之間,如果誤差可接受,取λ=100,否則,加大λ。
另外一個影響λ的因素是分層。將例1中的總體N分為高收入(20%),中等收入(50%),低收入(30%)3類人來調查對某事物看法。如果採用純隨機抽樣,要保證每層的分布得到准確的估計結果,就要使得最少個體的層能夠抽到足夠數量,因此λ要乘5(20%的倒數)。但事實上,人們更關心總體結果,兼顧分層的結果,因此,為了節約成本,實際的λ修正系數會小一些,比如取3,這時,樣本大小約為1200 。這時,不管總體是10萬人還是3億人,對1200人的樣本進行的調查結果可以在3%的誤差范圍內反映出實際情況。
通過以上分析可以看出,λ是一個100-1000之間的常數,具體數值取決於調查方希望在一次抽樣中得到多少個典型狀態(或分層的)的個體(期望值),並滿足誤差要求。在確定了λ之後,樣本的大小就只和系統熵相關,呈指數增長關系,即公式(1)。
採用傳統抽樣方法時,研究對象的隨機狀態和變化有限,或通過人為的分類使之變得有限,導致熵值很小,因此,使用較小的樣本就可以准確地估計總體。加之那時的取樣成本很高,調查方要花費很大精力設計抽樣方案,在不失精度的前提下,使得樣本規模盡量縮小。
互聯網時代的狀況恰恰相反,研究對象是互聯網的行為,獲取數據非常容易,因為數據已經產生,不管你用不用它,它就在那裡。而互聯網上許多研究對象的狀態無限多,也很難統計歸類(比如「長尾現象」),系統熵值很大,導致樣本規模巨大或根本無法確定規模。此時,採用總體分析,即大數據方法就具有優勢。當然,即使總體數據已經存在,對其整理和運算也相當消耗資源。一些情況下,採用抽樣的方法仍然是最佳的選擇。
現在,讓我們嘗試回答上節最後提出的問題:面對一個具體問題如何選取分析方法?
首先,考察研究對象所需的數據是否已經在應用中自動被收集,比如,用戶的線上購物行為。如果不是,比如線下購物,需要研究者設計方法去收集數據,此時,應該採用傳統抽樣方法。
其次,面對互聯網已經(或可以實時在線)獲得的海量數據,當研究對象熵值小於5,建議仍採用傳統抽樣方式,可以得到更高效率;當熵值介於5-15之間,總體分析或抽樣分析都可以考慮,視具體情況;熵值大於15,建議採用總體分析,即大數據方法。
上述建議仍然很抽象。在下一小節中,我們借用長尾理論的描述方法,將統計研究對象分為4種類型,分別討論適用的方法。
分類:
第一類:「無尾模型」。此時,研究對象的狀態明確且數量有限,出現概率最小的狀態仍然具有統計意義。如民主投票,狀態有贊成、反對、棄權3個狀態,或是有限個被選舉人的支持率;再如收視率調查,狀態有幾十或幾百個電視台。統計結果的描述方法通常是分布直方圖,即將狀態出現的頻次從高向低順序以柱狀圖的方式表示出來。連接直方圖的各個頂點,就得到總體的概率分布曲線。按照相同順序排列頻次累計數並將頂點相連,就得到所謂「帕累托曲線」。兩個曲線表現為凹函數,或二階導數恆為負值(借用連續的分析,實際上是離散的),在曲線尾部沒有出現變化。隨著狀態數的增多,「二八現象」會顯著,即少數狀態(比如20%)佔到了多數頻次(比如80%)。
第二類:「翹尾模型」。此時,研究對象的狀態較明確且數量較多,出現概率很小的狀態相對失去統計意義,在統計上把這些狀態統一歸類為「其它」狀態。絕大多數情況下,由於其它狀態是由許多狀態構成的,其出現概率的和高於排列在前的某些較小概率狀態的概率,因此,總體概率分布曲線及帕累托曲線在尾部會出現上翹,即所謂「翹尾模型」。為了保證統計效果,其它狀態總的概率一般不超過5%。這時,二八現象極為顯著,便於「ABC分析」和重點管理,因此翹尾模型在企業管理上應用極為廣泛。如質量管理(缺陷分析),庫存管理(零配件庫、商店、賣場,特別是實體書店,可與後面網路書店的長尾現象比較)等。
以上兩種模型運用傳統的抽樣方法均可以取得良好的統計結果。隨著對象狀態數量增加,並不存在明顯界限。以收視率調查為例:選擇3萬個調查樣本戶進行收視調查,當有二、三十個電視台台時,收視率最低的電視台也能得到顯著的觀察值,可以認為是無尾模型。當電視台數量超過100,許多收視率達不到0.3%的電視台在一次抽樣中就無法達到可以保證相對精度的觀測值,此時,既可以擴大樣本范圍來滿足精度要求,也可以將小於0.3%的狀態合並為「其它」,採用「翹尾模型」。
隨著三網融合的進展,絕大多數電視機將具有雙向功能,總體數據變得唾手可得,此時,抽樣方法仍然有效,它可以用來做實時的、頻繁的統計,而採用總體的大數據方法可以定時進行校正,畢竟處理幾萬個樣本比處理幾億條總體數據要迅速、便宜得多。
第三類:「長尾模型」。此時,研究對象的狀態不夠明確且數量很多,出現概率很小、相對失去統計意義的狀態眾多。但是,這些小概率狀態的全部或部分和佔到總體狀態的30%-40%,甚至更多。反映在概率分布或帕累托圖上就形成一個長長的尾巴(漸進於X軸或Y=1的直線)。如果採用翹尾模型,用抽樣的辦法,會使總體的30%-40%,甚至更多的狀態無法描述。從而必須採用全體數據即大數據的方法。
舉例來說:一個實體書店的貨架上有1000種書籍,經過統計,老闆會發現,賣得好的前200種書佔到其銷售額的80%以上,而賣得不好的後500種書的佔比甚至不到5%,統計上可以並為一類。這就是所謂「二八現象」,老闆採用抽樣統計的方法可以掌握占銷售額95%的書籍的分布情況。而一個網路書店的資料庫中可能列有20萬種書籍,其中熱賣的200種占銷售額的20%,前2000種共佔到40%。而餘下的19.8萬種書籍構成其餘60%的銷售額,但每種份額是如此之小,以至於無論如何擴大樣本,都不易被顯著地觀察到。在這種情況下只能採用大數據方法,否則,60%的銷售額都不知道從哪裡產生的統計還有什麼作用。
第四類:「全尾模型」。此時,研究對象的狀態很不明確、甚至未知,而數量極多甚至無限,正常情況下,無論如何選擇樣本都無法在統計意義上顯著地得到各個狀態的觀察值,一旦可以觀察到,說明出現異常。其分布曲線是無限接近且平行於X軸的直線。所以我們也可以稱之為「平尾」。
典型的例子如關鍵詞搜索,事先無法確定狀態,即系統事先不知道用戶要搜索什麼,且搜索的內容可能無限多,因此無法事先設計抽樣模型。採用分析全體的大數據方法,可以在出現異常時即使發現並加以分析。比如,某種疾病或葯物的名詞在某一地區的搜索量大增,就可以預測這一地區可能流行某種疾病。事實上,谷歌的大數據分析在這方面已經比傳統的流行病預測機制和機構做得更好、更有效率。
大數據方法被認為最適於做預警或預測某種人們事先不知道的狀態,而抽樣統計則一般是根據已知的狀態安排抽樣規則。
以上四種模型分析與上節基於熵的分析是一致的。其中無尾和翹尾模型的熵值分別為小於6、介於5-15之間;而長尾和全尾模型的熵值分別為大於15、趨於無窮。前二者多採用傳統抽樣分析,後二者只能採用大數據方法。更為重要的是,隨著量變引起質變,大數據方法會帶來更多、更新的概念、理論和技術。
⑻ 英科學家認為大數據正在將地球「比特」化,未來可能造成資源枯竭
Live Science
英國朴次茅斯大學物理學家Melvin Vopson對地球的未來憂心忡忡。他認為,雖然信息是無形的,但信息可能是有質量的。「二向箔」毀滅了太陽系,而人類發明的「比特」可能會吃掉地球。
當前全球數字信息的總量大約是10²¹比特,且在迅猛地增長著。這其和團中有90%是最近10年才產生的。假設數字內容每年的增長率為20%,那麼350年後,地球上的「比特」總量將比組成地球的原子總量(大約是10⁵⁰)還要多。而為了維持這些信息存在,地球將被逐漸「吃掉」。
1961年,物理學家羅爾夫·蘭道爾(Rolf Landauer,也譯作朗道)提出過一個觀點,認為既然刪除「比特」會產生熱量,那麼在信息和能量之間應該存在著關聯。近年來有一些科學家正在試圖通過實驗,來驗證「蘭道爾原理」是否正確。而Vopson更進一步,認為信息和質量之間也存在著關聯性。
他的這一觀點,受到了愛因斯坦質能方程E=mc²的影響。愛因斯坦質能方程認為,能量和質量是可以互相轉換的。Vopson因此認為,如果「比特」有能量,那麼它也應該是有質量的。換算得到的結果是,1比特的質量,大約相當於1個電子質量的1000萬分之一。
當前人類 社會 每年產生的「信息質量」總和其實是微不足道的,大約只相清鎮當於一個大腸桿菌。但是假如信息總量以每年20%的速度遞增,那麼用不了500年,地球質量的一半會變成「比特」。而假如這個速度是50%,那麼在公元2245年前,地球質量的一半就會變成「比特」。
Vopson認為這是一個危機。是一個和石油危機、白色污染和森林退化一樣的危機。雖然人們今天很可能認識不到這個危機的嚴重性,但它正在緩慢地,一個「比特」一個「比特」地吞噬這個行星。
Vopson同時還認為,這一結論仍是保守的。根據國際數據公司的報告,喚正橘當前全球數據總量的增長速度實際上達到了每年61%。因此災難完全有可能提前到來。而解決方案,是需要有新的數據存儲技術,能夠把信息保存在沒有物理實體的介質上。
⑼ 比特雲是什麼
1、比特雲是一個整合多方互聯網渠道,通過數據分析,商業工具中臘等形式幫用戶實現展示、推廣、輪培判運營的綜合性營銷平台。
2、比特雲不但有效整合了web站、wap站、移動app、商信、第三方社交平台、微信等,還提供了有效的運行分析數據、集行業的產、供、銷等供應鏈以及周圍相關行業的企業、產品臘改、商機、資訊類信息的聚合平台,通過第三方網路平台進行營銷推廣,利用大數據進行規劃整合。
3、比特雲大大彌補了市場上平台產品只有入口,沒有推廣出口的缺陷,打造出新型營銷模式。
⑽ 大數據解決方案_大數據的應用解決方案
目前常用的大數據解決方案包括以下幾類
一、Hadoop。Hadoop是頌斗盯一個能夠對大量數據進行分布式處理的軟體框架。但是Hadoop是以一種可靠、高效、可伸縮的方式進行處理的。此外,Hadoop依賴於社區伺服器,因此它的成本比較低,任何人都可以使用。
二、HPCC。HPCC,HighPerformanceComputingand(高性能計算與通信)的縮寫。HPCC主要目標要達到:開發可擴展的計算系統及相關軟體,以支持太位級網路傳輸性能,開發千兆比特網路技術,擴展研究和教育機構及野和網路連接能力。
三、Storm。Storm是自由的開源軟體,一個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流,用於處理Hadoop的批量數據。Storm支持許多種編程語言,使用起來非常有趣。Storm由Twitter開源而來
四、ApacheDrill。為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法,Apache軟體基金會近日發起了一項名為「Drill」的開源項目。該項目幫助谷歌實現海量數據集的分析處理,包括分析抓取Web文檔、跟蹤安裝在AndroidMarket上的應用程序數銷敗據、分析垃圾郵件、分析谷歌分布式構建系統上的測試結果等等。