A. 大數據不是檢驗真理的唯一標准 怎麼辯
大舅舅是不是檢驗真理唯一的標准當然不是,他是一個參考。
B. 大數據的是與不是
大數據的是與不是
在時下的流行語中,很難找出一個比「大數據」更吸引眼球的術語了。1980年,阿爾文 托夫勒在《第三次浪潮》中預言了信息時代的到來會帶來數據爆發,約翰 梅西在1998年的美國高等計算機系統協會大會上首次提出「大數據(big data)」一詞。什麼是大數據?這一概念目前尚未形成統一的定義。幾種代表性的觀點如下:麥肯錫認為「大數據是指無法在一定時間內用傳統資料庫軟體工具對其內容進行抓取、管理和處理的數據集合」;維基網路認為「大數據是指無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的數據集」;全球最具權威的 IT研究與顧問咨詢公司——高德納公司認為「大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產」。
大數據時代已經來臨,它將在眾多領域掀起變革的巨浪,這是勿庸置疑的事實,在以雲計算為代表的技術創新大幕的襯托下,這些原本很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值,而對於電網企業來說,大數據的應用同樣會促進企業的跨越發展。
大數據的本質是事物的時域、空域記錄,並非事物的描述數據
對於大數據的特點,IT界通常用Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)這4個 V來概括。Volume,指數據體量巨大,從TB級別躍升到PB乃至EB級別;Variety,指數據類型繁多。除了傳統的結構化數據,大量非結構化、半結構化數據如網路日誌、音頻、視頻、圖片等;Value,指價值密度低,但大數據分析的價值高。價值密度的高低與數據總量的大小成反比,以視頻為例,一部一小時的視頻,在連續不間斷監控過程中,可能有用的數據僅僅只有一兩秒;Velocity,指變化速度快。大數據不僅量大,而且變化快,大數據的應用依賴於對數據的快速處理。但在筆者看來,對大數據作4V特點的概括是現象而非本質總結。
其實人類文明就是大數據的記錄與應用積累,當今社會進入了信息時代,信息化的本質是用 IT技術和方法描述世界,描述事物的內在本質、過程規律和業務規則,信息化的應用過程就是在描述好事物的軟體系統中實現人工和 /或機器記錄,大數據的本質是事物的時域、空域記錄,並非事物的描述數據,大數據成為熱門是因為信息化、互聯網、終端的普及和應用讓我們進入了一個機器自動記錄的時代,爆炸性增長的記錄數據使傳統的人工、單機 /單節點的機器處理能力無法完成記錄的分析、挖掘,由此催生了雲計算和大數據概念並推動人工智慧的工程應用,機器學習等人工智慧技術就是機器處理大數據及大數據應用高級模式。
大數據應用的本質是推導規律、預知未來,並非簡單的統計分析
在信息化時代以前,人類就有典型的大數據應用,如視覺美學總結的黃金分割(0.618),社會學中的在特定時空范圍內存在的「二八」理論。大數據應用的本質是推導規律、預知未來,並非簡單的統計分析。在信息化時代,大數據極大依賴信息化及其應用,開展大數據分析也必須應用信息化方法與手段,符合信息化業務驅動、目標導向等原則,沒有目標的大數據平台建設或掛大數據「羊頭」不利於信息化建設和大數據應用。
而互聯網大數據與企業大數據是有區別的,互聯網本質是跨區域的信息化網路基礎設施,其大量的內容服務和居於互聯網社交軟體並不存在描述事物的過程即沒有對象模型,人們應用互聯網留下了應用記錄(大量的非結構化數據),分析這些大數據記錄的前提是重新構建記錄的對象,對記錄標識特徵。企業信息化一般經過業務標准化和業務流程梳理過程,所以企業的大數據是存在對象描述,但企業應用的困難是我們建設的系統在對象描述上不統一、對象上的記錄不完整。所以互聯網大數據與企業大數據應用盡管原理與方法一致,但分析工作的重點是有區別的。互聯網公司在開展大數據分析的工具、技術方法不完全適用於企業,更不能把互聯網大數據的平台建設當做企業大數據應用工作的全部。
區別好對象模型數據與記錄數據是大數據分析的基礎,盡管描述事物對象的數據也可以達到 PB級,如人類的基因圖譜、地球大氣層流動模型、電網的網路結構模型等,這些數據不是大數據,在這些對象模型上構建軟體並記錄的業務變化是大數據。所以在大數據應用方面存在兩類數據的預處理,一類是模型數據預處理,另一類是記錄數據預處理。模型層面的預處理本質是信息化建設方案的科學性、合理性。記錄的完整性很大程度上也是取決於信息化方案,同時也取決於信息系統的應用過程。一旦軟體上線,再作數據治理來解決模型之間的不一致性或對記錄的二次「模型化」加工是一種方法論上的誤導,正確的方法應該是依據企業架構和行業解決方案完善信息化架構,實現企業信息化架構規范和引導下的信息系統建設和應用,在企業層面統籌企業模型、統籌系統結構和功能界面、統一業務系統應用規范。企業的數據治理必須在建設方案中完成,系統建成系統後的數據治理是無效的,當然在系統運行過程中資料庫的技術數據治理是必須的。
大數據應用在電網領域大有可為
在電網企業中,電量數據是一組典型的大數據。客戶和客戶的電表台賬是電量數據的宿主對象,採集系統中對客戶和電表台賬進行建模,各用戶電表的時序記錄就是電量大數據。下面結合國網江蘇電力開展的負荷預測大數據應用簡述大數據應用方法。
首先是數據預處理。對象模型的預處理,依託營配調一體化,建立客戶和電表台賬與電網供電邏輯關系,構建電網各電壓層級直至各台區到用戶的關聯模型;記錄數據的預處理,對電量記錄電度值進行年度節假日除權回原,去除電量的節假日因素,去除記錄奇點和內插補全個別記錄缺點等。
其次是分行業回歸建立日電量與氣溫、濕度等因素用電模型,依據實時運行方式累計各台區日電量、日負荷,完成各區域、各電壓等級的電量和負荷預測模型的構建,並構建模型機器學習,保持模型的時效性。
最後,由大數據平台給預測模型導入實時氣溫與前一時段的電量和負荷,實現短期、超短期的全網負荷預測。同樣原理,關聯宏觀GDP與電量指數,結合業擴包裝量變化,實現中長期負荷預測。
2015年 ,江蘇電網以全樣本的用戶每日實時採集用電數據,結合十多年用電、業擴、氣象等歷史數據,建立起涵蓋全省各地區、分行業以及25萬專變用戶和40萬台公用變壓器的包括溫度、濕度、節假日、周末等要素的多維度用電影響模型,模型包含的數據關聯關系超過110億項,開展負荷中長期、短期、超短期預測工作,有效指導了生產工作。
此外,電量大數據的應用在行業內外還有大量的可應用價值,如從用電設備節能潛力分析全社會節能潛力、大用戶用電特徵分析行業產能利用情況、居民用戶家庭活動特徵等,大數據應用在電網領域大有可為。
C. 誰能最簡單明了的告訴我大數據是什麼以及IBM到底是干什麼的,不許在百科裡復制!
大數據,海量數據
IBM,世界知名的IT公司。
D. 大數據時代讀後感 [說說大數據的三個「不是」]
有人說,大數據是個謊言;有人說,大數據是個偽命題。大數據市場確實存在。Gartner預測,到2015年,70%的信息基礎架構擴展與投資的主要驅動因素是業務分析需求。以前,人們把精力主要放在如何存儲好海量的數據上,而沒有想到深入挖掘數據的內在價值。隨著數據與業務之間的關系越來越緊密,以及一些大數據分析工具不斷涌現,數據分析成了企業決策的前提。
大數據不一定是復雜的分析
許多人一提到大數據,首先想到的是復雜的數據分析。這讓有些希望採用大數據分析工具的用戶產生了畏難情緒,也讓有手念叢些用戶產生了誤解,認為大數據分析只是那些擁有復雜業務流程和海量數據的大企業的事。市場研究機構麥肯錫的研究人員表示:「要創造新的重大價值,並不一定要採用復雜的大數據分析方法,有時只要能保證數據的可用性或對數據應用進行基本的分析,就能獲得所需的重要價值。」
不同的企業或一個企業內部不同的部門對數據分析和數據價值的理解都不相同。企業處於不同的信息化發展階段,也會設定不同的數據分析目標,採用不同的數據分析工具。正是基於此,戴爾率先提出了大數據成熟度模型。戴爾公司全球企業級解決方案副總裁Cheryl Cook表示:「這一模型已經得到了業內許多分析機構的認可。所有行業以及所有數據應用都適用於此模型。」
如下圖所示,大數據成熟度模型分成五個階段。第一個階段,數據處於混亂狀態,數據存儲無章可循,數據難以訪問,企業的信息系統處於高風險狀態。第二個階段,實現數據的保留。在這個階段,企業被動地對數據進行存儲。數據雖然經過一定的處理,但還不具有高質量,數據的訪問也會受到一定限制。第三個階段,實現存儲的優化。在這個階段,通過對存儲系統的進一步優化以及基於策略的控制與管理,用戶可以逐步發現數據的價值。第四個階段,實現簡單的分析。在存儲優化的基礎上,用戶可以進行數據建模和簡單的數據分析,對歸檔數據進行搜索等。第五個階段,實現復雜的分析。在這個階段,大數據分析工具將得到充分應用,用戶可以進行比較復雜的建模、分析和決策。經過上述五個階段,曾經雜亂無章的數據也將經歷從數據畢櫻到信息再到知識的轉變過程,最終成為企業決策的重要依據。
這個大數據成熟度模型可以解答人們對於大數據應用的幾個疑惑。第一,用戶使用大數據分析工具,並不意味著一定要進行復雜的分析。舉例來說,處於存儲優化階段的用戶就可以實現無障礙的數據訪問,並能獲得所需的數據價值。第二,大數據的應用要經歷一個逐步完善的過程,必須循序漸進,先做好數據存儲和優化,然後再進行數據分析。第三,大數據解決方案通常包括兩個部分:一是大數據保留解決方案,二是大數據分析解決方案。將兩類解決方案有機地結合在一起,才能有效降低大數據分析應用的成本,更好地挖掘數據的價值。Cheryl Cook表示,戴爾可以提供上述兩種解決方案。一方面,戴爾可以提供針對結構化和非結構化數據的大數據保留解決方案,主要包括存儲虛擬化與整合、應用程序優化、數據保護、災難恢復以及數據保留與管理解決方案;另一方面,戴爾還能提供支持Hadoop、Cloudera等開源軟體的大數據分析解決方案。
記者曾與包括大慶油田、太平洋保險公司等在內的一些用戶進行過交流。它們目前都沒有計劃部署大數據應用。「從全球范圍來看,大數據應用還處於起步階段。」戴爾亞太及日本地區商用事業部企業解決方案副總裁Philip A. Davis表示,「與雲計算興起時一樣,可能要經過兩三年的市場培育,用戶才能逐漸接受大數據應用。」
中國東方航空股份有限公司信息部總經理嚴振紅介紹說:「在大數據的概念出現以前,我們就在做客戶數據、經營數據的分析工作。但是客戶資料庫、經營資料庫等都是相互獨立的,數據不能共享。現在,我們要做的是將這些系統的數據整合起來,統一進行分析。」
Hadoop不是萬能的
簡單來說,Hadoop是一個能夠對大量數據進行分布式處理的軟體框架。Hadoop最獨特的優勢在於為用戶提供了一個分布式的、高容錯的文件系統和加速數據處理高毀的辦法。隨著Web 2.0、社交網站的大規模興起,人們需要一個高效的處理非結構化數據的平台。Hadoop正好可以滿足人們的需求。有些人甚至在Hadoop和大數據之間劃上了等號。Hadoop能夠解決大數據應用的所有難題嗎?
「Hadoop是一個復雜的工具套件。如果沒有廠商或專業技術人員的幫助,用戶自己部署Hadoop是一件十分困難的事。目前,Hadoop的應用並不普及。互聯網用戶是最早採用Hadoop平台的。」Philip A.Davis表示,「如果想讓大數據解決方案充分發揮其作用,就必須搭建一個高效的信息基礎架構,實現信息基礎架構的自動化、智能化,同時提高其可管理性。」
Hadoop的應用是有一定技術門檻的。如今,許多IT廠商都推出了基於Hadoop的解決方案包,其目的是幫助用戶簡化Hadoop的部署與應用。Philip A.Davis表示:「戴爾提供的基於Hadoop的大數據分析方案可以將Hadoop的部署周期從原來的兩個月縮短至兩天。」
VMware全球高級副總裁范承工也認為,由於缺少精通Hadoop技術的專業人才,Hadoop的部署對於用戶來說是一件費時費力的事。如今,VMware可以將Hadoop部署在虛擬化架構之上,將部署工作從半自動化變為全自動化,從而減少了人工干預,使得Hadoop的部署變得更加簡單,也不容易出錯。
「很多中國企業的CIO認為,大數據解決方案是有價值的,但實施起來確實有許多困難。」戴爾全球副總裁、中國區大型企業及公共事業部總經理容永康舉例說,「國內懂得在Hadoop上進行開發的專業技術人員非常少。一些金融行業的用戶很想現在就部署大數據解決方案,但是苦於找不到既懂Hadoop技術,又懂得金融業務的專業人才。」
Informatica首席技術官James Markarian表示:「在IT環境中,Hadoop不可能作為一個孤島存在。為了讓Hadoop跨越不同平台,用戶需要將Hadoop作為其IT大環境中的一部分來管理,並通過Hadoop重復使用他們的開發技巧、資產及數據,同時還要統籌管理全部數據。」
在美國市場上,70%的大數據應用處理的還是結構化的數據。從技術的角度看,雖然Hadoop也能處理結構化的數據,但是目前基於Hadoop的大數據分析解決方案主要還是用於處理非結構化的數據。因此,用戶處理結構化數據和非結構化數據通常是用兩套不同的分析工具。這種混合的大數據處理模式是一種普遍現象。
從未來的發展看,非結構化數據的快速增長是大數據分析的主要驅動因素。從這個角度講,Hadoop的應用前景還是十分廣闊的。
大數據不僅僅是一個解決方案
Cheryl Cook強調說:「用戶千萬不能認為,只要購買了一個大數據的解決方案,就能解決所有的問題。許多中國用戶還沒有充分意識到數據能夠帶來多大的價值。戴爾收購佩羅系統公司,增強了自身的顧問咨詢能力,可以幫助客戶分析數據能夠帶來什麼樣的價值。這為用戶日後正確部署大數據解決方案奠定了基礎。」
有些廠商通過收購或其他方式,很快就推出了大數據解決方案,並將這些解決方案推銷給客戶。Cheryl Cook表示:「戴爾先從客戶的需求入手,幫助客戶分析當前遇到的實際問題是什麼,然後進一步明確客戶能從數據中獲取什麼樣的價值,最後才是提供量身定製的解決方案。」戴爾大數據解決方案的特色在於開放化和多樣化。戴爾既可以提供基於開源軟體的大數據解決方案,也可以提供支持微軟、SAP等軟體的大數據解決方案。針對Hadoop平台,戴爾還能提供一些附加的服務,目的是為了讓Hadoop平台能夠滿足客戶的個性化需求。在部署大數據解決方案之前,用戶首先要搞清楚,能從大數據解決方案中獲得什麼樣的價值,然後再制定具體的實施規劃,接下來就是構建高效的信息基礎架構,最後才是部署大數據分析工具。
E. 網路大數據 是不是只是一個記錄 不影響任何的事情
如果你只是擔心簽證和徵信問題,那麼基本上影響不會太大,雖然會查銀行,但是給多點錢就基本上能過去了。除非你人品當真壞得可以
F. 大數據不顯示怎麼回事
可能是GPS出現了錯誤。
通信大數據行程卡,是由中國信通院聯合中國電信、中國移動、中國聯通三家基礎電信企業利用手機「信令數據」,通過用戶手機所處的基站位置獲取,為全國16億手機用戶免費提供的查詢服務,手機用戶可通過服務,查詢本人前14天到過的所有地市信息。
務介紹
「通信大數據行程卡」是由中國信通院聯合中國電信、中國移動、中國聯通三家基礎電信企業手機「信令數據」,通過用戶手機所處的基站位置獲取為全國16億手機用戶免費提供的查詢服務,是對此前通過簡訊查詢行程的服務升級。
「通信大數據行程卡」基於電信大數據,由三大運營商統一提供介面,僅須填寫手機號、驗證碼並確認本人授權,無須填寫身份證號、家庭住址,不收集其他個人信息,操作上更為簡便和安全,充分保護用戶隱私。