㈠ 大數據工程師如何實現技術成長
1.真實的大數據業務場景-在解決問題中成長
第一個需要知識業務場景,讀再多的書,如果不能實際操練,東西都不會變成自己的。對於目前我們公司來講,工程師最快速的成長,是能夠接觸真實的大數據業務場景,比如面臨大量的數據,解決大量的問題,如果出現延遲的問題,該怎麼去解決,這時候很多情況書上沒有,需要自己去想,或者自己去翻源代碼。我認為真實的業務場景是促進自己成長最真實的東西。
2.開放、平等、分享的企業文化-在工作中相互學習和挑戰
公司要創造讓開放平等交流的場景,有時候交流討論是讓自己把思路問題理清晰的一個途徑,公司經常會有一些員工自己組織的分享,任何一個架構都會有一些架構評審,大家會比較開放的討論問題,經常會有碰撞。我經常會說不要怕別人挑戰你,挑戰會腎上腺素分泌,這樣大家會更佳聰明,這時候有時候想不到的方案就會想出來。所以我提倡大家技術上相互挑戰。不要一個人局限在自己的空間里。
3.員工自己組織的職業委員會
另外公司也會嘗試一些新的途徑,任何一個公司都會有一些職級體系,我們最初的創業公司沒有這些體系,隨著後來規模越來越大,一種辦法是像一些大公司學習,比如說阿里,騰訊,但是CEO覺得新的時代是一個社群的時代,所以在考慮有沒有更好的辦法能把這個事情做的更好。我相信用工程師委員會來做這個事情是比較少的,大部分的公司都不是這么做的,
4.新員工導師計劃-讓新人更容易融入公司
新員工導師計劃,任何一個新員工進來都會有一個導師,會引導你如何更好的融入公司。
關於大數據工程師如何實現技術成長,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
以上是小編為大家分享的關於大數據工程師如何實現技術成長?的相關內容,更多信息可以關注環球青藤分享更多干貨
㈡ 大數據行業的發展受什麼因素影響
一、環境
從大環境來說,我們從以前的互聯網時代發展到了現在的大數據時代,是時代發展的必經之路。互聯網的技術進步,必然會促成新的技術產生,再到成熟,而大數據就是這個新興技術。大數據的技術正在不斷前進發展著,我們現在已然是身處於大數據時代中,身邊處處充滿了大數據,待大數據技術的蓬勃生長,
二、政策
「大數據是信息化發展的新階段」,並做出了「推動大數據技術產業創新發展、構建以數據為關鍵要素的數字經濟、運用大數據提升國家治理現代化水平、運用大數據促進保障和改善民生、切實保障國家數據安全」的戰略部署,為我國構築大數據時代國家綜合競爭新優勢指明了方向!」這是有我們國家政策的支持、扶持。因為以前的互聯網技術還不夠成熟,大數據的發展也會相對的緩慢,而現在通過互聯網的進步,也順帶幫助了大數據技術的成長。因此,大數據的發展潛力還在不斷增長著。
㈢ 大數據 正經歷成長的煩惱
大數據 正經歷成長的煩惱
提起大數據,很多人都感覺略知一二;但大數據到底是什麼,又很少有人能解釋清楚。今年兩會期間,包括小米科技創始人雷軍、聯想集團董事長楊元慶、科大訊飛董事長劉慶峰在內的多位代表、委員都提出了與大數據相關的建議和提案,他們一方面希望從國家層面推動大數據的發展,另一方面也對它在信息安全方面可能存在的隱患提出了警示。
大數據記錄了所有一切
一份調查顯示,2013年我國產生的數據總量超過0.8ZB,相當於2009年全球的數據總量;而到2020年,一個普通中國家庭每年產生的數據量,將相當於半個國家圖書館的信息儲量。
中國電子學會秘書長徐曉蘭委員指出,海量的信息儲存和挖掘,既是大數據的價值所在,也是它有別於傳統互聯網、可能對信息安全帶來的新隱患。
「大數據時代,記錄了很多以往根本不可能或者不需要記錄的數據,比如微博、朋友圈的內容,上網產生的cookie,家庭水電氣使用的情況、汽車和大型設備上安裝的感測器拿到的數據等。」社交數據分析公司獨到科技的CEO張文浩說,「如果這些信息都是『孤島』,影響可能不大。但一旦相互關聯,影響力會大得驚人。」
中科院信息工程所所長田靜委員也表示,以往碎片化的數據只是盲人摸象,但現在這些碎片全都被存貯起來,通過相關性分析拼湊,「就知道象到底長什麼樣了」。
技術上的差距,也造成了大數據暫時的「不安全」。
「沒有自己的分析能力,我們怎麼能搞清楚哪些數據是需要保護的?」
對於田靜的這個「問題」,國家信息化專家咨詢委員會副主任、中國工程院院士鄔賀銓提供的一組數據給出了答案——數據中,大約有一半是應該保護的,但我們現在真正保護的「只有一半的一半」,很多數據在有意或無意當中被獲取,「如果這些數據整合起來,被某些別有用心的人利用,會對安全造成很大的影響」。
徐曉蘭介紹,目前我國很多機構和企業使用大數據分析軟體都是國外廠商生產的,特別是近幾年視頻等多媒體數據爆炸性增長,「這些數據都是異構化的,這部分軟體是我們的短板」。
著名軍事專家尹卓委員則指出,現在互聯網所使用的伺服器大都放在美國,「自己沒有伺服器怎麼可能安全」?
另一方面,在田靜看來,缺乏大數據環境下的安全理念也是重要原因之一。「過去認為無害的信息,在數據爆炸的今天,已經完全不一樣了。觀念不改,是沒有秘密可保的。」
張文浩也認為,國人缺乏這方面的意識。「在美國,很多人都會要求不公開自己的隱私,或者主動把自己的數據提供給某些特定的機構使用;但在國內幾乎沒有聽到過,大家也不知道什麼類型的數據可能會有多大的風險。」
大數據或許也很「危險」
張文浩認為,很多人對於大數據的理解都只注意到數據的體量和統計,「其實,通過深度分析,從紛繁的數據中抽象出規則和原理,並實現對未來的前瞻性預測,才是大數據真正的價值和魅力所在」。
因為大數據,奧巴馬在2012年成為過去70年來,第一位在失業率高達7.4%的情況下成功連任的美國總統;因為大數據,Target超市「預測」了18歲少女的懷孕……
任何一項新技術的背後,都可能懸掛著一把達摩克利斯之劍。大數據也是如此,在人們驚嘆於它的「神力」之時,「威脅」也正悄悄逼近。
「前兩年,國外一家情報搜集機構利用國內某機構人員公開發表的數據和資訊,進行深度挖掘分析,生成了有價值的情報。」徐曉蘭告訴記者,後來經過詳細調查,確認情報確實不是該人員提供,而生成情報的那些數據本身也是可公開的。「這在以往幾乎是不可能的,也給我們敲響了警鍾。」
尹卓以戰時的交通流量信息舉例說,如果不注重數據的安全使用,將可能對國家安全帶來隱患。「科索沃戰爭中,南聯盟的油料庫雖然隱蔽得很好,但美國軍方通過對衛星圖中的交通流量進行分析,劃定了大量油罐車經常出沒的區域,在進行精確搜尋,從而一舉炸毀。」
如果您認為這些「危險因素」離自己很遠,那就大錯特錯。
「現在很多智能手機的應用都要求訪問通訊錄,」鄔賀銓說,很多人覺得自己沒有什麼秘密,就同意了。「但實際上,這不僅會透露自己的大量信息,也會把很多人置於隱私暴露的危險之下 。」
張文浩也指出,現在很多年輕人都有用手機發微博或者「簽到」的習慣,「這樣其實會泄漏自己的很多信息。比如你白天經常簽到的位置就很有可能是你的單位,傍晚以後簽的多半是自己家」。
大數據正經歷成長的煩惱
「要想征服數據,只有更好地利用它們。」張文浩說,數據是一種資源和財富,積累越多,產生的效力也會越大。
這個觀點得到了鄔賀銓的認同。他認為,越想規避大數據帶來的安全風險,越需要搜集儲存海量的數據,並進行深入的挖掘分析。「有統計顯示,國內數據搜集量不及日本的60%和北美的7%,大量數據留這樣白白流逝。」
「企業掌握的數據畢竟有限,而且是局部的。」網路公司董事長李彥宏委員提出了數據開放的概念,國家應該把那些不涉及安全的數據公開,讓有能力的機構進行更好的分析利用。
國家基礎地理信息中心原總工程師李莉委員指出,有的公共部門掌握了大量公共信息,這些數據是國家基礎信息的重要組成部分。鄔賀銓強調,這些數據「不願與其他部門共享,導致了信息不完整或重復投資」。
共享數據在技術上是否存在很大的難度?在徐曉蘭看來,現在需要大力發展的數據挖掘、分析方面的技術,但對於數據共享本身而言,技術不是最大的障礙,關鍵還是利益協調。她說幾年前,國土部和銀監會准備摸底國家土地信息,「一開始很多人提出各種各樣的困難,幾乎認為是不可能完成的任務。但後來引入問責等行政手段,得到地方配合,進行得就很順利」。
張文浩認為,建立一個公開、透明、規范的數據市場,將會大大增強數據的利用率。但在這個過程中,需要仔細考量什麼樣的數據可以進入市場。
這就涉及到立法的問題。「界定『隱私』和為數據進行安全分級,是制定法律法規時要優先考慮的方面。」他指出,「個性化服務和隱私之間是一個博弈。名字、電話、住址……不能什麼都說是隱私,因此需要為數據安全分級。簡單地說,通過數據分析的經驗,我們會知道哪類信息具有更強的指向性和排他性。這類信息的安全級別就應該更高。」
以上是小編為大家分享的關於大數據 正經歷成長的煩惱的相關內容,更多信息可以關注環球青藤分享更多干貨
㈣ 大數據如何應對成長的「煩惱」
大數據如何應對成長的「煩惱」
今天,已經幾乎沒有人會再懷疑大數據的價值,人們更加關心的是如何真正將大數據推向應用,真正發揮其價值。但是,盡管業界不乏探索,但客觀來看大數據的整體發展目前尚處於初級階段。換句話說,對於大數據理念的認可並不代表就能利用好大數據。尤其是在中國,盡管大數據擁有良好的產業基礎和發展前景,但數據資源的開放程度較低、數據資產的保護等現實問題都是當前面臨的主要挑戰。如何應對這些挑戰,驅動大數據快速走向普遍應用?近日工信部電信研究院發布的《大數據白皮書》,針對上述問題給出了獨到的解答。
有效的應用模式還未找到
當前,大數據還未形成普遍應用的局面。究其原因,在於大多數企業,特別是傳統領域的企業,還未找到有效的應用模式。
理念的應用快於數據的應用
數據就是資產。這一輪大數據浪潮,使得大數據理念迅速普及。盡管很多數據尚沒有找到合適的用途,但很多公司已經將其作為資產,對其數據進行規劃、存儲,或自行開發,或積極尋找買家,或尋找合作者。
電信運營商最有可能成為典型的數據資產運營者。電信運營商掌握豐富的用戶身份數據、語音數據、視頻數據、流量數據和位置數據,數據的海量性、多元性和實時性使其具有經營大數據的先天優勢。目前主要的電信運營商都已積極探索開發其內部的大數據資源,但從目前的應用發展看,電信運營商的大數據仍主要用於支持內部的客戶流失分析、營銷分析和網路優化分析等,對外的應用模式尚未成型。
大數據應用呈散發狀
目前,大數據應用並沒有形成燎原之勢,主要集中於互聯網的市場營銷場景。盡管金融、電信、零售、製造、醫療、交通、物流、IT 等行業對大數據應用表現出極大熱情,但目前在媒體和各種論壇上所公開的大數據應用案例仍然非常零散,這表明大家雖然都很關注大數據,但推進實際的應用仍然存在一定的困難。唯一眾多企業都推出或者採納大數據應用的領域是基於互聯網的市場營銷,在這一領域應用了大數據的公司不僅包括大型的互聯網公司、眾多專業性的中小型互聯網公司,線下企業也在與互聯網公司合作,積極開發這一領域的價值。
從數據源看,大數據的應用還處於自給自足的「小農經濟」時代,現有的應用仍然以機構內部數據為主。以機構內部數據為主的主要原因是數據的開放和交易尚未形成市場的主流形態。以國內主要的電子商務交易平台為例,盡管目前推出了很多大數據應用,但這些應用基本上都局限於內部。由於法律和數據交易機制的不健全,這些交易平台在對外開放和交易數據上仍然持謹慎態度。Gartner 的一項調查顯示,即使在全球,以內部數據為主仍然是大數據應用的主要特徵,各行業應用最多的仍然是企業內部的交易數據(應用比例普遍超過50%,多數行業應用比例超過80%)和日誌數據。
從技術角度看,大數據仍以初級應用為主,多數應用仍然使用傳統分析流程和工具,只是擴大了數據的來源、增加了數量。調研發現,與傳統數據分析相比,新的大數據應用雖然開始使用非結構化數據,但在實際應用過程中,這些非結構化數據只是被壓縮、清洗和結構化後,放入傳統的ETL和分析流程中去。另一些大數據應用通過採用雲存儲和雲處理技術,提高了數據處理效率,從而增加了數據處理的規模,但這些應用也仍然採用原有的ETL 和分析流程。缺乏應用模式上的創新,使得目前大數據應用仍停留在初級技術階段。
從應用效果看,目前的大數據應用以延續改善現有業務和產品為主,突破性創新應用尚不多見。以最常見的互聯網營銷大數據應用為例,在大數據興起之前,精準營銷和個性化推薦一直是企業營銷活動的追求方向,新興數據源和大數據技術的興起使得企業進一步改善其營銷技能,使其精準營銷能力進一步增強,但這只是對企業舊有營銷能力的改善。目前大家議論比較多的突破性創新如網上小貸業務,這項業務完全改變了過去金融機構貸款的流程、信用評價和控制風險的方式,從而極大地降低了貸款的成本,擴大了貸款的范圍。但目前這樣的突破性創新並不多見。Gartner 的調查顯示,企業投資大數據的主要目的在於改善客戶服務、流程優化、精準營銷和削減成本等,而新產品/新商業模式這種突破性創新的方向並不是企業的主要目的。
不一樣的中國式煩惱
目前,大數據在全球的發展都還處於初期,技術、制度、觀念等方面都需要改變。具體到中國而言,數據資源不豐富、技術差距大和法律法規不完善是當前大數據發展面臨的獨特問題。
數據源不夠豐富,數據開放程度較低
豐富的高質量數據資源是大數據產業發展的前提。近幾年在互聯網產業及金融、電信信息化快速發展的帶動下,我國數據資源總量有了快速增長,已達到全球的13%,但其他行業受信息化水平制約,數據儲量仍不豐富。已有數據資源還存在標准化、准確性、完整性水平低,利用價值不高的情況。同時,我國政府、企業和行業在信息化系統建設中受到各種因素制約,形成了眾多「信息孤島」,數據開放程度嚴重滯後。建立良性發展的數據資源儲備與共享體系,是我國大數據發展的首要問題。
技術水平不高,技術擴散不暢
我國大數據技術的發展模式也與全球類似,互聯網企業具備快速將國際先進的開源大數據技術整合到自身系統中的能力,並構建了單集群上萬節點的大型系統,但仍缺乏原創技術,對開源社區的貢獻不足,進而對前沿技術路線的影響比較微弱。同時,由於本土開源社區等產業組織發育滯後,國內領先企業在大數據方面的技術創新也難以向社會擴散。
相關法律法規有待進一步完善
隨著大數據挖掘分析將越來越精準、應用領域不斷擴展,個人隱私保護和數據安全變得非常緊迫。在隱私保護方面,現有的法律體系面臨著兩個方面的挑戰:一是法律保護的個人隱私,要體現為「個人可識別信息(PII)」,但隨著技術的推進,以往並非PII 的數據也可能會成為PII,使得保護范圍變得模糊。二是以往建立在「目的明確、事先同意、使用限制」等原則之上的個人信息保護制度,在大數據場景下變得越來越難以操作。而我國個人信息保護、數據跨境流動等方面的法律法規尚不健全,這成為制約大數據產業健康發展的重要原因之一。需要結合我國法治建設的實際情況,探索通過行業自律等方式彌補法律體系不完善的弊端。
多措並舉走出發展誤區
對於中國的大數據產業的發展而言,首先需要明確戰略目標和戰略重點,統籌謀劃大數據應用、關鍵技術研發與產業培育、數據開放與數據保護、市場監管、法律法規等關鍵布局,引導國內各地大數據發展方向,避免一哄而上的盲目發展。
在大數據應用上,一是政務和公共服務領域的應用,應重點面向改善民生服務和城市治理等,積極推動環保、醫療、教育、交通等關鍵領域的大數據整合與集成應用,進一步提高政務和公共服務效率。二是市場化應用,應重點在跨行業的大數據應用方面出台推動政策,促進互聯網、電信、金融等企業與其他行業開展大數據融合與應用創新,帶動全社會大數據應用不斷深化。
在技術創新上,一是要加強大數據技術研發方向的前瞻性和系統性,近期重點支持深度學習與人工智慧、實時大數據處理、海量數據存儲管理、互動式數據可視化和應用相關的分析技術。二是要聚集產學研用力量形成合力,力爭在大數據平台級軟體上實現突破,以此為核心發展開源生態。三是創新科研項目支持方式,將開源和開放標准作為考核指標,通過直接補助或後補助方式激勵企業和科研機構參與開源技術發展,促進大數據技術擴散。
在政府數據開放上,建議推進政府和公用事業領域數據資源的普查工作,並按照相關法規制定政府和公共數據開放中的安全和隱私保護檢查表,對可能涉及國家安全和公民隱私的風險點進行嚴格控制。在此基礎上,按敏感性對政府和公共數據進行分類,確定開放優先順序,制訂分步驟的數據開放路線圖。同時,政府也應積極規范和引導商業化的大數據交易活動,為數據資源的流通創造有利條件。
在個人信息保護上,國際上一些機構提出監管的重點應該「從數據收集環節,轉移到數據使用環節」。我們要密切關注國際上立法理念的演變趨勢,結合技術發展趨勢和我國國情對相關制度進行前瞻性研究。同時,為了解決當前個人信息和數據保護的緊迫需求,可依託行業組織及時總結業界的最佳實踐,逐步形成行業共識,在試點成熟後上升為標准或法律法規並推動實施,為大數據的健康發展保駕護航。
以上是小編為大家分享的關於大數據如何應對成長的「煩惱」的相關內容,更多信息可以關注環球青藤分享更多干貨
㈤ 如何通過大數據幫助企業成長
大數據」,顧名思義,指數據總量巨大,類型多樣且信息傳播速度快的資料庫體系。那麼「大數據」到底有多大?IBM曾做過統計,世界上90%的可用數據,僅用過去兩年時間便產生了。
數據之所以變得越發龐大,主要源自機器的介入。從智能手機和自動感測器到每一次滑鼠點擊和鍵盤輸入,在這些簡便無聲的數據收集過程當中,每天會處理大約2.5EB的數據。
如何處理好這些數據,從中獲得有意義的結論和幫助,已經成為許多公司尤其是科技領域的初創公司非常重視的事情。他們藉此整合公司多樣的數據子集來助其開發項目。因此,《Entrepreneur》雜志特別請到來自聖馬特奧,開發大數據分析軟體的公司Guavus的創始人兼執行總裁AnukoolLakhina與讀者一起分享,如何有效利用大數據。
大數據最厲害之處在哪裡?
當然是「得知當下狀況」,也就是對即時數據的掌握。如果你的業務能夠從數據收集中預見到發展前景,你通常能很快地將所獲得信息及時分類並做出明智的決策,最終採取及時准確的行動。或者也可以說你研究數據後所看到的再也不是過去發生的事,而是此刻正在發生的事。這能讓你准確把握市場動向,快速改進服務,降低成本,節約時間。在這個過程中,你的公司發展就會出現更多的機會。
如何得到這些數據?
首先,整理出已有的數據,再看你想要獲得什麼樣的數據。這需要你動用幾乎所有服務性軟體(比如Salesforce一類的CRM系統)、Excel表格、合夥人相關信息、銷售單據,以及其他任何可用來收集信息的設備與設備上的內容。
之後,將這些數據聯系整合到一起。這樣有利於做出更及時、更有說服力的決定。做這項工作最簡單的方法是從一個具體問題開始。比如你想在每周二開展促銷活動,設立這個目標後,你就要收集所有數據來策劃這個項目。一旦你理清並且整合好這些數據——包括線上銷售額、社交媒體上的宣傳數量等,你的業務反應周期就能很快縮短。
具體舉個實例?
比如一個獨立咖啡店老闆整合了各種資源和線下數據,包括用戶的飲品習慣、地理定位、信用卡消費記錄等。這些數據就能幫助咖啡廳提升自身的個性化定製市場,增加促銷機會。如那些送小孩上學後經常來咖啡廳喝一杯的母親,就可以在課外時間享受到免費獲得一杯兒童裝熱巧克力的優惠。
處理大數據有哪些必備工具?
在很多情況下你和員工已經多多少少使用過大數據工具了,例如用戶信用度統計、銷售記錄、網路分析以及CRM資料庫。關鍵是如何能夠在一個簡單易懂的應用中將這些數據聯系起來,讓所有人都能夠看懂和利用這些數據,改變曾經只有數據專家才能夠看懂的局面。
㈥ 大數據發展必備三個條件
大數據發展必備三個條件
大數據概念的橫空出世,有賴於短短幾年出現的海量數據。據統計,互聯網上的數據每兩年翻一番,而目前世界上90%以上的數據都是最近幾年才產生的。當然,海量數據僅僅是「大數據」概念的一部分,只有具備4個「V」的特徵,大數據的定義才算完整,而價值恰恰是決定大數據未來走向的關鍵。
大數據發展必備三個條件
大數據的發展需要三個必要條件:數據源、數據交易、數據產生價值的過程。近年來,社交網路的興起、物聯網的發展和移動互聯網的普及,誕生了大量有價值的數據源,奠定了大數據發展的基礎。大數據時代到來的重要標志,則是大批專業級「數據買賣商」的出現,以及圍繞數據交易形成的,貫穿於收集、整理、分析、應用整個流程的產業鏈條。大數據發展的核心,則是使用戶從海量的非結構化數據和半結構化數據中獲得了新的價值,數據價值是帶動數據交易的原動力。
IBM、甲骨文、SAP近年紛紛斥巨資收購數據管理和分析公司,在這些互聯網巨頭的帶動下,數據分析技術日漸成熟。2013年6月,愛德華·斯諾登將「棱鏡計劃」公之於眾,「棱鏡門」事件一方面說明大數據技術已經成熟;另一方面也佐證了現在阻礙大數據發展的不是技術,而是數據交易和數據價值。
大數據技術的發展促進了雲計算的落地,雲計算的部署完成又反過來加大了市場對數據創造價值的期待。大數據概念提出之後,市場終於看到了雲計算的獲利方向:各地的一級系統集成商與當地政府合作,建雲數據中心;各大行業巨頭在搭建各自行業的雲平台;IT巨頭想盡辦法申請中國的公有雲牌照。大數據促成了雲計算從概念到落地。藉助於智慧城市概念的普及,雲計算基礎設施已基本准備就緒,一方面完成了大數據應用的硬體基礎;另一方面迫於回收雲計算投資的壓力,市場急需應用部署,大數據恰如雪中送炭,被市場寄予厚望。
現在,問題的核心指向了「數據如何創造價值?」
整合與開放是基石
大數據服務創業公司Connotate對800多名商業和IT主管進行了調查。結果顯示,60%受調查者稱:「目前就說這些大數據投資項目肯定能夠帶來良好回報尚為時過早。」之所以如此,是由於當前大數據缺乏必需的開放性:數據掌握在不同的部門和企業手中,而這些部門和企業並不願意分享數據。大數據是通過研究數據的相關性來發現客觀規律,這依賴於數據的真實性和廣泛性,數據如何做到共享和開放,這是當前大數據發展的軟肋和需要解決的大問題。
2012年美國大選,奧巴馬因數據整合而受益。在奧巴馬的競選團隊中有一個神秘的數據挖掘團隊,他們通過對海量數據進行挖掘幫助奧巴馬籌集到10億美元資金;他們通過數據挖掘使競選廣告投放效率提升了14%;他們通過製作「搖擺州」選民的詳細模型,每晚實施6.6萬次模擬選舉,推算奧巴馬在「搖擺州」的勝率,並以此來指導資源分配。奧巴馬競選團隊相比羅姆尼競選團隊最有優勢的地方:對大數據的整合。奧巴馬的數據挖掘團隊也意識到這個全世界共同的問題:數據分散在過多的資料庫中。因此,在前18個月,奧巴馬競選團隊就創建了一個單一的龐大數據系統,可以將來自民意調查者、捐資者、現場工作人員、消費者資料庫、社交媒體,以及「搖擺州」主要的民主黨投票人的信息整合在一起,不僅能告訴競選團隊如何發現選民並獲得他們的注意,還幫助數據處理團隊預測哪些類型的人有可能被某種特定的事情所說服。正如競選總指揮吉姆·梅西納所說,在整個競選活中,沒有數據做支撐的假設很少存在。
2012年3月,美國奧巴馬政府宣布投資2億美元啟動「大數據研究和發展計劃」,將「大數據研究」上升為國家意志。一個國家擁有數據的規模和運用數據的能力將成為綜合國力的重要組成部分。國內智慧城市建設目標之一就是實現數據的集中共享。
合作共贏的商業模式
隨著雲計算、大數據技術和相關商業環境的不斷成熟,越來越多的「軟體開發者」正在利用跨行業的大數據平台,打造創新價值的大數據應用,而且這一門檻正在不斷降低。因為首先,數據擁有者能夠以微乎其微的成本獲取額外的收入,提高利潤水平;其次,大數據設備廠商需要應用來吸引消費者購買設備,發展合作共贏的夥伴關系勢必比單純銷售設備要有利可圖,一些具有遠見的廠商已經開始通過提供資金、技術支持、入股等方式來扶持這些「軟體開發者」;第三,行業細分市場的數據分析應用需求在不斷加大,對於整個大數據產業鏈來說,創新型的行業數據應用開發者必將是未來整個大數據產業鏈中最為活躍的部分。
未來,有三種企業將在」大數據產業鏈「中處於重要地位:掌握海量有效數據的企業,有著強大數據分析能力的企業,以及創新的「軟體開發者」。社交網路、移動互聯網、信息化企業、電信運營商都是海量數據的製造者,Facebook公司手中掌握著8.5億用戶,淘寶注冊用戶超過3.7億,騰訊的微信用戶突破3億,這些龐大用戶群所提供的數據,正在等待時機釋放出巨大商業能量。可以預測,在不久的將來,Facebook、騰訊、電信運營商等海量數據持有者或者自我延伸成為數據分析提供商,或者與IBM、ZTE等企業密切對接成為上下游合作企業,大數據產業鏈將在某個爆發時點到來之際,以令人驚訝的速度成長壯大。
警惕大數據的危害
大數據時代,傳統的隨機抽樣被「所有數據的匯攏」所取代,人們的思維決斷模式,已可直接根據「是什麼」來下結論,由於這樣的結論剔除了個人情緒、心理動機、抽樣精確性等因素的干擾,因此將更精確、更有預見性。不過,由於大數據過於依靠數據的匯集,一旦數據本身有問題,就很可能出現「災難性大數據」,即因為數據本身的問題,而導致錯誤的預測和決策。
大數據的理論是「在稻草堆里找一根針」,而如果「所有稻草看上去都挺像那根針」呢?過多但無法辨析真偽和價值的信息和過少的信息一樣,對於需要作出瞬間判斷、一旦判斷出錯就很可能造成嚴重後果的情況而言,同樣是一種危害。「大數據」理論是建立在「海量數據都是事實」的基礎上,而如果數據提供者造假呢?這在大數據時代變得更有害,因為人們無法控制數據提供者和搜集者本人的偏見。擁有最完善資料庫、最先接受「大數據」理念的華爾街投行和歐美大評級機構,卻每每在重大問題上判斷出錯,這本身就揭示了「大數據」的局限性。
不僅如此,大數據時代造就了一個資料庫無所不在的世界,數據監管部門面臨前所未有的壓力和責任:如何避免數據泄露對國家利益、公眾利益、個人隱私造成傷害?如何避免信息不對等,對困難群體的利益構成傷害?在有效控制風險之前,也許還是讓「大數據」繼續待在籠子里更好一些。
大數據的經濟價值已經被人們認可,大數據的技術也已經逐漸成熟,一旦完成數據的整合和監管,大數據爆發的時代即將到來。我們現在要做的,就是選好自己的方向,為迎接大數據的到來,提前做好准備。