導航:首頁 > 網路數據 > 王亞松大數據

王亞松大數據

發布時間:2023-02-07 07:27:44

大數據時代帶來更理性、更可靠的決策

大數據時代帶來更理性、更可靠的決策_數據分析師考試

究竟是什麼魔力,讓「大數據」這一概念得到全球各國的普遍關注?到底什麼是「大數據」?它能夠在多大程度上改變我們的生活?在我們尋求對這些重要問題的解答時,牛津大學網路學院互聯網研究所教授維克托·邁爾-舍恩伯格出現在我們的視野中;希望我們對他的采訪,可以幫助讀者們找到這些疑問的答案。

最近一段時間,「大數據」的熱潮席捲全球,正如美國《福布斯》雜志所說的那樣,如今,在瀏覽新聞網站或者參加行業會議時,想看不見或聽不到「大數據」這個詞幾乎不可能。去年,美國6個聯邦政府部門宣布將啟動「大數據研發計劃」,投資超過2億美元以改進從海量和復雜的數據中獲取知識的能力。同時,我國科技部發布的「『十二五』國家科技計劃信息技術領域2013年度備選項目徵集指南」也把大數據研究列在首位。眼下召開的全國「兩會」上,有全國人大代表提出要把發展「大數據」上升為國家戰略。

究竟是什麼魔力,讓「大數據」這一概念得到全球各國的普遍關注?到底什麼是「大數據」?它能夠在多大程度上改變我們的生活?眼前對「大數據」的關注度是否已經過高了呢?在我們尋求對這些重要問題的解答時,英國牛津大學網路學院互連網研究所教授維克托·邁爾-舍恩伯格(Viktor Mayer-Schonberger)出現在我們的視野中,討論「大數據」,他如果不是最合適的人選,也起碼是合適人選之一。

20多年來,維克托一直致力於網路經濟、信息與創新、信息監管、網路規范與戰略管理的研究。還在「大數據」這一概念眾說紛紜時,維克托就已進行了系統深入的研究,2010年,他在英國《經濟學人》雜志上和數據編輯肯尼思·庫克耶一起,發表了長達14頁的大數據專題文章。稱他為最早洞見大數據時代發展趨勢的數據科學家之一,並不為過。

《經濟學人》說,在大數據領域,維克托是最受人尊敬的全方位發言人之一;美國《科學》雜志說,若要發起一場關於這個問題的深入討論,沒有比他更好的發起者了。

除了理論研究以外,維克托還非常接近實戰世界,早在上大學期間,他就先後成立了兩家數據安全和製作反病毒軟體的公司,而在他寫就的《大數據時代》一書中,那些最前沿、最嶄新的大數據應用案例,都得益於他多年來緊跟企業與商業應用的步伐。他的咨詢客戶中,不乏微軟、惠普、IBM、亞馬遜、臉書、推特、VISA等大數據先鋒們。

目前,維克托還是歐盟互聯網官方政策背後的重要制定者與參與者,尤為重要的是,他還任職過新加坡商務部、汶萊國防部、科威特商務部等部門,特別熟悉亞洲信息產業的發展與戰略布局。

希望我們通過電子郵件對維克托的采訪,可以幫助讀者們找到這些疑問的答案。

失去微觀層面上的精確度,為的是獲取宏觀層面上的洞察力

文匯報:今天,「大數據」已經成為全球炙手可熱的詞彙,您是從何時開始關注它的?

邁爾-舍恩伯格:多年來,我一直致力於研究數據在信息經濟的發展中所扮演的重要角色,我與肯尼思·庫克耶(Kenneth Cukier,我的合著者)一起發布了一系列相關研究報告。大約三年前,在我自己組織的一次會議上,我倆都意識到「大數據」的存在已經不僅僅是一種炒作或者什麼宏大的宣言了,而將實實在在地改變我們的工作、生活以及整個社會,於是,我們決定就此專題寫一本書。

文匯報:那麼在您看來,究竟什麼是大數據時代?它和傳統數據時代到底有什麼差別?我們知道,像沃爾瑪這樣的公司早在多年前,就已經將大數據運用到了商業實踐中。

邁爾-舍恩伯格:事實上,過去幾個世紀以來,數據已經在科學家們制定決策的過程中扮演了一定的角色,而過去幾十年間,這一做法又延伸到了一些公司的決策制定過程。但在大數據時代之前,數據是非常匱乏的,我們擁有的數據非常少。因此,我們的決策、我們構建的制度都是建立在這樣一種數據匱乏的基礎上。今天,一切變得非常不同,它體現在三個不同的方面,我們稱之為「更多」、「更亂」和「相關性」。

文匯報:這三個特徵也是您在《大數據時代》一書中非常強調的,它們甚至會顛覆我們過去的整個思維方式。您能否具體描述一下這到底是怎樣的過程?

邁爾-舍恩伯格:好的。我所說的「更多」,是指圍繞任何一個我們想要調查的特定問題,或者是需要我們回答的疑問,我們都可以比過去任何時候獲取更多的數據。在大數據時代,我們可以利用海量的數據得到非常詳盡的見解,這是傳統方法所不能做到的。

可以這么說,大數據時代和傳統數據時代的區別,就像解析度在200萬像素的舊數碼照片,一下子提高到2400萬像素那樣。後者是一個非常非常大的文件,它可以提供更多細節。它可以讓我們不斷放大,看清楚小到顆粒狀的細部,而具有較低解析度的圖像在這些細節方面就會非常模糊。

基因信息就是一個很好的例子。美國有一家叫23andMe的新公司提供個人的DNA測試分析,以發現一些疾病徵兆。它的成本只有兩三百美元,並提醒客戶關注會發展成嚴重疾病的個人癖好。但是公司並不對每個客戶的全基因組進行測序,而是針對已知特徵的位點(經研究得知因某種疾病存在,而可能會出問題的DNA片段)進行比對。這意味著,當一個新的特徵被研究發現時,23andMe公司就不得不再次對客戶的DNA進行測序並建立更完整的檔案。

蘋果公司的史蒂夫·喬布斯嘗試了非常不同的方法。他得了癌症後,就有了自己全部的基因密碼,數十億的鹼基對測序。這花費了他超過10萬美元的成本,但這可以讓醫生完整地洞察他的基因密碼。每當葯物由於喬布斯的癌症病變而失去有效性,他們就可以根據喬布斯特定的基因信息,尋找到有效的替代葯物。遺憾的是,這也沒有保住喬布斯的命,但是在這一過程中獲得的數據,已經延長了他的生命。

由於技術創新,現在收集大量信息的成本變得越來越低。數年前,史蒂夫·喬布斯花費了六位數的金額才做到的事情,今天,不到1000美元就可以獲得同樣的服務了。

而「更亂」指的是,在小數據時代,因為數據是如此稀少,我們可以確保自己收集的每一個數據點都是非常准確的。相比較而言,大數據往往是凌亂和質量參差不齊的。但是,相比以高額代價來保證測量和收集少量數據的精確性,在大數據時代,我們將接受這種雜亂,因為我們通常需要的只是一個大方向,而不是努力了解一種現象的細枝末節。我們並不是要完全放棄精確性,我們只是放棄對精確性的熱衷。我們失去微觀層面上的精確度,為的是獲取在宏觀層面上的洞察力。

電腦翻譯就是其中一個例子。1990年代,IBM的研究人員使用了一套非常精確的文件(加拿大議會記錄的法語和英語版)來訓練計算機。盡管計算機完全按照規則行事,但基於此的翻譯質量卻非常低。然後,谷歌在2006年開始介入這一領域,他們沒有使用來自加拿大政府的幾百萬句標准翻譯,而是使用隨手可得的任何語言。他們在整個互聯網上,利用數十億頁質量參差不齊的翻譯,這些翻譯不怎麼標准——但是,這是一個小的權衡——他們能夠使用的數據大大增加了,結果翻譯質量反而提高了。與更少、更標準的數據相比,更多凌亂的資料完勝了。

「更多」和「更亂」組合到一起,產生了第三個特點,「相關性」,這也是大數據帶給我們的最根本性的轉變。我們的思維將從因果關系轉向相關關系。至今為止的整個人類歷史里,全世界的人們都在尋找事件發生的原因,探尋「為什麼」。但我們對原因的執著探索往往帶領我們走向錯誤的方向。所以,我們建議,在大數據時代,在許多情況下,我們可以僅僅尋找「是什麼」,而不必完全理解「為什麼」。例如,對於大數據的分析中,我們可以發現機器震動中一些非常微小的變化,這些變化表明機器將很快損壞。這使我們能夠在部分機器零件報廢前更換它們,這被稱為「預測性維護」,它可以節省不少錢。但除了提高消費效率,「相關性」還可以做更多的事情。

比如對早產兒而言,即使他們長大成人,這些小寶寶仍舊是非常脆弱的,哪怕是遇上很小的感染。醫生卡羅琳·麥格雷戈研究如何給這些嬰兒最好的生存機會。使用大數據分析,每分鍾可以搜集這些嬰兒超過一千個數據點,麥格雷戈發現一個令人震驚的事實:每當這些早產兒出現非常穩定的標志時,他們的身體其實並不穩定,正在准備發病。有了這方面的知識,她就能在一個非常早期的階段,確定嬰兒是否需要葯物治療,從而挽救更多孩子的生命。

這是典型的大數據應用:醫生麥格雷戈通過更全面的感測器,可以比以往搜集到更多的數據。她也接受,在這種情況下,並不是所有的數據都是准確的,從而也會導致她分析中存在不精確的可能。她把「為什麼」這個問題放在一邊,而用一種更務實的方式來提供幫助,她尋找「是什麼」,這才是一個更好的預見感染的辦法。

我們應該記住:大數據也可以挽救生命。

正確使用大數據,可以改善醫療、教育水平,促進人類發展

文匯報:大數據時代的到來,是否將會引領新一輪的產業革命?我們應該怎樣客觀地看待它的價值?

邁爾-舍恩伯格:大數據將會極大地改變社會生活的方方面面,但是它的價值能否等同於工業革命,這個問題目前還不好說。我個人猜想可能不能,原因是在19世紀初工業革命剛剛開始的時候,經濟發展還處於非常低的水平上,所以相對來說,當時的人們從工業化過程中所能獲得的生活水平的提升是非常巨大的,今天則非常不一樣了。

我們真正想強調的是,大數據時代將推動我們從根本上改變企業的運作方式,以及我們在社會中的生活方式。大數據可以提高人類制定決策的能力,這種提高將是大幅度的。有了大數據,我們不是簡單地提高經濟效率,而是將挽救人類生命,延長我們自己的壽命。我們還將改善教育,促進發展。同樣的道理,我們必須要小心。大數據同樣也有「陰暗面」,正如我們在書中討論的那樣。如果應用錯誤,大數據也可能會化為一個強有力的武器。因此,我們必須確保正確使用大數據。

文匯報:您提到了大數據時代的「陰暗面」,它的到來會加深數字化鴻溝嗎?

邁爾-舍恩伯格:大數據是一個強大的工具。因此,如果我們使用了錯誤的方式,它就可能會加深數字鴻溝。但是,如果我們用得好,相信大數據就可能會改善我們的生活,尤其是對那些不那麼幸運的人而言。在這一點上,你可以把它想像成火、電或是抗生素等等。

文匯報:也就是說,您對大數據的價值認知,是基於一個更長時段的歷史發展。

邁爾-舍恩伯格:如果以非常廣闊的視角來看人類歷史,我認為,人類一直想要理解世界。起初,許多人的「知識」是基於迷信和預感。知識的發展非常慢,人們需要非常深層次的思考,再通過實踐進行檢驗,以確保知識是可用的。

但即使如此,我們的知識仍舊不是百分之百可靠的。例如,19世紀,路易·巴斯德一直在研究狂犬病疫苗,當時有一個被狗嚴重咬傷而染上狂犬病的小孩,父母擔心孩子會死去,懇求巴斯德試試他的試驗性疫苗。巴斯德照做了,孩子活了下來。隨後的慶祝活動上,巴斯德以一個英雄的身份出現,他挽救了年輕孩子的性命。但是事實的確如此嗎?今天,通過更深入的研究,我們知道,在被類似病狗咬到的兒童中,只有25%會感染狂犬病。所以75%的兒童哪怕使用了無效的疫苗,仍舊可以存活下來。這個故事告訴我們,我們以為自己生活在非常科學的世界中,但其實,我們擁有的數據非常少。一種新的治療方法在被證明安全之前,需要做幾十個甚至幾百個醫學實驗來進行測試。但這仍舊太少,人們還是會受到傷害,因為我們依靠的數據太少。在大數據時代,我們可以告別數據匱乏,做出的決策將更理性,更基於事實,當然也更可靠。這是大數據時代帶給我們的希望——更好的決策將會代替我們過往那些可疑的迷信和不可靠的人類預感。

文匯報:我們看到,麥肯錫公司2011年就發布報告推測,如果把大數據用於美國的醫療保健,一年可產生潛在價值3000億美元,用於歐洲的公共管理可獲得年度潛在價值2500億歐元;服務提供商利用個人位置數據可獲得潛在的消費者年度盈餘6000億美元;利用大數據分析,零售商可增加運營利潤60%,製造業設備裝配成本會減少50%。「數據創造價值」的預測已經非常振奮人心。在您看來,大數據是否只是一門價值不菲的生意?

邁爾-舍恩伯格:不,大數據可以做更多。醫療方面,我們前面已經提過,只是分析一些重要的徵兆,早產嬰兒的感染出現明顯症狀的數小時前,醫生就可以預見其生病。

同樣,通過大數據分析,我們也可以找出學校教科書中的哪一部分對學生而言效果最好,也可以找出效果不好的部分。到現在為止,我們只能按照人類的預感,即教師自己判斷學生在理解特定課程時是否會有疑問;但在大數據時代,我們有實際的數據可以參考,例如數據顯示,電子書籍的某些頁面被看過許多遍,因為它讓學生感覺費解,據此可以調整我們的教材。這將從根本上改變教育。

或者舉公共政策為例:Inrix是為智能手機提供導航軟體的公司,它還提供實時的交通數據。之所以能做到這一點,是因為每個用戶本身都成為了交通流量狀況的感測器,把位置和速度信息都發回Inrix公司。這樣一來,就可以給行進在交通堵塞路段周圍的客戶提供良好服務。Inrix公司有一大堆人們的活動數據,這還將有助於城市規劃者了解大家的通勤模式,人們從哪裡出發去工作,然後返回,並建設基礎設施,如道路和鐵路。這是最有效的應用。節省錢的同時,也有利於整個社會的管理。

文匯報:大數據對於商業決策、學術研究乃至國家治理的作用是顯而易見的;但是對日常生活中的普通人而言,他們一定會從中受益嗎?為什麼在大數據時代,還是有不少人主張遠離過載的信息和數據、返璞歸真回到傳統的社群生活之中呢?個人生活空間一定得從「簡單平面」轉變到「多維存在」才有意義嗎?

邁爾-舍恩伯格:千百年來,人類已經經歷的世界,都是在少量數據的基礎上產生很多想法的世界。海員們結束長途航行後回來,地圖才會在這一次經驗的基礎上進行重新繪制。這顯然不會很精確。經過試驗和犯錯的周而復始,人類發展得非常緩慢。但是,當我們只有非常少的數據時,這是理所當然的結果。今天,我們有這么多的數據,難怪人類會不堪重負。但是,現在大數據可以提供幫助。如果人類不太善於消化這些過多的信息,大數據分析可以幫助我們將信息進行過濾,並進一步可視化,使我們能夠輕松地加以使用。

人們尚未普遍具備與大數據時代相匹配的思維和技能

文匯報:有專家認為,大數據的未來是數據的APP(加速並行處理)而非基礎構架;也就是說,僅僅有數據平台和基礎構架是無法創造長期價值的。對此您怎麼看?

邁爾-舍恩伯格:我們認為,大數據時代將至少需要和過去時代一樣多的人的獨創性。同時,巨大的資源才是未來時代的金礦,那些擁有這些數據資源的人將獲得的回報是不可想像的。

文匯報:大數據時代,數據都是透明的,我們如何在保護個人隱私、商業機密和國家安全之間取得平衡?您所謂的「互聯網遺忘運動」會是最佳葯方嗎?

邁爾-舍恩伯格:大數據時代所面臨的挑戰是,我們發現了隱藏在數據背後的價值,所以,保留這些數據,然後一遍遍地重復使用數據,往往成為一種明智的選擇。同時,現行的保護個人隱私的法律,特別在西方,針對的是一個傳統數據的世界,而不是一個大數據世界。這就需要我們在保護隱私的規則方面作出調整。我們建議,可以通過調整相關保護規則來實現這一目標,正像你所提到的,我們可以在一定時間以後,選擇遺忘這些數據。

文匯報:大數據時代是一個海量數據有待處理的時代,同時又是一個海量無用信息需要刪除的時代。這是否就是您在《刪除》一書中強調我們要有所取捨的原因所在?

邁爾-舍恩伯格:是。在某種程度上,大數據本身也可以加強隱私的保護。因為如果有一百萬個數據點,一個單獨的數據點就不再那麼重要了,這和傳統數據時代非常不一樣。隨著時間的推移,忘記其中一些數據,並不會破壞整個大數據的運行和使用。

文匯報:大數據現在在全球究竟發展到了什麼階段?處理大數據的技術是否已經在全世界范圍內普及?

邁爾-舍恩伯格:管理和處理大數據的技術都已經存在了,而且並不是非常昂貴。但是,有一樣東西目前仍舊非常缺乏,那就是我們的思維——以理解數據背後所隱藏的巨大價值,以及提取這種價值的專門技能。今天,全球范圍內,人們還沒有普遍具備這種思維和技能,但是我相信,在未來,這種情況會發生改變。我們預計,世界各地的許多大學將提供針對大數據分析的課程,來培訓大數據時代所需要的技能。

文匯報:歷次產業技術革命,中國似乎都是學習者和模仿者;和上幾輪產業技術革命不同的是,大數據時代,中國幾乎和歐美發達國家同時開始技術研發,中國人口又居世界首位,將會成為產生數據量最多的國家。您看好中國在新時代的發展前景嗎?中國在大數據時代是否有創新和領先的可能?

邁爾-舍恩伯格:是的,我們對此非常樂觀。中國很可能成為大數據這一領域的先驅。在大數據時代,中國有很多優勢:中國人都受過良好的教育,特別是在數學和統計方面(這是非常重要的)。中國是一個巨大的多元化社會,這會創造大量機會來創造大數據這一資源,並建立大數據應用。同樣的道理,對於大數據的蓬勃發展,我們還需要相匹配的思維方式,有嘗試新事物和持續創新的願望,以實證事實來作為我們決策的依據。因此,和許多其他社會一樣,大數據時代的確也會給中國帶來非常大的變化。

以上是小編為大家分享的關於大數據時代帶來更理性、更可靠的決策的相關內容,更多信息可以關注環球青藤分享更多干貨

② 大數據營銷會給企業和用戶帶來什麼價值

隨著大數據應用的普及,企業越來越重視從大數據中挖掘潛在的商業價值,大數據在企業管理中的應用主要在於提高企業整體分析研究能力、市場快速反應能力,建立以知識管理為核心的「競爭情報數據倉庫」,提高核心競爭力 。

在大數據時代,企業將是完全以數據分析驅動的企業,利用大數據分析,能夠轉化成洞察的能力,充分釋放企業潛能,實現轉型與進化,本文重在分析大數據在企業當中所起到的作用。

瑤貝網路是基於移動互聯門戶基於用戶細分的大數據整合服務平台,用數據說話,我們更在行。公司面向社會化用戶開展精細化服務,打造線上精品商城,給老百姓提供更多便利、產生更大價值。

③ 大數據時代校本教研轉型策略及路徑

大數據時代校本教研轉型策略及路徑

基於雲、物聯網、資料庫技術以及人工智慧和虛擬現實在教育中的廣泛滲透,大數據時代正催生著一場場新的教育變革。現有的教研機制如何適應大數據主導的未來?基於大數據的運用如何創新校本教研思路和策略?如何依託大數據平台探尋到最佳的校本教研轉型路徑?這正是本文試圖回答的問題。
一、大數據缺乏的傳統教研局限性
我們生活在一個被幾何級爆炸的數據包圍的時代,我們的一切行為都在產生海量的數據,這些數據被稱作「大數據」。[1]2大數據之「大」,並不僅在於「容量之大」,更大的意義在於可以藉助雲技術等手段,通過海量數據的篩選、整合和分析,解決新的問題,創造新的價值。大數據時代,傳統校本教研形態已經滯後於時代的發展。
第一,以行政命令型為主的教研管理已不能適應教研發展的新趨勢。傳統的校本教研活動因其行政主導過多、任務驅動過強、互動生成較少、過程數據欠缺等,其教研形態存在著單一性、封閉性、滯後性與靜態化的特點。教研活動更多執行的是「規定性動作」,大多數學校都是循著「期初學校安排教研計劃—教研組按計劃布置落實—分階段組織教學展示或研討—期末各部門進行教研總結」這樣的模式進行。[2]在這樣「齊步走」的統一步調中,教研的目光很難細致地聚焦到課堂真實疑難問題的研究上,研討活動更少觸及普遍學科規律探尋的應有深度。校本教研缺乏實實在在的研究歷程,案例追蹤缺少過程性資料的佐證。沒有過程,缺乏實踐數據的支撐,教研的有效性大打折扣,教研視野也很難有效拓寬。這種形態的教研活動,聚合性、開放性、創新性與動態性都明顯不足,形式化、低效化特徵突出。
第二,以經驗幫帶型為主的教研方式已不能適應教研發展的新態勢。現如今,絕大部分學校對於大數據的認識和研究尚處於起步階段,對於大數據在教育領域的探索和實踐才剛剛開始。對於如何真正地將大數據應用於教研,反饋於教育,普遍缺乏深度的認識和操作的策略。究其原因,一方面是因為傳統教研「自下而上的主題確認意識」缺乏,加上空間、時間以及技術設備的約束,教研內容無法直接喚起教師教研的內在需求,無法直接對其課堂產生輻射與效益,因此難以吸引教師深度參與。另一方面,面對新時期急劇變化的教研態勢,更多的學校沒有主動與時代對接,無法前瞻性地為教師提供思維自由碰撞的教研平台(比如活動前後討論平台的提供),無法適時、足量地為其提供教育科研所需要的數據支持與技術便利,教師教研的多元合作與深度拓展缺乏足夠的凝聚與吸引。這樣的教研必然無法在大數據時代展現應有的價值與活力。
二、大數據時代校本教研的轉型策略
面對海量信息呼嘯而來的大數據時代,面對以「移動互聯和平板觸控技術」為核心的雲計算、雲存儲、雲教育、雲課堂、雲教研疊加出現的全新教育態勢,中小學校該如何應對這種前所未有的教育變革?有哪些好的教研策略與應用範式呢?
(一)核心視角轉型:由關注「教」轉向聚焦「學」
「師本」還是「生本」一度成為教研熱議的話題。以「誰」為本體現的是一種教學觀念的更新,更展現的是一種教學行動的選擇。傳統的教學教研當中,學生主體的評價往往是最單薄的——聽課者大多隻能根據經驗來假想學生的體驗,這種隔靴搔癢式的評價弊端,源於一個重要因素的缺席——沒有足夠的數據源可提供學情分析與實證考據。
大數據時代的到來,恰恰能夠對這種缺失作出有效轉化。藉助視頻傳輸、數據收集、點對點終端、雲存儲伺服器和個性化的數據分析軟體等,能夠從技術層面解決數據源缺乏的問題,對數據的全面處理和分析,可以讓學生個體化的感受得以精準的量化與顯現。學生在教學活動進程中的現實需求與即時心態,也可以經過技術的轉化和動態整合分析變得可讀、可視、可量化。這就為教研視角由關注「教」轉向關注「學」提供了強大的技術支持與解讀保障,為學情的研究與預判提供了更為鮮活的素材。我們甚至還可以利用流媒體視頻和數據分析等手段,幫助教師跟蹤學生的即時學習情況,從而根據他們的能力等級水平制訂相應的教學計劃並調整策略方案,更好地開展有針對性的個性化學習研究。
藉助大數據的運用,課堂有了一個全新的觀察視角,教學研討有了一個全新的視點,站在學生學情分析與預判的角度去改變教師的教學行為已經成為可能。當技術能夠幫助我們了解每個學生的需求之後,綿延了兩千多年的「因材施教」思想,是否離我們更近一些?
(二)常態方法轉型:由經驗重復轉向數據實證
傳統的校本教研往往是經驗式的。我們總是主觀地揣定某些教育因素對學生很重要,哪些變數對課堂有影響,然後,再依據自己的判定,通過一次次反復的實踐來驗證這些主觀經驗的可靠性。這種以經驗為主導的傳統教研往往存在著主觀化、臆測式、靈感型的缺陷,常常容易出現「問題不夠『草根』、目標比較寬泛、實證相對缺乏」等狀況。研究後與研究前相比,對問題的認識高度與解決程度並沒有質的提升。究其原因,是研究之前沒有深入的問題質疑和數據調查,研究中缺乏足夠的數據比對和邏輯分析,研究後少了細致的演繹分析及實踐認證。
大數據時代的來臨,為有效解決經驗重復型教研的痼疾找到了憑借和方向。依據實驗數據的收集、整理和分析所得,能有效確立教研主題,讓研究直指現實問題的解決;依託「雲教研、雲管理」平台,過去無法收集與分析的數據都被新的技術手段賦予了獲取的可能,為有效展開問題的探究與課題的論證提供了技術保障。這種依託數據實證的教研更加具有科學性、邏輯性和說服力。正如魏忠博士在《教育正悄悄發生一場革命》一書中所說:「教育將繼經濟學之後,不再是一個靠理念和經驗傳承的社會科學和道德良心的學科,大數據時代的教育,將變成一門實實在在的實證科學。」[1]3明確的目標監控、海量的數據支撐、清晰的過程性案例資料,強大的數據分析與論證,配以與之緊密融合的教與研創新平台,讓教研更加充滿創新與活力。
(三)實踐模式轉型:從零散問題研究轉向系列項目研究
「指令式」、任務驅動式教研在我國中小學普遍存在,其被動接受式的研究心態、直指結論的研究方式、以分散點狀活動替代系列研究實踐的研討模式,讓校本教研難以貼地而行,最終導致教研成果的可信度、可推廣度不高。新時期的教研必須從形式化、表層化、零散狀的教研形態中轉變出來,向主題化、系列化、課題化、項目化教研轉型,這也是由大數據時代的教育和研究特點所決定的。
大數據時代,由於教學平台、教研平台、管理平台已經有效對接,各個層面、各個系列的數據已經可以共享到大教育的「雲平台」,大數據技術將較嫻熟地運用於課堂和教研的方方面面。無論是自上而下的數據調用,還是自下而上的數據收集,都已經或者能夠成為中小學教育教研的常態。技術手段的創新與變革,為教育大數據的儲存、整合、分析創造了條件。「蘇醒的數據能夠說話」,尤其是當研究者開始自覺地、有意識地將數據採集、轉化和運用,當作一種大數據時代系列性、周期性、可比對性的常態研究去做,這種經過甄別、篩選的數據,將成為主題教研、項目研究的最強有力的實證,也必將給那些原本因為技術或條件限制無法便利地獲取研究數據而苦惱的教師們帶來教研思路的突變,並將最終實現校本教研的實踐模式由零散問題研究向系列項目研究轉型。
三、大數據時代校本教研的轉型路徑
(一)「雲課堂」研究:技術與數據更好地服務於「學」
新技術就在身邊,你用與不用,它都在那裡。蘇州工業園區星海小學讓「ipad進課堂」,以數字技術帶動教學教研,為我們提供了研究大數據運用的全新視角。2014年,該校開啟了以移動網路為平台、ipad為終端的實驗教學,通過新技術的應用,構建了以生為本的「雲課堂」,在很大程度上改變了傳統「教」與「學」的方式。雲課堂技術支撐的核心是「雲計算」。它是一種計算方式,通過大量網路連接的統一管理和調度,將大量信息和資源按需向用戶提供服務。這種全息服務的網路就叫作「雲」。「雲」就像一個專業的「信息提款機」,其強大的信息技術和極為豐富的立體數據資源,為學生的學、教師的教、團隊的研搭建了多維互動的「雲平台」。[3]
該校基於大數據時代教研方式轉變的研判,並在充分調查、論證和研發的基礎上,為師生數字化的學與研搭建了一整套自主的雲存儲伺服器,每個ipad上都安裝了用於雲存儲和分享的「網盤精靈」,學生和教師都能在其中建立一個單獨的存儲空間,每位教師製作的課件、收集的實驗數據等,都能在第一時間上傳到伺服器,全校師生都能在第一時間下載所需資源。各科老師還能藉助無線平台和應用軟體,協同開展數據上傳下載、數據存儲與分析的嘗試與研究,許多或大或小的教研探究活動都在強大的數據平台支持下進行,網路教研讓更多的教師提升了教研的動力。比如,英語學科將ipad接入課堂後,學生可以在家裡錄制自己朗讀和吟唱的視頻,上傳到「網盤精靈」,為教師即時了解學生學習狀態和學習成效,提供了第一手的研究和分析資料。鮮活的數據讓教學的跟蹤與預判成為常態。[4]
再比如,亞洲教育網自主研發的「三網智慧泛教育雲平台」,就是一種「三網融合、泛在學習」的公共智慧雲,它利用雲計算、物聯網和虛擬化等新技術來升級校園網、城域網,其創建的「教育雲+互動電視+電子書包」新模式開啟了教育信息化新紀元,為全方位、大范圍地實現多校、多地教育資源共享、教育成果分享、教學研的互動打下了基礎。[5]10-11
(二)「實證研究」:加強數據論證,探尋「普適」規律
近些年,依託於數據實證的教研探索已然展開,微格教研、片段教研、主題教研等應運而生。這些教研模式大多採用的是「實證研究」的方式。它們都是通過對研究對象大量的觀察、實驗和調查,獲取客觀數據,從個別到一般,歸納出事物的本質屬性和發展規律的一類研究方法。這些教研模式以問題研究為基礎,以教學案例為載體,以數據分析為根據,對教學教研工作進行了微格化、片段化、前置化和主題實踐性論證,依託數據探尋規律,教研成果更加清晰、顯性、有效。
近幾年,上海靜安區開始在7所幼兒園和9所小學試點實施「社會性與情緒能力養成」實踐項目研究。經過近百名教師長達四年多的摸索和改進,如今,靜安區小學階段的「社會性與情緒能力養成」課程正逐步走向成熟,其研究方法之一就是「實證研究」。他們以「社會性情緒」項目為主題,探索出依靠「數據終端」去記錄每一個學生、每一堂課、每一個環節表現的數據收集方法。例如,在一節擁有六個環節的課堂上,大部分時間內學生的節奏都是緊密跟隨教師,但是在某個環節,大多數學生停留的時間遠遠超過了教師。這就提醒我們,這個環節需要著重研究,需要調整,也許這個部分的內容非常吸引學生,也有可能這部分內容難度較高,他們需要更多的時間來閱讀與消化。這種藉助大數據進行教研探索的方法也適合於我們在課堂中更有效地去捕捉學生點滴行為的微觀研究。可以這樣說,大數據時代的到來,讓跟蹤每一個數據成為可能,從而讓研究「人性」成為可能。而對於教育研究者來說,我們將比任何時候都更接近發現真正的學生。
(三)「項目研究」:用證據支撐評價,用項目推進教研
2014年,蘇州市教育局設立了「義務教育質量綜合評價改革」等五大教改項目,從全市范圍遴選了50所特色鮮明的學校組建項目學校共同體,推進項目研究的實施。在研究過程中,各項目學校有效地藉助雲計算、物聯網和虛擬化等新技術來升級校園網,努力將雲技術與物聯網進行高度融合,對全方位、個性化的過程數據和研究資源的上傳、存儲、整合與分析進行了必要的硬體配置和軟體開發,然後在嚴格的過程管理中依託平台、依託案例、依託數據開展系列主題研究和項目實踐論證。目前,項目研究進展順利,也取得了可喜的成果。以蘇州工業園區星海小學為例,學校以「十佳」取代「三好」,推出了「十佳星海娃」多元評價體系,率先開啟了蘇州市「義務教育質量綜合評價改革」的實踐與研究。項目研究中,全面的資源和個性化的數據收集與分析是項目推進的基礎,研究的進程中共享研究資源、分享教育成果,使研究者與被研究者實現有效互動是研究成功的關鍵。為有效地整合資源,顯化數據,蘇州工業園區星海小學推出了「星海娃」自主申報、「四葉草」積點獎章、金點子徵集、小公民系列招募等個性化實踐案例,拓寬了評價體系,豐富了評價數據。與「星海娃」評價體系相配套,蘇州工業園區星海小學還創新出「四葉草」小公民實踐中心等多元評價支撐系統,並著手開發「星海師生成長檔案在線跟蹤平台」,該平台全面支持綠色評價體系,以開放共享的「雲」資源平台的無縫對接,消除學校、家庭及社會間的信息孤島,以電腦、手機、電視、平板等多終端實現了教師、學生、家長的輕松上傳與訪問,從而有力地促進了綠色評價研究資源的優化配置。[5]281-282蘇州工業園區星海小學項目建設試點的初步探索說明,數據實證讓教研更加准確,更為科學,「用證據支撐評價,用項目推進教研」成了校本教研的一條可行之路。

④ 如何建立一個完整可用的安全大數據平台


要建立一個大數據系統,我們需要從數據流的源頭跟蹤到最後有價值的輸出,並在現有的Hadoop和大數據生態圈內根據實際需求挑選並整合各部分合適的組件來構建一個能夠支撐多種查詢和分析功能的系統平台。這其中既包括了對數據存儲的選擇,也涵蓋了數據線上和線下處理分離等方面的思考和權衡。此外,沒有任何一個引入大數據解決方案的商業應用在生產環境上承擔的起安全隱患。

1
計算框架篇
大數據的價值

只有在能指導人們做出有價值的決定時,數據才能體現其自身的價值。因此,大數據技術要服務於實際的用途,才是有意義的。一般來說,大數據可以從以下三個方面指導人們做出有價值的決定:

報表生成(比如根據用戶歷史點擊行為的跟蹤和綜合分析、 應用程序活躍程度和用戶粘性計算等);

診斷分析(例如分析為何用戶粘性下降、根據日誌分析系統為何性能下降、垃圾郵件以及病毒的特徵檢測等);

決策(例如個性化新聞閱讀或歌曲推薦、預測增加哪些功能能增加用戶粘性、幫助廣告主進行廣告精準投放、設定垃圾郵件和病毒攔截策略等)。

圖 1

進一步來看,大數據技術從以下三個方面解決了傳統技術難以達成的目標(如圖1):

在歷史數據上的低延遲(互動式)查詢,目標是加快決策過程和時間, 例如分析一個站點為何變緩慢並嘗試修復它;

在實時數據上的低延遲查詢,目的是幫助用戶和應用程序在實時數據上做出決策, 例如實時檢測並阻攔病毒蠕蟲(一個病毒蠕蟲可以在1.3秒內攻擊1百萬台主機);

更加精細高級的數據處理演算法,這可以幫助用戶做出「更好」的決策, 例如圖數據處理、異常點檢測、趨勢分析及其他機器學習演算法。

蛋糕模式

從將數據轉換成價值的角度來說,在Hadoop生態圈十年蓬勃成長的過程中,YARN和Spark這二者可以算得上是里程碑事件。Yarn的出現使得集群資源管理和數據處理流水線分離,大大革新並推動了大數據應用層面各種框架的發展(SQL on Hadoop框架, 流數據,圖數據,機器學習)。

它使得用戶不再受到MapRece開發模式的約束,而是可以創建種類更為豐富的分布式應用程序,並讓各類應用程序運行在統一的架構上,消除了為其他框架維護獨有資源的開銷。就好比一個多層蛋糕,下面兩層是HDFS和Yarn, 而MapRece就只是蛋糕上層的一根蠟燭而已,在蛋糕上還能插各式各樣的蠟燭。

在這一架構體系中,總體數據處理分析作業分三塊(圖2),在HBase上做互動式查詢(Apache Phoenix, Cloudera Impala等), 在歷史數據集上編寫MapRece程序抑或利用Hive等做批處理業務, 另外對於實時流數據分析Apache Storm則會是一種標准選擇方案。

雖然Yarn的出現極大地豐富了Hadoop生態圈的應用場景,但仍存有兩個顯而易見的挑戰:一是在一個平台上需要維護三個開發堆棧;二是在不同框架內很難共享數據,比如很難在一個框架內對流數據做互動式查詢。這也意味著我們需要一個更為統一和支持更好抽象的計算框架的出現。

圖 2

一統江湖

Spark的出現使得批處理任務,互動式查詢,實時流數據處理被整合到一個統一的框架內(圖3),同時Spark和現有的開源生態系統也能夠很好地兼容(Hadoop, HDFS, Yarn, Hive, Flume)。 通過啟用內存分布數據集,優化迭代工作負載, 用戶能夠更簡單地操作數據,並在此基礎上開發更為精細的演算法,如機器學習和圖演算法等。

有三個最主要的原因促使Spark目前成為了時下最火的大數據開源社區(擁有超過來自200多個公司的800多個contributors):

Spark可以擴展部署到超過8000節點並處理PB級別的數據,同時也提供了很多不錯的工具供應用開發者進行管理和部署;

Spark提供了一個互動式shell供開發者可以用Scala或者Python即時性試驗不同的功能;

Spark提供了很多內置函數使得開發者能夠比較容易地寫出低耦合的並且能夠並發執行的代碼,這樣開發人員就更能集中精力地為用戶提供更多的業務功能而不是花費時間在優化並行化代碼之上。

當然Spark也和當年的MapRece一樣不是萬靈葯,比如對實時性要求很高的流數據處理上Apache Storm還是被作為主流選擇, 因為Spark Streaming實際上是microbatch(將一個流數據按時間片切成batch,每個batch提交一個job)而不是事件觸發實時系統,所以雖然支持者們認為microbatch在系統延時性上貢獻並不多,但在生產環境中和Apache Storm相比還不是特別能滿足對低延時要求很高的應用場景。

比如在實踐過程中, 如果統計每條消息的平均處理時間,很容易達到毫秒級別,但一旦統計類似service assurance(確保某條消息在毫秒基本能被處理完成)的指標, 系統的瓶頸有時還是不能避免。

但同時我們不能不注意到,在許多用例當中,與流數據的交互以及和靜態數據集的結合是很有必要的, 例如我們需要在靜態數據集上進行分類器的模型計算,並在已有分類器模型的基礎上,對實時進入系統的流數據進行交互計算來判定類別。

由於Spark的系統設計對各類工作(批處理、流處理以及互動式工作)進行了一個共有抽象,並且生態圈內延伸出了許多豐富的庫(MLlib機器學習庫、SQL語言API、GraphX), 使得用戶可以在每一批流數據上進行靈活的Spark相關操作,在開發上提供了許多便利。

Spark的成熟使得Hadoop生態圈在短短一年之間發生了翻天覆地的變化, Cloudera和Hortonworks紛紛加入了Spark陣營,而Hadoop項目群中除了Yarn之外已經沒有項目是必須的了(雖然Mesos已在一些場合替代了Yarn), 因為就連HDFS,Spark都可以不依賴。但很多時候我們仍然需要像Impala這樣的依賴分布式文件系統的MPP解決方案並利用Hive管理文件到表的映射,因此Hadoop傳統生態圈依然有很強的生命力。

另外在這里簡要對比一下互動式分析任務中各類SQL on Hadoop框架,因為這也是我們在實際項目實施中經常遇到的問題。我們主要將注意力集中在Spark SQL, Impala和Hive on Tez上, 其中Spark SQL是三者之中歷史最短的,論文發表在15年的SIGMOD會議上, 原文對比了數據倉庫上不同類型的查詢在Shark(Spark最早對SQL介面提供的支持)、Spark SQL和Impala上的性能比較。

也就是說, 雖然Spark SQL在Shark的基礎上利用Catalyst optimizer在代碼生成上做了很多優化,但總體性能還是比不上Impala, 尤其是當做join操作的時候, Impala可以利用「predicate pushdown」更早對表進行選擇操作從而提高性能。

不過Spark SQL的Catalyst optimizer一直在持續優化中,相信未來會有更多更好的進展。Cloudera的Benchmark評測中Impala一直比其他SQL on Hadoop框架性能更加優越,但同時Hortonworks評測則指出雖然單個數據倉庫查詢Impala可以在很短的時間內完成,但是一旦並發多個查詢Hive on Tez的優勢就展示出來。另外Hive on Tez在SQL表達能力也要比Impala更強(主要是因為Impala的嵌套存儲模型導致的), 因此根據不同的場景選取不同的解決方案是很有必要的。

圖 3

各領風騷抑或代有才人出?

近一年比較吸引人眼球的Apache Flink(與Spark一樣已有5年歷史,前身已經是柏林理工大學一個研究性項目,被其擁躉推崇為繼MapRece, Yarn,Spark之後第四代大數據分析處理框架)。 與Spark相反,Flink是一個真正的實時流數據處理系統,它將批處理看作是流數據的特例,同Spark一樣它也在嘗試建立一個統一的平台運行批量,流數據,互動式作業以及機器學習,圖演算法等應用。

Flink有一些設計思路是明顯區別於Spark的,一個典型的例子是內存管理,Flink從一開始就堅持自己精確的控制內存使用並且直接操作二進制數據,而Spark一直到1.5版本都還是試用java的內存管理來做數據緩存,這也導致了Spark很容易遭受OOM以及JVM GC帶來的性能損失。

但是從另外一個角度來說, Spark中的RDD在運行時被存成java objects的設計模式也大大降低了用戶編程設計門檻, 同時隨著Tungsten項目的引入,Spark現在也逐漸轉向自身的內存管理, 具體表現為Spark生態圈內從傳統的圍繞RDD(分布式java對象集合)為核心的開發逐漸轉向以DataFrame(分布式行對象集合)為核心。

總的來說,這兩個生態圈目前都在互相學習,Flink的設計基因更為超前一些,但Spark社區活躍度大很多,發展到目前毫無疑問是更為成熟的選擇,比如對數據源的支持(HBase, Cassandra, Parquet, JSON, ORC)更為豐富以及更為統一簡潔的計算表示。另一方面,Apache Flink作為一個由歐洲大陸發起的項目,目前已經擁有來自北美、歐洲以及亞洲的許多貢獻者,這是否能夠一改歐洲在開源世界中一貫的被動角色,我們將在未來拭目以待。

2
NoSQL資料庫篇
NoSQL資料庫在主流選擇上依舊集中在MongoDB, HBase和Cassandra這三者之間。在所有的NoSQL選擇中,用C 編寫的MongoDB幾乎應該是開發者最快也最易部署的選擇。MongoDB是一個面向文檔的資料庫,每個文檔/記錄/數據(包括爬取的網頁數據及其他大型對象如視頻等)是以一種BSON(Binary JSON)的二進制數據格式存儲, 這使得MongoDB並不需要事先定義任何模式, 也就是模式自由(可以把完全不同結構的記錄放在同一個資料庫里)。

MongoDB對於完全索引的支持在應用上是很方便的,同時也具備一般NoSQL分布式資料庫中可擴展,支持復制和故障恢復等功能。 MongoDB一般應用於高度伸縮性的緩存及大尺寸的JSON數據存儲業務中,但不能執行「JOIN」操作,而且數據佔用空間也比較大,最被用戶詬病的就是由於MongoDB提供的是資料庫級鎖粒度導致在一些情況下建索引操作會引發整個資料庫阻塞。一般來說,MongoDB完全可以滿足一些快速迭代的中小型項目的需求。

下面來主要談談Cassandra和HBase之間的比較選擇。Cassandra和HBase有著截然不同的基因血統。HBase和其底層依賴的系統架構源自於著名的Google FileSystem(發表於2003年)和Google BigTable設計(發表於2006年), 其克服了HDFS注重吞吐量卻犧牲I/O的缺點,提供了一個存儲中間層使得用戶或者應用程序可以隨機讀寫數據。

具體來說,HBase的更新和刪除操作實際上是先發生在內存MemStore中, 當MemStore滿了以後會Flush到StoreFile, 之後當StoreFile文件數量增長到一定閾值後會觸發Compact合並操作,因此HBase的更新操作其實是不斷追加的操作,而最終所有更新和刪除數據的持久化操作都是在之後Compact過程中進行的。

這使得應用程序在向內存MemStore寫入數據後,所做的修改馬上就能得到反映,用戶讀到的數據絕不會是陳舊的數據,保證了I/O高性能和數據完全一致性; 另一方面來說, HBase基於Hadoop生態系統的基因就已經決定了他自身的高度可擴展性、容錯性。

在數據模型上,Cassandra和HBase類似實現了一個key-value提供面向列式存儲服務,其系統設計參考了 Amazon Dynamo (發表於2007年) 分布式哈希(DHT)的P2P結構(實際上大部分Cassandra的初始工作都是由兩位從Amazon的Dynamo組跳槽到Facebook的工程師完成),同樣具有很高的可擴展性和容錯性等特點。

除此之外, 相對HBase的主從結構,Cassandra去中心化的P2P結構能夠更簡單地部署和維護,比如增加一台機器只需告知Cassandra系統新節點在哪,剩下的交給系統完成就行了。同時,Cassandra對多數據中心的支持也更好,如果需要在多個數據中心進行數據遷移Cassandra會是一個更優的選擇。

Eric Brewer教授提出的經典CAP理論認為任何基於網路的數據共享系統,最多隻能滿足數據一致性、可用性、分區容忍性三要素中的兩個要素。實際分布式系統的設計過程往往都是在一致性與可用性上進行取捨,相比於HBase數據完全一致性的系統設計,Cassandra選擇了在優先考慮數據可用性的基礎上讓用戶自己根據應用程序需求決定系統一致性級別。

比如:用戶可以配置QUONUM參數來決定系統需要幾個節點返回數據才能向客戶端做出響應,ONE指只要有一個節點返回數據就可以對客戶端做出響應,ALL指等於數據復制份數的所有節點都返回結果才能向客戶端做出響應,對於數據一致性要求不是特別高的可以選擇ONE,它是最快的一種方式。

從基因和發展歷史上來說,HBase更適合用做數據倉庫和大規模數據處理與分析(比如對網頁數據建立索引), 而Cassandra則更適合用作實時事務和互動式查詢服務。Cassandra在國外市場佔有比例和發展要遠比國內紅火, 在不少權威測評網站上排名都已經超過了HBase。目前Apache Cassandra的商業化版本主要由軟體公司DataStax進行開發和銷售推廣。另外還有一些NoSQL分布式資料庫如Riak, CouchDB也都在各自支持的廠商推動下取得了不錯的發展。

雖然我們也考慮到了HBase在實際應用中的不便之處比如對二級索引的支持程度不夠(只支持通過單個行鍵訪問,通過行鍵的范圍查詢,全表掃描),不過在明略的大數據基礎平台上,目前整合的是依然是HBase。

理由也很簡單,HBase出身就與Hadoop的生態系統緊密集成,其能夠很容易與其他SQL on Hadoop框架(Cloudera Impala, Apache Phoenix, or Hive on Tez)進行整合,而不需要重新部署一套分布式資料庫系統,而且可以很方便地將同樣的數據內容在同一個生態系統中根據不同框架需要來變換存儲格式(比如存儲成Hive表或者Parquet格式)。

我們在很多項目中都有需要用到多種SQL on Hadoop框架,來應對不同應用場景的情況,也體會到了在同一生態系統下部署多種框架的簡便性。 但同時我們也遇到了一些問題, 因為HBase項目本身與HDFS和Zookeeper系統分別是由不同開源團隊進行維護的,所以在系統整合時我們需要先對HBase所依賴的其他模塊進行設置再對HBase進行配置,在一定程度上降低了系統維護的友好性。

目前我們也已經在考慮將Cassandra應用到一些新的客戶項目中,因為很多企業級的應用都需要將線上線下資料庫進行分離,HBase更適合存儲離線處理的結果和數據倉庫,而更適合用作實時事務和並發交互性能更好的Cassandra作為線上服務資料庫會是一種很好的選擇。

3
大數據安全篇
隨著越來越多各式各樣的數據被存儲在大數據系統中,任何對企業級數據的破壞都是災難性的,從侵犯隱私到監管違規,甚至會造成公司品牌的破壞並最終影響到股東收益。給大數據系統提供全面且有效的安全解決方案的需求已經十分迫切:

大數據系統存儲著許多重要且敏感的數據,這些數據是企業長久以來的財富

與大數據系統互動的外部系統是動態變化的,這會給系統引入新的安全隱患

在一個企業的內部,不同Business Units會用不同的方式與大數據系統進行交互,比如線上的系統會實時給集群推送數據、數據科學家團隊則需要分析存儲在數據倉庫內的歷史數據、運維團隊則會需要對大數據系統擁有管理許可權。

因此為了保護公司業務、客戶、財務和名譽免於被侵害,大數據系統運維團隊必須將系統安全高度提高到和其他遺留系統一樣的級別。同時大數據系統並不意味著引入大的安全隱患,通過精細完整的設計,仍然能夠把一些傳統的系統安全解決方案對接到最新的大數據集群系統中。

一般來說,一個完整的企業級安全框架包括五個部分:

Administration: 大數據集群系統的集中式管理,設定全局一致的安全策略

Authentication: 對用戶和系統的認證

Authorization:授權個人用戶和組對數據的訪問許可權

Audit:維護數據訪問的日誌記錄

Data Protection:數據脫敏和加密以達到保護數據的目的

系統管理員要能夠提供覆蓋以上五個部分的企業級安全基礎設施,否則任何一環的缺失都可能給整個系統引入安全性風險。

在大數據系統安全集中式管理平台這塊,由Hortonworks推出的開源項目Apache Ranger就可以十分全面地為用戶提供Hadoop生態圈的集中安全策略的管理,並解決授權(Authorization)和審計(Audit)。例如,運維管理員可以輕松地為個人用戶和組對文件、數據等的訪問策略,然後審計對數據源的訪問。

與Ranger提供相似功能的還有Cloudera推出的Apache Sentry項目,相比較而言Ranger的功能會更全面一些。

而在認證(Authentication)方面, 一種普遍採用的解決方案是將基於Kerberos的認證方案對接到企業內部的LDAP環境中, Kerberos也是唯一為Hadoop全面實施的驗證技術。

另外值得一提的是Apache Knox Gateway項目,與Ranger提高集群內部組件以及用戶互相訪問的安全不同,Knox提供的是Hadoop集群與外界的唯一交互介面,也就是說所有與集群交互的REST API都通過Knox處理。這樣,Knox就給大數據系統提供了一個很好的基於邊緣的安全(perimeter-based security)。

基於以上提到的五個安全指標和Hadoop生態圈安全相關的開源項目, 已經足已證明基於Hadoop的大數據平台我們是能夠構建一個集中、一致、全面且有效的安全解決方案。
我市再ITjob管網上面找的

⑤ 大數據技術在網路營銷中的策略研究論文

大數據技術在網路營銷中的策略研究論文

從小學、初中、高中到大學乃至工作,說到論文,大家肯定都不陌生吧,論文的類型很多,包括學年論文、畢業論文、學位論文、科技論文、成果論文等。那要怎麼寫好論文呢?以下是我幫大家整理的大數據技術在網路營銷中的策略研究論文,歡迎閱讀與收藏。

摘要:

當今,隨著信息技術的飛速發展,互聯網用戶的數量日益增加,進一步促進了電子商務的快速發展,並使企業能夠更准確地獲取消費者數據,大數據技術應運而生。該技術已被一些企業用於網路營銷,並取得了顯著的營銷效果。本文基於大數據的網路營銷進行分析,分析傳統營銷存在的問題和挑戰,並對大數據技術在網路營銷中的作用進行研究,最後針對性地提出一些基於大數據的網路營銷策略,以促進相關企業在大數據時代加強網路營銷,並取得良好的營銷效果。

關鍵詞:

大數據;網路營銷;應用策略;營銷效果;

一、前言

現代社會已經完全進入了信息時代,在移動互聯網和移動智能設備飛速發展與普及之下,消費者的消費數據都不斷被收集、匯總並處理,這促進了大數據技術的發展。大數據技術可以精準的分析消費者的習慣,藉助大數據技術,商家可以針對顧客進行個性化營銷,極大地提高了精準營銷的效果,傳統的營銷方式難以做到這一點。因此,現代企業越來越重視發展網路營銷,並期望通過大數據網路營銷以增加企業利潤。

二、基於大數據的網路營銷概述

網路營銷是互聯網出現之後的概念,初期只是信息爆炸式的轟炸性營銷。後來隨著移動智能設備的普及、移動互聯網的發展以及網路數據信息的海量增長,大數據技術應運而生。大數據技術是基於海量的數據分析,得出的科學性的結果,出現伊始就被首先應用於網路營銷之中。基於大數據的網路營銷非常精準,是基於海量數據分析基礎上的定向營銷方式,因此也叫著數據驅動營銷。其主要是針對性對顧客進行高效的定向營銷,最為常見的就是網路購物App中,每個人得到的物品推薦都有所區別;我們瀏覽網路時,會不斷出現感興趣的內容,這些都是大數據營銷的結果。

應用大數據營銷,企業可以精準定位客戶,並根據客戶的喜好與類型對產品與服務進行優化[1],然後向目標客戶精準推送。具體來說,基於大數據技術的精準網路營銷過程涉及三個步驟:首先是數據收集階段。企業需要通過微博、微信、QQ、企業論壇和網站等網路工具積極收集消費者數據;其次,數據分析階段,這個階段企業要將收集到的數據匯總,並進行處理形成大數據模型,並通過數據挖掘技術等高效的網路技術對數據進行處理分析,以得出有用的結論,比如客戶的消費習慣、消費能力以及消費喜好等;最後,是營銷實施階段,根據數據分析的結果,企業要針對性地制定個性化的營銷策略,並將其積極應用於網路營銷以吸引客戶進行消費。基於大數據的網路營銷其基本的目的就是吸引客戶主動參與到營銷活動之中,從而提升營銷效果和經濟收益。

三、傳統網路營銷存在的一些問題

(一)傳統網路營銷計劃主要由策劃人主觀決定,科學性不足

信息技術的迅速發展,使得很多企業難以跟上時代的步伐,部分企業思想守舊,沒有跟上時代潮流並開展網路營銷活動,而是仍然繼續使用傳統的網路營銷模型和方式。即主要由策劃人根據自己過去的經驗來制定企業的營銷策略,存在一定的盲目性和主觀性,缺乏良好的信息支持[2]。結果,網路營銷計劃不現實,難以獲得有效的應用,導致網路營銷的效果不好。

(二)傳統網路營銷的互動性不足,無法進行准確的產品營銷

傳統的網路營銷互動性較差,主要是以即時通信軟體、郵箱、社交網站以及彈窗等推送營銷信息,客戶只能被動的接受信息,無法與企業進行良性互動和溝通,無法有效的表達自己的訴求,這導致了企業與客戶之間的割裂,極大的影響了網路營銷的效果。此外,即使一些企業獲得了相關數據,也沒有進行科學有效的分析,但卻沒有得到數據分析的結果,也沒有根據客戶的需求進行有效的調整,從而降低了營銷活動的有效性。

(三)無法有效分析客戶需求,導致客戶服務質量差

當企業進行網路營銷時,缺乏對相關技術的關注以及對客戶需求的分析的缺乏會導致企業營銷策略無法獲得預期的結果。因此,企業只能指望出於營銷目的向客戶發布大量營銷內容。這種營銷效果非常糟糕。客戶不僅將無法獲得有價值的信息,而且此類信息的「轟炸」也會使他們感到煩躁和不耐煩,這將適得其反,並降低客戶體驗[3]。

四、將基於大數據的網路營銷如何促進傳統的網路營銷

(一)使網路營銷決策更科學,更明智

在傳統的網路營銷中,經理通常根據過去的經驗來制定企業的營銷策略,盲目性和主觀性很多,缺乏可靠的數據。基於大數據的網路營銷使用可以有效地收集有關市場交易和客戶消費的數據,並利用數據挖掘技術等網路技術對收集到的數據進行全面科學的分析與處理,從中提取有用的相關信息,比如客戶的消費習慣、喜好、消費水平以及行為特徵等,從而制定針對客戶的個性化營銷策略,此外,企業還可以通過數據分析獲得市場發展變化的趨勢以及客戶消費行為的趨勢,從而對未來的市場形勢作出較為客觀的判斷,進而幫助企業針對未來一段時間內的行為制定科學合理的'網路營銷策略,提升企業的效益[4]。

(二)大大提高了網路營銷的准確性

如今,大數據驅動的精準網路營銷已成為網路營銷的新方向。為了有效地實現這一目標,企業需要在啟動網路營銷之前依靠大數據技術來准確分析大量的客戶數據,以便有效地捕獲客戶的消費需求,並結合起來制定準確的網路營銷策略[5]。此外,在實施網路營銷策略後,積極收集客戶反饋結果並重新分析客戶評論,使企業對客戶的實際需求有更深刻的了解,然後制定有效的營銷策略。如果某些企業無法有效收集客戶反饋信息,則可以收集客戶消費信息和歷史消費信息,然後對這些數據進行准確的分析,從而改善企業的原始網路營銷策略並進行促銷以獲取准確的信息,進而制定有效的網路營銷策略。

(三)顯著提高對客戶網路營銷服務水平

通過利用大數據進行准確的網路營銷,企業可以大大改善客戶服務水平。這主要體現在兩個方面:一方面可以使用大數據准確地分析客戶的實際需求,以便企業可以進行有針對性的的營銷策略,可以大大提高客戶服務質量。另一方面,使企業可以有效地吸收各種信息,例如客戶興趣、愛好和行為特徵,以便向每個客戶發布感興趣的推送內容,以便客戶可以接收他們真正需要的信息,提高客戶滿意度。

五、基於大數據的網路營銷優勢

(一)提高網路營銷廣告的准確性

在傳統的網路營銷中,企業傾向於使用大量無法為企業帶來相應經濟利益的網路廣告進行密集推送,效率低下。因此,必須充分利用大數據技術來提高網路營銷廣告的准確性。首先,根據客戶的情況制定策略並推送合適的廣告,消費場景在很大程度上影響了消費者的購買情緒,並可以直接確定消費者的購買行為。如果客戶在家中購買私人物品,則他們第二天在公司工作時,卻同送前一天相關私人物品的各種相關的廣告。前一天的搜索行為引起的問題可能會使消費者處於非常尷尬的境地,並影響他們的購買情緒。這表明企業需要有效地識別客戶消費場景並根據這些場景發布更准確的廣告[6]。一方面,通過IP地址來確定客戶端在網路上的位置。客戶在公共場所時,廣告內容應簡潔明了。另一方面,可以通過指定時間段來確定推送通知的內容。在正確的時間宣傳正確的內容。其次,提高客戶選擇廣告的自主權。在傳統的網路營銷中,企業通常採用彈出式廣告,插頁式廣告和浮動廣告的形式來強力吸引客戶的注意力,從而引起強烈的客戶不滿。一些客戶甚至會毫不猶豫地購買廣告攔截軟體,以防止企業廣告。在這方面,大數據技術可用於改善網路廣告的形式和內容並提高其准確性。

(二)提高網路營銷市場的定位精度

在諸如電子郵件營銷和微信營銷之類的網路營銷方法中,一個普遍現象是企業擁有大量的粉絲,並向這些粉絲發送了大量的營銷信息,但是卻沒有得到較好的反饋,營銷效果較差。造成這種現象的主要原因是企業產品的市場定位不正確。可以通過以下幾個方面來提高網路營銷市場中的定位精度:

1、分析客戶數據並確定產品在市場上的定位:

首先,收集大量基本數據並創建客戶資料庫。在此過程中,應格外小心,以確保收集到的有關客戶的信息是全面的。因此,可以使用各種方法和渠道來收集客戶數據。例如,可以通過論壇、企業官方網站、即時通信軟體以及購物網站等全面的收集客戶的各種信息。收集完成後利用高效的數據分析處理技術對信息進行處理,並得出結果,包括客戶的年齡、收入、習慣以及消費行為等結果,然後根據結果對企業的產品進行定位,並與客戶的需求相匹配,進而明確市場[7]。

2、通過市場調查對產品市場定位進行驗證:

在利用大數據及時對企業產品進行市場定位之後,有必要對進一步進行市場調查,以進一步清晰產品的市場定位,如果市場調查取得較為滿意的效果,則表明網路營銷策略較為成功,可以加大推廣力度以促進產品的銷售,如果效果不滿意,則要積極分析問題,尋找原因並提出針對性的解決改進措施,以獲得較為滿意的結果[8]。

3、建立客戶反饋機制:

客戶反饋機制可以有效的幫助企業改進產品營銷策略,主要體現有兩個主要功能:一是營銷產品在市場初步定為成功後可以通過客戶反饋積極征詢客戶的意見,並進一步改進產品,確保產品更適應市場;二是如果營銷產品市場定位不成功,取得的效果不佳,可以通過客戶反饋概括定位失敗的原因,這將有助於將來的產品准確定位。

(三)增強網路營銷服務的個性化

為了增強網路營銷服務的個性化,企業不僅必須能夠使用大數據識別客戶的身份,而且還必須能夠智能地設計個性化服務。首先,通過大數據了解客戶的身份。一方面,隨著網路的日益普及,企業可以在網路上收集客戶各個方面的信息。但是,眾所周知,由於互聯網管理的不規范與復雜性,大多數信息不是高度可靠的,甚至某些信息之間存在著極為明顯的矛盾。因此,如果企業想要通過大數據來了解其客戶的身份,則必須首先確保所收集的信息是可信且准確的。另一方面,企業必須能夠從大量的客戶信息中選擇最能體現其個性的關鍵信息,並降低分析企業數據的成本[9]。二是合理設計個性化服務。個性化服務的合理設計要求企業在兩個方面進行運營:一方面,由於現實環境的限制,企業無法一一滿足所有客戶的個性化需求。這就要求企業盡一切努力來滿足一部分客戶的個性化需求,並根據一般原則開發個性化服務。另一方面,如果完全根據客戶的個人需求向他們提供服務,則企業的服務成本將不可避免地急劇上升。因此,企業應該對個性化客戶服務進行詳細分析,並嘗試以適合其個人需求的方式為客戶提供服務,而不會給企業造成太大的財務負擔。

六、基於大數據網路營銷策略

使用大數據的准確網路營銷模型基本上包括以下步驟。首先,收集有關客戶的大量信息;其次,通過數據分類和分析選擇目標客戶;第三,根據分析的信息制定準確的網路營銷計劃;第四,執行營銷計劃;第五,評估營銷結果並計算營銷成本;第六,在評估過程的基礎上,進一步改善,然後更准確地篩選目標客戶。在持續改進的過程中,上述過程可以改善網路營銷。因此,在大數據時代,電子商務企業必須突破原始的廣泛營銷理念,並採用新的營銷策略。

(一)客戶檔案策略

客戶檔案意味著在收集了有關每個人的基本信息之後,可以大致了解每個人的主要銷售特徵。客戶檔案是准確進行電子商務促銷的重要基礎,也是實現精確營銷目標的極其重要的環節。電子商務企業利用客戶檔案策略可以獲得巨大收益。首先,藉助其專有的銷售平台,電子商務企業可以輕松,及時且可靠地收集客戶使用情況數據。其次,在傳統模型中收集數據時,由於需要控製成本,因此經常使用抽樣來評估數據的一般特徵[10]。大數據時代的數據收集模型可以減少錯誤並提高數據准確性。當分析消費者行為時最好以目標消費者為目標。消費者行為分析是對客戶的消費目的和消費能力的分析,可幫助電子商務企業更好地選擇合適的目標客戶。在操作中,電子商務企業需要在創建資料庫後繼續優化分析結果,以最大程度地分析消費者的偏好。

(二)滿足需求策略

為了滿足多數人的需求,傳統的營銷方法逐漸變得更加同質。結果,難以滿足少數客戶的特殊需求,並且導致利潤損失。基於大數據客戶檔案技術的電子商務企業可以分析每個客戶的需求,並採取差異化人群的不同需求最大化的策略,從而獲取較大的利潤。為了滿足每個客戶的需求,最重要的是實現差異化,而不僅僅是滿足多數人的需求,因此必須准確地分析客戶的需求,還必須根據客戶的需求提供更多個性化的產品[11]。比如當前,定製行業非常流行,賣方可以根據買方提供的信息定製獨特的產品,該產品的利潤率遠高於批量生產線。

(三)客戶服務策略

隨著網路技術的逐步發展,電子商務企業和客戶可以隨時進行通信,這基本上消除了信息不對稱的問題,使客戶可以更好地了解他們想要購買的產品以及遇到問題時的情況。當出現問題時,可以第一時間解決,提高交易速度。因此,當電子商務企業制定用於客戶服務的營銷策略時,一切都以客戶為中心。為了更好地實施此策略,必須首先改善資料庫並加深對客戶需求的了解[12]。二是提高售前、售後服務質量,開展集體客戶服務培訓,縮短客戶咨詢等待時間,改善客戶服務。最後,我們必須高度重視消費者對產品和服務的評估,及時糾正不良評論,並鼓勵消費者進行更多評估,良好的服務態度和高質量的產品可以大大提高目標客戶對產品的忠誠度,並且可以吸引消費者進行第二次購買。

(四)多平台組合策略

在信息時代,人們可以在任何地方看到任何信息,這也將分散他們的注意力,並且重新定向他們的注意力已經成為一個大問題。如果希望得到更多關注,則可以組合跨多個平台的營銷策略,並在網路平台和傳統平台上混合營銷。網路平台可以更好地定位自己並吸引更多關注,而傳統平台則可以更好地激發人們的購買慾望。平台融合策略可以幫助電子商務企業擴大獲取客戶的渠道,不同渠道的用戶購買趨勢不同,可以改善資料庫[13]。

七、結語

總體而言,大數據時代不僅給網路營銷帶來了挑戰,而且還帶來了新的機遇。大數據分析不僅可以提高准確營銷的效果,更好地服務消費者,改變傳統的被動營銷形式,並提升網路營銷效果。

參考文獻

[1]劉儉雲.大數據精準營銷的網路營銷策略分析[J].環球市場,2019(16):98.

[2]栗明,曾康有.大數據時代下營業網點的精準營銷[J].金融科技時代,2019(05):14-19.

[3]劉瑩.大數據背景下網路媒體廣告精準營銷的創新研究[J].中國商論,2018(19):58-59.

[4]李研,高書波,馮忠偉.基於運營商大數據技術的精準營銷應用研究[J].信息技術,2017(05):178-180.

[5]袁征.基於大數據應用的營銷策略創新研究[J].中國經貿導刊(理論版),2017(14):59-62.

[6]邱媛媛.基於大數據的020平台精準營銷策略研究[J].齊齊哈爾大學學報(哲學社會科學版),2016(12):60-62.

[7]張龍輝.基於大數據的客戶細分模型及精確營銷策略研究[J].河北工程大學學報(社會科學版),2017,34(04):27-28.

[8]李巧丹.基於大數據的特色農產品精準營銷創新研究——以廣東省中市山為例[J].江蘇農業科學,2017,45(06):318-321.

[9]孫洪池,林正傑.基於大數據的B2C網路精準營銷應用研究——以中國零售商品型企業為例[J].全國流通經濟,2016(12):3-6.

[10]趙玉欣,王艷萍,關蕾.大數據背景下電商企業精準營銷模式研究[J].現代商業,2018(15):46-47.

[11]張冠鳳.基於大數據時代下的網路營銷模式分析[J].現代商業,2014(32):59-60.

[12]王克富.論大數據視角下零售業精準營銷的應用實現[J].商業經濟研究,2015(06):50-51.

[13]陳慧,王明宇.大數據:讓網路營銷更「精準」[J].電子商務,2014(07):32-33.

;

⑥ 《大數據架構商業之路從業務需求到技術方案》pdf下載在線閱讀全文,求百度網盤雲資源

《大數據架構商業之路》(黃申)電子書網盤下載免費在線閱讀

鏈接:

提取碼: upxi

書名:大數據架構商業之路

作者:黃申

豆瓣評分:7.9

出版社:機械工業出版社

出版年份:2016-5-1

頁數:298

內容簡介:

目前大數據技術已經日趨成熟,但是業界發現與大數據相關的產品設計和研發仍然非常困難,技術、產品和商業的結合度還遠遠不夠。這主要是因為大數據涉及范圍廣、技術含量高、更新換代快,門檻也比其他大多數IT行業更高。人們要麼使用昂貴的商業解決方案,要麼花費巨大的精力摸索。本書通過一個虛擬的互聯網O2O創業故事,來逐步展開介紹創業各個階段可能遇到的大數據課題、業務需求,以及相對應的技術方案,甚至是實踐解析;讓讀者身臨其境,一起來探尋大數據的奧秘。書中會覆蓋較廣泛的技術點,並提供相應的背景知識介紹,對於想進一步深入研究細節的讀者,也可輕松獲得繼續閱讀的方向和指導性建議。

作者簡介:

黃申,博士,畢業於上海交通大學計算機科學與工程專業,師從俞勇教授。微軟學者,IBMExtremeBlue天才計劃成員。長期專注於大數據相關的搜索、推薦、廣告以及用戶精準化領域。曾在微軟亞洲研究院、eBay中國、沃爾瑪1號店和大潤發飛牛網擔任要職,帶隊完成了若干公司級的戰略項目。同時著有20多篇國際論文和10多項國際專利,兼任《計算機工程》期刊特邀審稿專家。因其對業界的卓越貢獻,2015年獲得美國政府頒發的「美國傑出人才」稱號。

閱讀全文

與王亞松大數據相關的資料

熱點內容
maya粒子表達式教程 瀏覽:84
抖音小視頻如何掛app 瀏覽:283
cad怎麼設置替補文件 瀏覽:790
win10啟動文件是空的 瀏覽:397
jk網站有哪些 瀏覽:134
學編程和3d哪個更好 瀏覽:932
win10移動硬碟文件無法打開 瀏覽:385
文件名是亂碼還刪不掉 瀏覽:643
蘋果鍵盤怎麼打開任務管理器 瀏覽:437
手機桌面文件名字大全 瀏覽:334
tplink默認無線密碼是多少 瀏覽:33
ipaddgm文件 瀏覽:99
lua語言編程用哪個平台 瀏覽:272
政采雲如何導出pdf投標文件 瀏覽:529
php獲取postjson數據 瀏覽:551
javatimetask 瀏覽:16
編程的話要什麼證件 瀏覽:94
錢脈通微信多開 瀏覽:878
中學生學編程哪個培訓機構好 瀏覽:852
榮耀路由TV設置文件共享錯誤 瀏覽:525

友情鏈接