『壹』 阿里巴巴大數據將嚴重威脅國家安全嗎
阿里巴巴大數據對個人隱私的威脅的確存在,但並不是沒有解決的辦法,即便擔憂對國家安全產生威脅,也不必動輒高呼「國有化」。
阿里巴巴並不能掌握「各種戰略資源的流轉」,阿里的大數據本身就包含各種商品流轉的數據,通過各種商品的流轉很容易分析出國家各種資源的流轉,由此繪制出中國各種戰略資源的流轉及節點圖。顯然,無論戰時還是平時,這樣一份戰略資源的流轉及節點圖都可用作瓦解國家安全的導航圖。
首先,雖然阿里巴巴在中國電商中占據主導地位,但據國家統計局和商務部數據顯示,阿里巴巴還遠未達到掌握絕大多數商品流轉數據的程度。
更重要的是,阿里巴巴即便掌握商品流轉的數據,距離分析出各種資源的流轉也很遠,更不要說在目前的佔有規模下分析出「各種戰略資源的流轉」。
事實上,在今年稍早些時候,在葯品領域,阿里巴巴曾面臨過更具體的指責。南方周末報道稱,按照國家食葯總局的監管要求,中國各類葯品從生產、流通、經營和消費等所有節點的全部信息,將會儲存在「阿里雲」上。當時就有人認為,阿里健康將就此「運用大數據的研究方法,分析葯品電子監管碼所蘊含的信息,能夠繪制出國內的疾病發生的時間、地域、周期,進而掌握國人的健康情況;甚至還能通過葯品流轉,繪制出中國各種戰略資源節點圖。」
僅憑阿里巴巴掌握了很多電子商務數據,就認為這些數據有可能被製作成「瓦解國家安全的導航圖」,是聳人聽聞的說法。
大數據的能力不應該被過度誇大,聲稱「大數據威脅國家安全」的這篇文章,還一個說法是,「阿里巴巴的大數據和雲計算簡直就是有史以來最為強大的情報搜集和分析系統——通過其大數據和雲計算,中國人的一舉一動及行為偏好都可以盡在其掌握之中。」這種說法完全是過分虛誇了大數據的能力。
『貳』 馬雲 互聯網大會 這是一個什麼時代
事實上,這已經不是馬雲第一次推出DT的概念了,在去年的首屆世界互聯網大會和馬雲赴台灣的演講中,他都有不同程度地提及DT。那麼,問題來了:DT時代究竟是怎樣的一個時代?1、DT時代以服務大眾、激發生產力為主。
DT是數據處理技術(Data Technology)的英文縮寫。馬雲提出,IT時代是以自我控制、自我管理為主,而DT時代,它是以服務大眾、激發生產力為主的技術。簡而言之,IT是以我為中心,DT是以別人為中心。這兩者之間看起來似乎是一種技術的差異,但實際上是思想觀念層面的差異。
2、DT讓別人愈來愈強大。
馬雲表示,IT能讓自己愈來愈強大,而DT能讓別人愈來愈強大,"DT是讓你的消費者、讓你的客戶、讓你的員工更具能力。"
3、DT更講究開放、透明、分享及合作。
馬雲還表示,DT更講究開放、透明、分享及合作,"IT時代誕生無數劇透"。未來,大數據的雲端計算處理,將消除商業社會的邊界,讓一切商業主體相互自由連通。而這些都是建立在全世界數據信息完全"透明"的基礎之上。
4、從IT時代到DT時代,小企業是關鍵。
在馬雲看來,IT時代到DT時代,小企業變成關鍵。他認為互聯網一定是做昨天做不到的事情。那麼什麼事情昨天做不到?其實就是幫助那些小企業,解放那些小企業的生產力,能夠讓這些小企業具有IT的能力。
馬雲說,"小企業的需求是很多的,需要物流、誠信、信息、數據和支付,這整個體系,我們是沒有辦法全做完,所以必須引進各種各樣的合作夥伴,大家一起來干,每個人在這裡面拿到一點點,你才可能有機會成功。"
5、DT時代重體驗,女性越來越"厲害"。
馬雲指出DT時代一個非常重要的特徵是體驗。對於體驗,馬雲提出了一個比較新穎的觀點,他認為體驗時代會出現女人越來越厲害的現象,因為她們身上有著獨特的東西,懂得怎麼服務別人、怎麼理解別人、怎麼支持別人。所以,未來的DT時代,可千萬不要小看了女人。
6、DT時代最大的機遇和挑戰:能否把IT行業和傳統行業進行完美融合。
馬雲認為在未來的20年,那些不能和傳統行業進行完美結合的互聯網公司將會被淘汰,同樣那些不能與互聯網技術、思想進行融合的傳統行業也將活不長久。能否把IT行業和傳統行業進行完美融合,這是未來DT時代最大的機遇也是最大的挑戰,也是關乎能否把互聯網經濟做起來的關鍵。馬雲指出,當前最好的辦法是建立一個良好的互聯網生態環境,搭好一個很好的基礎設施,同時培養出一批DT時代的人才。
『叄』 大數據營銷會給企業和用戶帶來什麼價值
隨著大數據應用的普及,企業越來越重視從大數據中挖掘潛在的商業價值,大數據在企業管理中的應用主要在於提高企業整體分析研究能力、市場快速反應能力,建立以知識管理為核心的「競爭情報數據倉庫」,提高核心競爭力 。
在大數據時代,企業將是完全以數據分析驅動的企業,利用大數據分析,能夠轉化成洞察的能力,充分釋放企業潛能,實現轉型與進化,本文重在分析大數據在企業當中所起到的作用。
瑤貝網路是基於移動互聯門戶基於用戶細分的大數據整合服務平台,用數據說話,我們更在行。公司面向社會化用戶開展精細化服務,打造線上精品商城,給老百姓提供更多便利、產生更大價值。
『肆』 多大的數據才算「大數據」
多大的數據才算「大數據」
什麼是大數據有一個故事,說的是一位顧客訂購披薩時,披薩店可以立即調出這位顧客的許多信息,比如送披薩上門必有的家庭、單位等地址和電話,顧客的消費習慣從而推薦適合他的披薩種類,顧客名下的銀行卡透支情況從而確定他的支付方式,甚至顧客要自取披薩時,還能根據顧客名下車輛的停放位置預估他的到店時間等等。
從這個故事,我們可以看出大數據的一些關鍵特徵,比如容量大、類型多、關聯性強、有價值等等。「大數據是以高容量、多樣性、存取速度快、應用價值高為主要特徵的數據集合,正快速發展為對數量巨大、來源分散、格式多樣的數據進行採集、存儲和關聯分析,從中發現新知識、創造新價值、提升新能力的新一代信息技術和服務業態。」工信部信息化和軟體服務業司副司長李冠宇接受經濟日報·中國經濟網記者采訪時說。
僅僅規模大不是大數據
大數據,顧名思義,「大」該是應有之義。「大數據的定義最初與容量有關系。」李冠宇分析說,業界有幾種對大數據的定義,其中一個共同點就是數據的容量超出了原有的存儲、管理和處理能力。
正如中國電子信息產業發展研究院副院長樊會文接受記者采訪時指出的,大數據概念產生就是因為數據量和數據類型急劇增加,以至於原有的數據存儲、傳輸、處理以及管理技術不能勝任,需要全新的技術工具和手段。
信息技術日新月異,大數據的定義也在發生變化。工信部賽迪研究院軟體所所長潘文說,數據即時處理的速度(Velocity)、數據格式的多樣化(Variety)與數據量的規模(Volume)被稱為大數據「3V」。但隨著近幾年數據的復雜程度越來越高,「3V」已不足以定義新時代的大數據,准確性(Veracity)、可視性(Visualization)、合法性(Validity)等特性又被加入大數據的新解,從「3V」變成了「6V」。
對於「多大容量的數據才算大數據」,潘文說,大數據的規模並沒有具體的標准,僅僅規模大也不能算作大數據。規模大本身也要從兩個維度來衡量,一是從時間序列累積大量的數據,二是在深度上更加細化的數據。
李冠宇說,比如一份現在看起來很小的數據,但是縱向積累久了也可以變成大數據,橫向與其他數據關聯起來也可能形成大數據。而一份很大的數據如果沒有關聯性、沒有價值也不是大數據。
運滿滿研究院院長徐強認為,「大」是必要條件,但非充分條件。基於移動互聯網用戶規模紅利,國內平台型企業比較容易獲取大量數據,但數據不是越多越好,無用數據就像噪音,會給數據分析、清洗、脫敏和可視化帶來負擔。
這也正如阿里巴巴集團董事局主席馬雲在某次演講中說的:「很多人以為大數據就是數據量很大,其實大數據的大是大計算的大,大計算+數據,稱之為大數據。」
「水漲船高」的大數據
今年麥收時節,在雷沃重工的全國「三夏」跨區作業信息服務中心,顯示屏的全國電子地圖上有許多大小不一、顏色不同的圓圈,這是每個區域正在作業的收割機。智能化的收割機會自動獲得許多數據,包括機器運行情況、收割量、小麥含水量等,數據傳回後台匯總後,總體收割情況一目瞭然。
「大數據概念正是來自信息技術的飛速發展和應用,特別是隨著雲計算、物聯網、移動互聯網的應用,數據量迅猛增長。數據來源有兩種,一種與人有關,比如政府、企業等為人們服務時產生的數據;另一種與物有關,在移動泛在、萬物互聯時代,物聯網應用的浪潮將帶動數據量爆發式增長。」李冠宇說。
這也就不難理解,為何當下數據產生的速度如此之快。正如樊會文所分析的,一方面,信息終端大面積普及,信息源大量增加;另一方面,基於雲計算的互聯網信息平台快速增長,數據向平台大規模集中。
大數據與雲計算、物聯網、人工智慧等新一代信息技術之間相互影響、相互促進、相互融合。徐強說,運滿滿通過車聯網設備和信息平台,每天獲取3TB至4TB的數據,運用先進的大數據演算法模型,實現了智能車貨匹配、智能實時調度等。
樊會文認為,雲計算是硬體資源的虛擬化,而大數據是海量數據的高效處理。簡單來說,雲計算是大數據的基礎,有了雲計算才能大量集中數據從而產生大數據。同時,大數據也支撐了雲計算應用創新,帶動雲計算發展。
人工智慧的核心在於大數據支撐。圍棋人工智慧程序「阿爾法狗」打敗柯潔,離不開大數據的支持。「大數據技術能夠通過數據採集、分析等方式,從海量數據中快速獲得有價值的信息,為深度學習等人工智慧演算法提供堅實的素材基礎。反過來,人工智慧技術也促進了大數據技術的進步。兩者相輔相成,任何一方技術的突破都會促進另外一方的發展。」潘文說。
核心價值在於應用
剛剛過去的「6·18」再次掀起網購熱潮。網購消費者基本都被精準推送過廣告信息,如曾瀏覽過電飯煲的消費者,很長一段時間內會在登錄頁面後看到各品牌電飯煲信息。
阿里、京東、360等互聯網平台接觸消費者眾多,也因此獲得了很多數據。但是正如精準推送一樣,不對這些數據進行處理、挖掘就沒法產生價值。比如雷沃收割機傳回的數據進行匯總後還要分析處理,從而得出對收割作業乃至整個農業都有意義的結論才是這些數據的價值所在。
「大數據作為重要的基礎性戰略資源,核心價值在於應用,在於其賦值和賦能作用,在於對大量數據的分析和挖掘後所帶來的決策支撐,能夠為我們的生產生活、經營管理、社會治理、民生服務等各方面帶來高效、便捷、精準的服務。」李冠宇強調。
我們正在步入萬物互聯時代。華為預測,到2025年,物聯網設備的數量將接近1000億個。工信部統計數據顯示,目前我國網民數量超過7億,行動電話用戶規模已經突破13億,均居世界第一。
「全球數據總量呈現指數級增長,企業級用戶擁有的數據量在快速增加。互聯網的社會化生產出巨量數據。」
『伍』 大數據的定義是什麼
大數據首先是一個非常大的數據集,可以達到TB(萬億位元組)甚至ZB(十萬億億位元組)。這裡面的數據可能既有結構化的數據,也有半結構化和非結構化的數據,而且來自於不同的數據源。
結構化的數據是什麼呢?對於接觸過關系型資料庫的小夥伴來說,應該一點都不陌生。對了,就是我們關系型資料庫中的一張表,每行都具有相同的屬性。如下面的一張表:
(子標簽的次序和個數不一定完全一致)
那什麼又是非結構化數據呢?這類數據沒有預定義完整的數據結構,在我們日常工作生活中可能更多接觸的就是這類數據,比如,圖片、圖像、音頻、視頻、辦公文檔等等。
知道了這三類結構的數據,我們再來看看大數據的數據源有哪些呢?歸納起來大致有五種數據源。
一是社交媒體平台。如有名氣的Facebook、Twitter、YouTube和Instagram等。媒體是比較受歡迎的大數據來源之一,因為它提供了關於消費者偏好和變化趨勢的寶貴依據。並且因為媒體是自我傳播的,可以跨越物理和人口障礙,因此它是企業深入了解目標受眾、得出模式和結論、增強決策能力的方式。
二是雲平台。公有的、私有的和第三方的雲平台。如今,越來越多的企業將數據轉移到雲上,超越了傳統的數據源。雲存儲支持結構化和非結構化數據,並為業務提供實時信息和隨需應變的依據。雲計算的主要特性是靈活性和可伸縮性。由於大數據可以通過網路和伺服器在公共或私有雲上存儲和獲取,因此雲是一種高效、經濟的數據源。
三是Web資源。公共網路構成了廣泛且易於訪問的大數據,個人和公司都可以從網上或「互聯網」上獲得數據。此外,國內的大型購物網站,淘寶、京東、阿里巴巴,更是雲集了海量的用戶數據。
四是IoT(Internet of Things)物聯網數據源。物聯網目前正處於迅猛發展勢頭。有了物聯網,我們不僅可以從電腦和智能手機獲取數據,還可以從醫療設備、車輛流程、視頻游戲、儀表、相機、家用電器等方面獲取數據。這些都構成了大數據寶貴的數據來源。
五是來自於資料庫的數據源。現今的企業都喜歡融合使用傳統和現代資料庫來獲取相關的大數據。這些數據都是企業驅動業務利潤的寶貴資源。常見的資料庫有MS Access、DB2、Oracle、MySQL以及大數據的資料庫Hbase、MongoDB等。
我們再來總結一下,什麼樣的數據就屬於大數據呢?通常來大數據有4個特點,這就是業內人士常說的4V,volume容量、 variety多樣性、velocity速度和veracity准確性。
『陸』 雲計算,大數據,數據挖掘,機器學習,模式識別。這些概念之間的關系是怎麼樣的
給你解釋一下這些術語:
雲計算:就是個炒得很熱的商業概念,其實說白了就是將計算任務轉移到伺服器端,用戶只需要個顯示器就行了,不過伺服器的計算資源可以轉包。當然,要想大規模商業化,這里還有些問題,特別是隱私保護問題。
大數據:說白了就是數據太多了。如今幾兆的數據在20年前也是大數據。但如今所說的大數據特殊在哪呢?如今的問題是數據實在是太多了,這已經超過了傳統計算機的處理能力(區別與量子計算機),所以對於大數據我們不得不用一些折衷的辦法(比如數據挖掘),就是說沒必要所有數據都需要精確管理,實際上有效數據很有限,用數據挖掘的方法把這些有限的知識提取出來就行了。·此外,數據抽樣,數據壓縮也是解決大數據問題的一些策略。
數據挖掘:從數據中提取潛在知識,這些知識可以描述或者預測數據的特性。有代表性的數據挖掘任務包括關聯規則分析、數據分類、數據聚類等,這些你在任一本數據挖掘教材都可以了解。下面我說說和大數據的區別:數據挖掘只是大數據處理的一個方法。馬雲所說的大數據,或者如今商業領域所說的大數據,實際上指的就是數據挖掘,其實真正所謂大數據,或者Science雜志中提到的大數據,或者奧巴馬提出的大數據發展戰略,我的理解是,這些都遠遠大於數據挖掘的范疇,當然數據挖掘是其中很重要的一個方法。真正目的是如何將大數據進行有效管理。
機器學習:這個詞很虛,泛指了一大類計算機演算法。重點是學習這個詞,如果想讓計算機有效學習,目前絕大多數方法都採用了迭代的方法。所以在科研界,只要是採用了這種迭代並不斷逼近的策略,一般都可以歸到機器學習的范疇。此外,所謂學習,肯定要知道學什麼,這就是所謂訓練集,從訓練集數據中計算機要學到其中的某個一般規律,然後用一些別的數據(即測試集)來看看學得好不好,之後才能用於實際應用。所以,選取合適的訓練集也是個學問。
模式識別:意思就是模式的識別。模式多種多樣,可以是語言,可以是圖像,可以是事物一些有意義的模塊,這些都算。所以總體來說,模式識別這個詞我是覺得有點虛,倒是具體的人臉圖像識別、聲音識別等,這些倒是挺實在的。也許是我不太了解吧。
另外說說你的其他問題。
傳統分析方法不包括數據挖掘。對於數據分析這塊我不是很了解,不過可以肯定的是,傳統分析都有一定的分析方向,比如我就想知道這兩個商品的關聯情況,那我查查資料庫就行了。數據挖掘雖說有些歷史,不過也挺時髦的,它是自動將那些關聯程度大的商品告訴你,這期間不需要用戶指定數據分析的具體對象。
如果想應對大數據時代,數據挖掘這門課是少不了的。此外對資料庫,特別是並行資料庫、分布式資料庫,最好了解點。至於機器學習和模式識別,這些總的來說和數據挖掘關系不太大,除了一些特殊的領域外。
總之,概念挺熱,但大數據還很不成熟,無論從研究上還是商業化上。我目前在作大數據背景下的演算法研究,說實話,目前基本沒有拓展性非常強的演算法,所以未來大數據的發展方向,我也挺迷茫。
PS:將數據挖掘應用於商業,最最重要的就是如何確定挖掘角度,這需要你對具體應用的領域知識非常了解,需要你有非常敏銳的眼光。至於數據挖掘的具體演算法,這些就交給我們專門搞研究的吧!(對演算法的理解也很重要,這可以把演算法拓展到你的應用領域)