1. 什麼是大數據,通俗的講
有人說大數據技術是第四次技術革命,這個說法其實不為過。
很多人只是聽過大數據這個詞或者是簡單知道它是什麼,那麼它是什麼呢,在這里就通俗點來說一下個人對大數據的理解。
大數據,很明顯從字面上理解就是大量的數據,海量的數據。大,意思就是數據的量級很大,不上TB都不好意思說是大數據。數據,狹義上理解就是12345那麼些數據,畢竟計算機底層是二進制來存的,那麼在大數據領域,數據就不僅僅包括數字這些,它可以是所有格式的東西,比如日誌,音頻視頻,文件等等。
所以,大數據從字面上理解就是海量的數據,技術上它包括這些海量數據的採集,過濾,清洗,存儲,處理,查看等等部分,每一個部分包括一些大數據的相關技術框架來支持。
舉個例子,淘寶雙十一的總交易額的顯示,後面就是大數據技術的支持,全國那麼多淘寶用戶的交易記錄匯聚到一起,數據量很大,而且要做到實時的展現,就需要強有力的大數據技術來處理了。
數據量一大,那麼得找地方來存,一個伺服器硬碟可以掛多少,肯定滿足不了這么大的數據量存儲啊,所以,分布式的存儲系統應運而生,那就是HDFS分布式文件系統。簡單的說,就是把這么大的數據分開存在甚至幾百甚至幾千台伺服器上,那麼管理他們的系統就是HDFS文件系統,也是大數據技術的最基本的組件。
有地方存了,需要一些分布式的資料庫來管理查詢啊,那就有了Hbase等,還需要一些組件來計算分析這些數據啊,maprece是最基本的計算框架,其他的計算框架Spark和Storm可以完成實時的處理,其中HDFS和MapRece組成了Hadoop1.
總之,一切都是數據。我們的歷史,是不是都是大量的數據保存下來的,現在我們也是大數據的生活,天天有沒有接到騷擾電話還知道你姓什麼,你查話費什麼的從幾億人的數據中查到你的信息,大數據生活。未來,大數據將更深刻的滲透到生活中。
2. 《智能時代大數據與智能革命重新定義未來》epub下載在線閱讀全文,求百度網盤雲資源
《智能時代》([美國] 吳軍)電子書網盤下載免費在線閱讀
資源鏈接:
鏈接:
書名:智能時代
作者:[美國] 吳軍
豆瓣評分:8.4
出版社:中信出版集團
出版年份:2016-8
頁數:374
內容簡介:
大數據和機器智能的出現,對我們的技術發展、商業和社會都會產生重大的影響。作者吳軍在《智能時代:大數據與智能革命重新定義未來》中指出,首先,我們在過去認為非常難以解決的問題,會因為大數據和機器智能的使用而迎刃而解,比如解決癌症個性化治療的難題。同時,大數據和機器智能還會徹底改變未來的商業模式,很多傳統的行業都將採用智能技術實現升級換代,同時改變原有的商業模式。大數據和機器智能對於未來社會的影響是全方位的。
作者簡介:
吳軍,博士,與2002年加入谷歌公司,2010年加盟騰訊公司,出任負責搜索和搜索廣告的副總裁。2012-2014年回到谷歌,領導計算機自動問答項目。2014年,他在矽谷創辦了豐元資本風險投資公司。他在美國兩家風險投資基金(中國世紀基金和ZPark風險基金)分別擔任董事和顧問,也是約翰霍普金斯大學工商學院董事會董事,以及該校國際事務委員會的顧問。
3. 誰能用大白話給我講一講:什麼是大數據以及大數據在日常生活中的應用
把數據比作大海,大數據就是海浪,西海岸落下了顆流星,我們在東海岸就可以根版據海浪知道流星權的大小,這是一場革命:以前我們必須把流星撈出來稱一稱才知道它的質量,現在只需在千里之外根據海浪的大小方向,此時的海風來對比往日的海浪,就可以計算出流星啦。
應用的話:淘寶的折扣活動,除了節日就是預測到你有錢了,或者你洗面奶用完了
4. 大白話談大數據:數據分析方法之對比分析
對比分析是數據分析中最常用、好用、實用的分析方法,它是將兩個或兩個以上的數據進行比較,分析其中的差異,從而揭示這些事物代表的發展變化情況以及變化規律。
先看看思維導圖:
使用分析方法(和誰比)
如何使用對比分析法,就要先考慮 和誰比 這個問題。
和自己比較
通過和自己過去的平均值相比,發現問題,圍繞問題進行分析,出現的問題是自身問題導致的還是行業問題導致的,如果自己的環比出現了問題,就要從自身上找原因,提高活躍率。
和行業比較
將自己的平均值和行業平均值進行比較,和同行一比,往往會發現很多問題。
使用分析方法(如何比較)
第二個要考慮的問題就是 如何比較 ?
數據整體的大小 :用某些指標來衡量整體數據的大小,常用的數據指標為:平均值、中位數、某個業務指標
數據整體波動 :用變異系數來衡量整體數據的波動情況
趨勢變化 :運用對比分析來分析趨勢變化的時候,最主要的是找到合適的對比標准。找到標准,將對比對象的指標與標准進行對比,就能得出有結果了。目前常用標準是時間標准、空間標准、特定標准。
第一類時間標准 :
動作前後對比 ,可以看到動作前後的效果,如對比某次營銷活動前後的對比。
時間趨勢對比 ,可以評估指標在一段時間內的變化,可以通過環比,來判斷短時間內趨勢的變化。
與去年同期對比 ,當數據存在時間周期變化的時候,可以與去年同期對比,剔除時間周期變化因素。通過同比,來判斷短時間內趨勢的變化。
環比:本月和上個月比較,短時間的比較
同比:本年和上一年比較,長時間的比較
第二類空間標准 :
A/B測試 ,在同一時間維度,分別讓組成成分相同的目標用戶,進行不同的操作,最後分析不同組的操作效果,A/Btest我接下去也會講。
相似空間對比 ,運用兩個相似的空間進行比較,找到二者的差距,比如同類型甲APP(貝殼)乙APP(自如)的年留存率情況,明顯看出哪個APP的留存率更高,日常生活中相似空間比較常用的就是城市、分公司之間的對比。
先進空間對比 ,是指與行業內領頭羊對比,知曉差距多少,再細分原因,從而提高自身水平。如淘寶和京東的對比。
第三類特定標准 :
與計劃值對比 ,目標驅動運營,在營銷中會制定年、月、甚至日的目標,通過與目標對比,分析自己是否完成目標,若未完成目標,則深層次分析原因。目標驅動的好處,就是讓運營人員一直積極向上努力的去完成目標,從而帶動公司盈利。
與平均值對比 ,與平均值對比,主要是為了知曉某部分與總體差距。
與理論值對比 ,這個對比主要是因為無歷史數據,所以這個時候只能與理論值對比。理論值是需要經驗比較豐富的員工,利用工作經驗沉澱,參考相似的數據,得出來的值。
對比分析方法原則
對比分析需要堅持可比性原則:對比對象相似,對比指標同質
對比對象相似 :進行比較的時候注意,比較規模要一致,對比對象越相似,就越具有可比性,比如說不能用你的工資和思聰的零花錢進行比較,這樣不公平。如果要比,就和你出生,教育背景相似的人進行比較。當然這只是個不恰當的例子haha
對比指標同質: 同質可以表現在下面三點:
1.指標口徑范圍相同 ,比如甲 APP 與乙 APP 的用戶年留存率比較,如果用甲 APP 18年的用戶留存率,那乙 APP 也需要是18年的,不能拿乙17年的與甲18年的比較。
2.指標計算方法一樣 ,也就是計算公式相同,比如一個用除法、一個用加法進行計算。
3.指標計量單位一致 ,不能拿身高和體重進行比較,二者常用單位一個是厘米,一個是千克。
分析方法應用
舉一個例子吧,A/Btest
什麼是A/B測試呢?為統一個目標制定兩個版本,這兩個版本只有某個地方不一樣,其他地方保持不變,讓一部分用戶使用A版本,一部分用戶使用B版本,A版本為實驗組,B版本為對照組,兩個版本運行一段時間後,分別統計兩組用戶的表現,然後對兩組數據進行對比分析,選擇效果好的版本,正式發布給全部用戶。
當然現實中的A/Btest也遠沒有這么簡單,我接下去會寫一篇文章專門講講A/Btest的,挖坑+1 hahaha
最後打個小廣告,我的公眾號(顧先生的數據挖掘)
喜歡的小夥伴可以關注下,你的關注是我最大的動力。
5. 怎樣用大白話解釋「大數據」和「雲計算」
就是都在裸奔
6. 請問大數據分析和機器學習之間的區別與聯系
現如今是一個信息的時代,社會上任何行為都是以信息為前提去執行的。而信息又是對數據的處理加工得來的,所以「數據」是時代的主宰。大數據、數據挖掘和機器學習這三者是面對數據通常採用的手段。而這三者之間又是怎樣的區別呢?
大數據是一個相對抽象的概念,目前國內外學術界還沒有對大數據的定義形成統一的意見。美國國家科學基金會(National Science Foundation,United States)基於數據特徵及數據來源角度對大數據進行了定義,認為大數據是一種復雜的、大規模的、長期的、多元化的分布式數據集,由一系列的數據源生成,包括網路點擊流、音視頻軟體、E-mail、科學儀器、互聯網交易、感測設備等。
所謂數據挖掘,又叫做資料庫中的知識發現,簡稱為KDD。關於數據挖掘技術的定義,國際上目前比較廣泛認可的是U.M.Fayyad 等人說明的,即數據挖掘技術就是在模糊的、有雜訊的、不完全的、大量的、隨機的數據中,提取潛在的、人們事先不知道的、隱含在其中的有價值的知識與信息的過程。
機器學習是基於對海量信息處理的需求產生的一門涉及多個學科領域交叉的學科,「機器學習是對能通過經驗自動改進的計算機演算法研究」。其主要目的是研究計算機如何通過學習人類的思維和行為,來自動獲取新知識,自動適應環境的變化的。機器學習是人工智慧的核心思想。
現代各企業都十分注重數據,面對各種各樣的數據,因而也衍生了各大數據服務平台,例如,華為雲機器學習平台(MLS)是EI的一項基礎服務,幫助用戶通過機器學習技術迅速發現數據規律,構建預測模型,並將其部署為預測分析解決方案。不管現在和將來,數據都會成為時代的標志。
7. 大數據是什麼概念
世界包含的多得難以想像的數字化信息變得更多更快……從商業到科學,從政府到藝術,這種影響無處不在。科學家和計算機工程師們給這種現象創造了一個新名詞:「大數據」。
所謂大數據,那到底什麼是大數據,他的來源在哪裡,定義究竟是什麼呢?
七:最後北京開運聯合給您總結一下
不管大數據的核心價值是不是預測,但是基於大數據形成決策的模式已經為不少的企業帶來了盈利和聲譽。
1、從大數據的價值鏈條來分析,存在三種模式:
1)手握大數據,但是沒有利用好;比較典型的是金融機構,電信行業,政府機構等。
2)沒有數據,但是知道如何幫助有數據的人利用它;比較典型的是IT咨詢和服務企業,比如,埃森哲,IBM,Oracle等。
3)既有數據,又有大數據思維;比較典型的是Google,Amazon,Mastercard等。
2、未來在大數據領域最具有價值的是兩種事物:
1)擁有大數據思維的人,這種人可以將大數據的潛在價值轉化為實際利益;
2)還未有被大數據觸及過的業務領域。這些是還未被挖掘的油井,金礦,是所謂的藍海。
大 數據是信息技術與專業技術、信息技術產業與各行業領域緊密融合的典型領域,有著旺盛的應用需求、廣闊的應用前景。為把握這一新興領域帶來的新機遇,需要不
斷跟蹤研究大數據,不斷提升對大數據的認知和理解,堅持技術創新與應用創新的協同共進,加快經濟社會各領域的大數據開發與利用,推動國家、行業、企業對於
數據的應用需求和應用水平進入新的階段。
8. 白話大數據
一、什麼是大數據?
1、專家學者眼裡的大數據:
第一種說法:
需具備5V特徵:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
第二種說法:
超過某個特定大小閥值的數據叫大數據,好像這個閥值有好幾個版本。
2、政府官員眼裡的大數據
能夠產生巨大 社會 財富和民生福祉,提高政府治理水平。
其實吧,目前政府搞的所謂大數據還是幾十年前的數據倉庫。
3、工程師眼裡的大數據
(1)用到數據的范圍變寬了,以前只用了一小部分數據,現在用了一大部分數據。
其實市場上60%號稱搞了大數據的單位,還只是用了一小部分數據。
(2)用到數據的深度變深了,以前由於技術能力所限,只能計算一定數量的數據,現在這個能力大大提升了。
二、 社會 大眾對大數據作用的誤區
以前微信圈裡,流傳著一個段子:
一家比薩店,外賣電話響了,店長拿起電話。
店長: 比薩店。您好,請問有什麼需要我為您服務的?
顧客:你好,我想要一份比薩。
店長:請問您是陳先生嗎?
顧客:你怎麼知道我姓陳?
店長:陳先生,因為我們聯機的CRM(客戶關系管理)系統對接了三大通信服務商,看到您的來電號碼,我就知道您貴姓了。
顧客:哦,我想要一個海鮮至尊比薩。
店長:陳先生,海鮮比薩不適合您,建議您另選一種。
顧客:為什麼?
店長:根據您的醫療記錄,您的血尿酸值偏高,有痛風的症狀,建議您不要食用高嘌呤的食物。您可以試試我們店最經典的田園蔬菜比薩,低脂、 健康 ,符合您現階段的飲食要求。
顧客:你怎麼知道我會喜歡這種?
店長:您上周在一家網上書店買了一本《低脂 健康 食譜》,其中就有這款比薩的菜譜。
此外,好告訴顧客由於欠銀行多少錢不能刷卡、不能吃哪一類食物、正在開什麼車、當前離披薩店有多遠等等個人詳細信息。
這個場景明顯是鬼扯。
首先,這些數據涉及整個 社會 方方面面的數據,試問會有這么神話的團體能整合這些全面的數據;
目前,政府自己內部很多數據都打不通,況且還有整個 社會 企業的數據。
其次,還涉及到數據隱私的問題,一個普通的披薩店就能知道 社會 大眾的特徵、明細數據和生活實時數據。這個披薩店是統領宇宙的吧。
9. 白話雲計算、邊緣計算、大數據
雲計算、邊緣計算、大數據這些概念總給人以高端、神秘的感覺,有些商家還以此為噱頭,營銷產品,忽悠消費者,把消費者弄得雲里霧里。
所謂雲計算,字面上理解就是在「雲」上做計算,「雲」給人直觀的特點有:在遠端,無限大。雲計算中的「雲」可以理解為通過網路為用戶提供各種資源或能力(包括計算、存儲、分析等)的一個東西,它可能包括各種各樣的硬體設備或軟體產品在內,更簡單地理解,可以將其類比為遠離用戶的一個超大型機房或計算中心。
所謂邊緣計算,就是在雲邊緣,即數據產生的源頭側設備進行的計算,我們每個人的手機、電腦,家用電視機、智能家居設備,以及各種具備計算能力的工業設備,他們所進行的計算都可以理解為邊緣計算。
雲計算是一種集中式服務,擁有強大的計算能力和分析處理能力,能夠對海量的數據進行分析處理,更注重於從海量數據中獲得用戶感興趣的數據,剔除冗餘數據。邊緣計算更注重實時性,及時對現場少量的數據進行運算處理。雲計算和邊緣計算是相輔相成的,把雲計算比作人的大腦的話,邊緣計算就類似於人的手、腳、耳、鼻,相互配合才能發揮最大的效益。
大數據從字面上理解就是「大」,確實是這樣,我們進行的所有 社會 活動或私人活動都在每時每刻不停地產生著數據,我們網上購物會產生網購數據、旅行走路會產生軌跡數據、聊天視頻會產生數據,甚至於睡覺都會產生數據。小到個人大到部門,公司, 社會 更是會產生海量的數據。
這些海量的數據初看似乎大都是無用的數據,但經過處理,正確運用後就會產生價值,海量的數據對應的正是無限的價值。例如通過對消費者地域、喜好等的一系列分析,可以達到精準營銷的目的,為企業增效提質。公安系統可以利用大數據技術,在全國范圍內對不法分子進行篩查、鑒別,減小 社會 危害。還有地圖軟體,也是利用大數據,對車流、交通的分析處理,為用戶預測規劃出某一時間段內的最優路線,提升出行效率。再如某某軟體,通過大數據技術,分析出用戶口味、使用頻次、周圍人群特徵等,同一商品對不同的用戶賦以不同的價格,做到大數據殺熟。
10. 關於大數據和機器智能的基礎概念
大數據和人工智慧一直是炒作和討論的熱點,但具體什麼是大數據?怎麼樣才算機器有了智能?是不是數據量大了就是大數據?根據預定好的規則生成特定的結果就是智能了?
所謂機器智能通俗講就是機器(更多時候指計算機)能夠做只有人才能做的事。如何判斷一個機器有智能呢?1950年圖靈博士提出了測試的方法,即圖靈測試-----讓機器和人同時隱藏起來回答問題,若提問者分辨不出是機器在回答還是人在回答,那麼機器就有了智能。
沿著圖靈測試,計算機科學家們認為如果計算機能做下面的幾件事,就算有了智能:
1.語音識別:這就好像人能夠聽懂語言
2.機器翻譯:這就好像人能夠看懂文字
3.文本的自動摘要或寫作:這就好像只有人才懂得抓重點和組合出有意義的段落、文章
4.戰勝人類的國際象棋冠軍:但其實象棋這種封閉式規則的事情,計算機能夠比人更勝任是很正常的。因為計算機可以快速計算和判斷最好的走法且不受情緒等環境的影響。所以個人不認為這個能代表計算機有了智能
5.自動回答問題:這就好像人可以理解語言並根據理解給出答案
一直以來,科學家們在讓機器有智能上,更多的努力放在怎麼樣讓機器跟人一樣的思考,史稱機器智能1.0鳥飛派(傳統機器智能方法)----讓機器像人一樣的思考來獲得智能。但是收效並不客觀,經過20幾年的發展,這種方法遇到了很大瓶頸。
直到1970賈里尼克用通信的思路解決這個問題:建立數學模型,並通過機器學習不斷訓練模型。至此開創了數據驅動的方法來解決智能的問題。賈里尼克開創的採用統計方法的語音識別系統較傳統的語音識別方法識別率從70%提高到了90%,使得語音識別從實驗室的研究走向了實際的應用。
那麼傳統的方法和賈里尼克的方法分別是如何實現語音識別的呢?
傳統的方法是:整理語法與語義形成規則,當一句話輸入時,計算機就根據語法和語義去匹配來識別語音。這就好像我們學英語,要懂得讀音、單詞的意義、語法,才能懂得一句話。
賈里尼克的方法是:用馬爾科夫模型來描述信源和信道,模型中有很多參數,然後用數據來訓練最佳的參數取值,最後得到最佳的效果(具體參數是什麼?是怎樣訓練的?訓練後怎樣轉換等涉及的知識很多,不詳述)。
可以看到,數據驅動的方法完全拋棄了傳統基於像人一樣的做法,完全依賴於模型和對模型的訓練(訓練模型的過程就是機器學習的過程)。
從上文可以看到,數據驅動實現智能的方法對機器學習的依賴,而機器學習效果的好壞依賴於可供學習的數據。
雖然賈里尼克開創了新的實現智能的方法,但是在很多領域,由於積累的數據量不足以支撐訓練的需要,因此機器智能的發展並沒有很大的提高。比如機器翻譯,直到20世紀90年代互聯網的興起,准確性才不斷提高,這是因為互聯網積累了大量的可供訓練的翻譯數據,使得可以不斷通過機器學習修正模型。
大數據促進機器智能的發展是因為大數據多維度、完備的特徵。多維度、完備的數據,可以讓計算機學習到所有情況,進而處理問題時,可以處理所有場景。比如機器翻譯,大數據包含了所有可能的語句翻譯,這讓計算機可以學習到所有可能的翻譯情況,當需要翻譯的時候,只要將結果匹配出來就可以了。
說起大數據,大家都知道它的3v特徵:vast、variety、velocity
首先理解後面兩個特徵:
1.variety:多樣:多樣性指的是數據包含了不同的方面。比如描述一個人的數據,多樣性意味著,能描述這個人從長相、生活、精神等等各個方面。有了不同的方面,意味著可以將數據抽象成不同的維度,然後把不同的維度隨意組合聯系起來,這樣就可以得到單個角度看得不到的結果。
2.velocity:完備:完備性指的是數據覆蓋了全部的可能性。而不像統計學上只能通過樣本來預測全部,大數據本身就是全集。
有了前兩個特徵就不難理解vast大量的特徵了:覆蓋所有維度、包含全部可能性的數據集合起來當然數據量就很大了。
這三個特點對大數據可以說是缺一不可,缺少任何一個,都無法發揮大數據的威力,也無法讓大數據促進機器智能的實現。
1.數據的產生:1.全球數字化程度不斷提高,使得很多數據實現了電子化(比如紙質的辦公轉為電腦辦公);數字化使得各種信息系統不斷被開發使用和復雜程度越來越高,系統的運行無時無刻不在產生數據。2.感測器技術的大量應用和普及,包括商品上的rfid晶元、交通感測器、穿戴設備等。3.將非數字化的內容數字化,如將紙質書籍轉換成電子書。4.互聯網2.0的發展使得每個人每天都在產生數據,發的朋友圈、文章、評論等。
2.數據的存儲:數據的產生渠道越來越多,數據量也就越來越大,摩爾定律指導下的半導體產業的發展使得存儲器的容量不斷增長、價格不斷降低,這使得將這么多的數據存儲可以以低成本存儲下來。
3.數據的讀取:如果把大量的數據存儲下來,但是計算機的處理(單說輸入輸出)速度跟不上,也無法使用這些數據,固態硬碟容量變大、成本降低使得使用這么多數據成為可能。
4.數據的傳輸:數據從各個產生端(如感測器)生成後,如何傳輸到存儲器(如伺服器)上存儲起來,第四代lte和WiFi的發展使得傳輸不再是問題。
5.數據的處理:如何分析使用這么大量的數據,就需要處理能力很高的處理器,雖然處理器的性能遵循摩爾定律,每18個月翻一番,但數據產生的速度遠遠超過處理器性能的提升。因此無法用單一處理器處理大數據。並行計算技術的出現解決了這一問題(但並行技術本身又受到交換機、網路速度等條件的限制,2002年Google等公司在解決這些問題上取的了很大進展,使得雲計算開始興起)
數據產生、存儲、處理技術的進步和發展,使得使用大數據成為可能,當條件成熟時,大數據自然而然就出現和發展起來了。
是不是有了大數據就能毫無問題地實現機器智能了?顯然要實現機器智能,要有完備的數據、要能夠處理完備的數據。雖然數據存儲、處理的技術在不斷發展,但是在實際應用的過程中,仍然還有很大的局限性,這些技術條件是不可逾越的條件:
1.大數據的收集:關鍵在於如何獲得完備、多樣的全集數據?尤其是一些不常見場景的數據如何獲取到?
2.數據存儲:關鍵在於數據量的增長大於存儲器的增長、以及用什麼樣的結構存儲才便於讀取和使用?(那麼多的維度如何抽象呢?如何檢索呢?)
3.數據共享:大數據的完備性,使得單獨的公司很難收集到所有的數據,這就要求將不同公司收集的數據集合起來使用(比如從事電商的公司有購買方面的數據、從事出行方面的公司有出行方面的數據,但沒有一個公司能夠同時收集到這兩方面的數據)。不同的公司存儲、使用數據的方式不一致,當要集合起來的時候如何統一數據格式來實現共享和共用呢?
4.並行計算:一些特殊的場景無法並行計算,這導致整個計算的最終結果需要等待特殊情況的處理;不同計算器的計算效率不同,整個任務處理由最慢的計算結果決定;因此並行計算並不是只是多加伺服器那麼簡單,還需要優化數據的存儲結構和整個計算的演算法過程。
5.數據挖掘:雜亂超大量的數據無法直接使用,需要先進行清洗和格式化處理,當數據量達到一定量級時,這一步變得並不容易;尤其是雜訊高時,清洗處理的結果直接影響了應用的有效性;數據量大、學習模型復雜,使得機器學習的過程變得很漫長,對並行計算的要求也越高。
所以,當再次聽到AI、大數據的時候,是不是就能夠判斷是真智能還是假智能,是真大數據還是假大數據了。