『壹』 大數據、雲計算屬於計算機科學嗎
大數據和雲計算屬於廣義上的計算機科學。計算機科學是一門包含各種各樣與計算和信回息處理相關主答題的系統學科,而大數據是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力范圍的數據集合,雲計算則是基於互聯網的相關服務的增加、使用和交付模式,大數據、雲計算的開展都需要依託計算機技術。
『貳』 澶ф暟鎹鏈夊摢浜涢樁孌
澶ф暟鎹鎶鏈鐨勫彂灞曞彲鑳戒細緇忓巻浠ヤ笅鍑犱釜闃舵碉細
1銆佸ぇ鏁版嵁鎶鏈鍙戝睍鐨勫垵鏈燂細
鉶界劧澶ф暟鎹姒傚康宸茬粡琚鎻愬嚭澶氬勾錛屼絾鏄鐩鍓嶅ぇ鏁版嵁鎶鏈渚濈劧澶勫湪琛屼笟鍙戝睍鐨勫垵鏈熴傚綋鍓嶅ぇ鏁版嵁鎶鏈鏈韜宸茬粡瓚嬩簬鎴愮啛錛屼絾鏄澶ф暟鎹鎶鏈鐨勮惤鍦板簲鐢ㄥ嵈鍒氬垰寮濮嬶紝澶ф暟鎹钀藉湴搴旂敤鐨勮繃紼嬩腑蹇呯劧浼氶噴鏀懼嚭澶ч噺鐨勫伐浣滃矖浣嶅拰甯傚満絀洪棿錛岃繖涓榪囩▼灝嗕嬌寰楀ぇ鏁版嵁鎴愪負甯傚満鐨勭儹鐐癸紝浜烘墠鍜岃祫閲戦兘浼氬悜澶ф暟鎹棰嗗煙鍊炬枩銆
2銆佷駭涓氬寲闃舵碉細
澶ф暟鎹浜т笟鍖栫殑榪囩▼灝嗘槸涓涓緋葷粺鐨勮繃紼嬶紝榪欎釜榪囩▼涓嶄粎浠呮秹鍙婂埌澶ф暟鎹鎶鏈錛屼篃娑夊強鍒扮墿鑱旂綉銆佷簯璁$畻絳夋妧鏈錛屽彟澶栧ぇ鏁版嵁涓庝紶緇熻屼笟涔熸湁瀵嗗垏鐨勮仈緋伙紝榪欎簺閮介渶瑕佷竴涓緋葷粺鐨勮勫垝鎵嶈兘瀹屾垚澶ф暟鎹鐨勪駭涓氬寲銆
鉶界劧鐩鍓嶅ぇ鏁版嵁棰嗗煙宸茬粡鏈変簡涓涓鍒濇ョ殑浜т笟閾撅紝浣嗘槸紱葷湡姝g殑浜т笟鍖栭樁孌佃繕鏈夎緝闀誇竴孌佃窛紱伙紝鐩鎬俊闅忕潃浜т笟浜掕仈緗戠殑鍙戝睍錛屽ぇ鏁版嵁浜т笟鍖栫殑榪涚▼涔熶細鍔犲揩銆備粠澶ф暟鎹鑷韜娑夊強鍒扮殑鍐呭規潵鐪嬶紝澶ф暟鎹浜т笟鍖栫殑鏃墮棿鏈夊彲鑳介渶瑕佹暟騫寸敋鑷蟲暟鍗佸勾銆
3銆佽屼笟鎴愮啛鏈燂細
褰撳ぇ鏁版嵁浜т笟鍖栬繘紼嬬粨鏉熶箣鍚庯紝澶ф暟鎹鐩稿叧鎶鏈灝嗘垚涓轟紶緇熸妧鏈涔嬩竴錛岀浉鍏崇殑甯傚満瑙勬ā涔熶細瓚嬩簬騫崇ǔ錛屼互澶ф暟鎹涓哄熀紜鐨勬柊鐨勫簲鐢ㄥ皢鎴愪負甯傚満榪芥眰鐨勭儹鐐廣
澶ф暟鎹鍙戝睍鐨勮秼鍔垮寘鎷浣嗕笉闄愪簬錛
1銆佹暟鎹鐨勮祫婧愬寲錛
浣曚負璧勬簮鍖栵紝鏄鎸囧ぇ鏁版嵁鎴愪負浼佷笟鍜岀ぞ浼氬叧娉ㄧ殑閲嶈佹垬鐣ヨ祫婧愶紝騫跺凡鎴愪負澶у朵簤鐩告姠澶虹殑鏂扮劍鐐廣傚洜鑰岋紝浼佷笟蹇呴』瑕佹彁鍓嶅埗瀹氬ぇ鏁版嵁钀ラ攢鎴樼暐璁″垝錛屾姠鍗犲競鍦哄厛鏈恆
2銆佷笌浜戣$畻鐨勬繁搴︾粨鍚堬細
澶ф暟鎹紱諱笉寮浜戝勭悊錛屼簯澶勭悊涓哄ぇ鏁版嵁鎻愪緵浜嗗脊鎬у彲鎷撳睍鐨勫熀紜璁懼囷紝鏄浜х敓澶ф暟鎹鐨勫鉤鍙頒箣涓銆傝嚜2013騫村紑濮嬶紝澶ф暟鎹鎶鏈宸插紑濮嬪拰浜戣$畻鎶鏈緔у瘑緇撳悎錛岄勮℃湭鏉ヤ袱鑰呭叧緋誨皢鏇翠負瀵嗗垏銆傞櫎姝や箣澶栵紝鐗╄仈緗戙佺Щ鍔ㄤ簰鑱旂綉絳夋柊鍏磋$畻褰㈡侊紝涔熷皢涓榻愬姪鍔涘ぇ鏁版嵁闈╁懡錛岃╁ぇ鏁版嵁钀ラ攢鍙戞尌鍑烘洿澶х殑褰卞搷鍔涖
3銆佺戝︾悊璁虹殑紿佺牬錛
闅忕潃澶ф暟鎹鐨勫揩閫熷彂灞曪紝灝卞儚璁$畻鏈哄拰浜掕仈緗戜竴鏍鳳紝澶ф暟鎹寰堟湁鍙鑳芥槸鏂頒竴杞鐨勬妧鏈闈╁懡銆傞殢涔嬪叴璧風殑鏁版嵁鎸栨帢銆佹満鍣ㄥ︿範鍜屼漢宸ユ櫤鑳界瓑鐩稿叧鎶鏈錛屽彲鑳戒細鏀瑰彉鏁版嵁涓栫晫閲岀殑寰堝氱畻娉曞拰鍩虹鐞嗚猴紝瀹炵幇縐戝︽妧鏈涓婄殑紿佺牬銆
4銆佹暟鎹縐戝﹀拰鏁版嵁鑱旂洘鐨勬垚絝嬶細
鏈鏉ワ紝鏁版嵁縐戝﹀皢鎴愪負涓闂ㄤ笓闂ㄧ殑瀛︾戱紝琚瓚婃潵瓚婂氱殑浜烘墍璁ょ煡銆傚悇澶ч珮鏍″皢璁劇珛涓撻棬鐨勬暟鎹縐戝︾被涓撲笟錛屼篃浼氬偓鐢熶竴鎵逛笌涔嬬浉鍏崇殑鏂扮殑灝變笟宀椾綅銆備笌姝ゅ悓鏃訛紝鍩轟簬鏁版嵁榪欎釜鍩虹騫沖彴錛屼篃灝嗗緩絝嬭搗璺ㄩ嗗煙鐨勬暟鎹鍏變韓騫沖彴錛屼箣鍚庯紝鏁版嵁鍏變韓灝嗘墿灞曞埌浼佷笟灞傞潰錛屽苟涓旀垚涓烘湭鏉ヤ駭涓氱殑鏍稿績涓鐜銆
5銆佹暟鎹璐ㄩ噺鏄疊I錛堝晢涓氭櫤鑳斤級鎴愬姛鐨勫叧閿錛
閲囩敤鑷鍔╁紡鍟嗕笟鏅鴻兘宸ュ叿榪涜屽ぇ鏁版嵁澶勭悊鐨勪紒涓氬皢浼氳劚棰栬屽嚭銆傚叾涓瑕侀潰涓寸殑涓涓鎸戞垬鏄錛屽緢澶氭暟鎹婧愪細甯︽潵澶ч噺浣庤川閲忔暟鎹銆傛兂瑕佹垚鍔燂紝浼佷笟闇瑕佺悊瑙e師濮嬫暟鎹涓庢暟鎹鍒嗘瀽涔嬮棿鐨勫樊璺濓紝浠庤屾秷闄や綆璐ㄩ噺鏁版嵁騫墮氳繃 BI 鑾峰緱鏇翠匠鍐崇瓥銆
浠ヤ笂鍐呭瑰弬鑰冿細鐧懼害鐧劇-澶ф暟鎹
『叄』 大數據時代發展歷程是什麼
可按照時間點劃分大數據的發展歷程。
『肆』 大數據下一個十年將如何演進
作者 | Oleksii Kharkovyna
編譯 | 夏夜
當下我們生活在數據的時代里。機器學習和數據分析技術已經成為了我們當今生活密不可分的一部分。那接下來會怎樣呢?
在這篇博客中,我不打算預測數據科學面對的未來是什麼,不會去猜測它的未來是光明有前途,還是毫無希望。這里我只結合自己,還有我認識的一些人的經歷,提供一些決定性因素幫忙做預測。
拋開這些,我先大致勾勒一下今後 10 年影響數據科學未來的關鍵因素。我希望它會在工作流程上帶給你一些有價值的見解。不用多說,這只是我的個人預測。如果你感興趣,請繼續讀下去!
數據科學的未來:我怎樣看待?
1、更多的數據科學策略
數據科學就是通過定量的方式解決問題的一門學科。在過去,由於缺少數據或數據處理能力,我們只能依賴其它東西,比如「獨裁者的突發奇想」、「專家的直覺」和「普遍的共識」等。今天,這些根本都不管用了,而且毫無疑問,10 年後它們的作用會更有限。數據科學家轉而在搭建一些系統,這些系統可以輸出語音、預測、給出期望並輸出真正的結果。
數據科學技術的泡沫不會破裂,相反,數據驅動策略的引入將繼續占據主流。更多的人會關注數據,從數據中獲得真知灼見,所以數據科學團隊成為任何成功組織機構,至少是大部分組織不可或缺的一部分,由此組織之間會競爭,渴望爭得領域前沿的位置。
2、更多界定明確的角色
因此數據科學會更受歡迎,絕大多數顧客會更清楚數據科學家到底是做什麼的。現在,數據科學家是一個寬泛的頭銜。目前領域內的人使用相關名稱和描述時有一些不嚴謹,所以外界對該領域中人的角色有很多困惑。
我們一般把數據科學領域的角色分成 4 類,它們角色職能不同但有重疊。
數據架構師——開發數據架構,以有效地捕獲、整合、組織、中心化和維護數據。 數據分析師——處理和解釋數據,為公司提供有執行意義的預測。 數據科學家——一旦數據體量和產生速率達到一定水平,需要復雜技術時,他們會對數據進行分析。 數據工程師——開發、測試和維護數據架構,保證隨時使用和分析數據。我認為隨著時間推移,所有這些角色我們會更熟悉,我們也會更了解它們的不同點。因此,顧客會對什麼可得什麼不可得,有更切實際的期待,頭腦中會有更清晰的工作流程,還有從中獲得的收益。
3、更多的軟技能需求
隨著時間推移,我們會更清楚地看到,大量的數據科學家會熟練運用 Python 或 R 語言。但是,向管理層推銷你的想法的能力,說服他們相信你的洞察和見解才值得追求的能力,這種能力會怎樣?可視化描述可以承擔一半工作,而另一半就是老舊的市場營銷能力。結果,我們會看到市場更青睞那些知道如何圍繞出售產品創造關鍵性對話的人。因此,那些能將硬軟技能結合的人會永遠吃香。
4、數據會更多,處理數據的人工智慧也會更多
現在我們談一些嚴肅的東西。每天我們產生的數據量多到難以想像,以我們現在的速度,每天產生數據量有 2.5 個 10 的 18 次方位元組,而且這個速度只會加快。看一下 Raconteur 網站做出的每日關鍵數據信息圖:
5 億推特信息; 2940 億電子郵件; 四千萬億位元組的 Facebook 數據; 四萬億位元組的單位車聯網數據; 650 億條 WhatsApp 信息; 50 億條搜索信息;到 2025 年,預計全球每天將產生 463 艾位元組(463*10^18 位元組)數據,相當於每天 212,765,957 張 DVD 的數據量!
實際上,僅靠數據科學家,無法管理和處理這么龐大的數據。屆時,人工智慧很可能成為協助數據科學家處理數據的有效工具。自動化數據分析工具和機器學習會「聰明」到取代數據科學家做例行工作,比如探索性數據分析、數據清理、統計建模和構建機器學習模型。
5、更少的代碼,相當少的代碼
據特斯拉 AI 總監 A. Karpathy 說,不久的將來,我們可以不用寫代碼了。我們只需要找到數據,並輸入到機器學習系統即可。此種場景下,軟體工程師的角色會成為「數據監管者」。未來大多數程序員都不再需要復雜的軟體倉庫,不用寫復雜的程序。Karpathy 說,程序員會從事搜集、清理、操作、標記、分析數據以及對神經網路產生的數據進行可視化的工作。
機器學習正在引領一種新的計算範式,在該範式中訓練機器才是關鍵技能。隨著機器學習技術的普及,以及通過工具的抽象達到更高程度,我們會看到大部分編程工作會逐漸消失。最終,製造產品的大部分步驟將是屏幕上的拖拽、刷卡、指向和點擊操作。從業者會從中解放出來,在解決問題時更有策略性和創造性。你在《星際迷航》中看到過有誰寫計算機程序嗎?沒有。
諸如 R 語言、Python 和 Spark 這樣的工具會變得無用武之地嗎?大多數數據科學家不再需要通過寫程序的方式做統計分析或訓練機器學習模型了嗎?沒有這么簡單。無論如何,把希望寄託於這些方面意義不大。你仍然需要理解和熟悉所有這些處理過程,機器學習只是輔助一些日常事務。
6、盡可能多地使用 API(應用程序介面)
大部分公司是先做好一件事情,攢到名氣,然後以此起步,以開源 API 的形式貢獻到社區。10 年後,大部分軟體的製作方式會可見地接入到終端,最大程度地利用一切所需的服務生成解決方案。數據科學家能快速構建測試模型,一次建立和測試多種演算法,最後和整個團隊可視化驗證結果。未來隨著適時地引入深度的技術思考,科學家將不再白費力氣做重復工作了。
7、自我學習
傳統的學術環境將逐漸失去意義。信息經濟需要能快速改變信息的途徑。人們通過 3-4 年的學習畢業後,所學的技能已經過時。人們開始掌控自己的學習過程為自己賦能,未來得以生存的學院將是那些擁抱在線學習、快速更新課程授予方式的學院。未來的學習會基於你能構建什麼而定義,而不是缺乏現實世界應用的基礎原理。
Q1. 數據科學家是否會被自動化演算法替代
根據廣受歡迎的 CRISP-DM 數據分析項目的管理方法論,數據分析項目的實施分為 6 個階段,每個階段中,分析師或者數據科學家都是直接參與的:
業務理解 數據理解 數據准備 建模 評估 部署步驟 3 和 4 包括大量的例行化工作。為了利用機器學習解決每個具體的實力,你必須不斷地:
配置模型超參; 嘗試新的演算法; 向模型加入原始特徵的不同表現形態(標准化、方差穩定性、單調變換、降維、分類變數編碼、從已有特徵中創建新特徵等等)。在自動化的幫助下,分析師或數據科學家的例行操作,以及數據准備和清理中的部分操作可以被移除。但是,步驟 3 和 4 中的其他部分,以及 CRISP-DM 中的剩餘步驟都會被保留,所以分析師的這種日常工作上的簡化不會對他們的職業造成任何威脅。
機器學習僅僅是數據科學家使用的工具之一,此外還有可視化、數據調研、統計和計量經濟學方法。即使在機器學習方法里,完全自動化也是不可能的。在解決新演算法及其組合的開發和應用中存在的非標准化問題時,數據科學家的高級角色特性毫無疑問會繼續保持。自動化演算法能夠梳理所有的標准組合,生成一個基礎解決方案,專家們可以此為基礎做進一步改進。但在很多情況下,自動化演算法生成的結果已經足夠好,不用改進即可直接使用。
很難想像,離開分析師的幫助,一種業務可以直接使用自動化機器學習方法生成的結果。任何情況下,上述方案的數據准備、對生成結果的解釋以及其他階段都是必需的。同時,現在許多公司的分析師,不斷與數據打交道,擁有非常成熟的心態,在業務領域非常精通,但是掌握機器學習方法的水平還不夠。
公司通常很難吸引到特別勝任的高薪機器學習專家,市場對他們的需求不斷增長,而且超出供給很多倍。解決辦法可能是為公司的分析師提供使用自動化機器學習工具的渠道,這需要自動化技術的普及。未來,許多公司不用組建高度專業化的團隊,也不需要顧問企業的參與,就能享受到大數據帶來的好處。
Q2. 數據工程師會比數據科學家更搶手嗎?
我認為應該區分一下數據科學家和數據工程師了。
前者是接受過正規教育的應用數學家,他們研究數據科學,開發新演算法,組建神經網路等等。
後者的興趣關注點稍微不同,他們了解每種方法的理論和應用局限,能成功解決業務問題。
前者能做事情永遠不缺,而後者的部分工作可以自動化完成,但無法完全自動化。新方法、新演算法和新的解決途徑總會出現。另外,對主題領域和數據本質的專業性理解,對顧客目標的理解,以及快速實現目標的能力,無法通過完全自動化的方法做到,所以這些能力仍然極其重要。
數據科學是切合實際的科學——但是世界正朝著功能性的數據科學發展,從業人員可以自己做數據分析。相比於數據科學家,你需要更多的數據工程師來啟動數據流程和整合的數據結構。
聰明的機構擁有聰明的人才,他們很懂自己的數據。數據科學家之所以存在的原因是大多數機構還不太懂數據。但他們以後會懂的。
如果一名數據科學家創造了一項突破性演算法,但沒有數據工程師將該演算法落地到業務生產中,那演算法會產生價值嗎?
我重申一下我最喜歡的 Gartner 數據,只有 15% 的大數據項目最後投入了生產領域。雖然他們從沒有深入探尋剩下的 85% 為什麼沒能投入生產領域,但是我提出一些未能成功落地的幾個關鍵原因:
他們沒有找到一個能值得落地的見解; 他們找到了合適的見解,也構建了模型,但沒能創建可以在服務水平協議框架下多次使用的流水線; 他們不需要什麼見解,因為他們需要的數據分析不用依賴復雜的模型。但仍然是沒能可以在服務水平協議框架下多次使用的流水線。這就是為什麼每家數據科學公司都需要至少兩名數據工程師的原因。
總結
數據科學家職業的未來前景如何,仍然很模糊,需要專業的判斷。但是,每天都有新的代碼庫和工具出現,我們絕不是走在簡化開發和創建業務模型這些基礎設施的道路上。許多人都很自信地說不錯,但還有不好的一面,我們創建的系統越復雜,系統就越隨機,越基於概率。
目前人工智慧階段的主要問題是在預言結果的意義是缺乏直覺。我們只有定量的方法來解決某個特定的問題,基於此方法做出預測,但是預測的質量不高。目前為止,這個方法運行得很不錯的,但未來不得而知。
讓我們拭目以待吧。
『伍』 信息與計算科學專業與大數據有關系嗎
當然有關聯,前者是基礎,後者是現在最火的專業,可以看這邊