㈠ 人工智慧發展史 4張圖看盡AI重大里程碑
作者 | 王健宗 瞿曉陽
來源 | 大數據DT
01 人工智慧發展歷程
圖1是人工智慧發展情況概覽。人工智慧的發展經歷了很長時間的歷史積淀,早在1950年,阿蘭·圖靈就提出了圖靈測試機,大意是將人和機器放在一個小黑屋裡與屋外的人對話,如果屋外的人分不清對話者是人類還是機器,那麼這台機器就擁有像人一樣的智能。
▲圖1 人工智慧起源及發展
隨後,在1956年的達特茅斯會議上,「人工智慧」的概念被首次提出。在之後的十餘年內,人工智慧迎來了發展史上的第一個小高峰,研究者們瘋狂湧入,取得了一批矚目的成就,比如1959年,第一台工業機器人誕生;1964年,首台聊天機器人也誕生了。
但是,由於當時計算能力的嚴重不足,在20世紀70年代,人工智慧迎來了第一個寒冬。早期的人工智慧大多是通過固定指令來執行特定的問題,並不具備真正的學習和思考能力,問題一旦變復雜,人工智慧程序就不堪重負,變得不智能了。
雖然有人趁機否定人工智慧的發展和價值,但是研究學者們並沒有因此停下前進的腳步,終於在1980年,卡內基梅隆大學設計出了第一套專家系統——XCON。該專家系統具有一套強大的知識庫和推理能力,可以模擬人類專家來解決特定領域問題。
從這時起,機器學習開始興起,各種專家系統開始被人們廣泛應用。不幸的是,隨著專家系統的應用領域越來越廣,問題也逐漸暴露出來。專家系統應用有限,且經常在常識性問題上出錯,因此人工智慧迎來了第二個寒冬。
1997年,IBM公司的「深藍」計算機戰勝了國際象棋世界冠軍卡斯帕羅夫,成為人工智慧史上的一個重要里程碑。之後,人工智慧開始了平穩向上的發展。
2006年,李飛飛教授意識到了專家學者在研究演算法的過程中忽視了「數據」的重要性,於是開始帶頭構建大型圖像數據集—ImageNet,圖像識別大賽由此拉開帷幕。
同年,由於人工神經網路的不斷發展,「深度學習」的概念被提出,之後,深度神經網路和卷積神經網路開始不斷映入人們的眼簾。深度學習的發展又一次掀起人工智慧的研究狂潮,這一次狂潮至今仍在持續。
圖2列出了人工智慧發展史上的一些重要事件。從誕生以來,機器學習經歷了長足發展,現在已經被應用於極為廣泛的領域,包括數據挖掘、計算機視覺、自然語言處理、生物特徵識別、搜索引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰略游戲、藝術創作和機器人等,以及我們特別關注的機器學習和深度學習未來發展的一大趨勢——自動化機器學習和深度學習(AutoML及AutoDL)。
▲圖2 人工智慧發展重大事件
02 下一代人工智慧
我們首先通過圖3來回顧一下人工智慧的發展歷程。
▲圖3 人工智慧發展歷程
到目前為止,人工智慧按照總體向上的發展歷程,可以大致分為4個發展階段,分別為精耕細作的誕生期、急功近利的產業期、集腋成裘的爆發期,以及現在逐漸用AutoML來自動產生神經網路的未來發展期。
早期由於受到計算機算力的限制,機器學習處於慢速發展階段,人們更注重於將邏輯推理能力和人類總結的知識賦予計算機。但隨著計算機硬體的發展,尤其是GPU在機器學習中的應用,計算機可以從海量的數據中學習各種數據特徵,從而很好地完成人類分配給它的各種基本任務。
此時,深度學習開始在語音、圖像等領域大獲成功,各種深度學習網路層出不窮,完成相關任務的准確率也不斷提升。同時,深度學習神經網路朝著深度更深、結構更加巧妙復雜的方向推進,GPU的研發與應用也隨著神經網路對算力要求的不斷提高而持續快速向前推進。圖4展示了近年來主要神經網路的發展。
▲圖4 主要深度神經網路的發展
2012年,AlexNet為了充分利用多個GPU的算力,創新性地將深度神經網路設計成兩部分,使網路可以在兩個GPU上進行訓練。
2013年,ZFNet又進一步解決了Feature Map可視化的問題,將深度神經網路的理解推進了一大步。2014年,VGGNet通過進一步增加網路的深度而獲得了更高的准確率;同年,GoogLeNet的發明引入了重復模塊Inception Model,使得准確率進一步提升。
而2015年ResNet將重復模塊的思想更深層次地發展,從而獲得了超越人類水平的分辨能力。這時,由於深度神經網路層數的不斷加深,需要訓練的參數過於龐大,為了在不犧牲精度的同時減少需要訓練的參數個數,2017年DenceNet應運而生。
隨著深度神經網路的不斷發展,各種模型和新穎模塊的不斷發明利用,人們逐漸意識到開發一種新的神經網路結構越來越費時費力,為什麼不讓機器自己在不斷的學習過程中創造出新的神經網路呢?
出於這個構思,2017年Google推出了AutoML——一個能自主設計深度神經網路的AI網路,緊接著在2018年1月發布第一個產品,並將它作為雲服務開放出來,稱為Cloud AutoML。
自此,人工智慧又有了更進一步的發展,人們開始探索如何利用已有的機器學習知識和神經網路框架來讓人工智慧自主搭建適合業務場景的網路,人工智慧的另一扇大門被打開。
㈡ 大數據時代發展歷程是什麼
可按照時間點劃分大數據的發展歷程。
㈢ 大數據的生命周期的九個階段
大數據的生命周期的九個階段
企業建立大數據的生命周期應該包括這些部分:大數據組織、評估現狀、制定大數據戰略、數據定義、數據收集、數據分析、數據治理、持續改進。
一、大數據的組織
沒有人,一切都是妄談。大數據生命周期的第一步應該是建立一個專門預算和獨立KPI的「大數據規劃、建設和運營組織」。包括高層的首席數據官,作為sponsor,然後是公司數據管理委員會或大數據執行籌劃指導委員會,再往下就是大數據的項目組或大數據項目組的前身:大數據項目預研究團隊或大數據項目籌備組。這個團隊是今後大數據戰略的制定和實施者的中堅力量。由於人數眾多,建議引入RACI模型來明確所有人的角色和職責。
二、大數據的現狀評估和差距分析
定戰略之前,先要做現狀評估,評估前的調研包括三個方面:一是對外調研:了解業界大數據有哪些最新的發展,行業頂尖企業的大數據應用水平如何?行業的平均尤其是主要競爭對手的大數據應用水準如何?二是對內客戶調研。管理層、業務部門、IT部門自身、我們的最終用戶,對我們的大數據業務有何期望?三是自身狀況摸底,了解自己的技術、人員儲備情況。最後對標,作差距分析,找出gap。
找出gap後,要給出成熟度現狀評估。一般而言,一個公司的大數據應用成熟度可以劃分為四個階段:初始期(僅有概念,沒有實踐);探索期(已經了解基本概念,也有專人進行了探索和探討,有了基本的大數據技術儲備);發展期(已經擁有或正在建設明確的戰略、團隊、工具、流程,交付了初步的成果);成熟期(有了穩定且不斷成熟的戰略、團隊、工具、流程,不斷交付高質量成果)。
三、大數據的戰略
有了大數據組織、知道了本公司大數據現狀、差距和需求,我們就可以制定大數據的戰略目標了。大數據戰略的制定是整個大數據生命周期的靈魂和核心,它將成為整個組織大數據發展的指引。
大數據戰略的內容,沒有統一的模板,但有一些基本的要求:
1. 要簡潔,又要能涵蓋公司內外干係人的需求。
2. 要明確,以便清晰地告訴所有人我們的目標和願景是什麼。
3. 要現實,這個目標經過努力是能達成的。
四、大數據的定義
我認為:「數據不去定義它,你就無法採集它;無法採集它,你就無法分析它;無法分析它,你就無法衡量它;無法衡量它,你就無法控制它;無法控制它,你就無法管理它;無法管理它,你就無法利用它」。所以「在需求和戰略明確之後,數據定義就是一切數據管理的前提」。
五、 數據採集
1. 大數據時代的數據源很廣泛,它們可能來自於三個主要方面:現有公司內部網各應用系統產生的數據(比如辦公、經營生產數據),也有來自公司外互聯網的數據(比如社交網路數據)和物聯網等。
2.大數據種類很多,總的來講可以分為:傳統的結構化數據,大量的非結構化數據(比如音視頻等)。
3. 數據採集、挖掘工具很多。可以基於或集成hadoop的ETL平台、以互動式探索及數據挖掘為代表的數據價值發掘類工具漸成趨勢。
4. 數據採集的原則:在數據源廣泛、數據量巨大、採集挖掘工具眾多的背景下,大數據決策者必須清楚地確定數據採集的原則:「能夠採集到的數據,並不意味著值得或需要去採集它。需要採集的數據和能夠採集到的數據的"交集",才是我們確定要去採集的數據。」
六、數據處理和分析
業界有很多工具能幫助企業構建一個集成的「數據處理和分析平台」。對企業大數據管理者、規劃者來講,關鍵是「工具要滿足平台要求,平台要滿足業務需求,而不是業務要去適應平台要求,平台要去適應廠商的工具要求」。那麼這個集成的平台應該有怎樣的能力構成呢?它應該能檢索、分類、關聯、推送和方便地實施元數據管理等。見下圖:
七、 數據呈現
大數據管理的價值,最終要通過多種形式的數據呈現,來幫助管理層和業務部門進行商業決策。大數據的決策者需要將大數據的系統與BI(商業智能)系統和KM(知識管理)系統集成。下圖就是大數據的各種呈現形式。
八、 審計、治理與控制
1.大數據的審計、治理和控制指的是大數據管理層,組建專門的治理控制團隊,制定一系列策略、流程、制度和考核指標體系,來監督、檢查、協調多個相關職能部門的目標,從而優化、保護和利用大數據,保障其作為一項企業戰略資產真正發揮價值。
2.大數據的治理是IT治理的組成部分,大數據的審計是IT審計的組成部分,這個體系要統籌規劃和實施,而不是割裂的規劃和實施。
3.大數據的審計、治理與控制的核心是數據安全、數據質量和數據效率。
九、 持續改進
基於不斷變化的業務需求和審計與治理中發現的大數據整個生命周期中暴露的問題,引入PDCA等方法論,去不斷優化策略、方法、流程、工具,不斷提升相關人員的技能,從而確保大數據戰略的持續成功!
㈣ 數據發展的歷程
大數據的發展歷程
隨著計算機和網路的發展,信息不斷「爆炸」:
1970s: 超大規模資料庫 (VLDB)【GB=10^9位元組】
21世紀初:海量數據(massive data)【TB=10^12位元組】
2008年:Big data 【PB=10^15位元組】
現在實際的數據量已經達到:ZB=10^3EB=10^6PB=10^21位元組
2008年9月4日,《自然》(Nature)刊登了一個名為「Big Data」的專輯。2011年5月,美國著名咨詢公司麥肯錫(McKinsey)發布《大數據:創新、競爭和生產力的下一個前沿》的報告,首次提出了「大數據」概念,認為數據已經成為經濟社會發展的重要推動力。大數據指的是大小超出常規的資料庫工具獲取、存儲、管理和分析能力的數據集。
2013年3月29日,美國奧巴馬政府宣布推出「大數據研究和發展計劃」(Big Data Research and Development Initiative),有人將其比之為柯林頓政府當年提出的「信息高速公路」計劃 。該計劃涉及美國國家科學基金會、衛生研究院、能源部、國防部等6個聯邦政府部門,投資超兩億美元,研發收集、組織和分析大數據的工具及技術。2012年7月日本推出「新ICT戰略研究計劃」,在新一輪IT振興計劃中日本政府把大數據發展作為國家層面戰略提出。這是日本新啟動的2011年大地震族塵一度擱置的政府ICT戰略研究。英國政府也宣稱投資6億英鎊科學資金,並計劃在未輪卜來兩年內在大數據和節能計算研究投資1.89億英鎊。政府把大量的資金投入到計算基礎設施,用以捕捉並分析通過開放式數據革命獲得的數據流,帶動企業投入更多的資金。
2012年3月,我國科技部發布的「十二五國家科技計劃信息技術領域2013年度備選項目徵集指南」把大數據研究列在首位。中國分別舉辦了第一屆(2011年)兆桐禪和第二屆(2012年)「大數據世界論壇」。IT時代周刊等舉辦了「大數據2012論壇」,中國計算機學會舉辦了「CNCC2012大數據論壇」。國家科技部,863計劃信息技術領域2015年備選項目包括超級計算機、大數據、雲計算、信息安全、第五代移動通信系統(5G)等。2015年8月31日,國務院正式印發《促進大數據發展行動綱要》。