㈠ ai在辯論場上戰勝人類是可喜還是可悲」這個論題的關鍵在哪關鍵詞是什麼
技術是由人發明的,程序是由人編寫的,不是技術戰勝了人類,而是人類集體智慧的結晶戰勝了某個人或某幾個人。
㈡ 2019年AI人工智慧領域都發生了什麼
作者 | David Foster
譯者 | Sambodhi
2019 年無疑是忙碌的一年。人工智慧的進步和新聞頻頻登上頭條新聞,讓我們的生活充滿了敬畏和自豪的時刻,但一些其他時刻充卻斥著一種惱人的想法,那就是這項技術讓人們發現,我們的社會並沒有準備好迎接人工智慧的普及。
2019 年,究竟是人工智慧進步的一年,還是幻滅的一年呢?隨著研究人員攻城略地,迅速攻克以前難以企及的基準,今天,我們可不可以這樣認為,這個領域已經正在步入穩步發展的軌道呢?
在 ADSP(Applied Data Science Partners,意即「應用數據科學合作夥伴」)網站上,我們想後退一步,把 2019 年的人工智慧界發生的事件整理好,以讓公眾能夠有個全新的視角。在聚光燈下,重要的是要將一項工作最初吸引人們的興趣,與它的實際重要性,以及它對該領域產生的影響區分開來。為此,本文將展開人工智慧故事的平行線索,並試圖分離出它們的意義。多虧了我們出色的內容作家 Elena Nisioti,她將這些故事講得如此精彩!
讓我們坐下來,一起回顧 2019 年的人工智慧領域的方方面面。
處在文藝復興時期的領域如果讓我們用一句話來描述 2019 年的人工智慧現狀,那很可能是:「強化學習(Reinforcement Learning )回歸,看起來將永存」。
到目前為止,我們中的大多數人可能已經熟悉了監督式學習(Supervised Learning):有些人收集了大量的訓練數據,將它們饋送到機器學習演算法中,然後得到一個模型,這個模型可以為我們進行預測和分類。我們中的一些人甚至可能有這樣的印象:即,人工智慧就是監督式學習的同義詞。然而,監督式學習只不過是我們今天擁有的 眾多類型的機器學習 中的一種罷了。
在強化學習(Reinforcement Learning,RL)中,智能體用試錯的方法,通過與環境進行交互來學習,這種環境會給它們的行為提供獎勵回報。當涉及到多個智能體時,它們被稱為多智能體強化學習系統(Multi-agent Reinforcement Learning System)。
這個領域已經存在幾十年,從概念上來講,它聽起來比監督式學習更像是一種合理的創造智能的學習機制。然而,直到 2015 年,DeepMind 才獲得了人們的關注,當時 DeepMind 使用深度 Q 學習(Deep Q-learning)創建了 Atari(雅達利) 游戲的智能體,這是一種結合了經典強化學習演算法和深度神經網路的演算法。2018 年,OpenAI 也通過 解決 Montezuma』s Revenge(一款被認為難度特別高的 Atari 游戲),從而在這一領域確立了自己的地位。
在過去的幾個月里,事態升級了:
這些工作重新喚起了學術界對強化學習的信念,在過去,人們曾經認為強化學習效率低下,過於簡單,無法解決復雜的問題,甚至連游戲的問題也不能解決。
今年,另一個大受歡迎的應用是自然語言處理(Natural Language Processing,NLP)。盡管研究人員在這一領域工作了幾十年,但近些年的自然語言處理系統生成的文本聽起來還是不夠自然。自 2018 年底以來,人們的注意力已經從過去的詞嵌入轉移到預訓練語言模型,這是自然語言處理從計算機視覺中借鑒來的一種技術。這些模型的訓練是以非監督的方式進行的,這使得現代系統能夠從互聯網上的大量文本中進行學習。因此,這些模型變得「博聞強識」,並發展出了理解上下文的能力。然後,可以通過監督式學習進一步提高它們在特定任務上的表現。這種通過在不同任務上訓練機器學習模型來改進模型的做法,屬於遷移學習(transfer learning)的范疇,被認為具有巨大的潛力。
自去年 Google BERT、ELMo 和 ulmfit 等系統在 2018 年底推出以來,自然語言處理一直風頭正茂,但今年的聚光燈被 OpenAI 的 GPT-2 給「奪走了」,它的表現引發了人們對 自然語言處理系統的道德使用的大討論。
實踐走向成熟今年,人們也見證了最近一些深度學習技術走向成熟。應用監督式學習,特別是計算機視覺技術,已經催生了現實生活中成功的產品和系統。
生成對抗網路(Generative Adversarial Networks,GAN)是一對神經網路,其中,生成器網路試圖通過學習生成模仿訓練數據的圖像來欺騙判別器網路,現在已經達到了近乎完美的水平。對人工智慧來說,創造虛假但又逼真的人物和物體的圖像,已經不再是前沿領域了。從 2014 年生成對抗網路的引入 到 2019 年 NVDIA 開源的 StyleGAN,一圖勝千言,我們用下面的圖片來說明,這可能是理解該領域進展情況的最佳方式:
2019 年,人工智慧創造的藝術品甚至脫離了過去幾年的假設性討論,成為了今天 博物館裝置和拍賣 的一部分。
計算機視覺還被應用於一些具有重大商業和社會意義的領域,包括自動駕駛車輛和醫學。但是,人工智慧演算法在這些領域中的應用自然是緩慢的,因為它們直接與人類生活直接互動。至少到目前為止,這些系統還不是完全自主的,它們的目的,在於支持和增強人類操作員的能力。
研究團隊正與醫院密切合作,開發用於疾病早期預測的人工智慧系統,並整理大量的健康數據檔案,其中一個值得注意的例子,是 DeepMind Health 和 UCLH 之間正在進行的合作。然而,這些工作中的大部分仍處於試驗階段,迄今為止,唯一獲得 FDA 批準的人工智慧系統是 SubtlePet,這是一款使用深度學習增強醫學圖像的軟體。
沉睡的巨人AutoML是機器學習的子領域之一,自 20 世紀 90 年代以來就一直存在,在 2016 年引起了人們的極大興趣,但不知何故從未登上頭條新聞,至少不像其他人工智慧趨勢那樣。也許這是因為它並不那麼花哨的性質:AutoML 的目的是通過自動化決策來使機器學習的實踐更有效,而今天數據科學家是通過手動、蠻力調優做出的決策。
在過去三年中,我們對這一領域的理解已經發生了變化,今天,大多數大公司都提供了 AutoML 工具,包括 Google Cloud AutoML、Microsoft Azure、Amazon Web Service 和 DataRobot 等。今年,隨著 學習進化人工智慧框架(Learning Evolutionary AI Framework,LEAF)成為最先進的人工智慧技術,人們的興趣轉向了「進化」(Evolutionary)方法。然而,AutoML 還沒有達到可以讓一個完全自動化的人工智慧系統比人工智慧專家團隊執行更好的成熟水平。
對人工智慧的擔憂盡管取得了壓倒性的成功,但今年人工智慧領域也給我們帶來了一些令人沮喪的故事。其中主要問題之一是機器學習模型中的偏見,這一問題直到 2018 年才顯現出來,當時 Amazon 發現他們的 自動招聘系統中存在性別偏見,而美國法院廣泛使用的判決工具 COMPAS 也被發現存在性別和種族的偏見。
今年案件的數量有所增加,這可能表明,公眾和機構對用於自動化決策的現有人工智慧系統越來越懷疑。以下是圖景的一小部分:
今年 10 月份,某醫院的演算法被發現對黑種人患者存有偏見。 去年 10 月,某人權組織指責用於發放英國簽證的人工智慧系統存在種族偏見。 今年 11 月,Apple 的信用評分系統被客戶指責存有性別偏見。偏見是一個特別令人擔憂的問題,因為它位於監督式深度學習的核心中:當有偏見的數據被用於訓練,且預測模型無法解釋時,我們不能真正判斷出是否存有偏見。迄今為止,學術界的反應一直是致力於開發技術,以了解深度模型決策背後的原因,但專家警告稱,如果我們採用正確的實踐方法,那麼許多問題都可以迎刃而解。Google Cloud Model Cards 是最近的一次嘗試,旨在使組織社區走向開源模式,同時明確描述其性質和局限性。
今年另一個讓人擔憂的發現是,當一項技術變得越復雜時,它被濫用的可能性就越大。Deepfake就是生成對抗網路的陰暗面,深度學習演算法被用來在純粹虛構的場景中創建涉及真實人物的圖片或視頻。人們不難看出,這項技術如何被用於傳播虛假新聞,從政治宣傳到欺凌。這個問題單靠科學家是無法解決的,歷史已經證明,科學家並不善於預測他們的發現對現實生活的影響,更不用說控制它們了,這需要社會各界進行廣泛的對話。
今天的人工智慧有多強大?如今,要量化人工智慧的價值真的很困難。但有一點是可以肯定的:人工智慧已經脫離了科幻小說和前衛計算機科學的領域,現在,人工智慧已成為社會不可分割的一部分,人們對人工智慧進行了大量的投資。
今年早些時候,三名主要的深度學習研究人員獲得了圖靈獎,這是對人工智慧作為計算機科學的一個領域的認可,而人們對此期待已久。
㈢ 第四範式塗威威:AutoML 回顧與展望
AI 科技 評論按 ,本文作者第四範式塗威威,該文首發於《中國計算機學會通訊》第15卷第3期,AI 科技 評論獲中國計算機學會授權轉載。
自動機器學習的研究動機
機器學習在推薦系統、在線廣告、金融市場分析、計算機視覺、語言學、生物信息學等諸多領域都取得了成功,在這些成功的應用範例中,也少不了人類專家的參與。Google、 Facebook、網路、阿里巴巴、騰訊等 科技 公司依靠其頂尖的機器學習專家團隊來支撐機器學習在企業內部的各種應用,各類科研機構也在花費大量經費,維護著機器學習科學家團隊。然而,對於很多傳統企業、中小型企業和一般的科研機構,就很難組建出這樣的機器學習專家團隊,其原因是機器學習專家的缺口太大,人才短缺,人才搶奪激烈,專家團隊的管理成本高昂和專家經驗不可復制,等等。
為了機器學習能為更多的企業賦能,在更加廣泛的場景得到應用,有沒有低門檻甚至零門檻的機器學習方法,讓更多的人可以在很少甚至幾乎沒有專業知識的情況下輕松使用,並減少機器學習應用落地對專家人才的依賴?自動機器學習(Automatic/Automated Machine Learning, AutoML)應運而生。其研究目的就是為了使機器學習過程自動化,減少、甚至完全規避人類專家在這個過程中的參與度。
理論出發點
設計機器學習演算法是一件困難重重的事情,能否找到一種通用的機器學習演算法來解決所有的機器學習問題呢?這個問題在 20 多年前就被解答過,對於所有可能的問題,可以證明的是,如果所有問題同等重要,所有的演算法,包括完全隨機的演算法,它們的期望性能是一樣的,所有的演算法沒有優劣之分,這是著名的沒有免費的午餐 (No Free Lunch, NFL)定理的一個不太嚴謹的直觀闡述。
這個定理意味著尋求一種完全通用的機器學習演算法是行不通的。於是,研究人員就開始針對不同的問題展開對應的機器學習研究,這導致了機器學習技術廣泛應用不可復制的問題。在解決某個特例問題的機器學習演算法和針對所有問題完全通用的機器學習演算法之間,有一種可能性是存在可以解決某一類而不只是某一個特例的相對通用的機器學習演算法。自動機器學習就是從這樣的理論考慮出發,試圖去尋找更加通用的機器學習演算法。
目前自動機器學習研究的主要場景
靜態閉環自動機器學習
靜態閉環自動機器學習考慮的是靜態機器學習問題,即給定固定的訓練集,不利用外部知識,尋找在測試集上期望表現最好的機器學習模型。經典的機器學習流程包括數據預處理、特徵處理和模型訓練。自動機器學習在這三個流程中都有廣泛的研究 :
(1) 數據預處理中,研究數據的自動清洗、樣本的自動選擇、數據的自動增強、數據類型的自動推斷等,以達到理解原始數據和提升數據質量的目標。
(2) 對特徵處理方法的研究主要包括自動特徵生成和自動特徵選擇。自動特徵生成的研究包括單特徵變換、多特徵組合、深度特徵生成、特徵學習等。自動特徵選擇一般會配合自動特徵生成使用,先自動生成特徵,再進行自動特徵選擇,對於復雜的特徵處理,一般兩者交替迭代進行。
(3) 模型訓練的研究一般包括自動演算法選擇和自動演算法配置。自動演算法試圖從廣泛的機器學習演算法中選擇適合問題的某一個或者某幾個演算法,這些演算法又有很多的超參數需要配置,自動演算法配置則研究如何進行超參數選擇配置,比如如何配置神經網路結構,實際應用中這兩者也會配合使用。
外部知識輔助的靜態自動機器學習
外部知識輔助的靜態自動機器學習試圖借鑒人類專家選擇數據處理方法、特徵處理方法、模型訓練演算法等的方式進行自動機器學習。人類專家會從以往處理過的機器學習問題中積累經驗,並將此推廣到之後的機器學習問題中。
動態環境的自動機器學習
動態環境下的自動機器學習研究試圖解決的是數據不斷積累、概念發生漂移時的問題。
核心技術
自動機器學習的研究核心是如何更好地對數據處理方法、特徵處理方法、模型訓練方法等基礎部件進行選擇、組合以及優化,以使學習到的模型的期望性能達到最優(見圖 1)。
目前該項研究主要面臨三個難點 :
(1) 超參配置與效果之間的函數無法顯式表達,屬於「黑盒」函數;
(2) 搜索空間巨大,可能的處理方法和組合是指數級,同時不同處理方法擁有各自的超參數,當特徵維度超過 20 時,其多目特徵組合可能的搜索空間都將遠超圍棋可能的狀態空間 ;
(3) 函數值的每次計算大多涉及數據預處理、特徵處理、模型訓練的全流程,函數值的計算代價極其昂貴。為了解決這些問題,採用的核心技術是基礎搜索方法、基於采樣的方法和基於梯度的方法。
圖1 自動機器學習的框架
基礎搜索方法
搜索方法中最常見的是格搜索方法。該方法通過遍歷多維參數組合構成了網格尋求最優化,容易實現,應用廣泛,但是,搜索復雜度隨參數維度呈指數增長,並且會將搜索浪費在不太重要的參數維度上。隨機搜索方法則是對參數空間進行隨機采樣,各個維度相互獨立,克服了維度災難和浪費資源搜索的問題。在實際應用中,隨機搜索方法往往表現得比格搜索要優秀。
基於采樣的方法
基於采樣的方法是被研究得最多的方法,大多也是具有理論基礎的方法,往往比基礎搜索方法表現更優。這類方法一般會生成一個或者多個對樣本空間的采樣點,之後再對這些采樣點進行評估,根據評估的反饋結果進行下一步采樣,最後尋找到相對較優的參數點(見圖 2)。基於采樣的方法分為以下四類:
圖2 基於采樣的方法
該方法試圖建立關於配置參數和最終效果的模型,並依據模型來尋求最優化。這類方法一般先基於已經采樣到的點的效果評估建立模型,然後基於學習到的模型採用某種采樣策略來生成下一個或者下一組采樣點,根據新的采樣點得到的效果進一步更新模型,再采樣迭代,如此尋求對黑盒函數的最優化。由於待優化的函數是「黑盒」函數,在求解過程中只能獲得函數值而不能直接計算函數梯度,因此也被稱為零階優化方法(零階是相對於傳統計算一階或者二階梯度的優化方法)或者非梯度方法。
這類方法有兩個主要的關注點 : 模型和采樣策略。構建的模型一般用來預測配置參數對應的效果。由於采樣依據的模型僅僅是依據之前采樣得到的點的反饋學習,對函數空間未 探索 區域的估計一般是不太准確的,采樣策略需要在函數最優化和空間 探索 之間做出權衡,即在開發利用 (exploitation) 和 探索 (exploration) 之間做出權衡,簡稱 E&E。
貝葉斯優化是一種基於概率模型的方法,一般採用高斯過程、貝葉斯神經網路、隨機森林等作為模型,然後採用提升概率、提升期望、交叉熵、GP-UCB 等作為采樣策略,這些策略都在顯式或者隱式地進行 E&E。最常見的是基於高斯過程的貝葉斯優化方法,這類方法在參數維度較低、采樣點較少時表現較優,但是在高維、采樣點較多時就很難被使用,因此有學者嘗試使用貝葉斯神經網路解決這樣的問題。
基於分類方法的隨機坐標收縮方法 (RAndom COordinate Shrinking, RACOS) 和基於隨機坐標收縮分類模型來進行基於模型的零階優化,有效地解決了貝葉斯優化方法的計算復雜度高、參數類型受限的問題,它一般採用最簡單的 ε-greedy 方法來進行 E&E。隨機坐標收縮方法被證明在高維度場景下顯著優於基於高斯過程的貝葉斯優化方法。
局部搜索方法一般定義某種判定鄰域的方式, 從一個初始解出發,搜索解的鄰域,不斷 探索 更優的鄰域解來完成對解空間的尋優。最常見的方法有爬山法、局部集束搜索等。局部搜索簡單、靈活並易於實現,但容易陷入局部最優,且解的質量與初始解和鄰域的結構密切相關。
啟發式方法主要是模擬生物現象,或者從一些自然現象中獲得啟發來進行優化,最典型的就是基於演化計算方法。這類方法由於很少有理論依據,實際工作中很難對方法的效果進行分析。
這類方法能夠發現一些新的神經網路結構,並被驗證具有一定的遷移能力,但是由於強化學習自身的學習演算法研究尚未成熟,其優化效率相對低下。
基於梯度的方法
由於對優化部件以及超參數的可微性要求較高,並且計算復雜度也高,因此,直接對優化目標進行梯度求解的方法很少使用。
研究熱點
自動機器學習的研究熱點是效率和泛化性。解決自動機器學習的效率問題是自動機器學習技術落地的關鍵之一。效率優化包括六類 :
(1) 混合目標優化,將參數點的評估代價也作為優化目標的一部分,在計算代價和效果之間做權衡。
(2) 同步並行化和非同步並行化。
(3) 提前停止迭代,在訓練早期就剔除一些表現不太好的參數,節省計算資源,比如最經典的逐次減半策略,每過一段時間都剔除其中一半不好的參數,極大地節省了計算資源(見圖 3)。
(4) 對模型訓練進行熱啟動,復用類似參數的訓練結果,降低超參數的評估代價。
(5) 對數據進行采樣,採用小樣本上的參數搜索來代替全樣本的參數搜索,由於小樣本和全樣本最優參數之間可能存在著差異,有一些研究人員試圖學習小樣本和全樣本之間的關系來進行多保真度的自動機器學習(見圖 4)。
(6) 將超參數搜索和機器學習過程結合起來,進一步提升效率和效果,比如基於種群的方法。
機器學習關注的核心是泛化性,自動機器學習的目的也是為了提升最終學習到的模型的泛化性。
圖3 逐次減半策略
圖4 多保真度的自動機器學習
如何判斷自動機器學習是否提升了泛化性,一般採用切分訓練集和驗證集的方式進行估計。為了進一步降低過擬合到驗證集的風險,有一些研究關注如何對模型的泛化效果進行更合理的估計。除此之外,由於自動機器學習往往伴隨著很多次不同參數的模型學習,與最終只選擇一個「最優」的模型不同,選擇其中一些模型進行集成學習也是一種提升泛化性的方式。越來越多的工作混合多種效率優化和提升泛化性的策略對自動機器學習演算法進行優化。
落地應用
來自不同數據之間解決問題手段的可遷移性 / 可復制性為自動機器學習的落地增加了難度。解決不同問題的手段相似性或者可遷移性 / 可復制性越高,自動化越容易,反之越難。目前自動機器學習落地的應用場景主要有圖像數據和表數據。
圖像數據
深度學習取得成功的領域來自圖像。深度學習的核心在於「自動」學習層次化特徵。以前的圖像分析需要人工來做,要從原始像素中提取非常多的特徵,而深度學習很好地解決了這個問題。深度學習使得特徵可學習,同時將人工特徵設計轉變成了人工神經網路結構設計。對於這類數據,自動機器學習研究的核心是使圖像領域的神經網路結構設計自動化。圖像數據之間的相似性較大,原始輸入都是像素,問題解決方案的可遷移性和可復用性也大,因此,自動機器學習在圖像數據上的落地相對容易。
表數據
表數據是抽象數據,不同的表數據之間沒有很強的相似性,不同表數據各列的含義千差萬別,表數據還與實際業務密切相關,需要解決時序性、概念漂移、雜訊等問題,因此自動機器學習在表數據上落地的難度較大,僅僅是自動神經網路結構設計是遠遠不夠的。目前研究的熱點還包括如何將分布在多個表中的數據自動轉化成最終機器學習所需要的單個表數據。
未來展望
演算法方向
在自動機器學習演算法方面,未來的工作如果能在 5 個方向上取得突破,將會有較大的價值。
1. 效率提升。效率可從時間復雜度和樣本復雜度兩方面考量。在給定的計算資源下,更高的效率在一定程度上決定了自動機器學習的可行性,意味著可以進行更多 探索 ,還可能會帶來更好的效果。另外,獲取高質量有標記的樣本往往是非常昂貴的,因此樣本復雜度也是影響機器學習落地的關鍵因素之一。在外部知識輔助的自動機器學習中引入學件 (學件 = 模型 + 模型的規約),利用遷移學習,是未來有效降低樣本復雜度的可能方向 (見圖 5)。
圖5 遷移學習與學件
2. 泛化性。目前自動機器學習在泛化性上考慮較少,泛化性是機器學習最重要的研究方向,未來需要加強。
3. 全流程的優化。與目前大部分自動機器學習只研究機器學習的某一個階段(比如自動特徵、自動演算法選擇、自動演算法配置)不同,實際應用需要全流程的自動機器學習技術。
4. 面對開放世界。現實世界不是一成不變的, 自動機器學習技術需要面對開放的世界,解決數據的時序性、概念漂移、雜訊等問題。
5. 安全性和可解釋性。為使自動機器學習具有安全性,需要解決攻擊應對、雜訊抵抗、隱私保護等問題。如果自動機器學習系統被部署到實際系統中與人交互,則需要更好的可解釋性。
理論方向
在自動機器學習理論方面,目前研究的甚少,對自動機器學習的泛化能力及適用性也知之甚少。因而,我們一方面要回答目前自動機器學習演算法的適用性和泛化能力,另一方面也要回答哪些問題類存在通用的機器學習演算法上和更廣泛問題空間上的自動機器學習演算法的可行性。
作者簡介
塗威威
第四範式資深機器學習架構師、資深科學家。第四範式先知平台大規模分布式機器學習框架 GDBT 的設計者,帶領團隊將 AutoML 及遷移學習應用到工業界並取得顯著的效果提升。
更多有關強化學習的學術和論文話題,歡迎點擊 閱讀原文 加入 AI 研習社強化學習論文小組~
㈣ 初生牛犢不怕虎,自古英雄出少年·華為的天才少年計劃
依靠 天才少年 計劃,華為取得了豐碩的科研成果。就在不久前,依靠天才少年 鍾釗 及其團隊,華為 實現了全球首個AutoML大規模商用。
AutoML是英文 Automated Machine Learning,即 自動機器學習 的簡稱。
2017 年 5 月,谷歌宣布創建了名為AutoML的AI系統,與之前的同類系統相比,該 AI 系統最大的特點是,能夠創建自己的 AI 系統。這是一個劃時代的成就。
就像第一次工業革命完全實現的標志是機器製造機器一樣,AI 系統能夠創建自己的 AI 系統,諭示著人類 社會 的信息革命,取得了突破性進展。
AutoML系統就是人工智慧時代的人類 社會 的大腦,在突飛猛進的大數據,雲計算,和信息技術各領域的不斷突破的加持下,這個人類 社會 的大腦,將以極快的速度推進人類 社會 的信息化。
基於 AutoML系統的重要性和獨特的戰略地位,華為加強了AutoML系統的研發。
在華為內刊《華為人》的一篇文章中介紹,首批 天才少年 之一的鍾釗帶領自己的團隊,把AutoML技術應用到手機上,實現了業界第一次將AutoML大規模商用的突破。
鍾釗在AutoML技術的成就,只是華為 天才少年 計劃取得巨大成就的縮影。
天才少年 計劃啟動以來,華為在部分領域迅速取得突破,研發出一系列意義深遠的關鍵成果。
2019年6月,華為發起 天才少年 項目,作為任正非 拖著世界往前走 戰略的重要舉措。
兩年以來,天才少年們已為華為作出了重要貢獻,取得累累碩果。
鍾釗及其團隊的成就,就是其中之一。
華為 天才少年 的招聘非常嚴格,一般要經過多達七個步驟的流程。簡歷篩選、筆試考核、初次面試、主管面試、若幹部長面試、總裁面試、HR面試。任何一個環節出現問題,都有可能失去進入華為的機會。
少年時代,是一個人活力無限,智力迸發的時代。
少年時代,不但是一個人學習知識的黃金時代,更是一個人創造力最旺盛的時代,初生牛犢不怕虎,自古英雄出少年。少年時代的長足進步,是一個人實現人生的關鍵。
可惜的是,應試教育下的少年兒童,在創造性學習中快速進步的可能,非常之小,這也說明了素質教育的重要。
任正非曾經說過,這些少年就像 泥鰍 一樣,激活我們的組織,激活我們的隊伍。
的確如此,這些受過良好教育的 天才少年 ,如果身處良好的環境,受到良好的保護和支持,就能爆發出驚人的創造力。
正如梁啟超在雄文 少年中國說 中所論,
今日之責任,不在他人,而全在我少年。少年智則國智,少年富則國富,少年強則國強!
願更多的少年天才脫穎而出,願我們的祖國更強大!
㈤ 谷歌發布的人工智慧服務工具AutoML如何使用
在加入谷歌一年後,1月18日凌晨,谷歌雲負責人、首席科學家李飛飛通過自己的推特賬號和博客宣布了谷歌雲取得的里程碑進展:可自動設計、建立機器學習模型的服務——AutoML Vision。
AutoML Vison操作界面
那麼谷歌是如何做到的?AutoML由控制器(Controller)和子網路(Child)2個神經網路組成,控制器生成子模型架構,子模型架構執行特定的任務訓練並評估模型的優劣反饋給控制器,控制器將會將此結果作為下一個循環修改的參考。重復執行數千次「設計新架構、評估、回饋、學習」的循環後,控制器能設計出最准確的模型架構。
2017年3月份,谷歌就推出了機器學習服務Google Cloud Machine Learning Engine,幫助具有機器學習專業知識的開發人員輕松構建適用於任何規模、任何類型數據機器學習模型。不過,那時候的機器學習服務需要使用大量的數據,才能訓練出一般(General)的預測模型,難以符合每家企業的需求。這次推出的AutoML則更進一步,直接為企業提供機器學習技術來建立自家的模型,也推動了谷歌「人工智慧民主化」的戰略目標。
不過,雖然谷歌稱AutoML是市面上唯一提供類似服務的產品,但此前Clarif.ai、微軟的認知服務,以及IBM的Watson視覺識別也能讓曾提供給用戶定製預先訓練好的視覺、語音識別和決策模型的服務。
㈥ 華為「天才少年」頂級薪酬值了!實現全球首個AutoML大規模商用
2019年6月,華為發起「天才少年」項目,這是華為創始人任正非「拖著世界往前走」戰略的重要一環。
在項目啟動的兩年以來,來共計17人入選,並在部分崗位取得了關鍵成果。
在華為內刊《華為人》的一篇文章中,提到了首批「天才少年」中鍾釗的成果,在入職不到一年的時間里,鍾釗與團隊把AutoML技術應用到數千萬台華為手機上,做到了在業界第一次將AutoML大規模商用的突破。第二年,又將研發端到端像素級AutoML流水線,成功將視頻攝影原型演算法的復雜度降低百倍,再次突破業界與學術界的極限。
在自述中,鍾釗表示,跨過了學術研究將基礎研究和商用落地同時進行,通過商用實戰使用AutoML這個最新技術,可以說是在一邊打仗一邊造武器。「也許只有真正向下扎到根,這顆種子才能經受住風雨洗禮,破土而出。」
業內首個AutoML大規模商用
作為引領華為在「無人區」 探索 的年輕隊伍,天才少年在內部被視為攻克世界難題的沖鋒隊。
按照華為此前公開的郵件,天才少年的工資按年度工資制度發放,共有三檔,分別為89.6萬-100.8萬元、140.5萬-156.5萬元、182萬-201萬元。
雖然提出了具有吸引力的薪資,但華為「天才少年」的招聘標准非常嚴格,一般需要經歷7輪左右流程:簡歷篩選、筆試、初面、主管面試、若幹部長面試、總裁面試、HR面試。任何一個環節出現問題或表現不佳都有可能失去進入華為的機會。
鍾釗則是在「天才少年」計劃中拿到最高檔位的員工。
公開資料顯示,鍾釗出生於1991年,本科就讀於華中 科技 大學的軟體工程專業。剛上大三的他,就在2012全國大學生數模競賽中獲得了湖北一等獎。而後前往中國科學院大學自動化研究所攻讀碩士、博士,碩博階段攻讀專業都是「模式識別與智能系統」。
在自述中,鍾釗提到受父親影響,在幼兒園和小學階段就已接觸基礎編程。
「我父親是很早一批的北大學生,之前在中科院的高能物理所(原子能研究所)做研究,是錢三強何澤慧夫婦的學生,他最早是搞核物理研究,就是做兩彈一星,主要是氫彈的研究。他們需要用計算機來進行核物理相關的計算,後來又轉到計算機領域的研究了。父親平時工作中有些東西是我可以接觸到的,我還記得去機房和辦公室找他,得穿鞋套來避免靜電。等我父親下班的過程我拿空閑的電腦玩小烏龜畫畫(LOGO語言),在DOS系統里尋找大學生上課時偷偷安裝的新 游戲 。所以我的興趣就是在父親的潛移默化中培養起來了。」
2018年,鍾釗去美國參加CVPR(IEEE國際計算機視覺與模式識別會議),偶然得知華為在布局AutoML(Automated Machine Learning)技術。強有力的算力和平台支持以及真實的業務場景吸引了鍾釗加入華為。
入職後,鍾釗的第一個任務就是研究如何用演算法來彌補光學的不足,實現手機拍照超越單反拍照的效果,即通過AutoML技術在保證拍照出圖效果的前提下,把演算法簡化下來,滿足產品功耗、速度等指標的要求。
「現在情形下,我們面臨的硬體上的約束是非常苛刻的,但通過兩個月的拼搏,攻關取得了顯著成效。」在鍾釗的自述中,2019年到2021年,華為拍照演算法在M、P系列多款手機中取得突破,其中AutoML這套系統或者說演算法發揮了不可替代的作用。
目前,AutoML技術已成為部門的核心公共能力,也支持了視頻、ARVR、河圖等眾多媒體的關鍵業務。
激活團隊攻堅「世界難題」
鍾釗所在的「天才計劃」只是華為加強研發布局的一個縮影。
「這些少年就像『泥鰍』一樣,鑽活我們的組織,激活我們的隊伍。」任正非曾表示,未來3-5年,相信華為公司會煥然一新,全部「換槍換炮」,一定要打贏這場「戰爭」。
華為曾在一部視頻中公開闡述如何培養「天才少年」。
華為雲人工智慧領域首席科學家田奇在視頻中說,「天才少年」多數指的是25歲-30歲剛畢業的博士研究生,他們在這個時間,體力、智力、創新能力都是最好的。
在培養的過程中,田奇提到,第一步是溝通,了解他們的長處;第二步,「好鋼用在刀刃上」,把業務痛點、難點介紹給他們,做好創新從0到1到N的鏈接;第三,鼓勵他們主動發現問題、解決問題;第四,提供很好的實驗室氛圍,鼓勵自由思考和討論。華為對天才少年的期望是「做最強的接觸研究,把這些基礎研究的成果落地到行業中,最後沉澱到AI平台上」。
據華為官網顯示,除了鍾釗外,2019年入選華為「天才少年」的左鵬飛和李屹,目前已在華為從事雲存儲研究工作和操作系統形式化驗證工作。
除了天才少年,華為在科學家等人才培養上也連續投入多年。
根據公開數據,華為至少擁有包括700多個數學家、800多個物理學家、120多個化學家,還有15000人在從事基礎研究,以及6萬多產品研發人員。同時,華為還與全球300多所高校、900多家研究機構和公司有合作,實施了7840個項目,已投資18億美元,簽署了對外付費的研發合作合同達1000多份。
在被問到如何評價基礎研究是否有成效,心目中的科學家是什麼樣時,任正非曾經表示,「評價基礎研究,不能採用量化的考核方法。我們應從一個很長的時間軸來看科學家講的話,不能計較所有內容是否都具有現實性意義。費馬大定理是用350年證明的,它並沒有對法國經濟起多大貢獻,如果我們這么狹隘地看問題,人類怎麼 探索 前進?但是我們有個約束,方向要大致在公司前進的主航道上。我們對科學家要多一些寬容,對不明白的東西,只要大致對准主航道,我們就多給一點寬容。」
「我們要加強基礎研究的投資,希望用於基礎研究費用從每年總研發費用150-200億美金中劃出更多的一塊來,例如20%-30%,這樣每年有30-40億美金左右作為基礎研究投入。」任正非說。
㈦ 「AI」能自我進化嗎
AI確實進化了,它能做的事情越來越多,成績斐然。它的背後是AI實現路徑的「三級跳」。但是「AI自開發短期內應該無法替代人的工作,還有很長的路要走。」徐文娟說。趙志剛從學術角度分析道:「只有當人類把不同應用領域的AI模型設計出來,並進一步分解出一系列通用模塊,如同化學中的元素周期表、生物中的DNA、RNA,這種自開發才能有更多的應用。」
「僅需幾行代碼就能構建一個回歸模型。」程序員認可谷歌AutoML的工作表現,認為AutoML設計的模型和機器學習專家設計的不相上下。日前,谷歌工程師分別在中國和矽谷重點推介谷歌AutoML項目。不明就裡的疑惑緊跟著紛至沓來——AI又進化了?!已經會自開發了?能操控自己的進化了?是要擺脫人類嗎?
國家超級計算濟南中心大數據研發部研究員趙志剛說:「起初我們用數學公式和『if……then』等語句告訴計算機第一步做什麼、第二步做什麼,手把手地教,後來給機器n組輸入和輸出,中間的規則或規律由它自己學會。」
「之前,很多聰明的頭腦花一輩子時間研究:如何抽取有效的特徵。」專注於智能導購對話機器人的智能一點公司CTO莫瑜解釋道,「神經網路演算法的發明、深度學習技術的出現,使得AI進化到2.0,抽取特徵的工作由AI自己進行,我們的工作也隨之發生了變化。」
用數學函數的模式很容易解釋「1.0」到「2.0」的轉變:如果把識別圖像、語義理解、下棋等任務的達成都看成是不同的Y=f(X),即輸入的「貓」的圖片、聲音或棋招是「X」,輸出的「貓」、回答、棋高一招是「Y」。深度學習之前,人通過自己的分析尋找函數f對應的公式,告訴給AI。而深度學習之後,人輸入大量的X與Y的對應,AI自己發現函數f對應的公式。
「AI找到的函數f的具體內容,可能比人找到的更好,但是人類並不知道,就像一個黑匣子。」莫瑜說,「但是f的形式是AI研究員通過研究設計出來的,如果使用深度神經網路,網路中的模塊以及模塊之間的組織方式也是提前設計的。」
隨著深度學習技術的成熟和普遍化,模型構建出現了特定可追尋的經驗。「各種共性神經網路的發布,使得從業門檻越來越低。一些普通的模型構建與優化,剛畢業的學生在網上學學教程就能上手。」趙志剛說。
當構建模型成為可習得的技能,AutoML就出現了。它能做的正是AI研究員的模型設計工作。「將幫助不同公司建立人工智慧系統,即使他們沒有廣泛的專業知識。」谷歌工程師這樣推介。AI成功進化到3.0。
事實上,AutoML替代的仍舊是人類能夠提煉出經驗的工作。「如果說之前人描繪一套尋找函數f的『路網』,在深度學習的技術輔助下,機器能最快找到優化路徑;那麼AI現在可以自己設計路網了。」趙志剛言簡意賅。
可以看出,不論是深度學習、還是AutoML,都只替代人類的一部分群體已經鑽研透了的工作。「機器能做的事情,盡量不要手工勞動」,這是很多程序員的人生信條,這個信條催生了AutoML。本著同樣的信條,微軟開發了DeepCoder。「它可以用來生成滿足給定輸入輸出的程序。」莫瑜說,但它的表現目前還不盡如人意,只能編寫一些簡單的程序。
誰是「上帝」答案毫無疑問,人類。
既然AI在進化中走向了更高一階的模型設計,那麼「上帝之手」又發生了哪些變化呢?
「煉丹」,莫瑜用兩個字形象地說起自己的工作,「智能一點是專業做智能客服的,研發人員的工作主要集中於問題建模(如何將實際問題轉化為人工智慧技術解決的問題)和演算法優化(如何提升人工智慧演算法的效果)。」
「煉」意味著不斷地調試和完善。「針對特定的人,越投脾氣越好,回答越精準越好。」莫瑜說,「我們的X是客戶的問話,Y是機器人客服的回復,中間的函數f需要訓練。」
這是個不容易的任務。如果把人類社會的經驗分為3類:有公式的確定規則、可言傳的知識、只可意會不可言傳的感覺。最後一類最難琢磨。
「因此,我們想辦法構建完善的閉環反饋,了解特定用戶的喜好,通過情感、趣味的表達,最終做到投其所好。」莫瑜說,「目前處於人機協同的工作階段,但是越來越多樣本的獲取,將幫助我們的智能客服給出精準的、討喜的回答。」
可見,並不是所有領域都適合交給AI自開發去做,比如問題建模方面,如何將實際問題抽象轉換為機器學習問題, AI還無法自主完成。在AI2.0階段,研發人員還需要人工設計函數f的形式。