gpu大數據圖像處理_GPU發展和現狀是什麼樣的

Ⅰ CPU既然能處理圖像數據，為什麼非得用GPU

能處理不代表擅長處理。GPU在並行計算方面有得天獨厚的優勢，而CPU長於邏輯。圖像處理基本上都是並行矢量計算，GPU處理比CPU來得快得多。主要還是在於GPU並行計算，可以同時保證浮點數的精度和計算速度，CPU並發性太低，即便多線程，也遠遠不及GPU的並發性。現在最好的家用處理器，六核十二線程，而Nvidia的老顯卡GTX 260+有216個CUDA核心，理論上至少並發性就是216，實際遠遠高於此。
不過，CPU也可以搶GPU的飯碗。Intel現在的處理器上內含AVX指令集，對浮點數的計算精度翻番。而且架構的改善也讓CPU在浮點計算方面上了很大台階。我參加IDF 2011的時候，有人直接就問Sandy Bridge架構一周期能做多少個乘累加——如果這個性能客觀，這CPU就有可能執行DSP的功能。雖然這個數據指標Intel當時沒有公開，但你說的用CPU代替GPU不是沒有可能性的。因為AVX指令集就是為了對抗通用計算領域內GPGPU（通用計算GPU）的。

Ⅱ gpu是什麼和cpu的區別

gpu是什麼和cpu的區別如下：

1、cpu是電腦的中央處理器。

2、gpu是電腦的圖形處理器。

3、cpu是一塊超大規模的集成電路，其中包含alu算術邏輯運算單元、cache高速緩沖存儲器以及Bus匯流排。

4、cpu是一台計算機的控制和運算核心，它的主要功能便是解釋計算機發出的指令以及處理電腦軟體中的大數據。

5、gpu是圖像處理器的縮寫，它是一種專門為pc或者嵌入式設備進行圖像運算工作的微處理器。

6、gpu的工作與上面說過的cpu類似，但又不完全像是，它是專為執行復雜的數學和幾何計算而生的，而這游戲對這方面的要求很高，因此不少游戲玩家也對gpu有著很深的感情。

Ⅲ gpu和cpu的區別是什麼

gpu和cpu的區別：

1、作用不同：CPU是指中央處理器，他的作用偏向於調度、協調、管理，當然也有一定的計算能力。GPU是指圖像處理器，他的作用主要在圖像處理及大型矩陣運算方面，比如學習演算法等等。

2、結構不同：CPU的結構可以大致分為運算邏輯部件、寄存器部件和控制部件等。GPU，是一塊高度集成的晶元，其中包含了圖形處理所必須的所有元件

3、CPU是主動運行的，從手機開啟開始就一直在運行，在熄屏狀態CPU也在運行。而GPU是被動運行的，在CPU指派了任務之後才會開始工作，任務完成後又將沉寂等待下一個任務。

(3)gpu大數據圖像處理擴展閱讀

應用

目前智能手機屏幕越來越大，系統越來越華麗，游戲特效越來越眩目，傳統手機純CPU處理的方式已經完全不能滿足現今智能手機發展的需要了。

以前的智能機，其實都是不帶顯示核心的，所有的軟體、游戲都是由CPU進行處理，呈現在屏幕上。但是CPU的圖形處理能力很低很低，這也導致了傳統的智能手機玩稍微大一點的游戲往往力不從心，大型3D游戲更是成為了奢望。

隨著近幾年智能機的高速發展，3D加速晶元的引入為智能機的娛樂性注入了強大的生命力。有了3D加速晶元，我們可以流暢地運行各種3D游戲和3D應用程序，體驗到前所未有的感覺。

早期的3D加速晶元功能比較單一，性能也比較低，僅僅只為3D程序提供一定的輔助處理作用。而隨著科技的發展，現在的3D加速晶元早已演化成真正意義上的GPU（Graphic Processing Unit，圖形處理器），已經不只是傳統的3D加速器。

GPU不僅僅是負責必要的3D處理，准確地說，它將所有圖形顯示功能從CPU那裡都接管了過來，並且還提供了視頻播放、視頻錄制和照相時的輔助處理，使得CPU被大大解放，可以專心地處理純指令，而不再需要去負責繁重的圖形處理任務了。

系統的3D性能得到極大的提升。所以，手機GPU的誕生，是移動市場的一次大革命。

Ⅳ gpu簡介及詳細資料

基本簡介

GPU英文全稱Graphic Processing Unit，中文翻譯為「圖形處理器」。GPU是相對於CPU的一個概念，由於在現代的電腦中（特別是家用系統，游戲的發燒友）圖形的處理變得越來越重要，需要一個專門的圖形的核心處理器。

主要特點

GPU 是顯示卡的「大腦」，它決定了該顯示卡的檔次和大部分性能，同時也是2D顯示卡和3D顯示卡的區別依據。2D顯示晶片在處理3D圖像和特效時主要依賴CPU的處理能力，稱為「軟加速」。3D顯示晶片是將三維圖像和特效處理功能集中在顯示晶片內，也即所謂的「硬體加速」功能。顯示晶片通常是顯示卡上最大的晶片（也是引腳最多的）。現在市場上的顯示卡大多採用NVIDIA和 AMD-ATI兩家公司的圖形處理晶片。

今天，GPU已經不再局限於3D圖形處理了，GPU通用計算技術發展已經引起業界不少的關注，事實也證明在浮點運算、並行計算等部分計算方面，GPU可以提供數十倍乃至於上百倍於CPU的性能，如此強悍的「新星」難免會讓CPU廠商老大英特爾為未來而緊張， NVIDIA和英特爾也經常為CPU和GPU誰更重要而展開口水戰。GPU通用計算方面的標准目前有 OPEN CL、CUDA、ATI STREAM。其中，OpenCL(全稱Open Computing Language，開放運算語言)是第一個面向異構系統通用目的並行編程的開放式、免費標准，也是一個統一的編程環境，便於軟體開發人員為高性能計算伺服器、桌面計算系統、手持設備編寫高效輕便的代碼，而且廣泛適用於多核心處理器(CPU)、圖形處理器(GPU)、Cell類型架構以及數位信號處理器(DSP)等其他並行處理器，在游戲、娛樂、科研、醫療等各種領域都有廣闊的發展前景，AMD-ATI、NVIDIA現在的產品都支持OPEN CL。

1985年 8月20日 ATi公司成立，同年10月ATi使用ASIC技術開發出了第一款圖形晶片和圖形卡，1992年 4月 ATi發布了 Mach32 圖形卡集成了圖形加速功能，1998年 4月 ATi被IDC評選為圖形晶片工業的市場領導者，但那時候這種晶片還沒有GPU的稱號，很長的一段時間ATI都是把圖形處理器稱為VPU，直到AMD收購ATI之後其圖形晶片才正式採用GPU的名字。

NVIDIA公司在1999年發布GeForce 256圖形處理晶片時首先提出GPU的概念。從此NV顯示卡的芯就用這個新名字GPU來稱呼。GPU使顯示卡減少了對CPU的依賴，並進行部分原本CPU的工作，尤其是在3D圖形處理時。GPU所採用的核心技術有硬體T&L、立方環境材質貼圖和頂點混合、紋理壓縮和凹凸對應貼圖、雙重紋理四像素256位渲染引擎等，而硬體T&L技術可以說是GPU的標志。

主要品牌

GPU有非常多的廠商都生產，和CPU一樣，生產的廠商比較多，但大家熟悉的卻只有3個，以至於大家以為GPU只有AMD、NVIDIA、Intel3個生產廠商。

intel

可能誰都想不到intel不但是世界上最大的CPU生產銷售商，也是世界最大的GPU生產銷售商。

intel的GPU在現在完全是集成顯示卡，用於intel的主機板和intel的筆記本。可能你想不到，要是只按發售數量計算，intel隨著他主機板發售的集成GPU占據了整個GPU市場的60%以上。

Nvidia

現在最大的獨立顯示卡生產銷售商，他的顯示卡包括現在大家熟悉的

Geforce系列，比如GTX580 GTX480 GTX470 GTX460 GTX295等，還有專業的Quadro系列等。

他也同樣銷售固化在主機板上的集成顯示卡，這些顯示卡隨著主機板一起發售，但是由於AMD兼並ATI後自身主機板晶片能力提高，NV主機板已經失去了顯示卡界的半壁江山。

AMD

世界上第二大的獨立顯示卡生產銷售商，他的前身就是ATI。他的顯示卡主要就是大家熟悉的HD系列，比如HD7970,HD7950,HD6970,HD6990等。在專業領域有FireGL系列

由於AMD收購ATI後，其主機板市場全面擴大，已經奪取了NVIDIA在AMD處理器主機板的全部份額。就發售量和發售盈利方面，AMD顯示卡方面仍然略輸於NVIDIA，不過兩者不相伯仲，差距只是幾個百分點。

Matrox

當年和nv,ati一起爭奪獨立顯示卡市場份額的一家公司，在曾經的一個時期Matrox的顯示卡和nv,ati曾經在性能上比肩過。但由於後來其開發能力日漸衰退，在GF5時期，也就是ati的9000系列時期，Matrox由於性能上整整落後了GF5900和Raden9800一個世代而逐漸被淘汰，淡出了民用獨立顯示卡市場。

但現在Matrox仍然在工程用專業顯示卡方面有自己的地位。這些顯示卡用於工程主圖和多頭輸出仍然很強力。與nv和amd的專業顯示卡不同，nv,ati的專業顯示卡涉足的是3D領域，而Matrox得專業顯示卡涉足的是2D領域，也就是CAD。

但由於cuda的日漸普及，DX10以上顯示卡將在所有支持CUDA的程式上表現出驚人的性能，也就是說當CUDA在各種運用軟體普及的那天，Matrox也必將退出2D專業卡的市場。

sis和via

硒統和威盛現在是對孿生兄弟，但他們曾經也是分開的兩家公司，並且都生產自己主機板的集成顯示卡。但這可憐的兩兄弟已經逐步在淡出主機板市場了，也就必定將淡出GPU市場。由於GPU的利益多，也許以後也會誕生出新的廠商。

其他資料

NVIDIA公司在1999年發布GeForce256圖形處理晶片時首先提出GPU的概念。GPU使顯示卡減少了對CPU的依賴，並進行部分原本CPU的工作，尤其是在3D圖形處理時。GPU所採用的核心技術有硬體T&L、立方環境材質貼圖和頂點混合、紋理壓縮和凹凸對應貼圖、雙重紋理四像素256位渲染引擎等，而硬體T&L技術可以說是GPU的標志。 GPU 是顯示卡的「心臟」，也就相當於 CPU 在電腦中的作用，它決定了該顯示卡的檔次和大部分性能，同時也是2D顯示卡和3D顯示卡的區別依據。2D顯示晶片在處理3D圖像和特效時主要依賴CPU的處理能力，稱為「軟加速」。3D顯示晶片是將三維圖像和特效處理功能集中在顯示晶片內，也即所謂的「硬體加速」功能。顯示晶片通常是顯示卡上最大的晶片（也是引腳最多的）。現在市場上的顯示卡大多採用NVIDIA和AMD兩家公司的圖形處理晶片。

GPU能夠從硬體上支持T&L（TransformandLighting，多邊形轉換與光源處理）的顯示晶片，因為T&L是3D渲染中的一個重要部分，其作用是計算多邊形的3D位置和處理動態光線效果，也可以稱為「幾何處理」。一個好的T&L單元，可以提供細致的3D物體和高級的光線特效；只不過大多數PC中，T&L的大部分運算是交由CPU處理的(這就也就是所謂的軟體T&L)，由於CPU的任務繁多，除了T&L之外，還要做記憶體管理、輸入回響等非3D圖形處理工作，因此在實際運算的時候性能會大打折扣，常常出現顯示卡等待CPU資料的情況，其運算速度遠跟不上今天復雜三維游戲的要求。即使CPU的工作頻率超過1GHz或更高，對它的幫助也不大，由於這是PC本身設計造成的問題，與CPU的速度無太大關系。

工作原理

簡單說 GPU 就是能夠從硬體上支持T&L（Transform and Lighting，多邊形轉換與光源處理）的顯示晶片，因為T&L是3D渲染中的一個重要部分，其作用是計算多邊形的3D位置和處理動態光線效果，也可以稱為「幾何處理」。一個好的T&L單元，可以提供細致的3D物體和高級的光線特效；只不過大多數PC中，T&L的大部分運算是交由CPU處理的(這也就是所謂的軟體T&L)，由於CPU的任務繁多，除了T&L之外，還要做記憶體管理、輸入回響等非3D圖形處理工作，因此在實際運算的時候性能會大打折扣，常常出現顯示卡等待CPU資料的情況，其運算速度遠跟不上今天復雜三維游戲的要求。即使CPU的工作頻率超過1GHz或更高，對它的幫助也不大，由於這是PC本身設計造成的問題，與CPU的速度無太大關系。

與DSP區別

GPU 在幾個主要方面有別於 DSP (Digital Signal Processing，簡稱DSP(數位信號處理)架構。其所有計算均使用浮點演演算法，而且目前還沒有位或整數運算指令。此外，由於GPU專為圖像處理設計，因此存儲系統實際上是一個二維的分段存儲空間，包括一個區段號（從中讀取圖像）和二維地址（圖像中的X、Y坐標）。此外，沒有任何間接寫指令。輸出寫地址由光柵處理器確定，而且不能由程式改變。這對於自然分布在存儲器之中的演演算法而言是極大的挑戰。最後一點，不同碎片的處理過程間不允許通信。實際上，碎片處理器是一個SIMD資料並行執行單元，在所有碎片中獨立執行代碼。

盡管有上述約束，但是GPU還是可以有效地執行多種運算，從線性代數和信號處理到數值模擬。雖然概念簡單，但新使用者在使用GPU計算時還是會感到迷惑，因為GPU需要專有的圖形知識。這種情況下，一些軟體工具可以提供幫助。兩種高級描影語言CG和HLSL能夠讓使用者編寫類似C的代碼，隨後編譯成碎片程式匯編語言。Brook是專為GPU計算設計，且不需要圖形知識的高級語言。因此對第一次使用GPU進行開發的工作人員而言，它可以算是一個很好的起點。Brook是C語言的延伸，整合了可以直接對應到GPU的簡單資料並行編程構造。經 GPU存儲和操作的資料被形象地比喻成「流」（stream），類似於標准C中的數組。核心（Kernel）是在流上操作的函式。在一系列輸入流上調用一個核心函式意味著在流元素上實施了隱含的迴圈，即對每一個流元素調用核心體。Brook還提供了約簡機制，例如對一個流中所有的元素進行和、最大值或乘積計算。Brook還完全隱藏了圖形API的所有細節，並把GPU中類似二維存儲器系統這樣許多使用者不熟悉的部分進行了虛擬化處理。用Brook編寫的應用程式包括線性代數子程式、快速傅立葉轉換、光線追蹤和圖像處理。利用ATI的X800XT和Nvidia的GeForce 6800 Ultra型GPU，在相同高速快取、SSE匯編最佳化Pentium 4執行條件下，許多此類套用的速度提升高達7倍之多。

對GPU計算感興趣的使用者努力將演演算法對應到圖形基本元素。類似Brook這樣的高級程式語言的問世使編程新手也能夠很容易就掌握GPU的性能優勢。訪問GPU計算功能的便利性也使得GPU的演變將繼續下去，不僅僅作為繪制引擎，而是會成為個人電腦的主要計算引擎。

識別軟體

說起處理器識別工具 CPU-Z ，其知名度和必備度無需贅言。硬體網站TechPowerUp又給我們提供了一個類似的工具，用於顯示卡識別的「GPU-Z」，支持XP/Vista/2000/2003。最新版本是2012年5月2日更新的0.6.2，檔案大小為1MB。

更新說明：

GPU-Z 0.6.2

修正NVIDIA 開普勒Boost工作頻率顯示問題

GPU-Z 0.6.1

新增支持GeForce605，NVIDIA GeForce GTX690，GTX 670， GT 640, GT 630，Quadro 3000M GTX 675M， GTX 670M。

新增支持AMD Radeon HD7970M，HD7450

新增支持英特爾Sandy Bridge和Ivy Bridge集成顯示卡

修正GK107 ROP偵測和顯示

改進對NVIDIA 開普勒Boost工作頻率檢測

修正在沒有安裝驅動情況下，AMD南方群島顯示卡GPU－Z崩潰問題

修正在Windows XP不能正常工作問題

禁用NVIDIA開普勒不完整BIOS儲存

BIOS檔案現在另外儲存為.rom

修正感測器圖表重繪，並提高其性能

相關問題

第一個問題：

GPU 的競爭遠比 CPU 的競爭來得激烈。通用PC的CPU就只有英特爾和AMD兩家大廠。而在GPU方面領先的是NVIDIA和AMD兩家廠商，但能生產中低端產品的還有英特爾、三星等好幾家廠商。它們的產品雖然不如前兩家，但在很多套用方面也能滿足使用者的需要，所以N記和A記只有拚命往前跑才不會死掉。CPU廠商沒有採用GPU的先進工藝是因為CPU廠商都有自己投資的生產線，不可能一下把原來的生產線都淘汰了上新的生產線，那樣做可能連當初投入的資金都難以收回。而GPU廠商由於種種原因，一般都是自己設計由別人代工的，比如找台積電代工。代工廠商為了能接到業務，只有不停升級自己的生產設備，這樣才能生存下來。所以造成以上原因。

第二個問題

CPU除了處理游戲的AI，情節等方面的資料外，對於有些圖像方面也是由它完成的。當微軟每次發布新的DX時，並不是每款GPU都能支持DX新的特徵，所以有些圖像方面的任務還得由CPU來完成。還有有些特徵比如重力特徵以前是由CPU來完成，現在有些GPU也能支持了，這些任務就由GPU來完成了。

第三個問題

GPU相當於專用於圖像處理的CPU，正因為它專，所以它強，在處理圖像時它的工作效率遠高於CPU，但是CPU是通用的資料處理器，在處理數值計算時是它的強項，它能完成的任務是GPU無法代替的，所以不能用GPU來代替CPU。

另外

AMD在2006年以54億美元的巨資收購了ATI公司，AMD看到今後CPU和GPU只有走一條融合的道路才能地競爭中佔得先機。CPU和GPU如何配合默契才能最大地提高工作效率是AMD現在考慮的問題，也是英特爾的問題。

第四個問題

微軟發布Windows7 其中一個顯著特徵就是聯合GPU和CPU的強大實力，提升GPU在硬體使用的價值，在Windows7中，CPU與GPU組成了協同處理環境。CPU運算非常復雜的序列代碼，而GPU則運行大規模並行應用程式。微軟利用DirectX Compute將GPU作為作業系統的核心組成部分之一。DirectX Compute。它讓開發人員能夠利用 GPU的大規模並行計算能力，創造出引人入勝的消費級和專業級計算應用程式。簡單的說，DirectX Compute就是微軟開發的GPU通用計算介面，欲統一GPU通用計算標准。也就是說windows7 以後GPU的硬體地位將僅次於CPU，發揮出更大的效用。英特爾發布的酷睿二代Sandy Bridge處理器集成的核芯顯示卡和AMD Llano APU已經將集成顯示卡提升到了一個新的高度，英特爾下一代Ivy Bridge處理器更是進一步增強了核芯顯示卡的能力。

Ⅳ GPU發展和現狀是什麼樣的

GPU其實就是顯卡，是英文Graphics Processing Unit的縮寫。大型設備GPU有兩個廠商，NVIDIA以及ATI，一個被稱為N卡，一個被稱為A卡。近幾年隨著手機等智能設備的快速發展，移動端低功耗GPU越來越受到重視，目前蘋果、高通的GPU都比較強悍，華為也在GPU方面加速努力。

ATI顯卡

ATI公司成立於1985年，創始人為何國源以及另外兩個華人。1985年10月ATI使用ASIC技術開發出了第一款圖形晶元和圖形卡，1992年4月ATI發布了Mach32圖形卡集成了圖形加速功能，1998年4月ATI被IDC評選為圖形晶元工業的市場領導者，但那時這種晶元還沒有GPU的稱號，很長的一段時間ATI都是把圖形處理器稱為VPU，直到AMD收購AT之後其圖形晶元才正式採用GPU的名字。

NVIDIA顯卡

NVIDIA是一家人工智慧計算公司，創立於1993年，創始人及CEO為美籍華人Jensen Huang(黃仁勛)。1999年，NVIDIA首先提出GPU概念，從此 NVIDIA顯卡的芯就用GPU來稱呼，NVIDIA極大地推動了PC 游戲市場的發展，並重新定義了現代計算機圖形技術，徹底改變了並行計算。

蘋果自研GPU

蘋果之前一直都是跟Imagination合作，為了使自己的硬體和軟體更加完美的融合，同時不受供應商卡脖子，從A11晶元開始，蘋果正式拋棄Imagination而改用自研GPU。目前蘋果的GPU性能也是第一梯隊的，蘋果移動設備的3D顯示、AR、大型游戲還是比較出色的。

高通GPU

目前高通驍龍移動平台集成的Adreno GPU是應用較為廣泛的，因為大部分國產手機都採用驍龍處理器，Adreno也是可以和同期蘋果A系列晶元集成GPU一教高下的存在。Adreno的前身是ATI Imageon系列低功耗GPU，ATI被AMD收購後，AMD將移動設備相關的自從打包賣給了高通。

ARM 的Mali GPU

海思麒麟、三星Exynos、聯發科Helio等晶元都採用了ARM的GPU解決方案。這些SOC通常將多個GPU核心封裝在一個更大規模的GPU矩陣中，這也導致功耗及發熱問題的出現。目前三星和華為應該都在進行自研GPU，走上蘋果的道路。

移動GPU現狀

目前移動端GPU性能還存在一定短板，隨著5G的到來，未來會有更多的應用需要在移動端體現，AR、VR、大型游戲等等，都需要強大的GPU支持。未來誰能掌握最強的GPU技術，誰就能獲得更多的優勢和關注度，各廠商也都在加大自研投入避免受到供應商的影響。

高性能GPU

除了台式機、筆記本等常見領域的GPU，像人工智慧及深度學習領域，數據科學家和研究人員可以用高性能GPU解析 PB 級的數據；自動駕駛領域汽車可以利用強大的GPU，幾乎可以在任何駕駛場景中自主觀察、思考、學習和導航。另外醫療、教育、自動駕駛、娛樂、影視等眾多領域越來越智能化，並且都需要越來越強大的GPU作為技術支持。

總之，無論是移動端還是大型設備，人們對GPU的性能要求越來越高，GPU的發展也會越來越快，越來越智能。

GPU，又稱顯示核心、視覺處理器、顯示晶元，是一種專門在個人電腦、工作站、游戲機和一些移動設備（如平板電腦、智能手機等）上圖像運算工作的微處理器，與CPU類似，只不過GPU是專為執行復雜的數學和幾何計算而設計的，這些計算是圖形渲染所必需的。隨著人工智慧的發展，如今的GPU已經不再局限於3D圖形處理了，GPU通用計算技術發展已經引起業界不少的關注，事實也證明在浮點運算、並行計算等部分計算方面，GPU可以提供數十倍乃至於上百倍於CPU的性能。 GPU的特點是有大量的核（多達幾千個核）和大量的高速內存，最初被設計用於游戲，計算機圖像處理等。GPU主要擅長做類似圖像處理的並行計算，所謂的「粗粒度並行（coarse-grainparallelism）」。這個對於圖像處理很適用，因為像素與像素之間相對獨立，GPU提供大量的核，可以同時對很多像素進行並行處理。但這並不能帶來延遲的提升（而僅僅是處理吞吐量的提升）。比如，當一個消息到達時，雖然GPU有很多的核，但只能有其中一個核被用來處理當前這個消息，而且GPU核通常被設計為支持與圖像處理相關的運算，不如CPU通用。GPU主要適用於在數據層呈現很高的並行特性（data-parallelism）的應用，比如GPU比較適合用於類似蒙特卡羅模擬這樣的並行運算。

CPU和GPU本身架構方式和運算目的不同導致了CPU和GPU之間的不同，正是因為GPU的特點特別適合於大規模並行運算，GPU在「深度學習」領域發揮著巨大的作用，因為GPU可以平行處理大量瑣碎信息。深度學習所依賴的是神經系統網路——與人類大腦神經高度相似的網路——而這種網路出現的目的，就是要在高速的狀態下分析海量的數據。例如，如果你想要教會這種網路如何識別出貓的模樣，你就要給它提供無數多的貓的圖片。而這種工作，正是GPU晶元所擅長的事情。而且相比於CPU，GPU的另一大優勢，就是它對能源的需求遠遠低於CPU。GPU擅長的是海量數據的快速處理。工業與學術界的數據科學家已將GPU用於機器學習以便在各種應用上實現開創性的改進，這些應用包括圖像分類、視頻分析、語音識別以及自然語言處理等等。尤其是深度學習，人們在這一領域中一直進行大力投資和研究。深度學習是利用復雜的多級「深度」神經網路來打造一些系統，這些系統能夠從海量的未標記訓練數據中進行特徵檢測。雖然機器學習已經有數十年的歷史，但是兩個較為新近的趨勢促進了機器學習的廣泛應用:海量訓練數據的出現以及GPU計算所提供的強大而高效的並行計算。人們利用GPU來訓練這些深度神經網路，所使用的訓練集大得多，所耗費的時間大幅縮短，佔用的數據中心基礎設施也少得多。GPU還被用於運行這些機器學習訓練模型，以便在雲端進行分類和預測，從而在耗費功率更低、佔用基礎設施更少的情況下能夠支持遠比從前更大的數據量和吞吐量。將GPU加速器用於機器學習的早期用戶包括諸多規模的網路和社交媒體公司，另外還有數據科學和機器學習領域中一流的研究機構。與單純使用CPU的做法相比，GPU具有數以千計的計算核心、可實現10-100倍應用吞吐量，因此GPU已經成為數據科學家處理大數據的處理器。

GPU 原來就是為了加速 3D 渲染的，後來被拿過來做計算。現在 GPU 可以支持通用的指令，可以用傳統的 C 和 C++，還有Fortran 來編程。現在單個高端 GPU 的性能已經達到了傳統多核 CPU 集群的性能有的應用通過 GPU 加速相比傳統的多核 CPU 來說可以達到 100X 的加速。對某些特定應用來說 GPU 還是最適合。

GPU未來趨勢

GPU的未來方向，可以從NVIDIA 2019年的中國GTC（GPU technology conference）大會窺見一斑。GTC會議是NVIDIA近年來每年舉辦的一場GPU技術大會，匯集全球頂級的GPU專家，提供GPU領域頗具熱門話題的相關培訓和演講。在這個大會上展示的是全球GPU研究人員的最新的研究和應用方向，通過GTC會議可以窺見GPU的未來。2019年中國GTC大會設置了兩大主題，分別是AI和圖形，兩個大主題之下各自又有一些小主題，

GPU的未來趨勢無外乎3個：大規模擴展計算能力的高性能計算（GPGPU）、人工智慧計算（AIGPU）、更加逼真的圖形展現（光線追蹤 Ray Tracing GPU)。雖然GPU的最基本功能-顯示技術在大會主題中沒有「顯式」的提及，但是眾多應用方向均與之密切相關，譬如：智慧醫療和生命科學、游戲、虛擬現實/增強現實、工業設計與工程、自動駕駛與交通等，因此支持更加清晰和動感的高清顯示是無需強調的未來趨勢。此外，由於GPU越來越廣泛地應用到手機、終端、邊緣計算節點等嵌入式設備，所以高效能也是一個永恆的追求。

高性能計算

NVIDIA最新發布的Tesla V100s高性能計算GPU，集成5120個CUDA Core，640個Tensor Core，採用32 GB HBM2顯存，顯存帶寬達1134GB/S，單精度浮點計算能力達16.4 TFLOPS。

GPGPU在圖形GPU的基礎上進行了優化設計，使之更適合高性能並行計算，加上CUDA多年來建立的完整生態系統，其在性能、易用性和通用性上比圖形GPU更加強大。基於這種特性，GPGPU將應用領域擴展到了圖形之外，在自動駕駛、智慧醫療、生命科學、深度學習、雲計算、數據處理、金融等方面均得到廣泛應用，關於它的科研成果和新應用模式也層出不窮。

相比CUDA，OpenCL具有更好跨平台性和通用性，得到更多GPU硬體廠家的支持，但由於其對開發者的友好程度不高，直接應用反而不多。

人工智慧計算

GPU的並行處理結構非常適合人工智慧計算，但傳統的基於流處理器的 GPU，其流處理器一般只能處理FP32/FP64等精度的運算，而AI計算的精度要求往往不高，INT4/INT8/FP16往往可滿足絕大部分AI計算應用。針對AI應用，NVIDIA設計了專用的Tensor Core用於AI計算，支持INT4/INT8/FP16等不同精度計算，RTX 2080集成了544個Tensor Core，INT4計算能力可達455 TOPS。

基於NVIDIA GPU的AI應用絕大多數情況下應用在伺服器端、雲端，基於GPU的AI計算往往具有更好的靈活性和通用性，在數據中心、雲端等環境下具有更廣泛的適用性。與之相對應的，在分布式應用領域AI計算更傾向於獨立的面向特定應用領域的專用晶元，而不依賴於GPU，如手機、平板等移動端SOC都集成了專用的NPU IP。

光線追蹤-更加逼真的圖形展現

傳統的圖形GPU都使用光柵化技術顯示3D物體，對物體進行3D建模，將其分割成若干三角形，三角形的細粒度很大程度上決定最後的成像質量，然後將三角形轉換為2D屏幕上的像素點並分配初始顏色值，接下來進行像素處理，基於場景修改像素顏色，並將紋理應用於像素，從而生成像素的最終顏色[9]。

光線追蹤與光柵化的實現原理不同，它最早由IBM的Arthur Appel於1969年在「Some Techniques for Shading Machine Renderings of Solids」[10]中提出，光線追蹤通過從觀察點對每一個像素發射一條光線並找到在世界場景中阻擋光線路徑的最近物體來渲染場景，光線有兩種，第一種是視者發射的光線，來尋找場景中的交點，另一種是從交點發到燈光的陰影射線，看自身是否是處於陰影當中，光線追蹤的一個顯著優點是能夠處理不平整的表面和固體。

2018年NVIDIA發布的RTX 2080 GPU，採用Turing架構，在GPU中集成了 68個獨立的 RT(ray tracing) Core ，用於光線追蹤，光線處理能力達到了10 Giga/S，1 080P@60Hz需要處理的光線約為6Giga/S，實測基於光線追蹤的應用其幀率大致在50FPS左右，基於RTX 2080的光線追蹤達到了可用的程度，光線追蹤對於反射和陰影有著更逼真的處理效果，盡管目前仍然是採用光線追蹤和傳統光柵圖形處理相結合的方式來進行圖形渲染，但其效果已經遠超傳統光柵圖形處理，對於游戲、電影等追求逼真光影效果的應用，光線追蹤能提供電影級畫質的實時渲染，帶來視覺效果上質的飛躍。

除了游戲、電影方面的應用，產品設計師和建築師也可以享受到光線追蹤帶來的好處，藉助光線追蹤工具和高性能GPU，可以實時生成逼真的產品模型，提高設計迭代速度。

NVIDIA的下一代圖形GPU，採用Ampere架構，計劃於今年發布，相信在光線追蹤方面帶來新的提升。

GPU人工智慧的重要組成部分市場空間廣闊

GPU目前主要作為顯卡的計算核心，主要解決圖形渲染問題。GPU具有較為完整的技術生態，其具有高運算性能硬體、驅動支撐、API介面、通用計算引擎/演算法庫，因此成為一種交易使用的工具。

目前的GPU可被分為PCGPU、伺服器GPU與移動GPU，其中PCGPU既有獨立也有集成GPU，伺服器GPU是專為計算加速或深度學習應用的獨立GPU，移動GPU一般都是集成GPU。隨著人工智慧的快速興起，擁有強運算能力和計算速度的GPU迎來了新的發展機遇，預測到2023年中國GPU伺服器市場規模將達到45億美金，未來5年整體市場年復合增長率為28%。

根據新思界產業研究中心發布的 《2020-2025年GUP行業市場深度調研及投資前景預測分析報告》 顯示，在全球中，GPU應用主要包含圖形渲染、游戲、電子設備應用，其中圖形渲染是GPU應用最廣的領域，主要包括PC端的圖形處理和移動端的圖形處理。移動GPU是提升智能手機性能的核心部件，能夠決定設備的界面流程程度、游戲流暢程度等參數，已廣泛應用於智能手機、DTV和平板電腦等移動設備。近幾年電子游戲行業快速發展，在這一背景下，GPU 游戲專用設備需求將有所回升。

我國GPU發展較晚，目前產品與外資品牌有所差距，保守估計國內GPU晶元落後當前主流GPU晶元約6年時間。考慮到產品性能，目前國內市場主要以進口為主，短期之內GPU在市場化競爭的民用市場短期內較難突破。目前在全球中GPU主要品牌有NVIDIA和AMD、ARM、Imagination等公司。

我國對於信息安全領域高端產品自主化需求十分迫切，國務院於2015年5月發布《中國製造2025》，明確提出2020年中國集成電路內需市場自製率將達40%，2025年將更進一步提高至70%的目標，因此預計2025年國產GPU晶元市場空間約為50億美元，我國GPU行業發展潛力較大。

我國中高端GPU晶元市場需求旺盛，主要在個人計算機、雲計算、人工智慧、安防監控等領域有著廣泛的應用，但在高端產品方面，我國市場近乎空白。從廠商來看，浪潮、華為和曙光在出貨量和銷售額方面均位列市場前三。國內GPU行業發展起步較晚，尚處於追趕階段。景嘉微、中船系採取自主研發的方法進行產品開發，能夠對自主開發的GPU進行迭代和升級。中科曙光為代表技術引進系。

新思界 產業分析 人士表示，GPU作為人工智慧設備重的關鍵產品，在智能化時代中，市場需求持續攀升，行業發展潛力較大。從目前來看，我國GPU行業主要集中在中低端產品，高端產品接近空白，未來行業需要不斷改進，向高端化發展。

Ⅵ GPU上圖像拼接的快速計算

圖像拼接已被研究並廣泛應用於計算機科學的許多領域，但在特徵匹配、扭曲和混合步驟中存在大量計算。從而無法滿足某些應用的實時性需求。幸運的是，已經在圖形處理器單元 (GPU) 上開發並實現了一些可以加快拼接過程的相關並行操作。在本文中，我們使用統一計算設備架構 (CUDA) 提出了基於 GPU 的圖像拼接的並行實現。我們在執行時間方面獲得了比在中央處理單元 (CPU) 上實現更好的結果。在實驗中使用集成 GPU GTX745 時，我們對大輸入圖像實現了高達 27.6 倍的加速比。

典型的拼接過程主要包括三個不同的圖像處理步驟，即配准、扭曲和插值以及混合。圖像配準是圖像拼接的關鍵任務。配準是指在描繪同一場景的一對圖像之間建立幾何變換，該變換由一個8自由度的平面單應性決定。

GPU以其強大的並行計算能力吸引許多領域的研究，作為一種協處理器對計算量大的演算法加速已成為實踐的重要途徑。在前人的研究中，他們都避免了考慮兩個極其耗時的步驟，即特徵匹配和隨機樣本共識（RANSAC）。作為圖像配准中的兩個關鍵過程，在提出的 GPU 加速並行演算法中應考慮它們。

使用GPU並行計算會遇到兩個限制

CUDA的出現解決了上述問題，並且CUDA使用C語言，最初為CPU編寫的C語言函數可以移植到CUDA內核，無需修改。

在CUDA中，一定數量的線程被分組到一個塊中，一定數量的塊以規則的網格模式在邏輯上排列（見圖1）。每個塊都映射到一個多處理器，一個多處理器可以同時運行多個線程塊。由於本地資源（寄存器和共享內存）在塊之間進行劃分，包含在同一塊中的線程可以訪問相同的共享內存並快速實現同步操作。但是，不同塊中的線程並不能直接實現通信和同步。除了本地寄存器和共享內存，所有線程都可以訪問全局內存、常量內存和紋理內存。

A. 特徵匹配

令點經過仿射變換後得到，即

向量是平移分量，控制縮放、旋轉效果。利用齊次坐標系，方程(2)也可以寫為

接著計算兩幅圖像特徵點之間的歐幾里得距離，並將距離按照升序排序，比較升序排序中第一和第二的比值如果小於某個閾值，則認為是匹配點。

由於中有六個未知參數，隨機選擇3對不共線的點匹配，使用該矩陣計算剩餘對匹配點的誤差。執行大量迭代，直到內點對最多。可以使用最小二乘估計器估計所有六個參數。

B. 變形和插值

扭曲變形過程中，可能使像素點位置出現負值或者沒有數值與之對應，在這種搶礦下需要插值演算法創建更平滑和准確的數值，進一步減少翹曲中產生的變形。最常用的插值方法是最近鄰插值、雙線性插值和雙三次插值。考慮到精度和計算復雜度之間的權衡，實驗採用雙線性插值演算法。

C. 混合

為了實現並行計算，本文採用了基於羽化的混合方法，其混合函數可以表示為：

其中是像素的權重函數。

A. 並行匹配

匹配分為粗匹配和精匹配。粗匹配過程中，塊線程數由特徵元素數決定，每個塊可以實現一個關鍵點之間的匹配，每個線程計算兩個圖像兩個特徵向量的距離。在計算完所有距離後，使用並行計算的歸並排序對距離值排序。最後，所有塊得到的匹配結果存儲在全局內存中，然後傳送到CPU。

精匹配過程，設計內核執行RANSAC迭代，只啟動一個block，線程數為，首先用CPU將三個非共線點計算得到的變換矩陣，然後將、閾值和剩餘個點傳到GPU，判斷內外點。

通過內存分配，可以實現精細匹配優化。

B. 平行變形和插值

將矩陣的逆矩陣存放在常量內存中，由於需要頻繁地調用。將待校正的圖像存放在紋理內存中，紋理內存是專門為本地訪問模式設計的。

為了進一步提升性能，若兩個坐標小數部分小於0.2則強度值分配為整數部分，否則使用雙線性插值。

C. 並行混合

由於混合數是像素和像素的混合，因此線程數等於重疊部分包含的像素。令重疊圖像的列數設置為16的倍數。 gridDim.x的大小等於重疊圖像的行數，gridDim.y的大小等於重疊圖像的列數重疊圖像除以16。

基於 CPU 的演算法在配備 16GMB DDR3 RAM 的 Intel Core i7-4790、3.60GHz 處理器上實現。基於 GPU 的演算法在 NVIDIA GeForce GTX745 集成顯卡上進行測試，每塊最大 1024 個線程和 4096 MB 全局內存。

可以清楚地看到，這兩種圖像之間幾乎沒有差異。原因是實驗中使用的GPU卡支持浮點計算，與CPU版本相比產生的誤差非常小。

在本文中，我們提出了一種使用 CUDA 架構在 GPU 上運行的並行圖像拼接方法。順序演算法通過幾個 CUDA 內核轉換為並行版本。通過使用不同類型的內存，我們實現了並行演算法的優化。同時，將GPU獲得的結果與CPU獲得的結果進行比較，我們實現了高達27.6的加速比。盡管所提出的方法顯著提高了計算性能，但仍有許多工作要做。例如，更精確的插值方法（雙三次插值）和可變權重 c( x, y) 可以考慮進一步改善鑲嵌結果。此外，並行鑲嵌演算法也可以在多個GPU平台上運行，對於大數據可以更有效地執行演算法。在今後的工作中，我們將一一處理這些問題。

Ⅶ 雙核+gpu 在圖像處理計算中有哪些優勢知乎

1、雙核GPU是指採用2個核心的圖像處理器，2個GPU顯卡肯定會強勁很多。
2、GPU，即圖形處理器，又稱顯示核心、視覺處理器、顯示晶元，是一種專門在個人電腦、工作站、游戲機和一些移動設備（如平板電腦、智能手機等）上圖像運算工作的微處理器。GPU是顯示卡的「大腦」，GPU決定了該顯卡的檔次和大部分性能，同時GPU也是2D顯示卡和3D顯示卡的區別依據。2D顯示晶元在處理3D圖像與特效時主要依賴CPU的處理能力，稱為軟加速。3D顯示晶元是把三維圖像和特效處理功能集中在顯示晶元內，也就是所謂的「硬體加速」功能。

導航:首頁 > 網路數據 > gpu大數據圖像處理

gpu大數據圖像處理