Ⅰ CPU既然能处理图像数据,为什么非得用GPU
能处理不代表擅长处理。GPU在并行计算方面有得天独厚的优势,而CPU长于逻辑。图像处理基本上都是并行矢量计算,GPU处理比CPU来得快得多。主要还是在于GPU并行计算,可以同时保证浮点数的精度和计算速度,CPU并发性太低,即便多线程,也远远不及GPU的并发性。现在最好的家用处理器,六核十二线程,而Nvidia的老显卡GTX 260+有216个CUDA核心,理论上至少并发性就是216,实际远远高于此。
不过,CPU也可以抢GPU的饭碗。Intel现在的处理器上内含AVX指令集,对浮点数的计算精度翻番。而且架构的改善也让CPU在浮点计算方面上了很大台阶。我参加IDF 2011的时候,有人直接就问Sandy Bridge架构一周期能做多少个乘累加——如果这个性能客观,这CPU就有可能执行DSP的功能。虽然这个数据指标Intel当时没有公开,但你说的用CPU代替GPU不是没有可能性的。因为AVX指令集就是为了对抗通用计算领域内GPGPU(通用计算GPU)的。
Ⅱ gpu是什么和cpu的区别
gpu是什么和cpu的区别如下:
1、cpu是电脑的中央处理器。
2、gpu是电脑的图形处理器。
3、cpu是一块超大规模的集成电路,其中包含alu算术逻辑运算单元、cache高速缓冲存储器以及Bus总线。
4、cpu是一台计算机的控制和运算核心,它的主要功能便是解释计算机发出的指令以及处理电脑软件中的大数据。
5、gpu是图像处理器的缩写,它是一种专门为pc或者嵌入式设备进行图像运算工作的微处理器。
6、gpu的工作与上面说过的cpu类似,但又不完全像是,它是专为执行复杂的数学和几何计算而生的,而这游戏对这方面的要求很高,因此不少游戏玩家也对gpu有着很深的感情。
Ⅲ gpu和cpu的区别是什么
gpu和cpu的区别:
1、作用不同:CPU是指中央处理器,他的作用偏向于调度、协调、管理,当然也有一定的计算能力。GPU是指图像处理器,他的作用主要在图像处理及大型矩阵运算方面,比如学习算法等等。
2、结构不同:CPU的结构可以大致分为运算逻辑部件、寄存器部件和控制部件等。GPU,是一块高度集成的芯片,其中包含了图形处理所必须的所有元件
3、CPU是主动运行的,从手机开启开始就一直在运行,在熄屏状态CPU也在运行。而GPU是被动运行的,在CPU指派了任务之后才会开始工作,任务完成后又将沉寂等待下一个任务。
(3)gpu大数据图像处理扩展阅读
应用
目前智能手机屏幕越来越大,系统越来越华丽,游戏特效越来越眩目,传统手机纯CPU处理的方式已经完全不能满足现今智能手机发展的需要了。
以前的智能机,其实都是不带显示核心的,所有的软件、游戏都是由CPU进行处理,呈现在屏幕上。但是CPU的图形处理能力很低很低,这也导致了传统的智能手机玩稍微大一点的游戏往往力不从心,大型3D游戏更是成为了奢望。
随着近几年智能机的高速发展,3D加速芯片的引入为智能机的娱乐性注入了强大的生命力。有了3D加速芯片,我们可以流畅地运行各种3D游戏和3D应用程序,体验到前所未有的感觉。
早期的3D加速芯片功能比较单一,性能也比较低,仅仅只为3D程序提供一定的辅助处理作用。而随着科技的发展,现在的3D加速芯片早已演化成真正意义上的GPU(Graphic Processing Unit,图形处理器),已经不只是传统的3D加速器。
GPU不仅仅是负责必要的3D处理,准确地说,它将所有图形显示功能从CPU那里都接管了过来,并且还提供了视频播放、视频录制和照相时的辅助处理,使得CPU被大大解放,可以专心地处理纯指令,而不再需要去负责繁重的图形处理任务了。
系统的3D性能得到极大的提升。所以,手机GPU的诞生,是移动市场的一次大革命。
Ⅳ gpu简介及详细资料
GPU英文全称Graphic Processing Unit,中文翻译为“图形处理器”。GPU是相对于CPU的一个概念,由于在现代的电脑中(特别是家用系统,游戏的发烧友)图形的处理变得越来越重要,需要一个专门的图形的核心处理器。
GPU 是显示卡的“大脑”,它决定了该显示卡的档次和大部分性能,同时也是2D显示卡和3D显示卡的区别依据。2D显示晶片在处理3D图像和特效时主要依赖CPU的处理能力,称为“软加速”。3D显示晶片是将三维图像和特效处理功能集中在显示晶片内,也即所谓的“硬体加速”功能。显示晶片通常是显示卡上最大的晶片(也是引脚最多的)。现在市场上的显示卡大多采用NVIDIA和 AMD-ATI两家公司的图形处理晶片。
今天,GPU已经不再局限于3D图形处理了,GPU通用计算技术发展已经引起业界不少的关注,事实也证明在浮点运算、并行计算等部分计算方面,GPU可以提供数十倍乃至于上百倍于CPU的性能,如此强悍的“新星”难免会让CPU厂商老大英特尔为未来而紧张, NVIDIA和英特尔也经常为CPU和GPU谁更重要而展开口水战。GPU通用计算方面的标准目前有 OPEN CL、CUDA、ATI STREAM。其中,OpenCL(全称Open Computing Language,开放运算语言)是第一个面向异构系统通用目的并行编程的开放式、免费标准,也是一个统一的编程环境,便于软体开发人员为高性能计算伺服器、桌面计算系统、手持设备编写高效轻便的代码,而且广泛适用于多核心处理器(CPU)、图形处理器(GPU)、Cell类型架构以及数位信号处理器(DSP)等其他并行处理器,在游戏、娱乐、科研、医疗等各种领域都有广阔的发展前景,AMD-ATI、NVIDIA现在的产品都支持OPEN CL。
1985年 8月20日 ATi公司成立,同年10月ATi使用ASIC技术开发出了第一款图形晶片和图形卡,1992年 4月 ATi发布了 Mach32 图形卡集成了图形加速功能,1998年 4月 ATi被IDC评选为图形晶片工业的市场领导者,但那时候这种晶片还没有GPU的称号,很长的一段时间ATI都是把图形处理器称为VPU,直到AMD收购ATI之后其图形晶片才正式采用GPU的名字。
NVIDIA公司在1999年发布GeForce 256图形处理晶片时首先提出GPU的概念。从此NV显示卡的芯就用这个新名字GPU来称呼。GPU使显示卡减少了对CPU的依赖,并进行部分原本CPU的工作,尤其是在3D图形处理时。GPU所采用的核心技术有硬体T&L、立方环境材质贴图和顶点混合、纹理压缩和凹凸对应贴图、双重纹理四像素256位渲染引擎等,而硬体T&L技术可以说是GPU的标志。
GPU有非常多的厂商都生产,和CPU一样,生产的厂商比较多,但大家熟悉的却只有3个,以至于大家以为GPU只有AMD、NVIDIA、Intel3个生产厂商。
可能谁都想不到intel不但是世界上最大的CPU生产销售商,也是世界最大的GPU生产销售商。
intel的GPU在现在完全是集成显示卡,用于intel的主机板和intel的笔记本。可能你想不到,要是只按发售数量计算,intel随着他主机板发售的集成GPU占据了整个GPU市场的60%以上。
现在最大的独立显示卡生产销售商,他的显示卡包括现在大家熟悉的
Geforce系列,比如GTX580 GTX480 GTX470 GTX460 GTX295等,还有专业的Quadro系列等。
他也同样销售固化在主机板上的集成显示卡,这些显示卡随着主机板一起发售,但是由于AMD兼并ATI后自身主机板晶片能力提高,NV主机板已经失去了显示卡界的半壁江山。
世界上第二大的独立显示卡生产销售商,他的前身就是ATI。他的显示卡主要就是大家熟悉的HD系列,比如HD7970,HD7950,HD6970,HD6990等。在专业领域有FireGL系列
由于AMD收购ATI后,其主机板市场全面扩大,已经夺取了NVIDIA在AMD处理器主机板的全部份额。就发售量和发售盈利方面,AMD显示卡方面仍然略输于NVIDIA,不过两者不相伯仲,差距只是几个百分点。
当年和nv,ati一起争夺独立显示卡市场份额的一家公司,在曾经的一个时期Matrox的显示卡和nv,ati曾经在性能上比肩过。但由于后来其开发能力日渐衰退,在GF5时期,也就是ati的9000系列时期,Matrox由于性能上整整落后了GF5900和Raden9800一个世代而逐渐被淘汰,淡出了民用独立显示卡市场。
但现在Matrox仍然在工程用专业显示卡方面有自己的地位。这些显示卡用于工程主图和多头输出仍然很强力。与nv和amd的专业显示卡不同,nv,ati的专业显示卡涉足的是3D领域,而Matrox得专业显示卡涉足的是2D领域,也就是CAD。
但由于cuda的日渐普及,DX10以上显示卡将在所有支持CUDA的程式上表现出惊人的性能,也就是说当CUDA在各种运用软体普及的那天,Matrox也必将退出2D专业卡的市场。
硒统和威盛现在是对孪生兄弟,但他们曾经也是分开的两家公司,并且都生产自己主机板的集成显示卡。但这可怜的两兄弟已经逐步在淡出主机板市场了,也就必定将淡出GPU市场。 由于GPU的利益多,也许以后也会诞生出新的厂商。
NVIDIA公司在1999年发布GeForce256图形处理晶片时首先提出GPU的概念。GPU使显示卡减少了对CPU的依赖,并进行部分原本CPU的工作,尤其是在3D图形处理时。GPU所采用的核心技术有硬体T&L、立方环境材质贴图和顶点混合、纹理压缩和凹凸对应贴图、双重纹理四像素256位渲染引擎等,而硬体T&L技术可以说是GPU的标志。 GPU 是显示卡的“心脏”,也就相当于 CPU 在电脑中的作用,它决定了该显示卡的档次和大部分性能,同时也是2D显示卡和3D显示卡的区别依据。2D显示晶片在处理3D图像和特效时主要依赖CPU的处理能力,称为“软加速”。3D显示晶片是将三维图像和特效处理功能集中在显示晶片内,也即所谓的“硬体加速”功能。显示晶片通常是显示卡上最大的晶片(也是引脚最多的)。现在市场上的显示卡大多采用NVIDIA和AMD两家公司的图形处理晶片。
GPU能够从硬体上支持T&L(TransformandLighting,多边形转换与光源处理)的显示晶片,因为T&L是3D渲染中的一个重要部分,其作用是计算多边形的3D位置和处理动态光线效果,也可以称为“几何处理”。一个好的T&L单元,可以提供细致的3D物体和高级的光线特效;只不过大多数PC中,T&L的大部分运算是交由CPU处理的(这就也就是所谓的软体T&L),由于CPU的任务繁多,除了T&L之外,还要做记忆体管理、输入回响等非3D图形处理工作,因此在实际运算的时候性能会大打折扣,常常出现显示卡等待CPU资料的情况,其运算速度远跟不上今天复杂三维游戏的要求。即使CPU的工作频率超过1GHz或更高,对它的帮助也不大,由于这是PC本身设计造成的问题,与CPU的速度无太大关系。
简单说 GPU 就是能够从硬体上支持T&L(Transform and Lighting,多边形转换与光源处理)的显示晶片,因为T&L是3D渲染中的一个重要部分,其作用是计算多边形的3D位置和处理动态光线效果,也可以称为“几何处理”。一个好的T&L单元,可以提供细致的3D物体和高级的光线特效;只不过大多数PC中,T&L的大部分运算是交由CPU处理的(这也就是所谓的软体T&L),由于CPU的任务繁多,除了T&L之外,还要做记忆体管理、输入回响等非3D图形处理工作,因此在实际运算的时候性能会大打折扣,常常出现显示卡等待CPU资料的情况,其运算速度远跟不上今天复杂三维游戏的要求。即使CPU的工作频率超过1GHz或更高,对它的帮助也不大,由于这是PC本身设计造成的问题,与CPU的速度无太大关系。
GPU 在几个主要方面有别于 DSP (Digital Signal Processing,简称DSP(数位信号处理)架构。其所有计算均使用浮点演算法,而且目前还没有位或整数运算指令。此外,由于GPU专为图像处理设计,因此存储系统实际上是一个二维的分段存储空间,包括一个区段号(从中读取图像)和二维地址(图像中的X、Y坐标)。此外,没有任何间接写指令。输出写地址由光栅处理器确定,而且不能由程式改变。这对于自然分布在存储器之中的演算法而言是极大的挑战。最后一点,不同碎片的处理过程间不允许通信。实际上,碎片处理器是一个SIMD资料并行执行单元,在所有碎片中独立执行代码。
尽管有上述约束,但是GPU还是可以有效地执行多种运算,从线性代数和信号处理到数值仿真。虽然概念简单,但新使用者在使用GPU计算时还是会感到迷惑,因为GPU需要专有的图形知识。这种情况下,一些软体工具可以提供帮助。两种高级描影语言CG和HLSL能够让使用者编写类似C的代码,随后编译成碎片程式汇编语言。Brook是专为GPU计算设计,且不需要图形知识的高级语言。因此对第一次使用GPU进行开发的工作人员而言,它可以算是一个很好的起点。Brook是C语言的延伸,整合了可以直接对应到GPU的简单资料并行编程构造。经 GPU存储和操作的资料被形象地比喻成“流”(stream),类似于标准C中的数组。核心(Kernel)是在流上操作的函式。在一系列输入流上调用一个核心函式意味着在流元素上实施了隐含的回圈,即对每一个流元素调用核心体。Brook还提供了约简机制,例如对一个流中所有的元素进行和、最大值或乘积计算。Brook还完全隐藏了图形API的所有细节,并把GPU中类似二维存储器系统这样许多使用者不熟悉的部分进行了虚拟化处理。用Brook编写的应用程式包括线性代数子程式、快速傅立叶转换、光线追踪和图像处理。利用ATI的X800XT和Nvidia的GeForce 6800 Ultra型GPU,在相同高速快取、SSE汇编最佳化Pentium 4执行条件下,许多此类套用的速度提升高达7倍之多。
对GPU计算感兴趣的使用者努力将演算法对应到图形基本元素。类似Brook这样的高级程式语言的问世使编程新手也能够很容易就掌握GPU的性能优势。访问GPU计算功能的便利性也使得GPU的演变将继续下去,不仅仅作为绘制引擎,而是会成为个人电脑的主要计算引擎。
说起处理器识别工具 CPU-Z ,其知名度和必备度无需赘言。硬体网站TechPowerUp又给我们提供了一个类似的工具,用于显示卡识别的“GPU-Z”,支持XP/Vista/2000/2003。最新版本是2012年5月2日更新的0.6.2,档案大小为1MB。
更新说明:
GPU-Z 0.6.2
修正NVIDIA 开普勒Boost工作频率显示问题
GPU-Z 0.6.1
新增支持GeForce605,NVIDIA GeForce GTX690,GTX 670, GT 640, GT 630,Quadro 3000M GTX 675M, GTX 670M。
新增支持AMD Radeon HD7970M,HD7450
新增支持英特尔Sandy Bridge和Ivy Bridge集成显示卡
修正GK107 ROP侦测和显示
改进对NVIDIA 开普勒Boost工作频率检测
修正在没有安装驱动情况下,AMD南方群岛显示卡GPU-Z崩溃问题
修正在Windows XP不能正常工作问题
禁用NVIDIA开普勒不完整BIOS储存
BIOS档案现在另外储存为.rom
修正感测器图表重绘,并提高其性能
第一个问题:
GPU 的竞争远比 CPU 的竞争来得激烈。通用PC的CPU就只有英特尔和AMD两家大厂。而在GPU方面领先的是NVIDIA和AMD两家厂商,但能生产中低端产品的还有英特尔、三星等好几家厂商。它们的产品虽然不如前两家,但在很多套用方面也能满足使用者的需要,所以N记和A记只有拼命往前跑才不会死掉。CPU厂商没有采用GPU的先进工艺是因为CPU厂商都有自己投资的生产线,不可能一下把原来的生产线都淘汰了上新的生产线,那样做可能连当初投入的资金都难以收回。而GPU厂商由于种种原因,一般都是自己设计由别人代工的,比如找台积电代工。代工厂商为了能接到业务,只有不停升级自己的生产设备,这样才能生存下来。所以造成以上原因。
第二个问题
CPU除了处理游戏的AI,情节等方面的资料外,对于有些图像方面也是由它完成的。当微软每次发布新的DX时,并不是每款GPU都能支持DX新的特征,所以有些图像方面的任务还得由CPU来完成。还有有些特征比如重力特征以前是由CPU来完成,现在有些GPU也能支持了,这些任务就由GPU来完成了。
第三个问题
GPU相当于专用于图像处理的CPU,正因为它专,所以它强,在处理图像时它的工作效率远高于CPU,但是CPU是通用的资料处理器,在处理数值计算时是它的强项,它能完成的任务是GPU无法代替的,所以不能用GPU来代替CPU。
另外
AMD在2006年以54亿美元的巨资收购了ATI公司,AMD看到今后CPU和GPU只有走一条融合的道路才能地竞争中占得先机。CPU和GPU如何配合默契才能最大地提高工作效率是AMD现在考虑的问题,也是英特尔的问题。
第四个问题
微软发布Windows7 其中一个显著特征就是 联合GPU和CPU的强大实力,提升GPU在硬体使用的价值,在Windows7中,CPU与GPU组成了协同处理环境。CPU运算非常复杂的序列代码,而GPU则运行大规模并行应用程式。微软利用DirectX Compute将GPU作为作业系统的核心组成部分之一。DirectX Compute。它让开发人员能够利用 GPU的大规模并行计算能力,创造出引人入胜的消费级和专业级计算应用程式。简单的说,DirectX Compute就是微软开发的GPU通用计算接口,欲统一GPU通用计算标准。也就是说windows7 以后GPU的硬体地位将仅次于CPU,发挥出更大的效用。英特尔发布的酷睿二代Sandy Bridge处理器集成的核芯显示卡和AMD Llano APU已经将集成显示卡提升到了一个新的高度,英特尔下一代Ivy Bridge处理器更是进一步增强了核芯显示卡的能力。
Ⅳ GPU发展和现状是什么样的
GPU其实就是显卡,是英文Graphics Processing Unit的缩写。大型设备GPU有两个厂商,NVIDIA以及ATI,一个被称为N卡,一个被称为A卡。近几年随着手机等智能设备的快速发展,移动端低功耗GPU越来越受到重视,目前苹果、高通的GPU都比较强悍,华为也在GPU方面加速努力。
ATI显卡
ATI公司成立于1985年,创始人为何国源以及另外两个华人。1985年10月ATI使用ASIC技术开发出了第一款图形芯片和图形卡,1992年4月ATI发布了Mach32图形卡集成了图形加速功能,1998年4月ATI被IDC评选为图形芯片工业的市场领导者,但那时这种芯片还没有GPU的称号,很长的一段时间ATI都是把图形处理器称为VPU,直到AMD收购AT之后其图形芯片才正式采用GPU的名字。
NVIDIA显卡
NVIDIA是一家人工智能计算公司,创立于1993年,创始人及CEO为美籍华人Jensen Huang(黄仁勋)。1999年,NVIDIA首先提出GPU概念,从此 NVIDIA显卡的芯就用GPU来称呼,NVIDIA极大地推动了PC 游戏 市场的发展,并重新定义了现代计算机图形技术,彻底改变了并行计算。
苹果自研GPU
苹果之前一直都是跟Imagination合作,为了使自己的硬件和软件更加完美的融合,同时不受供应商卡脖子,从A11芯片开始,苹果正式抛弃Imagination而改用自研GPU。目前苹果的GPU性能也是第一梯队的,苹果移动设备的3D显示、AR、大型 游戏 还是比较出色的。
高通GPU
目前高通骁龙移动平台集成的Adreno GPU是应用较为广泛的,因为大部分国产手机都采用骁龙处理器,Adreno也是可以和同期苹果A系列芯片集成GPU一教高下的存在。Adreno的前身是ATI Imageon系列低功耗GPU,ATI被AMD收购后,AMD将移动设备相关的自从打包卖给了高通。
ARM 的Mali GPU
海思麒麟、三星Exynos、联发科Helio等芯片都采用了ARM的GPU解决方案。这些SOC通常将多个GPU核心封装在一个更大规模的GPU矩阵中,这也导致功耗及发热问题的出现。目前三星和华为应该都在进行自研GPU,走上苹果的道路。
移动GPU现状
目前移动端GPU性能还存在一定短板,随着5G的到来,未来会有更多的应用需要在移动端体现,AR、VR、大型 游戏 等等,都需要强大的GPU支持。未来谁能掌握最强的GPU技术,谁就能获得更多的优势和关注度,各厂商也都在加大自研投入避免受到供应商的影响。
除了台式机、笔记本等常见领域的GPU,像人工智能及深度学习领域,数据科学家和研究人员可以用高性能GPU解析 PB 级的数据;自动驾驶领域 汽车 可以利用强大的GPU,几乎可以在任何驾驶场景中自主观察、思考、学习和导航。另外医疗、教育、自动驾驶、 娱乐 、影视等众多领域越来越智能化,并且都需要越来越强大的GPU作为技术支持。
总之,无论是移动端还是大型设备,人们对GPU的性能要求越来越高,GPU的发展也会越来越快,越来越智能。
GPU,又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、 游戏 机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器,与CPU类似,只不过GPU是专为执行复杂的数学和几何计算而设计的,这些计算是图形渲染所必需的。随着人工智能的发展,如今的GPU已经不再局限于3D图形处理了,GPU通用计算技术发展已经引起业界不少的关注,事实也证明在浮点运算、并行计算等部分计算方面,GPU可以提供数十倍乃至于上百倍于CPU的性能。 GPU的特点是有大量的核(多达几千个核)和大量的高速内存,最初被设计用于 游戏 ,计算机图像处理等。GPU主要擅长做类似图像处理的并行计算,所谓的“粗粒度并行(coarse-grainparallelism)”。这个对于图像处理很适用,因为像素与像素之间相对独立,GPU提供大量的核,可以同时对很多像素进行并行处理。但这并不能带来延迟的提升(而仅仅是处理吞吐量的提升)。比如,当一个消息到达时,虽然GPU有很多的核,但只能有其中一个核被用来处理当前这个消息,而且GPU核通常被设计为支持与图像处理相关的运算,不如CPU通用。GPU主要适用于在数据层呈现很高的并行特性(data-parallelism)的应用,比如GPU比较适合用于类似蒙特卡罗模拟这样的并行运算。
CPU和GPU本身架构方式和运算目的不同导致了CPU和GPU之间的不同,正是因为GPU的特点特别适合于大规模并行运算,GPU在“深度学习”领域发挥着巨大的作用,因为GPU可以平行处理大量琐碎信息。深度学习所依赖的是神经系统网络——与人类大脑神经高度相似的网络——而这种网络出现的目的,就是要在高速的状态下分析海量的数据。例如,如果你想要教会这种网络如何识别出猫的模样,你就要给它提供无数多的猫的图片。而这种工作,正是GPU芯片所擅长的事情。而且相比于CPU,GPU的另一大优势,就是它对能源的需求远远低于CPU。GPU擅长的是海量数据的快速处理。 工业与学术界的数据科学家已将GPU用于机器学习以便在各种应用上实现开创性的改进,这些应用包括图像分类、视频分析、语音识别以及自然语言处理等等。尤其是深度学习,人们在这一领域中一直进行大力投资和研究。深度学习是利用复杂的多级「深度」神经网络来打造一些系统,这些系统能够从海量的未标记训练数据中进行特征检测。 虽然机器学习已经有数十年的 历史 ,但是两个较为新近的趋势促进了机器学习的广泛应用:海量训练数据的出现以及GPU计算所提供的强大而高效的并行计算。人们利用GPU来训练这些深度神经网络,所使用的训练集大得多,所耗费的时间大幅缩短,占用的数据中心基础设施也少得多。GPU还被用于运行这些机器学习训练模型,以便在云端进行分类和预测,从而在耗费功率更低、占用基础设施更少的情况下能够支持远比从前更大的数据量和吞吐量。 将GPU加速器用于机器学习的早期用户包括诸多规模的网络和社交媒体公司,另外还有数据科学和机器学习领域中一流的研究机构。与单纯使用CPU的做法相比,GPU具有数以千计的计算核心、可实现10-100倍应用吞吐量,因此GPU已经成为数据科学家处理大数据的处理器。
GPU 原来就是为了加速 3D 渲染的,后来被拿过来做计算。 现在 GPU 可以支持通用的指令,可以用传统的 C 和 C++,还有Fortran 来编程。 现在单个高端 GPU 的性能已经达到了传统多核 CPU 集群的性能 有的应用通过 GPU 加速相比传统的多核 CPU 来说可以达到 100X 的加速。对某些特定应用来说 GPU 还是最适合。
GPU未来趋势
GPU的未来方向,可以从NVIDIA 2019年的中国GTC(GPU technology conference)大会窥见一斑。GTC会议是NVIDIA近年来每年举办的一场GPU技术大会,汇集全球顶级的GPU专家,提供GPU领域颇具热门话题的相关培训和演讲。在这个大会上展示的是全球GPU研究人员的最新的研究和应用方向,通过GTC会议可以窥见GPU的未来。2019年中国GTC大会设置了两大主题,分别是AI和图形,两个大主题之下各自又有一些小主题,
GPU的未来趋势无外乎3个:大规模扩展计算能力的高性能计算(GPGPU)、人工智能计算(AIGPU)、更加逼真的图形展现(光线追踪 Ray Tracing GPU)。虽然GPU的最基本功能-显示技术在大会主题中没有“显式”的提及,但是众多应用方向均与之密切相关,譬如:智慧医疗和生命科学、 游戏 、虚拟现实/增强现实、工业设计与工程、自动驾驶与交通等,因此支持更加清晰和动感的高清显示是无需强调的未来趋势。此外,由于GPU越来越广泛地应用到手机、终端、边缘计算节点等嵌入式设备,所以高效能也是一个永恒的追求。
高性能计算
NVIDIA最新发布的Tesla V100s高性能计算GPU,集成5120个CUDA Core,640个Tensor Core,采用32 GB HBM2显存,显存带宽达1134GB/S,单精度浮点计算能力达16.4 TFLOPS。
GPGPU在图形GPU的基础上进行了优化设计,使之更适合高性能并行计算,加上CUDA多年来建立的完整生态系统,其在性能、易用性和通用性上比图形GPU更加强大。基于这种特性,GPGPU将应用领域扩展到了图形之外,在自动驾驶、智慧医疗、生命科学、深度学习、云计算、数据处理、金融等方面均 得到广泛应用,关于它的科研成果和新应用模式也层出不穷。
相比CUDA,OpenCL具有更好跨平台性和通用性,得到更多GPU硬件厂家的支持,但由于其对开发者的友好程度不高,直接应用反而不多。
人工智能计算
GPU的并行处理结构非常适合人工智能计算,但传统的基于流处理器的 GPU,其流处理器一般只能处理FP32/FP64等精度的运算,而AI计算的精度 要求往往不高,INT4/INT8/FP16往往可满足绝大部分AI计算应用。针对AI应用,NVIDIA设计了专用的Tensor Core用于AI计算,支持INT4/INT8/FP16等不同精度计算,RTX 2080集成了544个Tensor Core,INT4计算能力可达455 TOPS。
基于NVIDIA GPU的AI应用绝大多数情况下应用在服务器端、云端,基于GPU的AI计算往往具有更好的灵活性和通用性,在数据中心、云端等环境下具有更广泛的适用性。与之相对应的,在分布式应用领域AI计算更倾向于独立的面向特定应用领域的专用芯片,而不依赖于GPU,如手机、平板等移动端SOC都集成了专用的NPU IP。
光线追踪-更加逼真的图形展现
传统的图形GPU都使用光栅化技术显示3D物体,对物体进行3D建模,将其分割成若干三角形,三角形的细粒度很大程度上决定最后的成像质量,然后将三角形转换为2D屏幕上的像素点并分配初始颜色值,接下来进行像素处理,基于场景修改像素颜色,并将纹理应用于像素,从而生成像素的最终颜色[9]。
光线追踪与光栅化的实现原理不同,它最早由IBM的Arthur Appel于1969年在“Some Techniques for Shading Machine Renderings of Solids”[10]中提出,光线追踪通过从观察点对每一个像素发射一条光线并找到在世界场景中阻挡光线路径的最近物体来渲染场景,光线有两种,第一种是视者发射的光线,来寻找场景中的交点,另一种是从交点发到灯光的阴影射线,看自身是否是处于阴影当中,光线追踪的一个显著优点是能够处理不平整的表面和固体。
2018年NVIDIA发布的RTX 2080 GPU,采用Turing架构,在GPU中集成了 68个独立的 RT(ray tracing) Core ,用于光线追踪,光线处理能力达到了10 Giga/S,1 080P@60Hz需要处理的光线约为6Giga/S,实测基于光线追踪的应用其帧率大致在50FPS左右,基于RTX 2080的光线追踪达到了可用的程度,光线追踪对于反射和阴影有着更逼真的处理效果,尽管目前仍然是采用光线追踪和传统光栅图形处理相结合的方式来进行图形渲染,但其效果已经远超传统光栅图形处理,对于 游戏 、电影等追求逼真光影效果的应用,光线追踪能提供电影级画质的实时渲染,带来视觉效果上质的飞跃。
除了 游戏 、电影方面的应用,产品设计师和建筑师也可以享受到光线追踪带来的好处,借助光线追踪工具和高性能GPU,可以实时生成逼真的产品模型,提高设计迭代速度。
NVIDIA的下一代图形GPU,采用Ampere架构,计划于今年发布,相信在光线追踪方面带来新的提升。
GPU人工智能的重要组成部分 市场空间广阔
GPU目前主要作为显卡的计算核心,主要解决图形渲染问题。GPU具有较为完整的技术生态,其具有高运算性能硬件、驱动支撑、API接口、通用计算引擎/算法库,因此成为一种交易使用的工具。
目前的GPU可被分为PCGPU、服务器GPU与移动GPU,其中PCGPU既有独立也有集成GPU,服务器GPU是专为计算加速或深度学习应用的独立GPU,移动GPU一般都是集成GPU。随着人工智能的快速兴起,拥有强运算能力和计算速度的GPU迎来了新的发展机遇,预测到2023年中国GPU服务器市场规模将达到45亿美金,未来5年整体市场年复合增长率为28%。
根据新思界产业研究中心发布的 《2020-2025年GUP行业市场深度调研及投资前景预测分析报告》 显示,在全球中,GPU应用主要包含图形渲染、 游戏 、电子设备应用,其中图形渲染是GPU应用最广的领域,主要包括PC端的图形处理和移动端的图形处理。移动GPU是提升智能手机性能的核心部件,能够决定设备的界面流程程度、 游戏 流畅程度等参数,已广泛应用于智能手机、DTV和平板电脑等移动设备。近几年电子 游戏 行业快速发展,在这一背景下,GPU 游戏 专用设备需求将有所回升。
我国GPU发展较晚,目前产品与外资品牌有所差距,保守估计国内GPU芯片落后当前主流GPU芯片约6年时间。考虑到产品性能,目前国内市场主要以进口为主,短期之内GPU在市场化竞争的民用市场短期内较难突破。目前在全球中GPU主要品牌有NVIDIA和AMD、ARM、Imagination等公司。
我国对于信息安全领域高端产品自主化需求十分迫切,国务院于2015年5月发布《中国制造2025》,明确提出2020年中国集成电路内需市场自制率将达40%,2025年将更进一步提高至70%的目标,因此预计2025年国产GPU芯片市场空间约为50亿美元,我国GPU行业发展潜力较大。
我国中高端GPU芯片市场需求旺盛,主要在个人计算机、云计算、人工智能、安防监控等领域有着广泛的应用,但在高端产品方面,我国市场近乎空白。从厂商来看,浪潮、华为和曙光在出货量和销售额方面均位列市场前三。国内GPU行业发展起步较晚,尚处于追赶阶段。景嘉微、中船系采取自主研发的方法进行产品开发,能够对自主开发的GPU进行迭代和升级。中科曙光为代表技术引进系。
新思界 产业分析 人士表示,GPU作为人工智能设备重的关键产品,在智能化时代中,市场需求持续攀升,行业发展潜力较大。从目前来看,我国GPU行业主要集中在中低端产品,高端产品接近空白,未来行业需要不断改进,向高端化发展。
Ⅵ GPU上图像拼接的快速计算
图像拼接已被研究并广泛应用于计算机科学的许多领域,但在特征匹配、扭曲和混合步骤中存在大量计算。从而无法满足某些应用的实时性需求。幸运的是,已经在图形处理器单元 (GPU) 上开发并实现了一些可以加快拼接过程的相关并行操作。在本文中,我们使用统一计算设备架构 (CUDA) 提出了基于 GPU 的图像拼接的并行实现。我们在执行时间方面获得了比在中央处理单元 (CPU) 上实现更好的结果。在实验中使用集成 GPU GTX745 时,我们对大输入图像实现了高达 27.6 倍的加速比。
典型的拼接过程主要包括三个不同的图像处理步骤,即配准、扭曲和插值以及混合。图像配准是图像拼接的关键任务。配准是指在描绘同一场景的一对图像之间建立几何变换,该变换由一个8自由度的平面单应性决定。
GPU以其强大的并行计算能力吸引许多领域的研究,作为一种协处理器对计算量大的算法加速已成为实践的重要途径。在前人的研究中,他们都避免了考虑两个极其耗时的步骤,即特征匹配和随机样本共识(RANSAC)。作为图像配准中的两个关键过程,在提出的 GPU 加速并行算法中应考虑它们。
使用GPU并行计算会遇到两个限制
CUDA的出现解决了上述问题,并且CUDA使用C语言,最初为CPU编写的C语言函数可以移植到CUDA内核,无需修改。
在CUDA中,一定数量的线程被分组到一个块中,一定数量的块以规则的网格模式在逻辑上排列(见图1)。每个块都映射到一个多处理器,一个多处理器可以同时运行多个线程块。由于本地资源(寄存器和共享内存)在块之间进行划分,包含在同一块中的线程可以访问相同的共享内存并快速实现同步操作。但是,不同块中的线程并不能直接实现通信和同步。除了本地寄存器和共享内存,所有线程都可以访问全局内存、常量内存和纹理内存。
A. 特征匹配
令点 经过仿射变换后得到 ,即
向量 是平移分量, 控制缩放、旋转效果。利用齐次坐标系,方程(2)也可以写为
接着计算两幅图像特征点之间的欧几里得距离,并将距离按照升序排序,比较升序排序中第一和第二的比值如果小于某个阈值,则认为是匹配点。
由于 中有六个未知参数,随机选择3对不共线的点匹配 ,使用该矩阵 计算剩余 对匹配点的误差。执行大量迭代,直到内点对最多。可以使用最小二乘估计器估计所有六个参数。
B. 变形和插值
扭曲变形过程中,可能使像素点位置出现负值或者没有数值与之对应,在这种抢矿下需要插值算法创建更平滑和准确的数值,进一步减少翘曲中产生的变形。最常用的插值方法是最近邻插值、双线性插值和双三次插值。考虑到精度和计算复杂度之间的权衡,实验采用双线性插值算法。
C. 混合
为了实现并行计算,本文采用了基于羽化的混合方法,其混合函数可以表示为:
其中 是像素 的权重函数。
A. 并行匹配
匹配分为粗匹配和精匹配。粗匹配过程中,块线程数由特征元素数决定,每个块可以实现一个关键点之间的匹配,每个线程计算两个图像两个特征向量的距离。在计算完所有距离后,使用并行计算的归并排序对距离值排序。最后,所有块得到的匹配结果存储在全局内存中,然后传送到CPU。
精匹配过程,设计内核执行RANSAC迭代,只启动一个block,线程数为 ,首先用CPU将三个非共线点计算得到的变换矩阵 ,然后将 、阈值和剩余 个点传到GPU,判断内外点。
通过内存分配,可以实现精细匹配优化。
B. 平行变形和插值
将 矩阵的逆矩阵 存放在常量内存中,由于需要频繁地调用。将待校正的图像存放在纹理内存中,纹理内存是专门为本地访问模式设计的。
为了进一步提升性能,若两个坐标小数部分小于0.2则强度值分配为整数部分,否则使用双线性插值。
C. 并行混合
由于混合数是像素和像素的混合,因此线程数等于重叠部分包含的像素。令重叠图像的列数设置为16的倍数。 gridDim.x的大小等于重叠图像的行数,gridDim.y的大小等于重叠图像的列数重叠图像除以16。
基于 CPU 的算法在配备 16GMB DDR3 RAM 的 Intel Core i7-4790、3.60GHz 处理器上实现。基于 GPU 的算法在 NVIDIA GeForce GTX745 集成显卡上进行测试,每块最大 1024 个线程和 4096 MB 全局内存。
可以清楚地看到,这两种图像之间几乎没有差异。原因是实验中使用的GPU卡支持浮点计算,与CPU版本相比产生的误差非常小。
在本文中,我们提出了一种使用 CUDA 架构在 GPU 上运行的并行图像拼接方法。顺序算法通过几个 CUDA 内核转换为并行版本。通过使用不同类型的内存,我们实现了并行算法的优化。同时,将GPU获得的结果与CPU获得的结果进行比较,我们实现了高达27.6的加速比。尽管所提出的方法显着提高了计算性能,但仍有许多工作要做。例如,更精确的插值方法(双三次插值)和可变权重 c( x, y) 可以考虑进一步改善镶嵌结果。此外,并行镶嵌算法也可以在多个GPU平台上运行,对于大数据可以更有效地执行算法。在今后的工作中,我们将一一处理这些问题。
Ⅶ 双核+gpu 在图像处理计算中有哪些优势知乎
1、双核GPU是指采用2个核心的图像处理器,2个GPU显卡肯定会强劲很多。
2、GPU,即图形处理器,又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器。GPU是显示卡的“大脑”,GPU决定了该显卡的档次和大部分性能,同时GPU也是2D显示卡和3D显示卡的区别依据。2D显示芯片在处理3D图像与特效时主要依赖CPU的处理能力,称为软加速。3D显示芯片是把三维图像和特效处理功能集中在显示芯片内,也就是所谓的“硬件加速”功能。