1、GPU架构特点。
GPU架构特点与其需要处理的任务相关,其处理和显示的计算机图形本质上都是二维数据矩阵。计算机图形显示的基本单元是像素点,众多像素点构成各种线段、平面和形状,通常我们说的320*215的显示屏是指像素点行数是320个,列数是215个,构成一个320*215的矩阵,布满整个屏幕。由于图像信息都是以这种矩阵像素点形式存储和呈现的,因此处理图片的GPU需要以矩阵形式存在的基本处理单元,来分块处理这些矩阵数据。
2、GPU与CPU区别。
从GPU与CPU架构对比图可以看出,CPU的逻辑运算单元(ALU)较少,控制器(control)占比较大;GPU的逻辑运算单元(ALU)小而多,控制器功能简单,缓存(cache)也较少。GPU的众多逻辑运算单元呈矩阵排列,可以并行处理数量众多但较为简单的处理任务,图像运算处理就可以进行这样的拆解。GPU单个运算单元处理(ALU)能力弱于CPU,但是数量众多的运算单元可以同时工作,当面对高强度并行计算时,其性能要优于CPU。
以英伟达Maxwell架构的GM200处理器说明GPU的内部结构。该处理器由4个图形处理集群(GPC)和16个流处理集群(SMM)组成。每个流处理集群又由4个调度器组成,每个调度器控制着32个逻辑计算内核(core),这些计算内核就是实现逻辑运算的基本单元。相对于CPU的“多核”,GPU算得上是“众核”。
3、GPU处理流程。
在电脑中,GPU被集成在显卡中进行图形处理。整个计算机运行时,CPU将图形处理任务交给GPU进行处理。GPU从CPU获得指令后,把大规模、无结构化的图像数据分解成许多独立的块,分配给各个流处理集群(SMM)。每个流处理集群再次把数据分解,分配给调度器,调度器将任务放入自身所控制的32个计算内核(core)中完成最终的数据处理任务。如果将一个core的运算过程记为一个线程,那么该显卡就有32*4*16=2048个线程同时进行。而当前英特尔最强大的酷睿X系列处理器顶配也只能做到18核、36线程。这些任务单一、数量众多同时进行的线程可以大大缩短计算机运算时间,这即是GPU在图形处理方面的优势所在。
4、GPU“众核”使其在并行处理占优势。
参考中国报告网发布《2016-2022年中国图形处理器(GPU)行业现状调查及竞争策略分析报告》
从GPU与CPU架构来看,GPU处理核心数量众多,主要用来快速处理图像像素矩阵和显示控制。当前,GPU也被用作图形以外的数据处理,其架构决定了其适合于数据之间关联性不高,可分块处理的大规模并行计算。打个比方直观地解释一下GPU和CPU的区别,如果将CPU比作一个从加减乘除到微积分样样精通的博士生,那么GPU就是数以千计的小学生。如果任务是几千道十以内的加减法题目,当然还是小学生们每人一道题所耗费的时间较短。计算机图形处理这一领域需要多线程并行化处理,为了迎合这一需求,GPU在图形处理及通用并行化计算方面取得了快速发展。GPU主要处理高度可并行的任务,具有更高的运算电路密度、更密集的处理内核,更高的时钟频率。GPU具有很高的浮点运算能力。以英伟达专为游戏玩家设计的GEFORCEGTX1080Ti显卡为例,其核心数达3584个,时钟频率达1582MHz,显存速率达11Gbps。具有超强性能的通用A.I加速卡—TeslaP100,能够为HPC和超大规模工作负载提供每秒超过20万亿次的FP16浮点运算性能,最大功耗为300W。
5、GPU向通用计算方向发展
GPU在并行计算、浮点以及矩阵运算方面的强大性能,使其获得了需要大量并行计算的深度学习等高性能运算市场的青睐。与传统的CPU服务器相比,采用GPU加速的服务器在达到相同计算精度条件下,可将训练速度提高5~10倍。
2011年,谷歌大脑项目(GoogleBrain)通过观看YouTube上的电影学会了识别猫脸。识别过程(推理阶段)需要用到2000颗服务器CPU。随后在英伟达与斯坦福大学的合作项目中,将GPU用于深度学习,经测试12颗GPU的性能与谷歌2000颗服务器CPU的性能相当。
2015年在ImageNet1000挑战中,微软亚洲研究院视觉神经组采用GPU为其冠军系统(基于深度卷积神经网络(CNN)的计算机视觉系统)加速。该系统首次超越了人类对图形识别和分辨的能力,识图错误率4.94%,低于人眼的5.1%。
6、GPU耗能较大。
集成在游戏PC中,用于图形处理的GEFORCEGTX1080Ti显卡功耗达到了250W,专用于A.I数据中心的Tesla系列加速卡功率也基本都在300W左右。用于PC的英特尔酷睿i系列CPU功耗一般在50-70W之间;用于服务器端的英特尔XeonE系列CPU功耗也只在90-130W之间。配备英伟达GEFORCEGTX1080Ti游戏显卡的PC机功率一般为600W,显卡占据整个系统能耗的42%,而CPU只占系统的10%左右。而在数据中心中,至少支持4片GPU,高性能HPC可以支持多达16片GPU。若搭载4片GPU,光是GPU加速器的功率就达到了1,200W;16片则要4,800W,这相当于3.2个家用两匹空调同时工作,功率非常大。
7、GPU价格昂贵。
从英伟达用于游戏PC的GPU显卡价格表上可以看出,当前国内市场上还在出售的游戏显卡价格从2千元到1万元不等。这还是以京东商城上低配版的最低价格计算。新推出的显卡基本在5千到1万左右,价格较为昂贵。英伟达应用于A.I数据中心和超级计算的特斯拉(Tesla)系列计算卡价格都在万元以上。在数据中心中,GPU加速卡不止一个,其在数据中心中成本所占比重较高。
【版权提示】观研报告网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至kf@chinabaogao.com,我们将及时沟通与处理。