2017年我国图形处理器(GPU)性能分析及发展方向预测（图）

2017-11-13 02:22

手机浏览

GPU（GraphicsProcessingUnit）是图形处理单元。是个人电脑、工作站以及移动设备等用来进行图像处理的微处理器。显卡是连接计算机主板和显示器的重要元件，可以接受主板的控制信号，转换成显示器能够识别的命令，控制显示器正确显示图像信息。而GPU就是显卡的处理器，是显卡的“大脑”，专门用来处理图形计算任务。

图：显卡的内部构造

资料来源：观研天下整理

  1、GPU架构特点。

  GPU架构特点与其需要处理的任务相关，其处理和显示的计算机图形本质上都是二维数据矩阵。计算机图形显示的基本单元是像素点，众多像素点构成各种线段、平面和形状，通常我们说的320*215的显示屏是指像素点行数是320个，列数是215个，构成一个320*215的矩阵，布满整个屏幕。由于图像信息都是以这种矩阵像素点形式存储和呈现的，因此处理图片的GPU需要以矩阵形式存在的基本处理单元，来分块处理这些矩阵数据。

  2、GPU与CPU区别。

  从GPU与CPU架构对比图可以看出，CPU的逻辑运算单元（ALU）较少，控制器（control）占比较大；GPU的逻辑运算单元（ALU）小而多，控制器功能简单，缓存（cache）也较少。GPU的众多逻辑运算单元呈矩阵排列，可以并行处理数量众多但较为简单的处理任务，图像运算处理就可以进行这样的拆解。GPU单个运算单元处理（ALU）能力弱于CPU，但是数量众多的运算单元可以同时工作，当面对高强度并行计算时，其性能要优于CPU。

图：CPU与GPU逻辑结构对比

资料来源：观研天下整理

以英伟达Maxwell架构的GM200处理器说明GPU的内部结构。该处理器由4个图形处理集群（GPC）和16个流处理集群（SMM）组成。每个流处理集群又由4个调度器组成，每个调度器控制着32个逻辑计算内核（core），这些计算内核就是实现逻辑运算的基本单元。相对于CPU的“多核”，GPU算得上是“众核”。

图：英伟达GM200处理器结构

资料来源：观研天下整理

  3、GPU处理流程。

  在电脑中，GPU被集成在显卡中进行图形处理。整个计算机运行时，CPU将图形处理任务交给GPU进行处理。GPU从CPU获得指令后，把大规模、无结构化的图像数据分解成许多独立的块，分配给各个流处理集群（SMM）。每个流处理集群再次把数据分解，分配给调度器，调度器将任务放入自身所控制的32个计算内核（core）中完成最终的数据处理任务。如果将一个core的运算过程记为一个线程，那么该显卡就有32*4*16=2048个线程同时进行。而当前英特尔最强大的酷睿X系列处理器顶配也只能做到18核、36线程。这些任务单一、数量众多同时进行的线程可以大大缩短计算机运算时间，这即是GPU在图形处理方面的优势所在。

  4、GPU“众核”使其在并行处理占优势。

  参考中国报告网发布《2016-2022年中国图形处理器（GPU）行业现状调查及竞争策略分析报告》

  从GPU与CPU架构来看，GPU处理核心数量众多，主要用来快速处理图像像素矩阵和显示控制。当前，GPU也被用作图形以外的数据处理，其架构决定了其适合于数据之间关联性不高，可分块处理的大规模并行计算。打个比方直观地解释一下GPU和CPU的区别，如果将CPU比作一个从加减乘除到微积分样样精通的博士生，那么GPU就是数以千计的小学生。如果任务是几千道十以内的加减法题目，当然还是小学生们每人一道题所耗费的时间较短。计算机图形处理这一领域需要多线程并行化处理，为了迎合这一需求，GPU在图形处理及通用并行化计算方面取得了快速发展。GPU主要处理高度可并行的任务，具有更高的运算电路密度、更密集的处理内核，更高的时钟频率。GPU具有很高的浮点运算能力。以英伟达专为游戏玩家设计的GEFORCEGTX1080Ti显卡为例，其核心数达3584个，时钟频率达1582MHz，显存速率达11Gbps。具有超强性能的通用A.I加速卡—TeslaP100，能够为HPC和超大规模工作负载提供每秒超过20万亿次的FP16浮点运算性能，最大功耗为300W。

表：GEFORCEGTX1080Ti显卡参数

资料来源：观研天下整理

  5、GPU向通用计算方向发展

  GPU在并行计算、浮点以及矩阵运算方面的强大性能，使其获得了需要大量并行计算的深度学习等高性能运算市场的青睐。与传统的CPU服务器相比，采用GPU加速的服务器在达到相同计算精度条件下，可将训练速度提高5~10倍。

  2011年，谷歌大脑项目（GoogleBrain）通过观看YouTube上的电影学会了识别猫脸。识别过程（推理阶段）需要用到2000颗服务器CPU。随后在英伟达与斯坦福大学的合作项目中，将GPU用于深度学习，经测试12颗GPU的性能与谷歌2000颗服务器CPU的性能相当。

  2015年在ImageNet1000挑战中，微软亚洲研究院视觉神经组采用GPU为其冠军系统（基于深度卷积神经网络（CNN）的计算机视觉系统）加速。该系统首次超越了人类对图形识别和分辨的能力，识图错误率4.94%，低于人眼的5.1%。

图：谷歌猫脸识别和ImageNet图像识别

资料来源：观研天下整理

6、GPU耗能较大。

集成在游戏PC中，用于图形处理的GEFORCEGTX1080Ti显卡功耗达到了250W，专用于A.I数据中心的Tesla系列加速卡功率也基本都在300W左右。用于PC的英特尔酷睿i系列CPU功耗一般在50-70W之间；用于服务器端的英特尔XeonE系列CPU功耗也只在90-130W之间。配备英伟达GEFORCEGTX1080Ti游戏显卡的PC机功率一般为600W，显卡占据整个系统能耗的42%，而CPU只占系统的10%左右。而在数据中心中，至少支持4片GPU，高性能HPC可以支持多达16片GPU。若搭载4片GPU，光是GPU加速器的功率就达到了1,200W；16片则要4,800W，这相当于3.2个家用两匹空调同时工作，功率非常大。

表：英伟达游戏显卡价

资料来源：观研天下整理

7、GPU价格昂贵。

从英伟达用于游戏PC的GPU显卡价格表上可以看出，当前国内市场上还在出售的游戏显卡价格从2千元到1万元不等。这还是以京东商城上低配版的最低价格计算。新推出的显卡基本在5千到1万左右，价格较为昂贵。英伟达应用于A.I数据中心和超级计算的特斯拉（Tesla）系列计算卡价格都在万元以上。在数据中心中，GPU加速卡不止一个，其在数据中心中成本所占比重较高。