“新基建”驱动力系列研究之算力加速： GTC 2020，英伟达领跑算力时代_数字科技

在北京时间2020年5月14日以网络录播的方式举行的GTC2020（2020年GPU技术大会）上，NVIDIA CEO黄仁勋先生在他的厨房发布了英伟达最新的技术和设备，这些技术和设备在以5G、AI等为代表的“新基建”中或将成为重要驱动力。

持筹握“算”，算力是“新基建”的重要驱动力

2020年是新型基础建设的关键之年，“新基建”政策内涵丰富，兼顾当下并利在长远。中央经济工作会议于2018年首次提出“新基建”这一概念，至今已有9次中央级会议或文件明确表示加强“新基建”。“新基建”具有新时代的丰富内涵，既符合未来经济社会发展趋势，又适应中国当前社会经济发展阶段和转型需求，在补短板的同时将成为社会经济发展的新引擎。2020中国经济的“弱企稳”受到疫情的“强干扰”，为对冲经济下行压力，基建投资规模扩大势在必行。

2020年“新基建”首次被写进《政府工作报告》中。《政府工作报告》指出“新基建”将重点发展新一代信息网络，拓展5G应用，建设充电桩，推广新能源汽车，激发新消费需求、助力产业升级。《政府工作报告》起草组成员、国务院研究室党组成员孙国君还表示，整个“新基建”范围可能会随着形势变化不断拓展。

“新基建”的“新”，意味着“新生产力”、“新生产资料”与“新生产工具”，其中算力为核心的生产力。工业社会中生产力为人，生产资料为矿石，生产工具为蒸汽机等；而在智能世界，在算力时代，算力为新生产力，数据为新生产资料，云、AI、5G为新生产工具。算力为核心的生产力。

图2 “新基建”“新”在哪里

数据来源：赛迪顾问，2020.06

相比CPU，GPU更适应于智能世界的算力要求。GPU为图形渲染而设计，专门处理四维向量和变换矩阵的乘法，与卷积神经网络中所处理的卷积运算和矩阵运算相同，而目前采用“CUDA Core + Tensor Core”架构的先进GPU在处理AI任务中性能得到大幅提升，GPU更适合5G+AI的智能世界的算力要求。在“新基建”中，GPU可以为5G、AI、数据中心、工业互联网、智能车联网等应用场景带来算力加速。

深图远“算”，英伟达发布全新安培架构GPU

NVIDIA在GTC2020发布的最重要的产品是下一代GPU架构安培（Ampere），以及第一款使用安培架构的GPU——NVIDIA A100，该产品专为科学计算、云图形和数据分析而设计，也是英伟达在AI计算领域的大胆推进。

图3 NVIDIA发布全新安培架构GPU——A100

数据来源：英伟达官网，2020.06

A100采用台积电的7nm工艺制造，核心面积达到826mm2，拥有542亿个晶体管及400W TDP。该GPU拥有19.5teraflops（每秒万亿次浮点运算）的FP32运算性能拥有6912个CUDA内核，搭载40GB内存和高达1.6TB/s的内存带宽，NVIDIA还在强化它的Tensor内核，以更加适合开发人员使用。

图4 NVIDIA A100在性能上大幅提升

数据来源：英伟达官网，2020.06

A100的五大创新点包括：全新安培架构，第三代Tensor Core核心，稀疏化结构，多实例GPU（MIG），第三代NVLink等。安培架构是继Volta和Turing架构后的全新架构。安培架构相比于Volta架构性能提升了高达20倍，并将CUDA Core与Tensor Core集成以胜任人工智能计算任务，集AI训练和推理于一身，将取代Turing和Volta架构，NVIDIA新一代图形产品也将基于安培架构。第三代Tensor Core核心支持全格式的深度学习模型训练及各类AI应用。Tensor Core是一种专用于提高卷积和矩阵乘法计算的核心，添加在GPU中将兼顾专用性和通用性，将大幅提升特定AI计算应用的性能。

图5 第三代Tensor Core核心提升代码移植效率

数据来源：英伟达官网，2020.06

结构化稀疏是一种软硬件协同的提升计算效率的模型，主要用在深度学习中。采用结构化稀疏能实现剪枝压缩（pruning），在保证模型精度的同时按照硬件资源特性排布数据，实现计算加速。在A100的Tensor Core上支持2:4的稀疏计算，通过Apex扩展实现ASP（自动稀疏化，Automatic SParsity），拥有较佳的易用性。多实例GPU（MIG）技术是Ampere架构引入的一种全新技术功能，能够把单个A100 GPU划分为多达七个独立的GPU，为不同规模的工作提供不同的计算力。使用MIG技术可以把单个A100 GPU划分为多个独立的GPU实例，不同的工作可以同时在划分出来的独立实例上运行，而且由于每个GPU实例都有专用的计算、显存和显存带宽资源。因此不同的实例可以运行不同类型的工作负载，包括交互式模型开发、深度学习训练、AI推理或高性能计算应用程序等。而且，由于MIG将各个GPU实例相互隔离，因此能够提供故障隔离功能，这使得一个实例中的问题不会影响同一物理GPU上运行的其他实例。每个实例都能提供有保证的QoS（Quality of Service，服务质量），确保用户的处理任务的延迟和吞吐量能够符合预期。

图6 多实例GPU提高利用率和投资回报

数据来源：英伟达官网，2020.06

第三代NVLink拥有更快的GPU间通信速度。NVLink是英伟达的GPU间通信总线技术，A100最多支持12个第三代 NVLink连接，总带宽为每秒600GB，是PCIe 4.0带宽的10倍。GPU之间的直接通信链接加快了AI训练工作负载的收敛速度和计算时间。

安培架构的设计专注于“计算”加速，瞄准未来应用前景最为广阔的领域之一的人工智能，该架构将开启GPU加速计算的新纪元。

精打细“算”，RTX+DLSS生成超精细图像

NVIDIA在GTC2020上介绍了其在游戏业务上的技术突破，基于Turing + RTX显卡的DLSS2.0（深度学习超级采样）画面处理技术，该技术在渲染后的较低分辨率图像上用AI神经网络尝试合成更高分辨率的图像。由于图形学和计算学均可使用GPU进行加速，且使用GPU中的不同算力资源，采用DLSS技术可在图形处理时利用闲置的计算资源，并提升画面质量，提升GPU资源利用效率。

通过神经网络训练，DLSS2.0能够在原本模糊到损失全部细节的地方“猜测出”高分辨率下的真实细节，判断生成高质量的图片。

图7 DLSS算法将低质量的540p图片生成高质量1080p图片

数据来源：英伟达官网，2020.06

另外，实时光线追踪引擎（Ray tracing）将帮助玩家体验到与现实世界相似的光线特效。NVIDA Omniverse是英伟达推出的基于最新GPU服务器的高度协同的集成设计平台，帮助创作者在线上协同工作，开发使用实时光线追踪的游戏，提升了生产力。

图8 采用Omniverse协作创作的实时光线游戏

数据来源：英伟达官网，2020.06

对于“协作”的支持不仅在于游戏，英伟达的算力在2020年抗击疫情中也做出很大贡献。借用英伟达的技术，Oxford Nanopore Technologies在7小时内完成了对病毒的测序，Plotly实现了对全美感染率的实时追踪分析，ORNLRidge与Scripps能够在一天内完成从前需要一年的药物化合物筛查。

图9 英伟达的算力在抗击新冠肺炎中参与“协作”

数据来源：英伟达官网，2020.06

能掐会“算”，创新型框架不只是Merlin推荐系统

NVIDIA在GTC2020上对主营业务之一的数据中心的介绍中主要包括推出了针对Spark3.0和Databricks的GPU加速推荐系统框架Merlin和对话式AI系统框架Jarvis，这些系统框架将大幅提升AI开发者的开发效率。数据中心是“新基建”的重要方向，而随着AI应用需求的快速增加，用于AI加速的GPU将成为数据中心的重要计算加速设备。

图10 GPU在数据中心中拥有巨大潜力

数据来源：英伟达官网，2020.06

Merlin推荐系统针对内容的推荐和分发而设计。由于用户在互联网的海量数据中找到自己需要的内容非常困难，就需要AI训练的推荐系统给用户推荐内容，利用协同过滤、内容过滤等算法，“算”出用户需要的内容并推荐给用户。在性能方面，Merlin具有显著的优势，之前处理1TB的广告数据需要CPU处理30多小时，在基于GPU的Merlin推荐系统中运算仅仅需要几行代码、运行几分钟就可以实现。

图11 Merlin推荐系统框架在性能上具有优势

数据来源：英伟达官网，2020.06

Jarvis对话式AI系统能够实时模拟真实的口型，强调AI的实时性和体验感，通过云计算和CG应用，将为线上办公、游戏制作等提升效率。

图12 对话式AI系统具有广泛应用前景

数据来源：英伟达官网，2020.06

“算”无遗策，布局关于AI加速的一切

NVIDIA对于AI加速计算的布局还包括超级计算机、边缘AI计算、自动驾驶、工业机器人等等，产品包括DGX A100超级计算机、EGX A100边缘AI产品、基于EGX的Isaac机器人、基于AGX的NVIDIA DRIVE自动驾驶产品等。

图13 NVIDIA产品线全面布局AI计算加速

数据来源：英伟达官网，2020.06

DGX A100超级计算机是全球首个完全集成的AI超级计算机。其内部配备了八颗安培架构的A100 GPU，每一颗配置40GB HBM2高带宽显存，整机GPU显存容量高达320GB。每颗GPU有12根NVLINK链路与NVSwitch相连，同时搭配6个NVIDIA NVSwitch芯片，八颗GPU通过NVLINK和NVSWitch互联，GPU-GPU带宽高达600GB/s，NVSwitch总带宽吞吐高达4.8TB/s。阿里云、AWS云、谷歌云、微软Azure、甲骨文及腾讯云都将推出基于A100的云服务。美国、德国的多个实验室及超算中心已开始使用DGX A100作为超算解决方案。

图14 DGX A100超级计算机拥有高性能

数据来源：英伟达官网，2020.06

EGX A100是首个基于NVIDIA安培架构的边缘AI产品。随着“新基建”中5G网络、人工智能、智慧交通、智慧城市等建设的推进，物联网和边缘计算的需求将大幅提升。在物联网中，信息具有持续获取的特性，处理器要持续处理数据并进行决策，对数据延迟、数据带宽和数据处理能力的要求很高。EGX A100可以实时处理来自摄像头和其他物联网传感器的大量流式数据，从而更快地进行决策并提高业务效率。

图15 基于EGX A100的端到端应用前景广泛

数据来源：英伟达官网，2020.06

基于EGX的Isaac机器人是物流型车厂机器人。该机器人利用AI计算与可视化技术，运行于NVIDIA开放式Isaac机器人软件平台，完成从训练、测试到部署的全过程，是NVIDIA技术的端到端系统展开。该机器人将优化物流工厂的流程，以更快捷、更高效地生产定制化配置的汽车。

图16 基于EGX的Isaac机器人实现数字孪生

数据来源：英伟达官网，2020.06

基于AGX的NVIDIA DRIVE是自动驾驶的统一可编程架构，可在全虚拟的环境中完成自图17 NVIDIA DRIVE建立软件定义的AV平台

数据来源：英伟达官网，2020.06

从国内市场来看，“新基建”的推进无疑为AI的发展创造了前所未有的机遇期，与AI相关的算力需求的快速增长也将为GPU及一系列的AI加速解决方案带来巨大机遇。

但是从产业结构来看，高性能算力产品并非面向普通消费者，而是面向5G基站和边缘计算、云计算、大数据和人工智能、自动驾驶、工业互联网等商用场景，因此需要始终保持产品线的完善、技术的快速迭代、具有竞争力的性价比、极高的数据安全性等等。这些对于英伟达这样的头部企业而言将始终巨大挑战。

不过这一次GTC2020中英伟达并未让我们失望，英伟达或将领跑算力时代。