“新基建”驱动力系列研究之算力加速: GTC 2020,英伟达领跑算力时代

1.jpeg

在北京时间2020年5月14日以网络录播的方式举行的GTC2020(2020年GPU技术大会)上,NVIDIACEO黄仁勋先生在他的厨房发布了英伟达最新的技术和设备,这些技术和设备在以5G、AI等为代表的“新基建”中或将成为重要驱动力

在北京时间2020年5月14日以网络录播的方式举行的GTC2020(2020年GPU技术大会)上,NVIDIA CEO黄仁勋先生在他的厨房发布了英伟达最新的技术和设备,这些技术和设备在以5G、AI等为代表的“新基建”中或将成为重要驱动力。


持筹握“算”,算力是“新基建”的重要驱动力

2020年是新型基础建设的关键之年,“新基建”政策内涵丰富,兼顾当下并利在长远。中央经济工作会议于2018年首次提出“新基建”这一概念,至今已有9次中央级会议或文件明确表示加强“新基建”。“新基建”具有新时代的丰富内涵,既符合未来经济社会发展趋势,又适应中国当前社会经济发展阶段和转型需求,在补短板的同时将成为社会经济发展的新引擎。2020中国经济的“弱企稳”受到疫情的“强干扰”,为对冲经济下行压力,基建投资规模扩大势在必行。

2020年“新基建”首次被写进《政府工作报告》中。《政府工作报告》指出“新基建”将重点发展新一代信息网络,拓展5G应用,建设充电桩,推广新能源汽车,激发新消费需求、助力产业升级。《政府工作报告》起草组成员、国务院研究室党组成员孙国君还表示,整个“新基建”范围可能会随着形势变化不断拓展。

“新基建”的“新”,意味着“新生产力”、“新生产资料”与“新生产工具”,其中算力为核心的生产力。工业社会中生产力为人,生产资料为矿石,生产工具为蒸汽机等;而在智能世界,在算力时代,算力为新生产力,数据为新生产资料,云、AI、5G为新生产工具。算力为核心的生产力。

图2  “新基建”“新”在哪里 

数据来源:赛迪顾问,2020.06

相比CPU,GPU更适应于智能世界的算力要求。GPU为图形渲染而设计,专门处理四维向量和变换矩阵的乘法,与卷积神经网络中所处理的卷积运算和矩阵运算相同,而目前采用“CUDA Core + Tensor Core”架构的先进GPU在处理AI任务中性能得到大幅提升,GPU更适合5G+AI的智能世界的算力要求。在“新基建”中,GPU可以为5G、AI、数据中心、工业互联网、智能车联网等应用场景带来算力加速。

深图远“算”,英伟达发布全新安培架构GPU

NVIDIA在GTC2020发布的最重要的产品是下一代GPU架构安培(Ampere),以及第一款使用安培架构的GPU——NVIDIA A100,该产品专为科学计算、云图形和数据分析而设计,也是英伟达在AI计算领域的大胆推进。

图3  NVIDIA发布全新安培架构GPU——A100

数据来源:英伟达官网,2020.06

A100采用台积电的7nm工艺制造,核心面积达到826mm2,拥有542亿个晶体管及400W TDP。该GPU拥有19.5teraflops(每秒万亿次浮点运算)的FP32运算性能拥有6912个CUDA内核,搭载40GB内存和高达1.6TB/s的内存带宽,NVIDIA还在强化它的Tensor内核,以更加适合开发人员使用。

图4  NVIDIA A100在性能上大幅提升

数据来源:英伟达官网,2020.06

A100的五大创新点包括:全新安培架构,第三代Tensor Core核心,稀疏化结构,多实例GPU(MIG),第三代NVLink等。安培架构是继Volta和Turing架构后的全新架构。安培架构相比于Volta架构性能提升了高达20倍,并将CUDA Core与Tensor Core集成以胜任人工智能计算任务,集AI训练和推理于一身,将取代Turing和Volta架构,NVIDIA新一代图形产品也将基于安培架构。第三代Tensor Core核心支持全格式的深度学习模型训练及各类AI应用。Tensor Core是一种专用于提高卷积和矩阵乘法计算的核心,添加在GPU中将兼顾专用性和通用性,将大幅提升特定AI计算应用的性能。

图5  第三代Tensor Core核心提升代码移植效率

数据来源:英伟达官网,2020.06

结构化稀疏是一种软硬件协同的提升计算效率的模型,主要用在深度学习中。采用结构化稀疏能实现剪枝压缩(pruning),在保证模型精度的同时按照硬件资源特性排布数据,实现计算加速。在A100的Tensor Core上支持2:4的稀疏计算,通过Apex扩展实现ASP(自动稀疏化,Automatic SParsity),拥有较佳的易用性。多实例GPU(MIG)技术是Ampere架构引入的一种全新技术功能,能够把单个A100 GPU划分为多达七个独立的GPU,为不同规模的工作提供不同的计算力。使用MIG技术可以把单个A100 GPU划分为多个独立的GPU实例,不同的工作可以同时在划分出来的独立实例上运行,而且由于每个GPU实例都有专用的计算、显存和显存带宽资源。因此不同的实例可以运行不同类型的工作负载,包括交互式模型开发、深度学习训练、AI推理或高性能计算应用程序等。而且,由于MIG将各个GPU实例相互隔离,因此能够提供故障隔离功能,这使得一个实例中的问题不会影响同一物理GPU上运行的其他实例。每个实例都能提供有保证的QoS(Quality of Service,服务质量),确保用户的处理任务的延迟和吞吐量能够符合预期。

图6  多实例GPU提高利用率和投资回报

数据来源:英伟达官网,2020.06

第三代NVLink拥有更快的GPU间通信速度。NVLink是英伟达的GPU间通信总线技术,A100最多支持12个第三代 NVLink连接,总带宽为每秒600GB,是PCIe 4.0带宽的10倍。GPU之间的直接通信链接加快了AI训练工作负载的收敛速度和计算时间。

安培架构的设计专注于“计算”加速,瞄准未来应用前景最为广阔的领域之一的人工智能,该架构将开启GPU加速计算的新纪元。

精打细“算”,RTX+DLSS生成超精细图像

NVIDIA在GTC2020上介绍了其在游戏业务上的技术突破,基于Turing + RTX显卡的DLSS2.0(深度学习超级采样)画面处理技术,该技术在渲染后的较低分辨率图像上用AI神经网络尝试合成更高分辨率的图像。由于图形学和计算学均可使用GPU进行加速,且使用GPU中的不同算力资源,采用DLSS技术可在图形处理时利用闲置的计算资源,并提升画面质量,提升GPU资源利用效率。

通过神经网络训练,DLSS2.0能够在原本模糊到损失全部细节的地方“猜测出”高分辨率下的真实细节,判断生成高质量的图片。

图7  DLSS算法将低质量的540p图片生成高质量1080p图片

数据来源:英伟达官网,2020.06

另外,实时光线追踪引擎(Ray tracing)将帮助玩家体验到与现实世界相似的光线特效。NVIDA Omniverse是英伟达推出的基于最新GPU服务器的高度协同的集成设计平台,帮助创作者在线上协同工作,开发使用实时光线追踪的游戏,提升了生产力。

图8  采用Omniverse协作创作的实时光线游戏 

数据来源:英伟达官网,2020.06

对于“协作”的支持不仅在于游戏,英伟达的算力在2020年抗击疫情中也做出很大贡献。借用英伟达的技术,Oxford Nanopore Technologies在7小时内完成了对病毒的测序,Plotly实现了对全美感染率的实时追踪分析,ORNLRidge与Scripps能够在一天内完成从前需要一年的药物化合物筛查。

图9  英伟达的算力在抗击新冠肺炎中参与“协作”

数据来源:英伟达官网,2020.06

能掐会“算”,创新型框架不只是Merlin推荐系统

NVIDIA在GTC2020上对主营业务之一的数据中心的介绍中主要包括推出了针对Spark3.0和Databricks的GPU加速推荐系统框架Merlin和对话式AI系统框架Jarvis,这些系统框架将大幅提升AI开发者的开发效率。数据中心是“新基建”的重要方向,而随着AI应用需求的快速增加,用于AI加速的GPU将成为数据中心的重要计算加速设备。

图10  GPU在数据中心中拥有巨大潜力

数据来源:英伟达官网,2020.06

Merlin推荐系统针对内容的推荐和分发而设计。由于用户在互联网的海量数据中找到自己需要的内容非常困难,就需要AI训练的推荐系统给用户推荐内容,利用协同过滤、内容过滤等算法,“算”出用户需要的内容并推荐给用户。在性能方面,Merlin具有显著的优势,之前处理1TB的广告数据需要CPU处理30多小时,在基于GPU的Merlin推荐系统中运算仅仅需要几行代码、运行几分钟就可以实现。

图11  Merlin推荐系统框架在性能上具有优势

数据来源:英伟达官网,2020.06

Jarvis对话式AI系统能够实时模拟真实的口型,强调AI的实时性和体验感,通过云计算和CG应用,将为线上办公、游戏制作等提升效率。

图12  对话式AI系统具有广泛应用前景

数据来源:英伟达官网,2020.06

“算”无遗策,布局关于AI加速的一切

NVIDIA对于AI加速计算的布局还包括超级计算机、边缘AI计算、自动驾驶、工业机器人等等,产品包括DGX A100超级计算机、EGX A100边缘AI产品、基于EGX的Isaac机器人、基于AGX的NVIDIA DRIVE自动驾驶产品等。

图13  NVIDIA产品线全面布局AI计算加速

数据来源:英伟达官网,2020.06

DGX A100超级计算机是全球首个完全集成的AI超级计算机。其内部配备了八颗安培架构的A100 GPU,每一颗配置40GB HBM2高带宽显存,整机GPU显存容量高达320GB。每颗GPU有12根NVLINK链路与NVSwitch相连,同时搭配6个NVIDIA NVSwitch芯片,八颗GPU通过NVLINK和NVSWitch互联,GPU-GPU带宽高达600GB/s,NVSwitch总带宽吞吐高达4.8TB/s。阿里云、AWS云、谷歌云、微软Azure、甲骨文及腾讯云都将推出基于A100的云服务。美国、德国的多个实验室及超算中心已开始使用DGX A100作为超算解决方案。

图14  DGX A100超级计算机拥有高性能

数据来源:英伟达官网,2020.06

EGX A100是首个基于NVIDIA安培架构的边缘AI产品。随着“新基建”中5G网络、人工智能、智慧交通、智慧城市等建设的推进,物联网和边缘计算的需求将大幅提升。在物联网中,信息具有持续获取的特性,处理器要持续处理数据并进行决策,对数据延迟、数据带宽和数据处理能力的要求很高。EGX A100可以实时处理来自摄像头和其他物联网传感器的大量流式数据,从而更快地进行决策并提高业务效率。

图15  基于EGX A100的端到端应用前景广泛

数据来源:英伟达官网,2020.06

基于EGX的Isaac机器人是物流型车厂机器人。该机器人利用AI计算与可视化技术,运行于NVIDIA开放式Isaac机器人软件平台,完成从训练、测试到部署的全过程,是NVIDIA技术的端到端系统展开。该机器人将优化物流工厂的流程,以更快捷、更高效地生产定制化配置的汽车。

图16  基于EGX的Isaac机器人实现数字孪生

数据来源:英伟达官网,2020.06

基于AGX的NVIDIA DRIVE是自动驾驶的统一可编程架构,可在全虚拟的环境中完成自图17  NVIDIA DRIVE建立软件定义的AV平台

数据来源:英伟达官网,2020.06

从国内市场来看,“新基建”的推进无疑为AI的发展创造了前所未有的机遇期,与AI相关的算力需求的快速增长也将为GPU及一系列的AI加速解决方案带来巨大机遇。

但是从产业结构来看,高性能算力产品并非面向普通消费者,而是面向5G基站和边缘计算、云计算、大数据和人工智能、自动驾驶、工业互联网等商用场景,因此需要始终保持产品线的完善、技术的快速迭代、具有竞争力的性价比、极高的数据安全性等等。这些对于英伟达这样的头部企业而言将始终巨大挑战。

不过这一次GTC2020中英伟达并未让我们失望,英伟达或将领跑算力时代。

产品图.jpg

赞 (0)
上一篇 2024年04月19日 21:21
下一篇 2024年04月19日 21:21