大型网站建设建设公司,山东网站建设维护,做网站的学什么,莱芜seo推广周一#xff0c;黄教主又很淡定的在自家厨房里开完了GTC发布会众所周知#xff0c;NLP领域的模型一个比一个大#xff0c;自从百亿参数的Google T5出来后#xff0c;大部分AI研究者只能望着手里的蹩脚算力兴叹。如今动辄就是千亿、万亿参数模型#xff0c;目前比较流行的V…周一黄教主又很淡定的在自家厨房里开完了GTC发布会众所周知NLP领域的模型一个比一个大自从百亿参数的Google T5出来后大部分AI研究者只能望着手里的蹩脚算力兴叹。如今动辄就是千亿、万亿参数模型目前比较流行的V100主机显然已经无法满足需求。而本周刚落幕的GTC发布会则为如今的万亿模型想象力的时代提供了一份极其重要的保障不仅使得造万亿模型都成为了可能甚至打开了通往十万亿乃至更大想象力算力密集型AI模型之路的潘多拉魔盒。 这其中的关键就是在本届GTC大会上全新升级的DGX SuperPod A100。为AI而生的超算首先用一张图来类比DGX SuperPod、DGX A100以及A100计算卡之间的关系DGX SuperPod A100是专门为AI量身定制的大规模、安全、可扩展的超级计算机不仅在整个企业范围内保护和扩展AI算力并且还提供相关的配套软件来完成集群操作帮助企业开发者更好的调度和管理算力。如今人工智能已经几乎渗透到现代商业的方方面面相应的模型训练对算力的渴求也以持续呈指数级增长并且远远未到边界。尤其是在自然语言处理、推荐系统和生物计算等AI核心业务应用上动辄千亿、甚至万亿级别参数量的模型已经成为了当下的热门研究方向。另一方面随着AI对全领域的渗透互联网公司也在谋求一种更加安全、便捷、大规模、可扩展、数据可隔离的集群式解决方案从而为全公司的诸多业务和研究团队提供服务以支持不断变化的项目需求和算力需求。而DGX SuperPod A100恰到好处的满足了这份想象力。2019年英伟达基于多台DGX系统构建了第一代SuperPod系统该超算以远低于一般超算的成本和能耗跻身性能世界前20之列。2020年NVIDIA揭开了第二代SuperPOD的帷幕。该产品不但具有创纪录的性能而且能够在短短三周内完成部署。它的出现使得构建世界一流AI超级计算集群所需的时间不再需要花费漫长的数个月。第二代SuperPOD基于DGX A100系统和Mellanox网络架构构建其证明了可以凭借单个平台将全球最复杂语言理解模型的处理时间从数周缩短至一个小时之内。而在本届GTC大会上我们看到DGX SuperPod又迎来了一波全面的升级。此外新一代SuperPod极大的解放了部署效率大幅降低了AI算力集群的购置成本并且具备算力线性扩展能力和完备的技术支持使得这份AI巅峰算力具备切实的企业内落地能力。算力巅峰成本可期撑起百万亿参数模型相比上一代SuperPOD系统本次新发布的SuperPod配备了目前最先进的80GB显存的加强版A100为SuperPod带来最高可达**90TB的HBM2显存以及高达2.2EB/s的总带宽这是什么概念呢以上图NLP发展轨迹为例自2018年ELMo诞生之日起NLP预训练语言模型的参数量就迎来了持续的指数爆炸级增长如今语言模型参数量已经从三年前的不足1亿爆炸式增长至1750亿。可以预见的是按照这份增长速度到2023年时语言模型达到 100万亿 的参数量规模都是值得想象的。而SuperPOD高达90TB的HBM2显存容量甚至可以撑起这份百万亿模型参数的想象力而在带宽方面要知道在传统的高性能计算解决方案中若实现2.2EB/s的总带宽需要多达11,000台CPU服务器大约相当于有250个机柜的数据中心比SuperPOD整整多了15倍这意味着我们的数据中心仅需要很少的物理空间就能装得下这份顶级算力。这个代表如今AI算力巅峰的超算在价格上却离我们并不遥远DGX SuperPOD的报价自 700万美元 起并且6000万美元即可扩展至完整版的系统实现高达 700 PetaFLOPs 的恐怖算力。BleuField-2 DPU值得注意的是借助NVIDIA BleuField-2新发布的SuperPOD成为了世界上首台云原生超级计算机支持多租户共享具备完全的数据隔离和裸机性能。云原生超级计算Cloud-Native Supercomputing是下一代超级计算的重要组成部分。云原生超级计算机将高性能计算与云计算服务的安全性和易用性相结合换句话说云原生超级计算为HPC云提供了一个与TOP500超级计算机一样强大的系统多个用户可以安全地共享该系统而不会牺牲其应用程序的性能。NVIDIA以其最新的DGX SuperPOD形式向全球用户提供云原生超级计算机其中就包括现已投入生产的NVIDIA BlueField-2数据处理单元DPUData Processing Unit。越来越多的企业需要将高性能AI计算推进到实操模式在这种模式下许多开发人员可以确保他们的工作像在云中一样安全且隔离。NVIDIA BlueField-2 DPU 是针对企业级部署和支撑200 Gbps网络连接进行研发优化的计算模块。不仅企业获得了加速的完全可编程的网络同时该网络实现了零信任安全性以防止数据泄露完美地隔离用户和数据拥有和裸机同样的性能表现。现在每个DGX SuperPOD都具有此功能在其中的每个DGX A100节点中集成了两个NVIDIA BlueField-2 DPU。 IT管理员可以使用NVIDIA BlueField DPU的卸载加速和隔离功能为共享的AI基础架构实施安全的多租户而不会影响DGX SuperPOD的AI性能。Base CommandBase Command Manager是为DGX SuperPod配备的专用管理软件负责协调 DGX SuperPOD 基础架构上的 AI 模型训练和相关操作让世界各地的开发团队能够顺利开展工作。值得一提的是Base Command也是英伟达内部使用的DGX管理和操作工具其可以让多个用户和 IT 团队安全地访问、共享和操作 DGX SuperPOD 基础架构。目前英伟达正在使用Base Command为数千名工程师和200多个团队提供支持每周使用超过100万个GPU小时。Base Command Manager由用于大规模、多用户和多团队AI开发工作流的NVIDIA基本命令平台和用于集群管理的NVIDIA基本命令管理器组成。其中基本命令平台提供了一个图形用户界面其中包括一系列常用的工具如Jupyter Notebook以及完整的命令行API。团队leader也可以通过它设置项目优先级评估、预测算力需求。用户通过命令平台可以非常方便的管理自己的训练任务、计算环境、数据集和工作空间等以及配置任务需要的计算量GPU节点数等。如下图所示图形化界面非常直观友好。此外在基本命令平台上我们可以非常清晰的看到所提交任务的运行时长、GPU利用率甚至更深层次的Tensor Core活跃度、显存活跃度、通信负载等实时参数变化帮助我们深入的监控、监测和调试模型训练。如下图所示。小时级超算部署效率在传统的搭建流程中一项关键性的工作就是要预先规划好你需要将你的基础设施扩展到多大的规模然后开始构建网络架构直至达到最终目标。虽然这种方法能够实现增长但会产生大量前期成本。搭建一个传统的数据中心不仅需要一个大型的专业技术团队而且往往要耗费数个月才能完成时间、空间和金钱成本高昂。而新一代DGX SuperPOD不仅有着恐怖的计算性能而且部署效率方面也有了极大的提升。实际证明4名由英伟达专业调配的操作人员仅需不到1个小时就能组装起一套由20台系统组成的DGX A100集群并且凭借Mellanox的交换功能可以轻松地将多个系统互连在一起以至最终达到SuperPOD的规模。此外如前文所述同等带宽下新一代SuperPOD相比传统CPU集群更是可以节约高达15倍的数据中心物理空间。凭借这种新的拓展方式不仅超算的部署效率和成本控制有了极大的改善和保障企业机构还可以实现近乎线性的算力扩展而且每次增加这一个这种由20台DGX系统构成的SuperPod模块时所产生的支出也将变得更少。最后贴一张GTC大会后的英伟达股价走势图