中科北纬(北京)科技有限公司

010-5289 6043

中科北纬(北京)科技有限公司

公司动态

Technology and information

技术与资讯

网站首页 > 技术与资讯 > 公司动态

如何打造需要的AI硬件环境

2021-11-01 16:08:10 28 发布:中科北纬


在前几篇文章中我们提到了人工智能的三大要素是数据,算法和算力。那么我们反过来考虑一下,要把我们手头的工作通过AI来协助完成 我们还缺少什么?单位上的数据已经存的硬盘都快放不下了;各大互联网寡头也不断的推出自己的AI算法;而现在人工智能应用普遍化的恰恰是算力!引进AI系统环境来解决当前地信行业的对人力资源的依赖,必须要构建好合理的AI硬件环境。

打造需要的AI硬件环境,首先我们要对硬件做一个简单的了解,早在第二次世界大战期间,计算机之父约翰·冯·诺依曼就提出的计算机硬件的架构,即输入设备输出设备、存储设备运算器、控制器五部分组成。


我们通过冯诺依曼架构对AI服务器的硬件进行具体的分析,在AI服务器中输入设备和输出设备我们大都可以采用web界面的形式进行输入输出,而web的底层硬件是网卡,那么我们可以得出的第一块我们需要的硬件就是合适的网络传输设备--网卡。

服务器网卡和家用主机主板上的网口类似,但不同的是服务器上通常使用的是10G万兆光网卡,光卡使用时衰减比较小即使设备间隔很远也不会因为衰减导致输入输出慢的问题。同时相较于电口,光卡发热小,配对设备价格较低工作性能更加稳定。目前各家服务器厂商大多都会在服务器主板上集成2个网口,如果我们对网络环境有其他需求,也可以在额外选配增加网口来满足我们的详细需求。


万兆光卡


说完了输入输出设备,接下来我们再来聊下存储。存储可以说是地信行业的一个命门,无论是做数据处理工作还是做AI平台的解译训练,我们的原材料和产出都依赖存储设备来进行保存。或是放在移动硬盘或者整体存放在一台nas设备中,而在AI服务器中数据的存储和对训练解译任务的数据预处理更是对存储有了更高一步的要求。

服务器和平时使用的工作站和家用电脑使用的存储都是一样的,都是使用硬盘作为直接存储设备,我们接下来会从两个方面来解决存储问题。


 首先看磁盘性能硬盘目前可以根据存储介质分为机械硬盘和固态硬盘,也可以根据磁盘接口分为IDE、SATA、SCSI和光纤通道四种,IDE接口硬盘多用于家用产品中,也部分应用于服务器,SCSI接口的硬盘则主要应用于服务器市场,而光纤通道只在高端服务器上,价格昂贵。SATA是比较流行的硬盘接口类型,市场上最普及的接口类型,在IDE和SCSI的大类别下,又可以分出多种具体的接口类型,又各自拥有不同的技术规范。具备不同的传输速度,比如ATA100和SATA;Ultra160 SCSI和Ultra320 SCSI都代表着一种具体的硬盘接口,各自的速度差异也较大。 

由于磁盘的存储容量和写入速度,从情理上我们更偏向于服务器上全部使用M.2接口的固态硬盘,但随之而来的是高昂的价格,一块1T的固态价格在600-1500不等,虽然满足了高性能的磁盘需求但后期维护费用和存储风险来讲,很是划算不来。


 M.2接口1T固态价格某东截图



8T机械硬盘价格某东截图


再来谈谈磁盘存储阵列。服务器和家用电脑在存储上最大的不同就是服务器主板上通常会集成raid卡,那么什么是raid卡,简单讲就是讲多块硬盘虚拟合并为一块大的硬盘并通过硬件或者软件的形式将其中的一块设置为备份, 但同时因为增加了备份机制的原因,根据不同的raid形式,会至少一张盘的容量作为数据备份空间。

综上考虑,推荐AI服务器使用多张机械存储或单张固态+nas联动的形式来满足AI服务器的存储需求,减少数据丢失的风险,降低硬件成本,同时可以联动多台服务器形成集群部署,提供更强大的算力减少任务训练时间或者同时对多个任务进行解译训练。

接下来就是对于控制器运算器的要求了,对于家用台式机和普通服务器来说这两者可以说是一个东西--CPU,自己给自己安排工作,但目前来讲CPU的性能暂时无法满足AI平台的算力,所以目前大多AI服务器使用GPU作为AI芯片提供算力,让我们一项一项的来了解他们

首先说CPU,相信很多人都听过这样一句话CPU是计算机的大脑,不同的CPU(大脑)也造就了不同的IQ,不同的是这颗大脑可以通过认为定义的一些参数来判断这台计算机的IQ(性能)。例如核心数、线程数、PCLE通道、倍频、主频等,但AI服务器部署依赖一定的CPU指令集,一般服务器推荐Intel至强系列CPU,工作站推荐Intel i9 10代以上,CPU Intel i7 11代以上CPU或者AMD R9系列。







至强系列CPU报价


紧接着就是目前最令人头疼的问题--GPU,由于前两年比特币引领的挖矿热潮,导致显卡价格的大幅度增加甚至于溢价达到了200%,虽然目前国家将“挖矿”这一特殊行业按下了暂停按钮,但仍旧存在炒币囤卡等负隅顽抗的行为,目前购买显卡的话不如先等等。

言归正传,显卡作为AI服务器最核心的部分直接关系到我们模型训练的效率和训练结果的质量,高性能的显卡不仅可以在训练时满足大量样本的处理工作和学习,还在一定的程度上优化模型训练结果,就深度学习而言,目前NVIDIA显示是最适合作为深度学习的显卡,没有之一。

那么我们应该如何选择显卡那? 这需要我们先具体了解一下显卡的种类。

目前我们可以将显卡分为三大类:

面向游戏娱乐领域:如GeForce RTX™ 3090、GeForce RTX™ 3080等。

面向专业设计和虚拟化领域:如NVIDIA RTX™ A6000、NVIDIA® T1000等。

面向深度学习、人工智能和高性能计算领域:如NVIDIA A100 Tensor Core GPU等。

不同的应用场景上我们需要不同的显卡,就AI服务器而言推荐以下几款显卡:

对于个人用户,英伟达消费级的GeForce系列是首选。

比较经济的选项有:

GeForce RTX 2080 Ti:1200美元,11GB显存,Turing微架构(支持Tensor Core)

Titan RTX:2500美元,24GB显存, Turing微架构(支持Tensor Core)

GeForce RTX:3090 TI 24GB显存   Ampere 架构

需要注意的是,这些消费级显卡对多卡并行支持不好,默认情况,他们不支持多卡间直接通信,如果我们希望卡1和卡2之间相互通信,那么数据会先从卡1的显存通过PIC-E总线拷贝回主存,再从主存通过PCI-E拷贝到卡2的显存,这样显然非常浪费时间,不利于多卡之间的通信。2080 Ti和Titan RTX对于多卡之间PCI-E通道的P2P(Peer-to-Peer)通信支持并不好,但并不意味着他们不支持NVLink,用户可以通过购买NVLink桥接器来构建多卡之间的通信通道。有人称这个问题是这两款GPU的设计缺陷,也有人认为英伟达有意为之,为的是让有多卡并行计算需求的人去购买Telsa系列GPU。


企业级

数据中心的GPU产品更贵,适合企业级用户,它们的显存更高,也可以更好地支持多卡并行。

Quadro RTX 6000:4000美元,24GB显存,Turing微架构(支持Tensor Core)

Quadro RTX 8000:5500美元,48GB显存,Turing微架构(支持Tensor Core)

Telsa V100:16或32GB显存两个版本,PCI-E和NVLink两个版本,Volta微架构(支持Tensor Core)

Telsa V100S:32GB显存,PCI-E总线,Volta微架构(支持Tensor Core)

企业级的GPU一般都必须插到服务器或工作站上,这些服务器和工作站本身也不便宜,尤其是支持Telsa平台的服务器在十万元级别。当然,这里没有考虑机房建设、电费等成本。

2020年5月英伟达GTC 2020上发布了新一代Ampere微架构以及Telsa A100显卡,A100显卡的人工智能训练和推理能力更强,而且单个A100可以被分割成最多7个独立GPU来处理各种计算任务。

有多卡并行训练任务的朋友,建议选择支持NVLink的Telsa系列显卡。


小结

如果进行深度学习研究,GeForce RTX 2080 Ti(11GB)可能是起步标配;Titan RTX(24GB)是个不错的选项,兼顾了价格、显存和计算性能。对于企业级用户,Quadro RTX 8000(48GB)Telsa V100(32GB)等显卡适合深度学习领域的前沿研究人员。2021年下半年,英伟达新的计算平台即将出货,新产品一方面会带来更强大的性能,另一方面也会使现有产品降价。


其他新闻

-->