怎么做网站作业,用安卓做网站,个人网站 空间,网页设计工资一般多少星标/置顶小屋#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术这篇文章主要介绍的是家用的深度学习工作站#xff0c;典型的配置有两种#xff0c;分别是一个 GPU 的机器和四个 GPU的机器。如果需要更多的 GPU 可以考虑配置两台四个 GPU 的机器。如果希望一台机器同时具… 星标/置顶小屋带你解锁最萌最前沿的NLP、搜索与推荐技术这篇文章主要介绍的是家用的深度学习工作站典型的配置有两种分别是一个 GPU 的机器和四个 GPU的机器。如果需要更多的 GPU 可以考虑配置两台四个 GPU 的机器。如果希望一台机器同时具备 6~8 个 GPU 需要联系专门的供应商进行配置并且有专业的机房存放放在家里噪声很大并且容易跳闸。CPU由于最近 AMD 和 Intel 频繁更新 CPU因此大家选择新款的 CPU 比较好。CPU 与 GPU 的关系CPU 瓶颈没有那么大一般以一个GPU 对应 2~4 个 CPU 核比较好比如单卡机器买四核 CPU四卡机器买十核 CPU。当你在训练的时候只要数据生成器DataLoader的产出速度比 GPU 的消耗速度快那么 CPU 就不会成为瓶颈也就不会拖慢训练速度。PCI-E 支持情况除了核数你还需要注意 PCI-E 支持情况一般显卡是 PCI-E 3.0 x16比如 i9-9820X 的 PCI-E 通道数是 44 配置四卡的话只能支持 1x163x81x4也就是单卡全速三卡半速一个 NVMe 固态硬盘。这种情况下可以考虑选择带有 PLX 桥接芯片的主板。AMD 的 2990WX 有 64条 PCI-E但是只支持 x16/x8/x16/x8 的四卡配置。英特尔CPU▲英特尔CPU双卡机器选 i9-9900K四卡机器按照预算选X系列的CPU。主板主板需要注意CPU 接口是否能对上如LGA2066 和 SocketTR4PCI-E 插槽的高度是否够插显卡比如 PCI-E 插口之间的距离至少要满足双槽宽显卡的高度PCI-E 同时可以支持几张卡以什么样的速度运行如 1x16 3x8 是常见的配置主板必看参数GIGABYTE X299 AORUS MASTER (rev. 1.0) 使用了 4 组 2 槽间距显卡插槽设计支持1x16、2x16、2x16 1x8、1x16 3x8 四种配置需要十核以上的 CPU这里请参阅说明书安装显卡安装在不同位置的速度是不一样的▲GIGABYTE X299 AORUS MASTER (rev. 1.0)▲GIGABYTE X299 AORUS MASTER manual带有桥接芯片的主板有的主板如 WS X299 SAGE 带有 PLX 桥接芯片可以在 CPU 没有足够 PCI-E 的情况下达到四卡 x16 的速度▲WS X299 SAGE▲WS X299 SAGE User Guide在多卡并行训练的时候PCI-E 的传输速度决定了梯度同步的速度如果你训练的的模型比较大希望搭建多卡机器建议选择支持四路 PCI-E x16 的主板。显卡显卡性能训练需要 FP32 和 FP16 的性能推断需要 INT8 的性能。训练大模型需要注意显存大小。考虑成本可以买 RTX 2080Ti想要高性能并且高性价比可以买 TITAN RTX土豪可以选 Tesla V100。RTX 2080 显存较小不推荐。GTX1080Ti 已经出了太久了网上都是二手卡不推荐。涡轮与风扇采购显卡的时候一定要注意买涡轮版的不要买两个或者三个风扇的版本除非你只打算买一张卡。因为涡轮风扇的热是往外机箱外部吹的所以可以很好地带走热量散热比较好。如果买三个风扇的版本插多卡的时候上面的卡会把热量吹向第二张卡导致第二张卡温度过高影响性能。风扇显卡很有可能是超过双槽宽的第二张卡可能插不上第二个 PCI-E 插槽这个也需要注意。▲涡轮散热▲风扇散热风扇散热服务器推断卡除了用于训练还有一类卡是用于推断的只预测不训练如这些卡全部都是不带风扇的但它们也需要散热需要借助服务器强大的风扇被动散热所以只能在专门设计的服务器上运行具体请参考英伟达官网的说明。性价比之选应该是 Tesla T4但是发挥全部性能需要使用 TensorRT 深度优化目前仍然存在许多坑比如当你的网络使用了不支持的运算符时需要自己实现。英伟达只允许这类卡在服务器上运行像 GTX 1080Ti、RTX 2080Ti 都是不能在数据中心使用的。No Datacenter Deployment. The SOFTWARE isnot licensed for datacenter deployment, except that blockchain processing in adatacenter is permitted.硬盘硬盘类型常用硬盘接口有三种SATA3.0速度 600MB/sSAS速度 1200MB/sPCIE 3.0 x4NVMe)速度 3.94GB/s参数对比下面是根据代表产品查询的参数注4K 随机读写的队列深度为 32SATA3 机械硬盘没有太好的数据来源所以数据是经验值SATA3 固态硬盘数据来源三星SAMSUNG1TB SSD固态硬盘 SATA3.0接口 860 EVONVMe 固态硬盘数据来源英特尔Intel1TB SSD固态硬盘 M.2接口(NVMe协议) 760P系在面对大量小文件的时候使用 NVMe 硬盘可以一分钟扫完 1000万文件如果使用普通硬盘那么就需要一天时间。为了节省生命简化代码硬盘建议选择 NVMe 协议的固态硬盘。如果你的主板不够新没有NVMe 插槽你可以使用 M.2 转接卡将 M.2 接口转为PCI-E 接口。▲M.2 转接卡内存内存容量的选择通常大于显存比如单卡配 16GB 内存四卡配 64GB 内存。由于有数据生成器DataLoader数据不必全部加载到内存里通常不会成为瓶颈。电源先计算功率总和如单卡 CPU 100W显卡 250W加上其他的大概 400W那么就买 650W 的电源。双卡最好买 1000W 以上的电源四卡最好买 1600W 的电源我这里实测过四卡机用 1500W 的电源来带跑起来所有的卡以后会因为电源不足而自动关机。一般墙上的插座只支持 220V 10A也就是 2200W 的交流电由于电源要把交流电转直流电所以会有一些损耗最高只有1600W因此如果想要支持八卡最好不要在家尝试。八卡一般是双电源并且需要使用专用的 PDU 插座并且使用的是 16A 插口如果在家使用会插不上墙上的插座。网卡一般主板自带千兆网卡。如果需要组建多机多卡集群请联系供应商咨询专业的解决方案。机箱如果配单卡可以直接买个普通机箱注意显卡长度能放下就行。如果配四卡机器建议买一个 Air 540 机箱因为我正在用这一款。▲Air 540显示器深度学习工作站装好系统以后就不需要显示器了装系统的时候使用手边的显示器就行。键盘鼠标深度学习工作站装好系统以后就不需要键盘鼠标了装系统的时候使用手边的键盘鼠标就行。文末福利 后台回复关键词【入群】 加入卖萌屋NLP/IR/Rec与求职讨论群有顶会审稿人、大厂研究员、知乎大V和妹纸等你来撩哦~参考文献[1] Turing 架构白皮书[2] Volta 架构白皮书[3] RTX 2080 Ti Deep Learning Benchmarks with TensorFlow - 2019[4] https://developer.nvidia.com/deep-learning-performance-training-inference[5] https://www.nvidia.cn/object/where-to-buy-tesla-catalog-cn.html[6] https://www.supermicro.org.cn/support/resources/gpu[7] https://www.geforce.com/drivers/license/geforce