哪怕是对比智云集团自用的ai5500显卡,也只是在显存容量、显存带宽以及gpu之间的通信速度上有差异而已……当然,只是这种差异就会导致在人工智能训练的时候表现出很大的差距。
为什么智云集团旗下英伟达品牌的x2显卡不适合用来训练ai?其核心处理单元数量上也不少,理论算力也很强悍,然而显存容量最大才16gb,显存带宽才32gb,gpu之间的互联技术只支持双卡互联,带宽才区区32gb……这就导致了显存带宽以及容量低,意味着训练效率低,而互联技术只支持双卡,带宽也才32gb,这意味着用户不能用这东西组成几千张显卡的gpu服务器阵列。
智云集团,直接就阉割了x系列里作为人工智能算力卡的可能性……要不然,大家都用一两万的x系列显卡训练ai,那么动不动十几万的apo显卡还怎么卖?
同样的,apo系列显卡和ai系列也存在同样的差距。
最新版本的apo4600显卡,和智云集团内部使用的ai5500显卡都是基于十二纳米工艺的芯片,晶体管数量其实都差不多,都是两百多一个晶体管,处理单元数量也类似
(前文多次出现了ai4500,这是写混了,这两个其实是同一种东西。都是采用十二纳米工艺的芯片,后续统一为ai5500)。
但是这两者的差异却是巨大的,主要体现在显存容量,显存带宽,gpu之间的互联带宽以及特殊生态支持上。
apo4600显卡,内存容量从之前上一代的24gb提升到了32gb,内存带宽提升到800gb,互联带宽则是提升到了500gb。
而自用的ai5500显卡,内存容量是80gb,内存带宽是1.6tb,互联带宽是1tb。
这三个关键数据最终体现到人工智能训练上,训练效率就会出现比较大的差异,并且这种差异在支持大规模人工智能训练的时候,会体现的越来越大。
因为大规模人工智能训练,比如yun ai这种超大规模的生成式ai训练,可不是一台两台服务器就能搞定的,需要的是好几万甚至更多显卡组成的gpu服务器阵列来进行训练。
而数量越多的gpu组合到一起,其对内存带宽,互联带宽的要求就越高……要不然的话,算力是够用了,但是数据堵塞也没用。
以上这些是硬件上的巨大差异,除了硬件问题外,还有软件生态上的巨大差异。
ai系