全球十大AI训练芯片大盘点

发布时间：2019-10-15 07:51:39 所属栏目：评测来源：乾明

导读：本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。 AI芯片哪家强？现在，有直接的对比与参考了。英国一名资深芯片工程师James W. Hanlon，盘点了当前十大AI训练芯片。并给出了各个指标的横向对比，也是目前对AI训练芯片最新的讨论与梳

NNP-T有270亿个16nm晶体管，硅片面积680平方毫米，60mmx60mm 2.5D封装，包含24个张量处理器组成的网格。

核心频率最高可达1.1GHz，60MB片上存储器，4个8GB的HBM2-2000内存，它使用x16 PCIe 4接口，TDP为150~250W。

每个张量处理单元都有一个微控制器，用于指导是数学协处理器的运算，还可以通过定制的微控制器指令进行扩展。

NNP-T支持3大主流机器学习框架：TensorFlow、PyTorch、PaddlePaddle，还支持C++ 深度学习软件库、编译器nGraph。

在算力方面，芯片最高可以达到每秒119万亿次操作（119TOPS），但是英特尔并未透露是在INT8还是INT4上的算力。

作为对比，英伟达Tesla T4在INT8上算力为130TOPS，在INT4上为260TOPS。

拓展阅读：

英特尔首款AI芯片终于发布：训练推理两用，历时4年花费5亿美元买来4家公司

英伟达Volta架构芯片

英伟达Volta，2017年5月公布，从 Pascal 架构中引入了张量核、 HBM2和 NVLink 2.0。

英伟达V100芯片就是基于此架构的首款GPU芯片，其核心数据为：

TSMC 12nm FFN工艺，211亿个晶体管，面积为815平方毫米
功耗为300W，6 MB L2缓存
84个SM，每个包含：64个 FP32 CUDA 核，32个 FP64 CUDA 核和8个张量核(5376个 FP32核，2688个 FP64核，672个 TCs)。
单个Tensor Core每时钟执行64个FMA操作（总共128 FLOPS），每个SM具有8个这样的内核，每个SM每个时钟1024个FLOPS。
相比之下，即使采用纯FP16操作，SM中的标准CUDA内核只能在每个时钟产生256个FLOPS。
每个SM，128 KB L1数据缓存 / 共享内存和4个16K 32位寄存器。

IO数据：

英伟达Turing架构芯片

Turing架构是对Volta架构的升级，于2018年9月发布，但 CUDA 和张量核更少。

因此，它的尺寸更小，功率也更低。除了机器学习任务，它还被设计用来执行实时射线追踪。其核心数据为：

TSMC 12nm FFN工艺，面积为754平方米，186亿个晶体管，功耗260W
72个SM，每个包含：64个 FP32核，64个 INT32核，8个张量核(4608个 FP32核，4608个 INT32核和576个 TCs)
带有boost时钟的峰值性能：FP32上为16.3 TFLOPs、FP16上为130.5 TFLOPs、INT8上为261 TFLOPs、INT4上为522 TFLOPs
片上内存为24.5 MB，在6MB的 L2缓存和256KB 的 SM 寄存器文件之间
基准时钟为1455 MHz

IO数据：

参考来源：

https://www.jameswhanlon.com/new-chips-for-machine-intelligence.html

【编辑推荐】

【责任编辑：张燕妮 TEL：（010）68476606】
点赞 0

（编辑：岳阳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!