让找料更便捷
电子元器件
采购信息平台
生意随身带
随时随地找货
一站式电子元器件
采购平台
半导体行业观察第一站
标签:
摘要: TOPS/Watt)上提升了 30 到 80 倍。Unit)ASIC,亦即张量处理器(TPU),这款产品可用来加速神经网络(NN)的推理阶段。TPU 的中心是一个 65,536 的 8 位 MAC 矩阵乘法单元,可提供 92 万亿次运算/秒(TOPS)的速度和一个大的(28 MiB)的可用软件管理的片上内存。相对于 CPU 和 GPU 的随时间变化的优化方法(高速缓存、无序执行、多线程、多处理、预
TOPS/Watt)上提升了 30 到 80 倍。
Unit)
ASIC,亦即张量处理器(TPU),这款产品可用来加速神经网络(NN)的推理阶段。TPU 的中心是一个 65,536 的 8 位 MAC 矩阵乘法单元,可提供 92 万亿次运算/秒(TOPS)的速度和一个大的(28 MiB)的可用软件管理的片上内存。相对于 CPU 和 GPU 的随时间变化的优化方法(高速缓存、无序执行、多线程、多处理、预取……),这种 TPU 的确定性的执行模型(deterministic execution model)能更好地匹配我们的神经网络应用的 99% 的响应时间需求,因为 CPU 和 GPU 更多的是帮助对吞吐量(throughout)进行平均,而非确保延迟性能。这些特性的缺失有助于解释为什么尽管 TPU 有极大的 MAC 和大内存,但却相对小和低功耗。我们将 TPU 和服务器级的英特尔 Haswell CPU 与现在同样也会在数据中心使用的英伟达 K80 GPU 进行了比较。我们的负载是用高级的 TensorFlow 框架编写的,并是用了生产级的神经网络应用(多层感知器、卷积神经网络和 LSTM),这些应用占到了我们的数据中心的神经网络推理计算需求的 95%。尽管其中一些应用的利用率比较低,但是平均而言,TPU 大约 15-30 倍快于当前的 GPU 或者 CPU,速度/功率比(TOPS/Watt)大约高 30-80 倍。此外,如果在 TPU 中使用 GPU 的 GDDR5 内存,那么速度(TOPS)还会翻三倍,速度/功率比(TOPS/Watt)能达到 GPU 的 70 倍以及 CPU 的 200 倍。
Vector 是向量层,Pool 是池化层)以及 TPU 在 2016 年 7 月的应用普及程度。RankBrain [Cla15] 使用了 DNN,谷歌神经机器翻译 [Wu16] 中用到了 LSTM,Inception 用到了 CNN,DeepMind AlphaGo [Sil16][Jou15] 也用到了 CNN。
印制电路板。可以插入服务器 SATA 盘的卡槽,但是该卡使用了 PCIe Gen3 x16 接口。
计数器显示的结果。1,4,5,6行,总共100%,以矩阵单元活动的测量结果为基础。2,3行进一步分解为64K权重的部分,我们的计数器无法准确解释矩阵单元何时会停顿在第6行中;7、8行展示了计数器结果,可能有两个原因,包括RAW管道危害,PCIe输入停止。9行(TOPS)是以产品代码的测量结果为基础的,其他列是以性能计数器的测量结果为基础的,因此,他们并不是那么完美保持一致。这里并未包括顶部主服务器。MLP以及LSTM内存带宽有限,但是CNN不是。CNN1的测试结果会在文中加以分析。
图11:加权平均 TPU 性能作为度量单元,从 0.25 倍扩展到了 4 倍:内存带宽,时钟频率+累加器,时钟频率,矩阵单元维度+累加器,以及矩阵单元维度。加权均值使得我们很难看出单个 DNN 的贡献,但是,MLP 以及 LSTM 提升了 3 倍到 4 倍的内存带宽,但是,更高的时钟频率并没带来任何效果。对于 CNN 来说,结果反之亦然;4 倍的时钟率,2 倍的效果。但是,更快的内存并没带来什么好处。一个更大的矩阵乘法单元并不能对任何 DNN 有帮助。
上一篇:单结晶体管特征及触发电路原理图
下一篇:三极管的发明和用途
型号 | 厂商 | 价格 |
---|---|---|
EPCOS | 爱普科斯 | / |
STM32F103RCT6 | ST | ¥461.23 |
STM32F103C8T6 | ST | ¥84 |
STM32F103VET6 | ST | ¥426.57 |
STM32F103RET6 | ST | ¥780.82 |
STM8S003F3P6 | ST | ¥10.62 |
STM32F103VCT6 | ST | ¥275.84 |
STM32F103CBT6 | ST | ¥130.66 |
STM32F030C8T6 | ST | ¥18.11 |
N76E003AT20 | NUVOTON | ¥9.67 |