谷歌发布TPU v4技术细节,针对机器学习应用而设计

1,011次阅读
没有评论

谷歌发布TPU v4技术细节,针对机器学习应用而设计

针对机器学习(ML)模型创新,生产工作负载发生了根本和快速变化。TPU v4是Google领域特定体系结构(DSA)的第五代,也是第三代适用于ML模型的超级计算机。光电电路交换机(OCSes)通过动态重新配置其互联拓扑结构,提高了规模、可用性、利用率、模块化、部署、安全、功率和性能;用户可以选择扭曲的3D环带形拓扑结构。OCSes和底层的光学元件比Infiniband更便宜、功耗更低、速度更快,占系统成本的<5%,系统功耗的<3%。每个TPU v4包括稀疏核心,这些数据流处理器可以将嵌入依赖的模型加速5倍至7倍,而只需使用5%的晶片面积和电源。自2020年以来已经部署的TPU v4的性能优于TPU v3,性能/瓦提高了2.7倍。TPU v4超级计算机的规模是TPU v3的4倍,因此总体速度约快10倍,这与OCS的灵活性帮助了大型语言模型。对于相似规模的系统而言,它比Graphcore IPU Bow快约4.3x-4.5x,比Nvidia A100快1.2x-1.7x,并且使用的功率比Nvidia A100低1.3x-1.9x。Google Cloud的节能型仓库规模计算机内部的TPU v4比典型的本地数据中心中的DSAs消耗的能量少约3倍,产生的CO2e少约20倍。

总结:

本文介绍了TPU v4,这是一种针对机器学习应用而设计的超级计算机。TPU v4配备了一种称为“光学重新配置技术”的新型处理器架构,该架构将计算和内存资源的分配进行了优化,从而提高了机器学习的效率和速度。此外,TPU v4还具备硬件支持嵌入式矩阵运算的功能,从而使得处理嵌入式向量数据变得更加高效。这篇论文详细介绍了TPU v4的架构、性能和优化策略,并探讨了它在机器学习和深度学习领域的应用前景。总的来说,TPU v4的出现代表了超级计算机在机器学习领域应用的新里程碑,具有重要的研究和实际应用价值。

标题:TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings

作者:Norman P. Jouppi, George Kurian, Sheng Li, Peter Ma, Rahul Nagarajan, Lifeng Nai, Nishant Patil, Suvinay Subramanian, Andy Swing, Brian Towles, Cliff Young, Xiang Zhou, Zongwei Zhou, David Patterson

谷歌发布TPU v4技术细节,针对机器学习应用而设计

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy