深度学习飞速发展进程中,人们发明原本的处置器没法满足神经网络这类特定的大批盘算,大批的开端针对这一应用进行专用芯片的设计。谷歌的张量处置单元(Tensor Processing Unit,后文简称TPU)是完成较早,具有代表性的一类设计,TPU采取基于脉动阵列设计的矩阵盘算加速单元,可以很好的加速神经网络的盘算。本系列文章将应用公然的TPU V1相干资料,对其进行必定的简化、推测和修正,来实际编写一个简略版本的谷歌TPU,以更确实的懂得TPU的优势和局限性。深度学习飞速发展进程中,人们发明原本的处置器没法满足神经网络这类特定的大批盘算,大批的开端针对这