2016 年底,谷歌 tpu 团队的十位核心开发者中的八位悄悄离职,创办了一家名为 groq 的机器学习系统公司。在此后的三年里,这家公司一直很低调。但最近,他们带着一款名为 tsp 的芯片架构出现在公众视野里。
tsp 的全称是 tensor streaming processor,专为机器学习等 ai 相关需求打造。该架构在单块芯片上可以实现每秒 1000 万亿(10 的 15 次方)次运算,是全球首个实现该级别性能的架构,其浮点运算性能可达每秒 250 万亿次(tflops)。在摩尔定律走向消亡的背景下,这一架构的问世标志着芯片之争从晶体管转向架构。
250 tflops 浮点运算性能是什么概念?目前的世界第一超级计算机 summit,其峰值算力为 200,794.9 tflops,它的背后是 28,000 块英伟达 volta gpu。如果 tsp 达到了类似的效率,仅需 803 块就可以实现同样的性能。
groq 在一份白皮书中介绍了这项全新的架构设计。此外,他们还将在于美国丹佛举办的第 23 届国际超算高峰论坛上展示这一成果。
「我们为这一行业和我们的客户感到兴奋,」groq 的联合创始人和 ceo jonathan ross 表示。「顶级 gpu 公司都在宣称他们有望在未来几年向用户交付一款每秒百万亿次运算性能的产品,但 groq 现在就做到了,而且建立了一个新的性能标准。就低延迟和推理速度而言,groq 的架构比其他任何用于推理的架构都要快许多倍。我们与用户的互动证明了这一点。」
groq 的 tsp 架构是专为计算机视觉、机器学习和其他 ai 相关工作负载的性能要求设计的。「对于一大批需要深度学习推理运算的应用来说,groq 的解决方案是非常理想的选择,」groq 的首席架构师 dennis abts 表示,「但除此之外,groq 的架构还能用于广泛的工作负载。它的性能和简洁性使其成为所有高性能即数据和计算密集型工作复杂的理想平台。」
一款「简单」的 ai 芯片架构
groq 的这款架构受到「软件优先」(software first)理念的启发。它在 groq 开发的 tsp 中实现,为实现计算灵活性和大规模并行计算提供了一种新的范式,但没有传统 gpu 和 cpu 架构的限制和沟通开销。
「软件优先」的硬件设计理念
在 groq 的架构中,groq 编译器负责编码所有内容:数据流入芯片,并在正确的时间和正确的地点插入,以确保计算实时进行,没有停顿。执行规划由软件负责,这样就可以释放出原本要用于动态指令执行的宝贵硬件资源。
这使得 groq 的