​启闳半导体科技(江苏)有限公司QiHong Semicon TECHNOLOGY (JIANGSU) CO.,LTD

电子邮箱  
密码      忘记密码?
  注册
特斯拉自研芯片架构带来的启示
来源:半导体行业观察 | 作者:半导体行业观察 | 发布时间: 2022-09-05 | 1276 次浏览 | 分享到:

 


这种专业化可以节省更多的裸片面积。Dojo D1 不会在 DDR 和 PCIe 控制器上花费空间。大部分裸片都被大量 Dojo 核心占据,除了外部设计用于与相邻裸片接口的定制 IO 连接器。

 

相比之下,设计时考虑到更多部署灵活性的芯片在 IO 上花费了大量空间。AMD 的 Zen 1 “Zeppelin” 芯片很好地展示了这一点。Zeppelin 可以直接连接到 DDR4 内存、PCIe 设备、SATA 驱动器和 USB 设备——非常适合满足客户要求。在服务器中,IFOP 接口让它与相邻的芯片进行通信。位于 IFOP 附近的大块 SRAM 可能是窥探过滤器(snoop filters),有助于在高核心数设置中有效地保持缓存一致性。Dojo 不会尝试跨内核保持缓存一致性,并且不会将任何 SRAM 用于窥探过滤。

来自 AMD 在 ISSCC 2021 上的小芯片演示


AMD 通过将大约 44% 的“Zeppelin”裸片区域用于除内核和缓存之外的逻辑来为这种灵活性付出代价。Dojo 仅将 28.9% 的裸片面积用于 SRAM 和内核以外的东西。


最后的话

 

特斯拉 Dojo 超级计算机背后的微架构展示了如何实现非常高的计算密度,同时仍保持 CPU 处理分支代码的能力。要到达那里,您需要放弃定义我们现代计算体验的大部分舒适设施。如果您可以假设围绕 Dojo 核心构建您的桌面,那么任何使用过 MS-DOS 的人都可能会觉得这种体验很熟悉。您不能同时运行多个应用程序。单个行为不端的应用程序可能会迫使您重新启动系统。如果您没有足够的 RAM 来运行某个程序,您可以完全忘记运行它(无需分页到磁盘)。

 

但这些权衡在特斯拉的超级计算机中非常有意义。Tesla 不需要 Dojo 内核来同时处理多个正在运行的应用程序,Dojo 只需运行内部的可信代码。所以,特斯拉并不关心虚拟内存支持。同样,在 Dojo 上运行的机器学习程序将在编写时考虑到该特定系统。您不会有一批任意程序可能要求比可用内存更多的内存。这意味着您不需要precise exceptions(和虚拟内存)来允许诸如过度使用内存、内存压缩或在磁盘之间交换内存页面等技术。precise exceptions对于调试也很有用,但 Tesla 通过单独的调试模式以更便宜的方式进行调试。


可以肯定的是,特斯拉为获得高计算密度而采用的权衡取舍在消费者或服务器 CPU 中是不可能的。但他们在行动中非常有趣,我们必须感谢特斯拉花时间在 Hot Chips 上展示。