吉洋视觉

专注机器视觉检测全自动化服务商
4行业新闻
您的位置: 首页 ->  行业新闻 -> 芯片设计,变天了
芯片设计,变天了

2025.4.25

​​​

广东吉洋视觉专注AOI视觉检测设备 ( ​芯片检测AOI;深度学习算法AOI;一键快速编程AOI;AOI自动光学检测仪;吉洋LED半导体AOI设备)

   


       AI 挖掘海量数据模式的能力正在从根本上改变芯片的使用方式、设计方式以及封装和制造方式。

       这些转变在大型数据中心使用的高性能 AI 架构中尤为明显,在这些架构中,芯粒(Chiplet)正被部署用于处理、移动和存储海量数据。但随着用于设计和验证这些多芯片系统的 EDA 工具和流程不断发展,这些转变也开始影响其他类型的芯片。数十年来在半导体设计中提高效率和可预测性的传统孤岛正在瓦解,促使整个行业开始重新思考设计团队的组织方式、他们如何与组织内外其他团队互动,以及如何利用 AI 来改进 AI 芯片的设计。

       “AI 将重塑 EDA,”Synopsys 首席产品管理官 Ravi Subramanian 表示,“它将重塑计算的可能性。它将触及芯片的规范、验证和制造的方方面面。过去单一的电气性能领域现在包括热性能、机械应力等等。您需要同时分析的领域数量正在推动一种全新的芯片设计方式。”

       其他人对此表示赞同。“我们最近重组或重新激活了一个跨公司的 AI 团队,”Cadence 验证软件产品管理高级部门主管 Matt Graham 说,“我们仍然需要基础引擎,工程师需要理解所有这些的要求。但我们也需要这些总体工程团队。以前,这些可能是市场营销团队和产品工程团队——上市类型的团队,如果我们以某种方式将它们结合起来使用,我们可以解决诸如低功耗混合之类的问题。但我们越来越发现这实际上是一个工程问题,而不仅仅是一个上市解决方案。我们可能需要在工具中构建特定的功能,或者在代码级别(而不仅仅是在脚本级别)将特定的流程拼接在一起,以实现这些不同的解决方案。这不是一个完全统一的单一流程,但它是一个接一个地流动的。”

       一个巨大的挑战是如何集成各种 AI 实现,这实际上可以在设计过程开始时收集的数据与芯片制造前后显示的结果之间架起一座桥梁。

       “我们的应用工程师团队和产品工程团队越来越开始构建这种跨职能的知识,”Graham 说,“我们的客户也在寻找这类人才并组建这类团队。验证工程师非常擅长使用 UVM、SystemVerilog 和运行各种调试工具来找到仿真过程中发现的逻辑错误的根本原因。但他们也在组建支持不同垂直领域工程师的团队,以便从全定制模拟到芯片制造前测试都有清晰且明确的路径。”

       这需要高度复杂的 AI 模型,而至少在今天,这里需要做出权衡。例如,预测芯片的不同组件如何协同工作需要与确保控制回路足够紧密以在多个模型相互作用时保持可靠性相平衡。

       “建模是根本,”Synopsys 的 Subramanian 说,“当工作负载在芯片上运行时,芯片的热模型是什么?您能否创建该模型并用它来分析这如何随着时间的推移影响机械应力?我们需要一个应力如何表现的模型,并将应力转化为电效应。如果采用液冷系统,甚至需要包括流体动力学。因此,这些模型中的每一个都属于不同的领域,然后您需要让这些模型协同工作。随之而来的是,设计团队发生了巨大的变化。设计团队现在与一个研究封装技术替代方案的建模团队合作。衬底、中介层、CoWoS 等之上是什么?以及如何创建设计团队进行分析所需的模型?设计团队不再仅仅是编写 RTL 并将事物组合在一起。他们正在进行功能和电气方面的设计,但现在他们还将这些模型整合在一起,以开始满足新的需求。”


AI驱动的流程和工具

       预测 AI 将在何处使用以及它将如何影响现有的工具、流程和方法仍在摸索之中。经过数十年的断断续续的进展,AI 正迅速变得适用于各种应用。
       
       “AI 无处不在,”Siemens EDA 硬件辅助验证副总裁兼总经理 Jean-Marie Brunet 说,“大多数设备都是 AI。我们正在开发大量与 AI 相关的软件技术,并且我们已将 AI 构建到我们业务部门的几乎所有技术中。当您在仿真器上运行一个包含 100 亿个门的设计并处理复杂的工作负载时,您会看到数千亿个周期。您可以完全了解大数据,但这数据量太大,无法查看。因此,我们正在使用 AI 来有效地探测需要探测的内容,并有效地调整需要分析的内容。这在我们行业中是一个复杂的挑战。”

       当加入芯粒时,它也会改变整体工作流程。“这一切都是并行完成的,”Cadence 高级产品组总监 Mick Posner 说,“对于芯粒,很多都涉及独特的设计,这与在 PCB 上放置多个芯片非常相似。为了在这些芯片之间进行通信,需要进行交互和标准化。芯粒也是如此。各个团队负责其芯粒的功能,但他们需要交换时序和功耗信息,因为最终它们都将集成在一个封装中。因此,传统的挑战仍然存在。您需要一个文档完善的专有接口,或者像 UCIe 这样的标准。但是,在某个时候,这些芯片需要集成在一起,这就是 EDA 工具不断发展的地方,以便每个团队从根本上将其他团队的芯片视为黑盒或白盒。在芯片集成之前,他们会进行信号完整性、电源完整性和热分析,以确保它们能够协同工作。”


是什么驱动了这些变化

       很大程度上,这是多种因素突然且出乎意料地汇合的结果。2022 年底 ChatGPT 的推出以及对生成式 AI(以及随后的代理式 AI)兴趣的激增,引发了对极速芯片和 AI 数据中心的大规模投资。两年前,大多数芯片行业甚至从未听说过生成式 AI。

       更令人担忧的是,尤其是在前沿领域,由于无法扩展 SRAM 和导线以及光刻掩模尺寸的限制,使用单个平面芯片进行器件微缩变得难以为继。因此,大型芯片制造商和系统公司开始专注于先进封装中的多芯片组件,与巨大的单片 SoC 相比,这种方法可以显著提高良率,并可能实现至少部分芯粒的更大程度的重复使用。

       这项工作今天仍在继续。但是,将这些芯粒组合在一起比在 PowerPoint 上看起来要困难得多。即使是单个芯片,设计先进芯片也已经非常困难,需要在流程的早期处理更大规模、更长时间的仿真和原型设计。有了芯粒,部件更多,潜在的交互更多,互连也更多。而过去相对简单的封装现在已成为芯片功能和行为的关键要素。

       “如果芯粒通过 die-to-die PHY 互连,并且您将每个 PHY 视为传统的 PHY——它具有物理层和一些自适应层——那么您可以将它们视为独立的、可以进行布局布线、时序收敛等等的设计,”Eliyan 的 CEO 兼联合创始人 Ramin Farjadrad 说,“然后,您将需要与其他芯粒通信的数据交给 PHY 和适配器,它会以传统方式传输。当然,PHY 需要更低的延迟和更高的带宽,这得益于大量的导线。这就是人们迄今为止的处理方式。但展望未来,尤其对于 3D 应用,人们不希望适配器和这些大型多路复用器和解复用器带来额外的开销。为了避免这种情况,您必须构建一个包含缓冲器的模型(缓冲器有自己的延迟和时序),并且围绕它构建一个时钟树。这正是大型 EDA 公司一直试图解决的问题。互连越简单,创建一个大型 SoC 或 SiP 就越容易。”

       但这需要更多的前期规划。“我们今年做的所有设计都是基于芯粒的,”Alphawave Semi 的 IP 产品营销副总裁 Letizia Giuliano 说,“我们看到更多的设计周期花费在架构阶段。您如何将其分解成多个部分?您从哪里开始?您将使用哪种封装技术?一切都从封装技术开始,它决定了我们如何分解它以实现客户所需的总拥有成本。一切都是倒过来的。过去,封装设计是最后一步。这与我们过去所见的情况有很大不同。如果我们的 IP 不工作,那是因为封装设计不正确。”

       随着芯片制造商开始堆叠芯片,情况变得更加复杂。所有主要的代工厂都在其路线图上规划了 3D-IC,芯片行业消息人士称,许多大型系统公司和大型处理器制造商目前都在从事 3D-IC 设计。

       “过去一年,复杂性和密度都出现了飞跃式的增长,”Alphawave Semi 的产品营销经理 Todd Bermensolo 说,“去年,我们更多地看到的是与封装的 2D 集成。现在人们想要 3D,因为 2D 密度不够。但是当你堆叠它们时,你需要非常精密的互连方式。这比 2D 封装复杂得多,而 2D 封装本身与传统的仅在衬底上放置硅片的封装相比已经相当复杂了。”

       除此之外,还有硬件-软件兼容性问题。当考虑到软件堆栈时,确定哪些内核最适合 AI 会变得更加复杂。由于新的框架和模型发布速度很快,为每个内核配备多个软件堆栈使得商业化成为一项挑战。

       “您试图在面积、功耗和性能方面找到优化的解决方案,”Expedera 的联合创始人兼首席科学家 Sharad Chole 说,“基于此,您可以将 IP 粘合在一起。甚至内存 IP 也可以这样构建。对于某些 IP,功能定义非常明确,例如使用缓冲区、哈希表等。它们可以这样构建。但是,当您转向更复杂的 IP 时,交互变得更多地由软件驱动,这就是挑战所在。您如何保持软件兼容性?您需要在哪个层更改软件?当交互变得复杂时,您将处理更多可编程的 IP,例如 DSP、GPU、CPU、NPU。从某种意义上说,所有这些都属于这一类别。”

       还有其他需要注意的陷阱。“对于训练处理器,选择不多,”Quadric 的首席营销官 Steve Roddy 说,“根据定义,它们都是通用的,因此不会因为人们想要训练新模型而出现障碍。一年后,它们会略有不同,但仍然可以运行。这是有保证的。推理方面才是很多权衡取舍的地方。对于许多推理模型部署的架构,人们选择了非常不灵活的、固定功能的 AI 加速器,这就是陷阱。如果您查看今天的模型集并尝试构建一些可以加速这些模型并使其低功耗和高效的东西,然后两年后最先进的模型发生了变化,您可能会遇到麻烦。您可能会最终得到一个花费了大量资金开发的芯片,但它无法运行最新的模型,而您现在就陷入了困境。”


未来的担忧

       AI 正在直接或间接地推动各方面的复杂性上升。AI 是否能够驯服这种复杂性,或者它是否会打开通往更大复杂性的大门,还有待观察。人们普遍担心 AI 幻觉的可靠性,以及硬件不兼容和故障导致的静默数据错误。此外,还存在安全问题,例如用于运行 AI 算法的多芯片芯片中可能存在的攻击媒介数量增加,以及用于训练这些算法的数据可能被破坏。更糟糕的是,今天的许多 AI 实现都是黑盒,一旦投入使用,只有有限的可追溯性。

       总而言之,今天的 AI 面临着大规模投资,但风险不确定,结果可能各不相同。降低这种可变性,提高可预测性,并降低风险将需要整个半导体行业的共同努力。具有讽刺意味的是,实现这一目标最有效的工具之一可能正是 AI 本身。


郑重声明:
1、部分内容来源于网络,本文版权归原作者所有,转载文章仅为传播更多信息之目的。
2、本文仅供学术交流,非商用。如果某部分不小心侵犯了大家的利益,请联系删除。


咨询

电话

服务热线

400-0769-728

电话

0769-33392399

手机站

二维码

吉洋手机站

邮箱

联系邮箱

[email protected]