探花七天

你的位置: 探花七天 > 调教学生妹 >
调教学生妹
五月色图 模拟内存计议,还好吗?
发布日期:2024-12-16 14:00    点击次数:194

五月色图 模拟内存计议,还好吗?

(原标题:模拟内存计议五月色图,还好吗?)

要是您但愿不错陆续碰面,接待标星保藏哦~

来源:内容来自semiengineering,谢谢。

内存计议 (In-memory computing,IMC) 的发展之路凹凸,最引东谈主详细的交易化尝试以失败告终。尽管一些公司依然转向数字化,而另一些公司则实足烧毁了这项时期,但开发东谈主员仍在勤勉让模拟 IMC 取得告捷。

对于 IMC(也称为内存计议,或 CIM)的公正存在不对。有东谈主说,这一切齐是为了减少数据转移,而数据转移是 AI 能耗的关键构成部分。“把 MAC(乘法/累加电路)放下来很容易,” Synopsys ARC AI 处理器居品司理 Gordon Cooper 说。“为它们提供数据并确保数据高效地流过它们要艰难得多。”

其他公司则专注于计议才气,每家公司齐信赖我方开发的居品不错科罚这两个问题中最关键的一个,以致两个问题。然则,既能减少数据转移,又能实行低功耗 AI 计议,同期兼顾本钱和可制造性的优化电路仍然难以杀青。

Rambus的超越发明家 Steven Woo 暗示:“数据转移是关节问题,无论是对于性能如故功耗而言齐是如斯。宇宙上并不空乏数据,尤其是对于这些大型 AI 模子而言,考试集相当深广。”

现在尚不明晰哪种方法才是科罚这一问题的最好阶梯,但 IMC 是一种可能的选拔。对于那些不知谈正在进行的精巧创业职责的东谈主来说,这个话题似乎依然璧还到研究实验室,那边正在进行多量职责。“我以为咱们还莫得实足走出研究阶段,” Cadence居品营销集团总监 Frank Ferro 说。

事实上,IMC 以致不在大多数想象师的温柔范围内。“咱们在客户的网站上莫得看到它,” Quadric斡旋首创东谈主兼首席时期官 Nigel Drego 说。

然则,新的居品和方法正在尝试改变这一近况。

不啻一种含义

“内存计议”一词过甚变体对不同的公司有不同的含义。当其目标是将数据转移保握在最低限制时,它与“内存”或“近内存”计议的认识密切计划。在这些情况下,它波及计议发生位置隔邻的小块 SRAM。使用这种内存仍然需要数据转移,但与保存到 DRAM 比拟,距离较短。

“内存中”的认识将这一认识进一步发展,并绝对颠覆了这一认识。先前的方法是将内存放在计议隔邻。IMC 则更多地是将计议放在内存所在的处所。不同 IMC 之间的一个主要区别是,计议是在内存阵列里面但在内存单位除外进行,如故这些单位我方实行计议。

另一个区别是计议的性质——数字或模拟。数字 IMC 往往是那种在系数这个词阵列中散布着几个数字门的类型。“你将存储单位与实行乘法的计议元件和实行累加的计议元件交错在一谈,并在系数这些周围搁置多量其他数字逻辑来实行系数其他操作,”Axelera 首席实行官 Fabrizio del Maffeo 暗示。

数字 IMC 背后的理念并不复杂——它仅仅将数字算术电路从一个处所转移到另一个处所。但这并不料味着它很容易。构建高效的电路和器具仍需要多量职责。仅仅它不像模拟那样焦炙。

模拟计议宽泛通过将存储单位视为具有可变内容来实行,这些内容不错通过感测流过存储单位的电流来测量。字线接管实值。在最著名的杀青类型中,字线和位线交叉处的每个单位实质上将输入电压乘以单位电导率,该电导率由存储的单位值成立。通过允很多个字线同期处于活动状况,每个相乘电流的总额将成为乘积的落幕总额。位线上的系数单位齐不错并行实行乘法。

Sagence 计策与业务开发副总裁 Richard Terrill 暗示:“(闪存 IMC 科罚决策)基于将数亿个闪存单位搁置在一个芯片上,以便咱们能够在现场完成系数职责。”

图 1:经典的基于闪存的 IMC 架构。数字输入蜕变为字线上的模拟电压。与内存不同,多个字线不错同期处于活动状况。位线上的系数单位提供输入电压乘以闪存单位电导率的乘积,该乘积由存储的权重笃定。位线上的每个单位左证单位电流孝敬电流,感测放大器将系数这些电流相加以提供蕴蓄。然后必须将落幕数字化并通过其他电路(举例激活函数)发送,然后将其路由回另一层或当作完整落幕发送出去。来源:Bryon Moyer/Semiconductor Engineering

该时期的一个扫尾是它需要整数数据。这对于视觉来说很天然,但基于着重力的网罗(举例大型言语模子 (LLM))更时时使用浮点数据,这使得此类应用技艺超出了该架构的范围。

咱们要科罚什么问题?

IMC 所要科罚的问题尚未明确界说或达成一致。天然系数东谈主齐本心镌汰功耗是最终指标,但存在争议的是主要问题是转移数据的本钱如故计议的本钱。

数字方法往往侧重于转移数据的本钱,因为无论数字电路是在内存阵列里面如故外部,计议才气齐大体交流。这试图科罚内存带宽问题。Cadence 的 Ferro 暗示:“咱们每天齐被超大范围计议需要更多带宽的问题搞得头疼。”

Expedera首席科学家兼斡旋首创东谈主 Sharad Chole对此暗示本心。“瓶颈不再是计议或内存,而是计议和内存之间的带宽,”他说。

使用数字 IMC,计议方式不会发生首要变化。“你领有的基本时期仍然与数字加快器交流,”Encharge AI 首席实行官 Naveen Verma 暗示。“通过在内存中插入 加法器,你实质上所作念的即是扩大内存,况且所破钞的能量与你在内存外部实行时所破钞的能量交流。与步伐数字计议比拟,其公正是渐进的。”

也可能莫得一个正确的谜底。相背,它可能取决于正在实行的模子的性质,尤其是 LLM。Expedera 的 Chole 解释说:“要是你的高下文长度很小,比如 256 个 token,那么权重就占主导地位。但是要是你生成了 32,000 个 token,那么激活就启动成为关键的部分。要是你的激活动作东导了力量,那么将权重存储在模拟域中的公正将无法对消这少量。”

争论的另一个方面是,将所需的系数权重全部填充到内存中是否可行,这样就无需进一步转移。基于闪存的方法宣称具有非易失性的上风,因此权重即使在电源轮回后仍会保留在原位。但这意味着诱惑必须适宜最大的模子。另一方面,容量逾越必要会销耗硅,尽管该分析假定想象中唯有一个模子。“咱们实质上最终存储了多个模子,”Sagence 的 Terrill 说。

av迅雷

其他东谈主则认为,将系数这个词模子齐存储起来是不切实质以致不可取的,而是选拔在处理经由中更新权重的技艺。“IMC 研究依然等闲标明,权重弗成遥远存储在内存中,”Verma 指出。“原因是不同位的数据波及的操作数目相当不同,要是每个位齐分拨一个内存单位,那么一些内存单位将实行多量操作,而另一些则大部分时期处于舒坦状况,从而导致硬件哄骗率低。”

要是这种不雅点是正确的,那么 IMC 就无法像东谈主们但愿的那样科罚分量转移问题。它还使非易失性存储器变得不切实质,因为编程时期比重写 SRAM 所需的时期大要长三个数目级。但 SRAM 是一个大而耗电的单位,这进一步加重了衡量的复杂性。

直到推出这些芯片的各家公司有契机在现场诠释我方之前,这场争论齐不会扫尾。现在五月色图,还莫得一个明确的正确谜底。

模拟的挑战

模拟 IMC 并非崭新事物。Mythic 曾试图将基于闪存的模拟 IMC 推理引擎推向市集,但最终失败,因此受到密切温柔。由于使用闪存进行权重存储,它承诺镌汰计议才气并减少数据转移。现在尚不明晰 Mythic 神志失败的具体原因,但该时期带来了一些首要挑战。而模拟需要隔绝的衡量。“模拟是功率、速率如故准确性,”Drego 说。“二选一。”

在经典杀青中,每个闪存单位齐保存系数这个词权重。INT8 是视觉和卷积神经网罗 (CNN) 中较为流行的数据形式之一,但在单个闪存单位中保存 8 位值是一项隔绝的任务。而且有用精度仍然会受到影响。“我还莫得传奇过有任何东西能逾越 4 位有用精度,”Drego 补充谈。“但在一些小众应用中,这些东西不错相当相当高效。”

图 2:松开多位单位的读取窗口。单位包含的位越多,分袂越细巧,读取机制必须越机灵。来源:Bryon Moyer/Semiconductor Engineering

商用闪存单位存储三位数据依然存在多年。四位单位现已成为实验,五位单位正在兴起。但莫得东谈主领有八位单位。这需要极其贯注,尤其是要是要跨多个单位、芯片、晶圆和批次以及系数环境条款和老化后职责。实验情况是,东谈主们可能不得不经受较低的精度,从而扫尾该时期的实用性。

老化问题是潜在客户一直温柔的问题。Expedera 营销副总裁 Paul Karazuba 暗示:“当我向潜在客户盘问模拟居品时,老化是他们不笃定奈何处理的问题之一,这往往会吓跑他们。”

令东谈主担忧的是,跟着细胞老化,它们的运作方式将发生变化,从而导致潜在的幻觉,咱们好像不错称之为“硅老化”。事实上,这种老化的芯片不太可能产生幻觉,即给出可能合理但诞妄的谜底。东谈主们更有可能得到瞎说八道,但这仍然是不可经受的。

除了老化除外,还必须以某种方式排斥制造和环境变化,以便系数芯片齐能正常职责。事实诠释,这极具挑战性,而且这个问题可能是影响当年勤勉的关节问题。即使莫得变化,模拟从界说上来说也没罕有字那样的噪声裕度。“模拟的问题一直是噪声,”Verma 说谈。

另一个挑战是模拟计议仅仅加快器操作的一部分。其他函数,如softmax或非线性激活函数,必须在数字域中发生。这意味着在每一层以模拟方式计议其矩阵乘积后,必须将落幕蜕变为数字以生成激活,然后必须将其蜕变回模拟以供下一层使用。Quadric 首席营销官 Steve Roddy 指出:“最终,激活来去流动,最终会变得一团糟。”

在系数这些蜕变经由中保握精度需要精准的 DAC 和 ADC,而这些电路会破钞多量能量,从而对消该架构的主要上风之一。

临了一个挑战可能是本钱,尽管这还有待不雅察,况且取决于所实施的内存时期。“要是你正在构建一个带有闪存或 DDR 变体的寂寞芯片,你的本钱将媲好意思光、海力士和三星高得多,而这些公司的产量高达数以亿计,”Drego 说。

尽管存在这些问题,一家名为 Sagence(隐身模拟推理)的新创业公司如故推出了一款新的模拟 IMC 居品——从外不雅上看,它与 Mythic 的作念法惊东谈主地相似。另一家尚未正经推出的新公司是 EnCharge AI,它领有专有的传感时期。

再说一次,要是你仔细不雅察 Sagence 的时期,你会说它与 Mythic 所作念的雷同。闪存阵列?对。校准以处理变化?对。多位闪存单位?对。在感测放大器中进行乞降?对。现在尚不明晰 Mythic 接管了哪种闪存单位,但 Sagence 暗示它使用的是已获取 NOR 建立许可的步伐闪存单位。系数使闪存阵列适合推理的电路齐位于阵列外部,因此单位面积着力为4F2。

与之前杀青的主要区别在于,该公司在深亚阈值状况下运行闪存阵列。这不错勤俭几个数目级的功率,电流以纳安的几分之一来测量。但这也带来了一个挑战,因为数学不再是线性的,因此图 1 所示的欧姆定律方法不再适用。

Sagence 通过对数存储权重来科罚这个问题。这意味着闪存单位中的不同级别并不是均匀散布的。数据值越高,它们就越接近。底部部分可能比线性版块更容易检测,但顶部部分将更难区分。更艰难的是,在深亚阈值下操作时,举座读取窗口更小。

图 3:线性和对数“间距”之间的各别。左侧,线性方法创建绝顶的间距。右侧,跟着值变高,间距变窄。(对数分袂不准确。)来源:Bryon Moyer/半导体工程

Sagence 也认为数字和模拟之间的蜕变必须精准,而且这些蜕变需要耗能。“要是咱们莫得阿谁 ADC,咱们每次操作的电流破钞将比非 IMC 杀青低三到四个数目级,”Sagence 首创东谈主、总裁兼首席实行官 Vishal Sarin 暗示。“但由于咱们使用精密 ADC,因此吃亏了一个数目级。”

然则,有些应用技艺不错以较低的精度职责。“每个单位存储的位数 取决于网罗的要求,”Terrill 解释谈。“咱们不错将存储位数晋升到 8。宽泛更少,因为咱们笃定了所需的精度,然后以该量化方式存储。”

另一个令东谈主骇怪的方面是,乘法略有就地性。Sagence 暗示,它尽其所能排斥系统很是,但即使它好意思满地作念到了这少量,小的就地很是仍会存在。就地性实质上使值之间的界限变得温和,而在尖端,部分相当局促,一些可能会有用崩溃。

Sagence 暗示,这种方法之是以有用,是因为实质版块将罕有百以致数千个单位沿着每条位线。沟通到这些大数字,这样多单位上正负几个百分点的很是将平均达到弥散的精度。“要是你念念要准确地纪录某东谈主的银行账户,你就不会作念这种乘法和加法,”Sarin 说。“但对于深度学习来说,这是一个好意思满的选拔。”

不外,对于任何 AI 科罚决策来说,器具齐是必不可少的,这样用户就不会被复杂性所困扰。Sagence 的编译器在想象时就沟通到了对数性质,静态地为单位分拨权重。

“对于硬件资源识别,一切齐是在编译时完成的,这意味着您无谓进行任何运行时蜕变,”Sagence 居品营销高等总监 Suhas Nayak 解释谈。“模拟量化器进行硬件感知考试、噪声感知考试,并在运行时需要时生成信息以供进一步校准。”这种静态蜕变的公正是蔓延固定且可猜想。

该公司有多种方法来处理变化、漂移和老化问题。校准处理制造变化,但 Sagence 还监控单位,要是漂移太大,不错选拔重新加载权重。“有一种计量电路不错不雅察闪存单位随时期的变化,要是它们达到咱们无法通过底层电路缓解的进程,咱们不错左证需要重新加载它们,”Terrill 指出。

左证架构,这似乎是一个仅使用整数的科罚决策,这会将其拔除在基于着重力的网罗除外,但该公司还有其他计议。“咱们计议使用专有方法在咱们的 Gen AI 科罚决策中杀青着重力,”Sarin 说。“这是咱们科罚决策的关键构成部分。”

一些探索

EnCharge 在三个主要范围接管了实足不同的方法——存储单位的类型、每个单位存储的位数以及感测落幕的方式。后者是一项首要冲破,因为系数之前的电流感测决策齐因制造和环境条款而有很大各别。在从普林斯顿大学分离出来之前,该公司发现电容器不错存储电荷当作感测机制,而不受任何依赖。

“这种电容器最关键的少量是它不受温度影响,”Verma 解释谈。“它不受材料参数影响。它是实足线性的。它只取决于导线之间的空间。它不错扩张到开端进的节点,因为它们不错让你更好地适度几何形式。”

该公司已笃定,累加需要比乘法更高的精度,而这恰是电容器所提供的。该阵列由 SRAM 单位构成,每个单位存储一位权重。由于 EnCharge 尚未正经推出当时期,因此仍有很多细节未败露。要点是 SRAM 单位提供乘法,每个落幕适度一个将电荷置于电容器上的开关。

电容器物理上位于 SRAM 单位上方,位于两层金属之间,因此易于构建且不占用特别空间。单个 MAC 的电容器团结在吞并块板上。然后,相背的电容器板会平均系数这些电荷,从而有用地提供加法。它是一个模拟值,因此需要 ADC 蜕变为数字时事。无需 DAC。

EnCharge 的阵列需要重新加载数据,因为内存是易失性的,而且阵列不够大,无法容纳系数这个词模子。“为了最大限制地镌汰支拨,咱们使用了雷同于诬捏内存的诬捏化架构,”Verma 说。

尽管这种传感方法似乎很新颖,但该公司暗示,它已在 ADC 等高精度电路中得到考证。Verma 指出:“它的可靠性、可扩张性、准确性和可制造性已通过这些其他超高精度模拟电路得到考证。”

DRAM 或将加入游戏

在临了一个新念念法中,初创公司 Neo Semiconductor 提议了使用其 3D DRAM 的 IMC 决策。“咱们不错在 3D DRAM 阵列中实行多量计议,而无需将其发送到 SRAM,”Neo 首席实行官兼斡旋首创东谈主 Andy Hsu 暗示。

Neo 的主要开发重心是使用浮体电荷存储而不是电容器的堆叠 3D DRAM。与 EnCharge 雷同,每个 DRAM 单位齐包含一个权重位。这标明乘法时期与 EnCharge 雷同,但 Neo 尚未表露其奈何处理多位乘法。

然则,传感方式有所不同。垂直位线承载着经过测量和数字化的模拟电流。它还有一个 ADC,但莫得 DAC。该方法只需使用合乎数目的 DRAM 位(宽泛对于 INT8 为 8 位)即可平直用于整数数据。该公司暗示,浮点单位对于基于着重力的网罗是必不可少的,但尚未表露其职责旨趣。

Neo 的指标是将 HBM 分为两个阶段。最初,它不错用 3D DRAM 版块替换 HBM 堆栈中的内存芯片,这不错将容量晋升两个数目级。第二阶段将 HBM 基片上的感测放大器电路替换为神经电路。“对于 AI,底部芯片将被替换为 不错 实行激活功能的芯片,”Hsu 说。

这种时期的一个可能问题是热量。在 DRAM 中,典型的位线将响应单个单位的值。使用 AI,您不错测量多个单位的电流。HBM 依然濒临热挑战。要是不遴选进一步的缓解措施,进一步增多电流量似乎是值得怀疑的。

Neo 暗示,由于其 DRAM 时期不同凡响,其读取电流约为步伐 DRAM 典型值的 10%,因此其肇始电流较小。它一次处理 8 位,因此电流应低于步伐 DRAM 电流。8 位并未几,但该公司将举座数据分红 8 位组并按法规处理。这种方法可能会影响蔓延,但现在尚无具体数字。

这个提议需要更多的考证才能成为实验。Neo 现在的主要重心是其 3D DRAM。东谈主工智能游戏是该公司的另一个念念法,本年刚刚败露。但现在它仍处于认识阶段。

模拟 IMC 又活了一天

东谈主们依然病笃期待了多年,很多东谈主显著认为它还未准备好管待黄金时段。这是一个进修的大学研究课题,很多不知谈行将推出的东谈主依然服气,要让它发扬作用,需要进行一些首要改变。

Sagence 的时期试图罢黜依然走过的谈路,同期幸免先前的罗网。EnCharge AI 专注于用于感测蕴蓄的电容器。Neo 的 DRAM 念念法太新,无法笃定它是否能取得交易告捷。来岁应该有契机望望前两者是否能取得进展。要是莫得,就回到研究实验室。

然则,要是其中一种或两种方法齐能收效,那么将为推理耕作一个新的低功耗步伐。西门子 EDA 高等抽象部门神志总监 Russ Klein 暗示:“无需转移所罕有据和IMC承诺的并行性所带来的节能落幕将不仅对东谈主工智能产生巨大影响,而且对任安在大型数据阵列上进行的计议也会产生巨大影响。”

咱们还将提供硬数据来骄横对于数据转移才气与计议才气的哪种表面是正确的。

https://semiengineering.com/is-in-memory-compute-still-alive/

半导体极品公众号保举

专注半导体范围更多原创内容

温柔大家半导体产业动向与趋势

*免责声明:本文由作家原创。著述内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或救济,要是有任何异议,接待计划半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第3976期内容,接待温柔。

『半导体第一垂直媒体』

及时 专科 原创 深度

公众号ID:icbank

可爱咱们的内容就点“在看”共享给小伙伴哦