存內(nèi)計算由于突破傳統(tǒng)馮·諾依曼架構(gòu)瓶頸,實現(xiàn)了存儲單元與邏輯單元的融合,成為實現(xiàn)智能計算的主要技術(shù)路線之一,受到業(yè)界龍頭大廠的高度重視。在近日召開的國際固態(tài)半導體電路會議(ISSCC)上,
SK海力士發(fā)表了基于GDDR接口的DRAM存內(nèi)計算,臺積電共發(fā)表(或合作發(fā)表)6篇有關(guān)存內(nèi)計算存儲器IP的論文。隨著人工智能對高性能、低功耗處理需求的不斷增強,存內(nèi)計算的開發(fā)進程必將不斷加快,并走向現(xiàn)實應用。
存內(nèi)計算受關(guān)注龍頭大廠重點布局
ISSCC一向是半導體產(chǎn)業(yè)界展示最新研發(fā)成果的平臺之一,在今年的發(fā)布重點中,存內(nèi)計算無疑位列其中。SK海力士發(fā)表存內(nèi)計算的開發(fā)成果——基于GDDR接口的DRAM存內(nèi)計算,
并展示了其首款基于存內(nèi)計算技術(shù)產(chǎn)品——GDDR6-AiM的樣本。
SK海力士表示,GDDR6-AiM是將計算功能添加到數(shù)據(jù)傳輸速度為16Gbps的GDDR6內(nèi)存產(chǎn)品中。與傳統(tǒng)DRAM相比,將GDDR6-AiM 與CPU、GPU相結(jié)合的系統(tǒng)可在特定計算環(huán)境中將計算速度提高16倍。
此外,由于存內(nèi)計算在運算中減少了內(nèi)存與CPU、GPU間的數(shù)據(jù)傳輸往來,大大降低了功耗,GDDR6-AiM可使功耗降低80%。SK海力士解決方案開發(fā)擔當副社長安炫表示:“基于具備獨立計算功能的存內(nèi)計算技術(shù),SK海力士將通過GDDR6-AiM構(gòu)建全新的存儲器解決方案生態(tài)系統(tǒng)。”
臺積電在存內(nèi)計算研發(fā)方面的投入也很大。在本屆ISSCC上,臺積電共合作發(fā)表了6篇關(guān)于存內(nèi)計算存儲器IP的論文,其中一篇的作者全部來自臺積電,其余5篇則是臺積電和其他高校合作。
臺積電獨立發(fā)表的SRAM論文基于5nm工藝,可以在不同計算精度下實現(xiàn)高計算密度和能效比。
事實上,三星、IBM、東芝、英特爾等半導體大廠在存內(nèi)計算方面也早有布局。三星在2021年發(fā)布的HBM2-PIM,使用Aquabolt-XL技術(shù)圍繞HBM2 DRAM進行存內(nèi)計算,可實現(xiàn)高達1.2TFLOPS的計算能力。
國內(nèi)廠商方面,阿里達摩院、知存科技、Myhtic等也以AI為契機,積極進行特定領(lǐng)域、特定功能的AI存算一體芯片開發(fā)。去年5月,Myhtic宣布完成C輪7000萬美元融資。
去年6月,知存科技宣布完成億元A3輪融資。
AI應用需求推動邁入產(chǎn)品化前夜
隨著人工智能應用的爆發(fā),業(yè)界迫切需要一項技術(shù)來解決傳統(tǒng)馮·諾依曼架構(gòu)存在的算力瓶頸與高功耗問題。這也是一眾半導體大廠關(guān)注存內(nèi)計算的主要原因。
對此,有業(yè)內(nèi)專家告訴記者,當前主流的計算架構(gòu)均采用馮·諾依曼架構(gòu),其存在兩個固有問題,即所謂的內(nèi)存墻問題和功耗墻問題。馮·諾依曼架構(gòu)的計算單元與存儲單元分置,之間用數(shù)據(jù)總線連接,
運算過程中就需要使數(shù)據(jù)在處理器與存儲器之間進行頻繁遷移,這一過程產(chǎn)生的功耗極為巨大,甚至比真正用于數(shù)據(jù)處理所產(chǎn)生的功耗還要高上百倍。內(nèi)存墻則是指目前的CPU運算速度比存儲器的數(shù)據(jù)存取速度快得多,存儲器成為制約數(shù)據(jù)處理速度提高的主要瓶頸。現(xiàn)在人們應對這個問題的主要方法是提高內(nèi)存的處理速度或加大數(shù)據(jù)傳輸帶寬,但這些都不能從根本上解決問題,開發(fā)一種將存儲單元與處理單元完全整合的處理器方案,就成為解決這一問題的終極方案。
SK海力士定制設(shè)計項目負責人Dae-han Kwon也指出:“對于RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))等內(nèi)存受限的應用程序,當應用程序在DRAM中使用計算電路執(zhí)行時,性能和功率效率有望顯著提高。
考慮到要處理的數(shù)據(jù)量將大幅增加,存內(nèi)計算有望成為改善當前計算機系統(tǒng)性能極限的有力候選者。”
正是在人工智能特別是邊緣AI應用需求的推動下,存內(nèi)計算的產(chǎn)品化開發(fā)進程也在加快。根據(jù)北京大學信息科學技術(shù)學院微納電子學系副教授葉樂的介紹,存內(nèi)計算技術(shù)大概率會實現(xiàn)產(chǎn)品化。
目前基于SRAM的存內(nèi)計算,已經(jīng)進入到產(chǎn)品化的前夜,有望率先在可穿戴設(shè)備、智能手機等智能物聯(lián)網(wǎng)AIoT領(lǐng)域應用,估計1~2年就有望看到產(chǎn)品級的SRAM存內(nèi)計算芯片實現(xiàn)商業(yè)化落地。
在此之后,存內(nèi)計算芯片會逐漸往更大算力的應用領(lǐng)域滲透。基于MRAM的存內(nèi)計算則會稍微滯后一些,這主要跟工藝可獲得性有關(guān)。基于DRAM的存內(nèi)計算芯片,有可能需要更長的時間才會落地,
原因在于DRAM存內(nèi)計算適用于大算力AI芯片,因此還需要解決其他一系列的技術(shù)難題,例如陣列間的互連和架構(gòu)問題等。此外,大算力芯片,往往對通用性和可編程性要求更高,因此對于大算力芯片,
架構(gòu)需要更多地考慮通用性和可編程性,并且軟硬件協(xié)同設(shè)計、編譯器等工具鏈的重要性和難度也更為突出。
葉樂強調(diào),不同應用場合對存內(nèi)計算的需求也不同,消費電子、物聯(lián)網(wǎng)終端、邊端計算、云端計算對功耗、能效、算力密度、Bit精度、絕對算力、成本、是否需要非易失性等方面的側(cè)重點和側(cè)重程度各不相同,因此各類存內(nèi)計算技術(shù),均有發(fā)展的必要性。
生態(tài)搭建有挑戰(zhàn)存內(nèi)邏輯是方向
盡管存內(nèi)計算的商業(yè)化進程不斷臨近,但在開發(fā)與應用中存在的挑戰(zhàn)也不容忽視。業(yè)內(nèi)專家指出,相較于傳統(tǒng)處理器,存內(nèi)計算本身就是一門非常復雜的、技術(shù)壁壘極高的設(shè)計方法,屬于需要多年經(jīng)驗積累、
大量資源以及時間投入才能實現(xiàn)的尖端領(lǐng)域。而更大的挑戰(zhàn)還涉及相關(guān)產(chǎn)業(yè)生態(tài)的整合,其中面臨的挑戰(zhàn)更加復雜。
在馮·諾依曼架構(gòu)下,處理器與存儲器是分別獨立發(fā)展的,經(jīng)過這么多年均已各自形成獨立的產(chǎn)業(yè)生態(tài),從設(shè)計到制造再到軟件都已相當完備。而存內(nèi)計算要想發(fā)展起來,實際是要將兩個獨立的生態(tài)整合到一起,其中要投入的精力和資源是非常巨大的。
盡管存內(nèi)計算面臨技術(shù)開發(fā)與產(chǎn)業(yè)生態(tài)的雙重挑戰(zhàn),但是其整體發(fā)展趨勢依然被看好。葉樂指出,存內(nèi)計算將是大勢所趨,只有這種革命性的徹底的架構(gòu)革新,才能真正解決內(nèi)存墻和功耗墻的問題。
從技術(shù)趨勢上看,存算一體芯片將循著近存儲計算、內(nèi)存儲計算、內(nèi)存執(zhí)行計算的技術(shù)路線發(fā)展。
此外,基于哪類存儲進行存內(nèi)計算設(shè)計也是開發(fā)重點之一。此次SK海力士便基于DDR進行開發(fā)的,臺積電則是基于SRAM。對此,專家指出,目前開發(fā)者的研究之所以多基于SRAM展開,
一方面是因為SRAM比較容易獲得,SRAM在標準CMOS工藝下即可得到,流片門檻較低。另一方面則因SRAM的存取速度是所有主流存儲器中最接近CPU的,基于它進行存內(nèi)計算開發(fā),最容易解決內(nèi)存墻問題。但是SRAM也存在芯片成本高、面積大的問題。更重要的是,SRAM屬易失性存儲器,斷電后數(shù)據(jù)無法保存,還要把數(shù)據(jù)傳輸?shù)狡渌鸑AND Flash等存儲器當中,并不能從根本上解決功耗問題。
NAND閃存等非易失性存儲器可以保存處理后的數(shù)據(jù),還具有成本低、容量大等優(yōu)勢,但是NAND閃存的存取速度慢,依然限制著未來存內(nèi)計算芯片的速度。
因此,專家認為,對于那些投入存內(nèi)計算開發(fā)的半導體大廠來說,將來更大的可能是基于新型存儲器如MRAM、ReRAM等,做存內(nèi)計算的開發(fā)。此類新型存儲器一些性能上的優(yōu)勢是傳統(tǒng)存儲器所不具備的。
當然,專家也指出,當前業(yè)界開發(fā)的新型存儲技術(shù)工藝還不成熟,以之為基礎(chǔ)進行存內(nèi)計算或許需要的更長研發(fā)時間。