這款全新AIU芯片是IBM研究院AI硬件中心投入五年開發出的成果。AI硬件中心專注于開發下一代芯片與AI系統,計劃每年將AI硬件效率提升2.5倍,并希望在十年間(2019年至2029年)將AI模型的訓練和運行速度拉高1000倍。
AIU大解密
根據IBM發布的博文,“我們的完整片上系統共有32個處理核心和230億個晶體管——與我們z16芯片的晶體管數量大致相同。IBMAIU在設計易用性方面與普通顯卡相當,能夠接入任何帶有PCI插槽的計算機或服務器。”
深度學習模型在傳統上,一直依賴于CPU加GPU協處理器的組合進行訓練與運行。GPU最初是為沉浸圖形圖像而開發,但后來人們發現該技術在AI領域有著顯著的使用優勢。
IBMAIU并非圖形處理器,而是專為深度學習模型加速而生,針對矩陣和矢量計算進行了設計優化。AIU能夠解決高復雜度計算問題,并以遠超CPU的速度執行數據分析。
AI與深度學習的發展
AI硬件新局面:IBM公布全新230億晶體管AIU
深度神經網絡極為耗能,但也發展迅猛
深度學習的發展給算力資源帶來了巨大壓力。AI與深度學習模型在各個行業的普及度呈現出指數級增長,如今幾乎每個角落都浮動著智能元素的身影。
除了普及度提升之外,模型大小也堪稱一路狂飆。深度學習模型往往體量龐大,包含數十億甚至數萬億個參數。遺憾的是,根據IBM的說法,硬件效率的發展已經無法跟上深度學習的指數級膨脹。
近似計算
從歷史上看,計算一般集中在高精度64位與32位浮點運算層面。但IBM認為,有些計算任務并不需要這樣的精度,于是提出了降低傳統計算精度的新術語——近似計算。IBM在博文中對于近似計算的基本原理做出如下說明:
“對于常見的深度學習任務,我們真的需要那么高的計算精度嗎?沒有高分辨率圖像,難道我們的大腦就無法分辨家人或者小貓?當我們進行一輪文本線程搜索時,難道第50002條答案跟第50003條之間的順序必須嚴格區分?答案當然是否定的,所以如此種種的諸多任務都可以通過近似計算來處理。”
近似計算在新AIU芯片的設計中也發揮著至關重要的作用。IBM研究人員設計的AIU芯片精度低于CPU,而這種較低精度也讓新型AIU硬件加速器獲得了更高的計算密度。IBM使用混合8位浮點(HFP)計算,而非AI訓練中常見的32位或16點浮點計算。由于精度較低,因此該芯片的運算執行速度可達到FP16的2倍,同時繼續保持類似的訓練效能。
這種看似相互沖突的設計目標,在IBM眼中卻是和諧統一、順暢自然。具體來講,既要靠低精度計算獲得更高的算力密度和更快的計算速度,同時又要保證深度學習(DL)模型的準確率與高精度計算保持一致。
IBM設計的這款芯片就是為了簡化AI工作流而生。藍色巨人解釋道,“由于大多數AI計算都涉及矩陣和矢量乘法,所以我們的芯片架構采用了比通用型CPU更簡單的布局。IBM將AIU設計為直接將數據從一個計算引擎發送至另一計算引擎,由此大大削減了運行功耗。”
性能表現
IBM在公告中并未提到多少關于該芯片的技術信息。但回顧IBM在2021年國際固態電路會議(ISSCC)上展示的早期7納米芯片設計性能,應該可以據此估算出最新AIU的大致性能水平。
IBM在會上展示的原型并非32核心,而一塊實驗性的4核心7納米AI芯片,支持FP16與混合FP8格式,可用于深度學習模型的訓練和推理。它還支持用于擴展推理的int4和int2格式。2021年LindleyGroup在通訊中公布了這款原型芯片的性能摘要,相關報道如下:
在峰值速度并使用HFP8時,這款7納米芯片設計方案實現每秒每瓦特1.9teraflops(TF/W)。
TOPS衡量的是加速器在1秒之內可以解決多少數學問題,可用于比較不同加速器在特定推理任務上的處理能力。在使用INT4進行推理時,這款實驗芯片可達到16.5TOPS/W,優于高通的低功耗CloudAI模組。
分析師筆記
雖然規格不明、價格未定,但估計IBM這款AIU的定價可能在1500美元到2000美元之間。如果價格設定合理,相信AIU能夠在市場上迅速確立其地位。
由于缺乏細節信息,暫時無法直接對AIU和GPU的AI處理核心進行比較。
AIU中使用的低精度技術基于IBM研究院的早期研究成果,其先后開創了首個以16位低精度系統執行深度學習訓練、首個8位訓練技術以及最先進的2位推理技術。
根據IBM研究院的介紹,AIU使用到了Telum芯片中AI加速器的縮放版本。
Telum使用的是7納米晶體管,但AIU將使用更先進的5納米晶體管。
如果AIU能夠及時參與明年的MLPerf基準測試,相信結果會非常有趣。我們也將持續關注IBM這款新成果的更多動態。