亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

掃一掃
關注微信公眾號

AI硬件新局面:IBM公布全新230億晶體管AIU
2022-11-15   至頂網計算頻道

  IBM最新發布的人工智能單元(AIU)是其首個片上系統設計。作為一種專用型集成電路(ASIC),AIU旨在訓練和運行需要大規模并行算力的深度學習模型。與此前針對傳統軟件應用設計的CPU相比,AIU在深度學習處理方面的性能要強得多。IBM目前還未給出AIU的具體發布日期。

  這款全新AIU芯片是IBM研究院AI硬件中心投入五年開發出的成果。AI硬件中心專注于開發下一代芯片與AI系統,計劃每年將AI硬件效率提升2.5倍,并希望在十年間(2019年至2029年)將AI模型的訓練和運行速度拉高1000倍。

  AIU大解密

  根據IBM發布的博文,“我們的完整片上系統共有32個處理核心和230億個晶體管——與我們z16芯片的晶體管數量大致相同。IBMAIU在設計易用性方面與普通顯卡相當,能夠接入任何帶有PCI插槽的計算機或服務器。”

  深度學習模型在傳統上,一直依賴于CPU加GPU協處理器的組合進行訓練與運行。GPU最初是為沉浸圖形圖像而開發,但后來人們發現該技術在AI領域有著顯著的使用優勢。

  IBMAIU并非圖形處理器,而是專為深度學習模型加速而生,針對矩陣和矢量計算進行了設計優化。AIU能夠解決高復雜度計算問題,并以遠超CPU的速度執行數據分析。

  AI與深度學習的發展

  AI硬件新局面:IBM公布全新230億晶體管AIU


深度神經網絡極為耗能,但也發展迅猛

  深度學習的發展給算力資源帶來了巨大壓力。AI與深度學習模型在各個行業的普及度呈現出指數級增長,如今幾乎每個角落都浮動著智能元素的身影。

  除了普及度提升之外,模型大小也堪稱一路狂飆。深度學習模型往往體量龐大,包含數十億甚至數萬億個參數。遺憾的是,根據IBM的說法,硬件效率的發展已經無法跟上深度學習的指數級膨脹。

  近似計算

  從歷史上看,計算一般集中在高精度64位與32位浮點運算層面。但IBM認為,有些計算任務并不需要這樣的精度,于是提出了降低傳統計算精度的新術語——近似計算。IBM在博文中對于近似計算的基本原理做出如下說明:

  “對于常見的深度學習任務,我們真的需要那么高的計算精度嗎?沒有高分辨率圖像,難道我們的大腦就無法分辨家人或者小貓?當我們進行一輪文本線程搜索時,難道第50002條答案跟第50003條之間的順序必須嚴格區分?答案當然是否定的,所以如此種種的諸多任務都可以通過近似計算來處理。”

  近似計算在新AIU芯片的設計中也發揮著至關重要的作用。IBM研究人員設計的AIU芯片精度低于CPU,而這種較低精度也讓新型AIU硬件加速器獲得了更高的計算密度。IBM使用混合8位浮點(HFP)計算,而非AI訓練中常見的32位或16點浮點計算。由于精度較低,因此該芯片的運算執行速度可達到FP16的2倍,同時繼續保持類似的訓練效能。

  這種看似相互沖突的設計目標,在IBM眼中卻是和諧統一、順暢自然。具體來講,既要靠低精度計算獲得更高的算力密度和更快的計算速度,同時又要保證深度學習(DL)模型的準確率與高精度計算保持一致。

  IBM設計的這款芯片就是為了簡化AI工作流而生。藍色巨人解釋道,“由于大多數AI計算都涉及矩陣和矢量乘法,所以我們的芯片架構采用了比通用型CPU更簡單的布局。IBM將AIU設計為直接將數據從一個計算引擎發送至另一計算引擎,由此大大削減了運行功耗。”

  性能表現

  IBM在公告中并未提到多少關于該芯片的技術信息。但回顧IBM在2021年國際固態電路會議(ISSCC)上展示的早期7納米芯片設計性能,應該可以據此估算出最新AIU的大致性能水平。

  IBM在會上展示的原型并非32核心,而一塊實驗性的4核心7納米AI芯片,支持FP16與混合FP8格式,可用于深度學習模型的訓練和推理。它還支持用于擴展推理的int4和int2格式。2021年LindleyGroup在通訊中公布了這款原型芯片的性能摘要,相關報道如下:

  在峰值速度并使用HFP8時,這款7納米芯片設計方案實現每秒每瓦特1.9teraflops(TF/W)。

  TOPS衡量的是加速器在1秒之內可以解決多少數學問題,可用于比較不同加速器在特定推理任務上的處理能力。在使用INT4進行推理時,這款實驗芯片可達到16.5TOPS/W,優于高通的低功耗CloudAI模組。

  分析師筆記

  雖然規格不明、價格未定,但估計IBM這款AIU的定價可能在1500美元到2000美元之間。如果價格設定合理,相信AIU能夠在市場上迅速確立其地位。

  由于缺乏細節信息,暫時無法直接對AIU和GPU的AI處理核心進行比較。

  AIU中使用的低精度技術基于IBM研究院的早期研究成果,其先后開創了首個以16位低精度系統執行深度學習訓練、首個8位訓練技術以及最先進的2位推理技術。

  根據IBM研究院的介紹,AIU使用到了Telum芯片中AI加速器的縮放版本。

  Telum使用的是7納米晶體管,但AIU將使用更先進的5納米晶體管。

  如果AIU能夠及時參與明年的MLPerf基準測試,相信結果會非常有趣。我們也將持續關注IBM這款新成果的更多動態。

  

熱詞搜索:IBM AI 硬件

上一篇:物聯網安全:智能零售供應鏈穩定運行的“定海神針”
下一篇:最后一頁

分享到: 收藏