亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

掃一掃
關注微信公眾號

數據中心使用的不同GPU
2022-10-08   半導體產業縱橫


  本文來自半導體產業縱橫。

  作為GPU計算市場的新手,英特爾可能降低價格,同時提供更高的性能。

  在半導體行業中,體積比架構更加重要。如果設計中的IP不能分散到大量客戶以解決更廣泛的工作負載,那么出色的設計并不能帶來什么。

  英特爾對GPU業務一點也不陌生。僅在最近十年就見證了基于“Larrabee”X86的GPU的興起,它沒有與Nvidia和AMD(ATI)替代產品競爭的性能,并且作為HPC計算的許多核心處理器的“Knights”系列被回收,英特爾在僅僅兩代人之后就將其作為計算引擎淘汰。

  用于Corei5、i7或i9PC處理器的Iris系列集成圖形電路,后者重新打包為XeonE3服務器CPU系列,集成GPU用于視頻流和VDI工作負載。英特爾盡其所能忽略這些Iris增強型服務器CPU中固有的相當強大的GPU計算能力。

  英特爾正在用基于Xe架構的離散GPU家族來解決這個問題,該公司最終致力于擁有一個廣泛而深入的GPU計算平臺,主要是英特爾意識到,如果他們不在數據中心吃掉自己的CPU計算份額,那么其他兩家主要的GPU加速器制造商——AMD和Nvidia都會推出相應的CPU。

  好久不見

  這種XeGPU策略是其Gen11IrisPC顯卡的演變,并在2018年12月的英特爾創新日上首次詳細介紹,當時英特爾表示將創建一個新架構,該架構將具有獨立CPU和集成GPU,所有這些都基于相同的Xe架構將跨越“從teraflops到petaflops”,范圍從針對PC客戶端優化的低端GPU一直到針對運行AI和HPC工作負載的數據中心系統優化的大型計算引擎。

  近兩年后,在HotChips上,英特爾詳細闡述了這一新GPU系列的設計,并談到針對特定工作負載調整XeGPU微架構,并使用不同的工藝、封裝,有時甚至是小芯片組合。XeLP是一種低功耗GPU,最初在“TigerLake”CPU中銷售,然后在用于服務器工作負載的離散SG1和DG1GPU中免費使用;英特爾服務器XG310GPU加速器于2020年11月宣布并與中國系統制造商H3C共同設計,使用XeLPSG1變體。

  XeHPG系列針對高性能游戲和數據中心流媒體和圖形計算工作負載。XeHP將HBM2e內存添加到GPU復合體中,并在單個封裝上擴展到四個小芯片,旨在實現更強大的媒體處理和AI工作負載。最后,XeHPC系列的目標是浮點和混合精度計算,用于AI訓練和HPC模擬和建模工作負載,而Knights系列則留下了一個漏洞。

  XeHPC系列包括“PonteVecchio”離散GPU,英特爾上周表示,它已開始向阿貢國家實驗室發貨,作為“Aurora”百億億級超級計算機的第二個設計中的主要計算引擎。

  英特爾詳細介紹的Flex系列140和170GPU加速器屬于XeHPG系列,也稱為ArticSound-M系列。這些Flex系列卡于8月推出,但這些設備的許多架構細節并未透露。


  不要被這些獨立GPU卡的相對大小誤導。Flex系列140基于一對DG2-128GPU,其中八個Xe圖形內核運行在1.95GHz、兩個媒體引擎和八個共享12GBGDDR6內存的光線追蹤單元。

  Flex系列170具有單個DG2-512GPU,具有32個運行頻率為2.05GHz的Xe內核、兩個媒體引擎和32個共享16GBGDDR6內存的光線追蹤單元。

  XeHPG內核具有16個256位向量引擎和16個1,024位XMX矩陣數學引擎,這兩個引擎都對AI推理很有用,具有192KB的共享L1緩存。這兩個引擎是我們關心Flex系列的原因。

  重點關注媒體轉碼和云游戲,因為在數據中心很好地支持這種工作負載意味著英特爾可以與Nvidia競爭在GPU領域的工作數據中心。如果英特爾GPU領域競爭,那么它也有能力構建更好的XeHPCGPU加速器,比如“RialtoBridge”離散GPU踢球器到PonteVecchio和“FalconShores”混合CPU-GPU設備。

  XeHPC內核上的向量引擎每個時鐘可以處理16次FP32、32次FP16和64次INT8運算,并具有一個專用的浮點執行端口和另一個用于整數和擴展數學函數處理的端口。

  XMX矩陣引擎是一個四深脈動陣列,類似于Google的TPU和AmazonWebServices的Inferentia芯片。XeHPC內核上的矩陣引擎每個時鐘可以處理128個FP16或BF16浮點、256個INT8或512個INT4運算。GPU可以同時將工作分派給向量和矩陣引擎。


  配備兩個DG2-128GPU的Flex系列140在媒體處理方面將比配備一個DG2-512GPU的Flex系列170高出近2倍,但其運算能力僅為Flex系列170的41%。

  預計Flex系列140比Flex系列170便宜得多,因此AI的性價比差距兩個設備之間的推斷可能沒有媒體處理那么大。這個想法是讓數據中心GPU既可以用于媒體處理,也可以用于云游戲,但在AI推理方面也做得相當好,這不僅越來越成為數據中心的工作負載,

  英偉達數據中心GPU

  Nvidia剛剛推出了具有光線追蹤、視頻編碼和AI推理處理功能的“Lovelace”AD102數據中心GPU,而英特爾對新的NvidiaL40GPU加速器的了解還不夠,無法與Flex系列140和150卡進行比較。但英特爾確實將其數據中心GPU與NvidiaA2和A10設備進行了對比,

  人工智能如何嵌入應用程序的一個很好的例子是在流視頻中使用人工智能推理進行對象分類和對象檢測。英特爾有一個名為DLStreamer的新工具,可以優化XeonSPCPU和Flex系列GPU的使用,以在視頻流輸入中進行對象識別,如下所示:

  正如在該框圖底部看到的那樣,當DLStreamer在CPU和GPU上運行部分代碼時,解碼視頻并在流上運行Yolov5對象檢測模型的流的數量增加了67%。機箱中的Flex系列GPU通過CPU-GPU組合驅動150個流來驅動90個流。

  我們真正想要做的是直接比較Nvidia加速器和Flex系列在這些工作負載上的比較,英特爾不得不使用Resnet50進行對象分類,使用SSD-MobileNet進行對象檢測:

  Flex系列170在視頻流中的對象分類方面的性能比NvidiaA10高35.4%,在視頻流中的對象檢測方面的性能提高33.3%。

  NvidiaA10在惠普(HewlettPackardEnterprise)和CDW的售價約為8,400美元,在戴爾(Dell)的售價則低至5,700美元。為了在視頻推理方面提供同樣的價格,英特爾可能會對Flex系列170收取11,200美元的價格。如果Flex系列170的售價為8400美元,英特爾的性價比將提高25%,而售價為6400美元的價格/性能將提高43%。

  作為GPU計算市場的新手,英特爾可能降低價格,同時提供更高的性能。

  

熱詞搜索:數據中心 GPU

上一篇:零碳數據中心等級評價方法初步確立
下一篇:最后一頁

分享到: 收藏