編輯:昕朋
【新智元導讀】沒有什么問題是一臺AI計算機解決不了的,如果有,那就用16臺!明星芯片企業(yè)Cerebras帶著它餐盤大小的芯片來了,這次有16個!
更大、更快、更好用周一,Cerebras公布了其用于深度學習的Andromeda AI超級計算機。據(jù)稱,該計算機在16位半精度下能提供超過1 ExaFLOP,相當于每秒100億億次運算的算力!
Andromeda是一個由16臺Cerebras CS-2計算機連接起來的集群,擁有1350萬個AI核心,遠遠超過全球超算TOP500冠軍Frontier的870萬個核心。
該計算機還采用了18,176個AMD Epyc中央處理單元的芯片。
Andromeda由Cerebras晶圓級引擎Wafer Scale Engine(WSE-2)提供核心算力。
處理器是由被稱為晶圓的硅盤制成的。在芯片制造過程中,一塊晶圓被分割成幾十個長方形,然后每個長方形被變成一個單獨的處理器。
但是,Cerebras另辟蹊徑,沒有將晶圓分割成幾十個小處理器,而是將其變成一個擁有數(shù)萬億晶體管的大處理器。
WSE-2是有史以來最大的芯片,包含2.6萬億個晶體管,組成85萬個內(nèi)核,面積超過46225平方毫米。Andromeda超級計算的芯片拼起來,有16個餐盤那么大!
相比之下,英偉達最大的GPU只有540億個晶體管,面積為815平方毫米。
用大芯片賺足眼球后,Cerebras打起了Andromeda的三大招牌。
首先,Andromeda運行AI任務的設置非常簡單。在嚴格的數(shù)據(jù)并行模式下,Andromeda實現(xiàn)了CS-2簡易的模型分配,以及從1到16個CS-2的單鍵擴展。
Cerebras表示,用戶只需3天時間,就可以在不對代碼做任何改動的前提下,組裝完成16個CS-2,進行AI任務處理。
其次,它的編程很簡單。Cerebras的編譯器處理了所有的細節(jié)和善后工作,用戶只需輸入一行代碼,指定在多少個CS-2上運行,然后就大功告成了。
Andromeda可由多個用戶同時使用,這意味著該超算不僅可以供一個用戶從事一項工作,還可以同時服務于16個不同的用戶從事16項不同的工作,工作效率和靈活度瞬間拉滿。
更重要的是,這個系統(tǒng)展示了近乎完美的線性可伸縮性。
「近乎完美」的可伸縮性近幾年,神經(jīng)網(wǎng)絡的規(guī)模一直在穩(wěn)步增長。在過去的一年里,OpenAI的GPT-3自然語言處理程序,一度以1750億參數(shù)成為世界上最大的神經(jīng)網(wǎng)絡,后來很快被谷歌的1.6萬億參數(shù)模型Switch Transformer超過。
如此龐大的模型會遇到算力瓶頸問題,系統(tǒng)需求已經(jīng)遠遠超出了單個計算機系統(tǒng)的處理能力。單個GPU的內(nèi)存約為16GB,而GPT-3等模型所需的內(nèi)存往往高達幾百TB。
像過去一樣,單純進行簡單粗暴的算力擴展,已經(jīng)難以滿足需求。
因此,系統(tǒng)集群變得至關重要。而如何實現(xiàn)集群,是一個最關鍵的問題。要讓每臺機器都保持忙碌,否則系統(tǒng)的利用率就會下降。
Cerebras 正是為了解決這個問題。
與任何已知的基于GPU的集群不同,Andromeda在GPT級大型語言模型中展現(xiàn)了「近乎完美」的可伸縮性。在GPT-3、GPT-J和GPT-NeoX中,Andromeda的處理能力隨CS-2數(shù)量的增加呈現(xiàn)了近乎完美的線性增長。
這意味著,在集群中每增加一臺CS-2計算機,整體的訓練時間會以近乎線性的趨勢減少。
做到這一點,離不開芯片與存儲、分解和集群技術的協(xié)同工作。
Weight Memory & MemoryX:實現(xiàn)極速擴展MemoryX是一種內(nèi)存擴展技術,它使模型參數(shù)能夠存儲在芯片外,并有效地流式傳輸?shù)?CS-2,實現(xiàn)同在芯片上那樣的性能。
這一架構靈活性極強,支持4TB到2.4PB的存儲配置,2000億到120萬億的參數(shù)大小。
而通過軟件執(zhí)行模式Weight Memory,可以將計算和參數(shù)存儲分解,使規(guī)模和速度得以獨立且靈活地擴展,同時解決了小型處理器集群存在的延遲和內(nèi)存帶寬問題。
最終,WSE 2可以提供高達 2.4 PB 的高性能內(nèi)存,CS-2 可以支持具有多達 120 萬億個參數(shù)的模型。
Cerebras SwarmX:提供更大、更高效的集群這是一種人工智能優(yōu)化的高性能通信結構,可將 Cerebras的芯片內(nèi)結構擴展到芯片外,從而擴展AI集群,而且使其性能實現(xiàn)線性擴展。
最終,SwarmX 可以將CS-2 系統(tǒng)從2個擴展到192 個,鑒于每個 CS-2 提供85萬個 AI 優(yōu)化內(nèi)核,Cerebras 便可連接 1.63 億個 AI 優(yōu)化內(nèi)核集群。
同時,Cerebras WSE-2基于細粒度數(shù)據(jù)流架構,其 85萬個 AI 優(yōu)化計算內(nèi)核可以單獨忽略零。
Cerebras 架構獨有的數(shù)據(jù)流調(diào)度和巨大的內(nèi)存帶寬,使這種類型的細粒度處理能夠加速所有形式的稀疏性。這些都是其他硬件加速器,包括GPU,根本無法做到的事情。
Cerebras表示,可以訓練超過90%的稀疏性模型,達到最先進的精度。
目前,包括美國阿貢國家實驗室、AMD和劍橋大學等多名用戶已經(jīng)使用了Andromeda超算系統(tǒng),都對其近乎完美的線性可收縮性能力贊不絕口。
其中,與阿貢國家實驗室合作的基于HPC的COVID-19研究還入選有「超算領域的諾貝爾獎」之稱的戈登·貝爾獎。
擁有世界最大的芯片和協(xié)同技術,Cerebras能否挑戰(zhàn)目前超算Top 1的Frontier?我們拭目以待。
參考資料:
https://arstechnica.com/information-technology/2022/11/hungry-for-ai-new-supercomputer-contains-16-dinner-plate-size-chips/
https://www.forbes.com/sites/karlfreund/2022/11/14/cerebras-builds-its-own-ai-supercomputer-andromeda/?sh=2794ece11057
本文發(fā)布于:2023-02-28 21:33:00,感謝您對本站的認可!
本文鏈接:http://www.newhan.cn/zhishi/a/1677772080112470.html
版權聲明:本站內(nèi)容均來自互聯(lián)網(wǎng),僅供演示用,請勿用于商業(yè)和其他非法用途。如果侵犯了您的權益請與我們聯(lián)系,我們將在24小時內(nèi)刪除。
本文word下載地址:超級計算機有什么用(元氣騎士超級計算機有什么用).doc
本文 PDF 下載地址:超級計算機有什么用(元氣騎士超級計算機有什么用).pdf
| 留言與評論(共有 0 條評論) |