解析申威26010處理器結構（附：國產超算發展史）

AIRSHIP 發表於 2016-6-28 18:14:00

OFweek電子工程網訊申威26010處理器每片處理器包含4個核心，片上的4個核心通過片上網絡互聯，並通過PCI-E 3.0對外連接，每個核心擁有獨立的128位DDR3控制器連接到8GB DDR3-2133內存，這樣4個核心一共擁有32GB的DDR3內存。

從這裏可以看出SW26010實際上類似於用膠水把4個獨立的處理器粘在了一起，整合到了一個芯片裏面，但是每個核心還是可以獨立工作，而且擁有獨立的128bit 8GB內存。這樣單個核心的內存帶寬達到了34GB/s，整個處理器達到了136GB/s，這樣設計最大的好處就是每個核心的帶寬是完全獨享的，缺點是空閑核心的帶寬無法共享給其他核心。

其中每個核心包含一個主處理器（MPE）和一個8*8的計算單元陣列（CPEs），主處理器是一個64位的RISC架構核心，用來跑操作系統，並且支持264位的矢量指令集，擁有32KB的L1指令緩存和32KB的L1數據緩存（總共64KB L1 cache），和256KB L2 Cache，應該說這樣的緩存配置並不算大，應該是為了節約芯片面積考慮，4個核心的主處理器加起來一共有256KB L1 cache和1MB L2 cache。

計算單元陣列（CPEs）是一個由64個簡化的62bit處理器（不是常見的64bit）組成，每個處理器只有16KB的L1指令緩存和64KB本地儲存，沒有L1數據緩存，並且和主處理器一樣支持264位的矢量指令集，單片處理器擁有一共256個這樣的計算單元。

於是加上4個主處理器，單片處理器一共擁有260個處理器核心。

神威·太湖之光的每個處理器卡有兩片SW26010處理器，和一共64GB內存，長得像這樣，每個處理器算一個計算節點，這樣一塊處理器卡和intel xeon phi協處理器卡類似，只是intel這樣一塊計算卡只有區區60個核心，而且不能獨立工作，還需要另外購買一個獨立的xeon主機作為管理處理器使用。而SW26010處理器集成了管理處理器，可以獨立工作，並且單個處理器卡擁有高達520個處理器核心。

對比一下intel xeon phi計算系統的結構：

KNC Card就是一塊intelXeon Phi協處理器卡，協處理器卡通過PCIE-X16和主處理器相連，其實看上去就像是一台PC上面插著好幾塊顯卡。這樣一台PC構成一個計算節點。

對比SW26010處理器的方案，單個節點來看，一塊SW26010的核心數量和一台帶有4塊xeon phi計算卡的功能相當。Intel方案的麻煩在於，這樣一個計算節點的功耗和體積遠遠大於SW26010，而且intel主處理器內存和協處理器卡的內存是分離的，需要先將要處理的數據通過PCI-E x16傳輸至計算卡內存，然後計算卡才能計算，最後將結果通過PCI-E x16讀回主處理器，這樣一來一回的性能損失很多時候遠大於計算卡帶來的好處。

SW26010的主處理器和協處理器的內存是共享的，這樣無需來回從協處理器倒騰數據，而且可以實現類似AMD APU的統一內存尋址，大幅度提高了協處理器的使用效率，從這點來說SW26010的方案是優於intel方案的。

從單個核心對比來看，Intel的phi協處理器據說是基於最早的奔騰x86方案改進而成，多了一個512位的矢量處理器，而SW26010只有264位的矢量處理器，phi擁有32KB的L1指令緩存，32KB的L1數據緩存和512KB的L2 緩存，對比SW26010的協處理器只有16KB的L1指令緩存和64KB的本地存儲，而且intel的phi核心可以支持4個物理線程，也就是超線程技術，單純從技術來講，intel的phi處理器拿出來單挑應該可以吊打單獨的SW26010的計算核心。

理論性能可以看出，單個intel的phi處理器是高於SW26010的計算核心，得益於超寬的512位矢量處理器（VPU），intel phi上的處理器每個時鐘可以執行16個單精度運算或8個雙精度計算，而SW26010上的計算核心只有一半的寬度，所以最多也就8個單精度和4個雙精度，不過SW26010的核心頻率是1.45GHz，要比intel phi的1.3GHz稍高，但是這樣也很難追平intel的單個核心的理論性能優勢。

但是光比理論峰值性能是沒有什麽意義的，SW26010的VPU雖然比intel phi的寬度小，但是264bit的寬度而不是256bit的寬度可以提供比intel的單雙精度浮點更高的計算精度，單精度浮點可以比intel的高一倍，而雙精度可以高4倍，這在科學計算中是能夠獲得更大的優勢，而且intel的512bit寬度的矢量運算需要更多的數據來填飽它，加上需要用PCI-E傳輸數據的瓶頸，大部分時候也只能挨餓，而SW26010可以直接訪問主存，因此在實際使用效率上不見得就會比intel phi低多少，並且某些應用場合甚至可能大幅度超過intel。

而且最重要的是，SW26010這樣的設計，大幅度降低了系統複雜度，單個計算節點只需要一片SW26010，而intel就很杯具的需要一整台機架服務器，大概長得像這樣：

得益於SW26010的超低功耗，大幅度降低了散熱壓力，一個小小的機箱塞進了256個計算節點。。。。同體積秒殺intel。不要小看體積因素，更小的體積意味著可以用更快的總線和更低的成本將所有節點連接起來。而SW26010的節點輕鬆用PCI-E 3.0就連起來了，又便宜又快，噴總線瓶頸的可以省省了，天河二號用的自制TH-Express-2連接計算節點，使用PCI-E 2.0連接，根據資料顯示速度是6.36GB/s，延遲是85us；而SW26010的計算節點連接性能高達12GB/s，延遲只有區區的1us，性能遠超intel方案的天河二號。然後這樣一個小小的機櫃，居然塞進了8機箱，像這樣：

下面說說超算閑置問題針對此某HPC從業者這樣回答

1.中國無論天河-1還是天河-2現在都是滿負荷運轉，根本沒有閑置問題，天河1不說了，現在用得排隊，天河2的國防科大自己想測試下節點都經常沒資源，所謂天河-2上利用效率不高也是相對於去目的的，把資源滿負荷當然容易，以前跟袁學峰教授合作過，這麽說吧，人家所謂利用不充分是說重大科研課題放在天河-2上的沒他們期望的比例高，至於金融類動漫類低層次的應用，人家根本沒把它們當正經應用（這類應用由於門檻低，並行度高，很容易占用大量計算資源），國防科大和廣州天河的袁教授期望的是天河－２在國家重大專項等高層次應用上更多做出貢獻，比如核物理，流體力學等代表超算頂尖水平的應用更多（這也是天河－３繼續獲得國家撥款的主要依據，國家一點都不傻），這當然有一定難度，因為天河-2是異構計算機，想充分利用這些資源，代碼幾乎都得重寫，實際上，在美國TITAN上由於用了GPU，這類應用推進的也不怎麽樣。

2.以我在HPC工作接觸的情況來看，江南所這個超算完全不用擔心上述問題，因為江南所是軍方背景，他們搞得計算機一個主要應用就是核物理仿真，中國在核物理仿真方面幾乎全部代碼都是自主搞得，而且很多代碼都是針對江南所的計算硬件專門設計的，編譯器加速庫等生態系統一應俱全，因此這些在天河－２上遇到的問題，反而在神威上可能不是太大問題，一個例子就是神威超算剛上線，一個核物理仿真在神威上就取得了40P的驚人效率，並且有三個應用已經入圍超算應用國際大獎評選了（效率3占到理論峰值多30%的超算應用是驚人的，實際上寫過程序的都知道，別說超算，即便多核計算機，一般的應用能達到系統浮點峰值30%都是挺不錯了）。

當然相應的，神威上部署民用應用，比如金融／動漫渲染之類低層次應用，反而難度會大一些，基本上代碼得重寫或者大改，但是對這種層次的超算，這些低水平應用本來就不是重點。

對很多核物理和流體，計算電磁學等高端計算來講，現在超算不是能力太強，是太弱，因此只能千方百計地降低計算複雜度＋各種簡化，實際上即便是天河－２，做流體的直接數值模擬，也根本達不到可用的尺度！

以超算速率做為面積比重，分國家做出來的圖，黃色部分為中國，紅色是美國，然後是其它國家。

上榜的超算具體分布如下

歐洲共有105台超算上榜（比2015年11月的107台少2台），總體數量下降，遠遜於亞洲國家。亞洲國家的超算高達218台，雄霸榜單，比上次的173台有了顯著的增長。德國的超算數量在歐洲居冠，共有26台，法國以18台緊隨其後，英國有12台。亞洲方面，日本以29台位於中國之後（比2015年的37台有顯著下降）。

克雷系繼續獨領風騷，在所有的超算運算性能中占據19.9%的份額（比上次的25%有所下滑）。中國國家並行計算機工程中心僅憑借一台神威太湖之光在性能上名列第二，占16.4%。IBM則獲得季軍，占10.7%，比六個月前的14.9%下降不少。惠普占12.9%，比半年前的14.2%略微下滑。。

1.所有上榜超算的性能共計達566.7 pflop/s，而半年前為420 pflop/s，一年前則為363 pflop/s。性能提升的同時，漲幅較以往明顯放緩。

2.共有95台超算的性能超過一億億次每秒，半年前僅有81台。

3.英特爾處理器仍占有絕對多數份額——在全球超算500強中，有455台超算採用該公司芯片，比重高達91%。IBM處理器的比重從半年前的26台降至如今的23台。13台超算採用AMD皓龍系列（占2.6%），不及半年前的4.2%。

4.惠普公司的產品最多，為127台（占25.4%），聯想緊隨其後，有84台。克雷則有60台，不及半年前的69台。半年前上榜的惠普公司產品為155台，而IBM本期上榜超算為38台，名列第五。

5.共用93台上榜超算採用了加速器或協處理器技術，比半年前的104台有所下滑。其中67台採用NVIDIA芯片，26台採用英特爾至強Phi技術，3台採用ATI Radeon，還有兩台採用PEZY技術。3台超算同時採用NVIDIA和至強Phi加速器或協處理器。每台超算平均採用7.6萬顆加速核心。

6.上榜門檻提高至LINPACK測試的285.9 tflop/s（每秒285.9萬億次運算——MIKADO譯註），半年前的門檻則是206.3 tflop/s（每秒206.3萬億次運算——MIKADO譯註）。本次榜單的最後一名可排在上次榜單的第351位。

7.本榜單最後一名的性能增幅繼續低於之前6年的增長水平，現在這一趨勢得到進一步加強。從1994年至2008年，增幅為平均每年90%，但2008年以後的增幅僅為平均每年55%。

國產超算發展史

90年代初，為了徹底打破國外對高性能計算機的壟斷，國家派出一支年輕精幹的科研小分隊，遠赴美國矽谷去進行曙光一號的研究。當時的科學計算所所長李國傑在黑板上寫下了“人生能有幾回搏”七個大字，斬釘截鐵的對幾個年輕人說：“派你們去，就相信你們一定能把機器給造出來！” 在每天工作十五、六個小時，長達11個月的封閉式研究後，科研小分隊成功設計出曙光一號核心部分。

在曙光一號的研發過程中，一些國外公司和國內買辦對曙光一號研究小組的領頭人李國傑院士說，“把錢給我，我給你造出來不就完了”。但李國傑院士堅持認為，高性能計算的核心技術必須掌握在中國人手中，這是一絲一毫都不能讓步的，不僅要做整機研制，包括存儲器在內的配件都要自己做。

1.1993年，中國一台高性能計算機曙光一號並行機終於研制成功。曙光一號的戰略效應可以說是立竿見影：就在這台高性能計算機誕生的第三天，美國便宣布解除10億次計算機對中國的禁運！成功打破了國外IT巨頭對我國信息技術的壟斷，推動信息產業走上了自主發展的道路。

2.1995年，在只有十餘名研究員及500萬元經費的情況下，中國成功研發出曙光1000大規模並行計算機。曙光1000在整體技術上居中國之首，並達到了20世紀90年代前期的國際先進水平，其運行速度的峰值達到了每秒25億次，在當時我國大規模科學工程計算中發揮了重大作用。曙光1000也榮獲了1996年中國科學院科技進步特等獎和1997年國家科學技術進步一等獎。

3.1998年，曙光2000問世，總體水平達到了90年代同期國際先進水平，有些方面如機群操作系統、集成化並行編程環境和服務器聚集軟件等已處於國際領先水平。

4.2001年，曙光3000誕生，標志著我國超算產品正在走向成熟，能兼顧大規模科學計算、事物處理和網絡信息服務，已然是國民經濟信息化建設的重大裝備。

5.2004年，曙光公司研發出4000A，成為國內首台每秒運算超過10萬億次的超級計算機，並代表中國首次進入全球超級計算機TOP 500排行榜，位列第十位。

6.2008年，曙光5000降生，曙光5000的系統峰值運算速度達到每秒230萬億次浮點運算，使中國成為繼美國之後第二個能制造和應用超百萬億次商用高性能計算機的國家，也表明我國生產、應用、維護高性能計算機的能力達到世界先進水平。

7.2009年，作為第一台國產千萬億次超級計算機的天河一號在湖南長沙亮相。天河一號超級計算機性能為每秒1206萬億次的峰值速度，Linpack實測性能為每秒563.1萬億次，強勁的性能使天河一號位列中國超級計算機前100強之首，也使中國成為繼美國之後世界上第二個能夠自主研制千萬億次超級計算機的國家。2010年，國防科大對天河1號進行了升級，天河1A的實測運算能力從天河1號的每秒563.1萬億次，提升至2507萬億次，成為當時世界上最快的超級計算機。

8.2010年，曙光6000問世，曙光6000以實測每秒達1271萬億次的Linpack峰值速度，在2010年第35屆全球超級計算機500強排名中名列第二。

9.2012年，神威藍光超級計算機投入使用。該超算使用了8704片申威1600，搭載神威睿思操作系統，雖然超算絕對性能並不高，但卻是中國在“市場換技術”之後，首次實現了超算CPU和操作系統的全部國產化。神威藍光超算峰值計算性能為每秒一千萬億次，持續性能為每秒796萬億次，性能功耗比超過741MFlops/W（百萬次浮點運算/秒•瓦），LINPACK效率為74%。

10.2013年，國防科大成功研制出天河2號，其高達55PFlops的性能使其傲視群雄，六度蟬聯TOP500排行榜首位。雖然在計算節點上使用的是美國Intel的CPU，但天河2號也使用了4096片飛騰1500，用於高速互聯網絡系統。

如果說天河2號、曙光6000、天河1號等超算使用了國外CPU是白璧微瑕，那麽，本次發布的新超算“神威太湖之光”則實現了CPU、操作系統、高速互聯網絡等核心軟硬件的全面國產化——其CPU申威26010由260個核心構成，雙精浮點峰值高達3TFlops，完全追平了Intel最好的超算芯片。

11.2016年6月20日，全球超級計算機500強榜單公布，使用中國自主芯片制造的“神威太湖之光”取代“天河二號”登上榜首，成為世界首台運算速度超過10億億次的超級計算機，其每秒浮點運算峰值達到12.54億億次，持續運算能力達每秒9.3億億次，運算速度是使用intel芯片天河二號的三倍。

OFweek電子工程網

頁: [1]

's Archiver

解析申威26010處理器結構（附：國產超算發展史）