Részletek az NVIDIA Echelon projektjéről ~ Primusz Péter

2010. november 28., vasárnap

Részletek az NVIDIA Echelon projektjéről

Kicsit több mint egy hete számoltunk be az NVIDIA szuperszámítógépes jövőképéről, mely konkrétan az Echelon projekt formájában fog megvalósulni. A vállalat elérhetővé tette a médiának az SC10-en bemutatott prezentációt, melyből a korábban közölt adatok mellett egyéb részletek is kiderültek. Először is egy korrigálást érdemes megejteni, ugyanis az EE Times az interjú során hibás adatot kapott. A projekt cGPU-ja a 20 TFLOPS-os teljesítményszintet célozza meg dupla pontosság mellett, ami a korábban közölt érték duplája, vagyis 10 GHz-es órajel szükséges a megcélzott számítási kapacitás eléréséhez. Ez most lehet, hogy soknak hangzik, de 2018-ra – ha minden jól megy – átlépjük a 15 nm-es határt is, vagyis a gyártástechnológia jelentősen modernebb lesz.

Kifejezetten érdekes részlete a tervezett chipnek a nyolc darab latency processzor, ami a 128 darab streaming multiprocesszor mellett kap helyet. Ezek gyakorlatilag hagyományos processzormagok lesznek, melyek feltehetően az akkor aktuális ARM architektúrára épülnek majd. Ez számottevő szempont az NVIDIA jövőképében, ugyanis a CPU-k és a GPU-k között alapvető különbségek vannak. Az utóbbi chipeket a teljesítmény maximalizálására tervezik, így kifejezetten jól kezelik az adat- és folyamatpárhuzamos feladatokat, azonban nagyon nem hatékonyak, amikor egy késleltetés-érzékeny folyamat kerül elő. Itt jönnek képbe az úgynevezett latency processzorok, amelyek lényegében csak ezeknél az – egyébként kritikus – eseteknél jutnak szerephez. Az információk szerint a Maxwell architektúrában biztosan szerepet kapnak a latency processzorok, sőt egyes források már a Keplerben való bevezetést sem tartják elképzelhetetlennek. Ezt a cég nem erősítette meg, de kétségtelen, hogy a Fermi architektúrán általános számítási képességein a hagyományos processzormagok beépítése, valamint a virtuális memória támogatása rengeteget javítana, így nem lenne meglepő húzás, ha az NVIDIA a következő lépcső megmászásánál ezt a fejlesztési utat választaná.
A zöldek aktuális jövőképében az Echelon projekt lapkáját már ismerjük, de talán még nem tiszta, hogy az egész rendszer hogyan áll össze. A legkisebb elem nyilvánvalóan a cGPU, ami a szuperszámítógépben a csomópontként (Node) van jelen, és nyolc ilyen alkot egy modult. A masina legnagyobb eleme a szekrény, ami 16 darab modult tartalmaz. Ebből kiszámolható, hogy egy szekrény – vagy ahogy az NVIDIA nevezi kabinet – 128 darab csomópontot jelent, így chipenként 20 TFLOPS-os teljesítménnyel számolva egy kabinet 2,56 PFLOPS-os számítási kapacitást jelent dupla pontosság mellett, és ehhez az értékhez a vállalat tervei szerint 38 kW energia is elég. Egy-egy csomóponthoz 256 GB DRAM tartozik, a memóriavezérlő pedig 1,4 TB/s-os tempóval éri el a fedélzeti tárat. A kabinetben található modulok és azokon belül a csomópontok között 150 GB/s-os adatátviteli csatorna lesz fenntartva, a tetszőleges számban elhelyezhető szekrények pedig optikai kábeleken kommunikálhatnak.

Amennyiben az NVIDIA terve nem módosul, akkor 400 kabinet kell a megcélzott 1 EFLOPS-os teljesítmény eléréséhez, és a tervezett fogyasztással számolva egy ilyen szuperszámítógép 15 megawattos energiaigénnyel fog rendelkezni. Az utóbbi érték még mindig magas a mai nagyvasak igényeihez képest, de messze nem teszi kivitelezhetetlenné a tervet. Ne feledjük el, hogy a mai cGPU-k dizájnjával, még a gyártástechnológia fejlődése mellett is könnyen túlszárnyalható a 100 megawattos érték, vagyis az Echelon projekt összességében minden eddigi elképzelésnél hatékonyabb, nem is kevéssel.

Abu85