Impozáns az NVIDIA szuperszámítógépes jövőképe ~ Primusz Péter

Bill Dally, az NVIDIA vezető tervezője a jelenleg is zajló SC10 rendezvényt kihasználva leleplezte a cég hosszú távú terveiben szereplő Echelon névre keresztelt rendszert. A szuperszámítógépekkel foglalkozó konferencia a zöldek számára fontos esemény, hiszen a vállalat minden erejével a HPC szerverek felé mozdul, és nem meglepő módon uralni szeretné ezt a piacot. Az SC10-en kiderült, hogy a szuperszámítógépek felépítése jelentős változás előtt áll. Az áttörést kezdeményező DARPA (amerikai Védelmi Minisztérium kutatásokért felelős részlege) és a résztvevő mérnökök jelenleg azon dolgoznak, hogy 2018-ra elkészülhessen az első exascale szintű, azaz 1 EFLOPS-nál is nagyobb teljesítményt kínáló rendszer. A számítási kapacitás első hallásra is borzalmasan magas, hiszen a jelenlegi leggyorsabbnak számító Tianhe-1A játékszernek tűnik mellette. Számszerűen a tervezett nagyvas majdnem ötszázszor gyorsabb az aktuális csúcstartónál, ami pokoli fejlődési tempót feltételez.

Az exascale szintű gép természetesen problémákat is felvet, ami különösen az idővel kapcsolatos. A rendszer 2018-ra a cGPU-k jelenlegi dizájnjával is elkészíthető, de a kiterjedését tekintve hatalmas lenne, továbbá az energiaigénye is a 100 megawattot ostromolná, ami még az elborult szuperszámítógépes mércével mérve sem barátságos érték – tekintve, hogy a Tianhe-1A 4 megawattal is beéri. A mérnököknek tehát radikálisan új elvekre kell építeni a jövő cGPU-ját. Ezen a területen vitathatatlan, hogy az NVIDIA rendelkezik a legnagyobb tapasztalatokkal. A vállalat Fermi architektúrára épülő lapkája a megcélzott területeken nagy sikernek örvend, hiszen a top500.org friss listája alapján a dobogós szuperszámítógépek esetében kettő masina az új generációs Teslára alapoz. Az SC10-et kihasználva Bill Dally be is mutatta az elképzelését, mely egyelőre csak tervezet szintjén létezik, vagyis bőven változhat a 7-8 év múlva esedékes megjelenésig. Az Echelon projekt alappillére egy olyan cGPU, ami dupla pontosság mellett 10 TFLOPS-os számítási kapacitást kínál. Az aktuális csúcstartó 0,5 TFLOPS körüli teljesítményéhez képest ez hatalmas ugrásnak számít, ám az NVIDIA ennél is tovább megy, ugyanis a fogyasztást is jelentősen redukálni kell. A jelenlegi Fermi architektúrában egy utasítás végrehajtása nagyjából 200 picojoule energiát emészt fel. Hogy ez kézzelfoghatóbb legyen, megjegyezzük, hogy egy joule lényegében egy másodpercig végzet munkát jelent egy watt teljesítménnyel. Rögtönzött fizikaóránk után térjünk is vissza az Echelon rendszerhez, aminél a célkitűzés a 10 picojoule energia felhasználása egy utasítás végrehajtásához. Az elképzelések tehát kellően extrémek ahhoz, hogy a jelenleg alkalmazott dizájn tökéletesen alkalmatlan legyen a megvalósításhoz.

A Bill Dally elmondása szerint a tervezet lapkában nyolc darab úgynevezett CUDA mag kerülne egy streaming multiprocesszorba, és mindegyik képes lenne négy darab utasítás végrehajtására dupla pontosság mellett. A chipben összesen 128 streaming multiprocesszor lenne, vagyis 5 GHz-es órajel mellett ki is jön a 10 TFLOPS-os számítási kapacitás. Ez persze csak az érem egyik oldala, ugyanis a chiphez egy kellően gyors memóriahierarchia is elkél. Az NVIDIA főtervezője szerint a gyorsítótárhoz 256 MB-os SRAM lenne a legmegfelelőbb, amely dinamikusan konfigurálható az igényeknek megfelelően. A cél az, hogy a szükséges adat a lehető leggyorsabban eljusson a feldolgozókhoz anélkül, hogy azt a gyorsítótár szintjein belül mozgatni kellene. A méretes SRAM-ot tehát több szintre érdemes felosztani, és a legalsó szinteket hozzá lehet rendelni az egyes magokhoz. Ezenkívül lehetőség szerint érdemes megosztani az adatokat a különböző lapkák között, vagyis kell egy nagysebességű kommunikációs csatorna is. A tervezet szerint a teljes dizájn cache-koherens, azaz a programozhatóság a lehetőségekhez mérten könnyű lenne. Itt alapvető változásokra van szükség, hiszen a többmagos rendszerek hatékony programozása napjaink legnagyobb problémája.

A DARPA egyébként nyár végén 25 millió dollárt utalt át az NVIDIA számára, hogy belekezdjen a tervezésbe. A zöldek mellett az Intel, a MIT és a Sandia National Labs vesz részt, természetesen ugyanezekkel a célkitűzésekkel. A DARPA tervei szerint 2014-re elkészülhet az első olyan rack prototípusa, ami 1 PFLOPS feletti teljesítményre képes 57 kilowattos energiaigény mellett. A 2018-re tervezet nagyvas ehhez hasonló blokkok százaiból épülhet majd fel.

Abu85