2010. november 29., hétfő
2010. november 28., vasárnap
Részletek az NVIDIA Echelon projektjéről
Kifejezetten érdekes részlete a tervezett chipnek a nyolc darab latency processzor, ami a 128 darab streaming multiprocesszor mellett kap helyet. Ezek gyakorlatilag hagyományos processzormagok lesznek, melyek feltehetően az akkor aktuális ARM architektúrára épülnek majd. Ez számottevő szempont az NVIDIA jövőképében, ugyanis a CPU-k és a GPU-k között alapvető különbségek vannak. Az utóbbi chipeket a teljesítmény maximalizálására tervezik, így kifejezetten jól kezelik az adat- és folyamatpárhuzamos feladatokat, azonban nagyon nem hatékonyak, amikor egy késleltetés-érzékeny folyamat kerül elő. Itt jönnek képbe az úgynevezett latency processzorok, amelyek lényegében csak ezeknél az – egyébként kritikus – eseteknél jutnak szerephez. Az információk szerint a Maxwell architektúrában biztosan szerepet kapnak a latency processzorok, sőt egyes források már a Keplerben való bevezetést sem tartják elképzelhetetlennek. Ezt a cég nem erősítette meg, de kétségtelen, hogy a Fermi architektúrán általános számítási képességein a hagyományos processzormagok beépítése, valamint a virtuális memória támogatása rengeteget javítana, így nem lenne meglepő húzás, ha az NVIDIA a következő lépcső megmászásánál ezt a fejlesztési utat választaná.
A zöldek aktuális jövőképében az Echelon projekt lapkáját már ismerjük, de talán még nem tiszta, hogy az egész rendszer hogyan áll össze. A legkisebb elem nyilvánvalóan a cGPU, ami a szuperszámítógépben a csomópontként (Node) van jelen, és nyolc ilyen alkot egy modult. A masina legnagyobb eleme a szekrény, ami 16 darab modult tartalmaz. Ebből kiszámolható, hogy egy szekrény – vagy ahogy az NVIDIA nevezi kabinet – 128 darab csomópontot jelent, így chipenként 20 TFLOPS-os teljesítménnyel számolva egy kabinet 2,56 PFLOPS-os számítási kapacitást jelent dupla pontosság mellett, és ehhez az értékhez a vállalat tervei szerint 38 kW energia is elég. Egy-egy csomóponthoz 256 GB DRAM tartozik, a memóriavezérlő pedig 1,4 TB/s-os tempóval éri el a fedélzeti tárat. A kabinetben található modulok és azokon belül a csomópontok között 150 GB/s-os adatátviteli csatorna lesz fenntartva, a tetszőleges számban elhelyezhető szekrények pedig optikai kábeleken kommunikálhatnak.
Amennyiben az NVIDIA terve nem módosul, akkor 400 kabinet kell a megcélzott 1 EFLOPS-os teljesítmény eléréséhez, és a tervezett fogyasztással számolva egy ilyen szuperszámítógép 15 megawattos energiaigénnyel fog rendelkezni. Az utóbbi érték még mindig magas a mai nagyvasak igényeihez képest, de messze nem teszi kivitelezhetetlenné a tervet. Ne feledjük el, hogy a mai cGPU-k dizájnjával, még a gyártástechnológia fejlődése mellett is könnyen túlszárnyalható a 100 megawattos érték, vagyis az Echelon projekt összességében minden eddigi elképzelésnél hatékonyabb, nem is kevéssel.
2010. november 24., szerda
Catalystet szült az ősz vége
2010. november 21., vasárnap
25 éves a Microsoft Windows
Ma már talán a világ legismertebb szoftvere, de a Microsoft Windows nevű programja megjelenésekor, 1985. november 20-án nem keltett túl nagy feltűnést, igazából csak a szűkebb szakma figyelt rá.
Az ekkor kiadott 1.0-s változat valójában még nem volt önálló operációs rendszer, a Windows még sokáig a jól bevált MS-DOS-ra épült. Az 1981-ben Bill Gates által bejelenetett Interface Manager nevű projekt során alakították ki a más cégek által kifejlesztett elemeket nagy számban tartalmazó szoftverkörnyezetet, melynek legfontosabb újításai a grafikus felhasználói felület, az egér használata, a saját alkalmazások (jegyzettömb, naptár, számológép, rajzprogram stb.) és a többfeladatosság (multitasking) voltak. A Windows legkomolyabb innovációjának ekkoriban azonban minden valószínűség szerint az tekinthető, hogy a személyi számítógépek területét megcélozva a már ismert elemeket a felhasználóbarátság, a könnyen kezelhetőség, a sok feladatra való alkalmasság jegyében rendezték össze önálló koncepciót megalkotva.
Az eredeti tervekhez képest két év késéssel megjelent 16 bites Windows 1.0 futtatásához az MS-DOS 2.0, minimum 256 kilobájtos memória, floppymeghajtók (esetleg merevlemez) és grafikus adapterkártya volt szükséges. Érdekes adalék, hogy a Microsoft csak 2001-ben szüntette meg hivatalosan e verzió támogatását.
Habár a 2.0-s változat már 1987 karácsonyán a boltokban volt, a Windows nem számított sikeres terméknek – egészen 1990-ig, amikor kiadták a 3.0-sat, mely viszont már – s még inkább a klasszikussá vált módosított változat, a 3.1 – meghódította a világot: az Intel 386-os processzorának eladásait is felpörgető szoftverből tízmillió darabot adtak el, a megemlékező cikkek megjegyzik, hogy amerikai hosszújáratú repülőgépeken még 2008-ban is használták a Windows 3.1-et szórakoztatóelektronikai berendezésekben. Ezt az áttörést a Windows NT már nem tudta megismételni, de a már „igazi” operációs rendszernek tervezett Windows 95 viszont igen – talán e program megjelenését övezte a legnagyobb érdeklődés a Microsoft történetében.
Sok – gyakran igaztalan – vád éri a Microsoftot, főként üzleti gyakorlatukat, de az tény, hogy az elmúlt 25 év talán legsikeresebb IT-története a Windowsé.
2010. november 20., szombat
Decemberben mutatkozik be a jövő konzolja
15 perces demo
A szolgáltatás azért különösen szimpatikus a kiadóknak, mert egyelőre teljesen kalózbiztos a rendszer. A játékok nem töltődnek le az ügyfél gépére, csupán a megjelenítendő képet kapja meg az interneten keresztül, illetve egy kontrollert, amivel a figurákat vezérelheti a képernyőn. Minden számítás az Onlive szerverein zajlik, így nincs mit letölteni és a fájlcserélőkre feltölteni.
iPhone-on már robbant a Rage
2010. november 19., péntek
Impozáns az NVIDIA szuperszámítógépes jövőképe
Bill Dally, az NVIDIA vezető tervezője a jelenleg is zajló SC10 rendezvényt kihasználva leleplezte a cég hosszú távú terveiben szereplő Echelon névre keresztelt rendszert. A szuperszámítógépekkel foglalkozó konferencia a zöldek számára fontos esemény, hiszen a vállalat minden erejével a HPC szerverek felé mozdul, és nem meglepő módon uralni szeretné ezt a piacot. Az SC10-en kiderült, hogy a szuperszámítógépek felépítése jelentős változás előtt áll. Az áttörést kezdeményező DARPA (amerikai Védelmi Minisztérium kutatásokért felelős részlege) és a résztvevő mérnökök jelenleg azon dolgoznak, hogy 2018-ra elkészülhessen az első exascale szintű, azaz 1 EFLOPS-nál is nagyobb teljesítményt kínáló rendszer. A számítási kapacitás első hallásra is borzalmasan magas, hiszen a jelenlegi leggyorsabbnak számító Tianhe-1A játékszernek tűnik mellette. Számszerűen a tervezett nagyvas majdnem ötszázszor gyorsabb az aktuális csúcstartónál, ami pokoli fejlődési tempót feltételez.
Az exascale szintű gép természetesen problémákat is felvet, ami különösen az idővel kapcsolatos. A rendszer 2018-ra a cGPU-k jelenlegi dizájnjával is elkészíthető, de a kiterjedését tekintve hatalmas lenne, továbbá az energiaigénye is a 100 megawattot ostromolná, ami még az elborult szuperszámítógépes mércével mérve sem barátságos érték – tekintve, hogy a Tianhe-1A 4 megawattal is beéri. A mérnököknek tehát radikálisan új elvekre kell építeni a jövő cGPU-ját. Ezen a területen vitathatatlan, hogy az NVIDIA rendelkezik a legnagyobb tapasztalatokkal. A vállalat Fermi architektúrára épülő lapkája a megcélzott területeken nagy sikernek örvend, hiszen a top500.org friss listája alapján a dobogós szuperszámítógépek esetében kettő masina az új generációs Teslára alapoz. Az SC10-et kihasználva Bill Dally be is mutatta az elképzelését, mely egyelőre csak tervezet szintjén létezik, vagyis bőven változhat a 7-8 év múlva esedékes megjelenésig. Az Echelon projekt alappillére egy olyan cGPU, ami dupla pontosság mellett 10 TFLOPS-os számítási kapacitást kínál. Az aktuális csúcstartó 0,5 TFLOPS körüli teljesítményéhez képest ez hatalmas ugrásnak számít, ám az NVIDIA ennél is tovább megy, ugyanis a fogyasztást is jelentősen redukálni kell. A jelenlegi Fermi architektúrában egy utasítás végrehajtása nagyjából 200 picojoule energiát emészt fel. Hogy ez kézzelfoghatóbb legyen, megjegyezzük, hogy egy joule lényegében egy másodpercig végzet munkát jelent egy watt teljesítménnyel. Rögtönzött fizikaóránk után térjünk is vissza az Echelon rendszerhez, aminél a célkitűzés a 10 picojoule energia felhasználása egy utasítás végrehajtásához. Az elképzelések tehát kellően extrémek ahhoz, hogy a jelenleg alkalmazott dizájn tökéletesen alkalmatlan legyen a megvalósításhoz.
A Bill Dally elmondása szerint a tervezet lapkában nyolc darab úgynevezett CUDA mag kerülne egy streaming multiprocesszorba, és mindegyik képes lenne négy darab utasítás végrehajtására dupla pontosság mellett. A chipben összesen 128 streaming multiprocesszor lenne, vagyis 5 GHz-es órajel mellett ki is jön a 10 TFLOPS-os számítási kapacitás. Ez persze csak az érem egyik oldala, ugyanis a chiphez egy kellően gyors memóriahierarchia is elkél. Az NVIDIA főtervezője szerint a gyorsítótárhoz 256 MB-os SRAM lenne a legmegfelelőbb, amely dinamikusan konfigurálható az igényeknek megfelelően. A cél az, hogy a szükséges adat a lehető leggyorsabban eljusson a feldolgozókhoz anélkül, hogy azt a gyorsítótár szintjein belül mozgatni kellene. A méretes SRAM-ot tehát több szintre érdemes felosztani, és a legalsó szinteket hozzá lehet rendelni az egyes magokhoz. Ezenkívül lehetőség szerint érdemes megosztani az adatokat a különböző lapkák között, vagyis kell egy nagysebességű kommunikációs csatorna is. A tervezet szerint a teljes dizájn cache-koherens, azaz a programozhatóság a lehetőségekhez mérten könnyű lenne. Itt alapvető változásokra van szükség, hiszen a többmagos rendszerek hatékony programozása napjaink legnagyobb problémája.
A DARPA egyébként nyár végén 25 millió dollárt utalt át az NVIDIA számára, hogy belekezdjen a tervezésbe. A zöldek mellett az Intel, a MIT és a Sandia National Labs vesz részt, természetesen ugyanezekkel a célkitűzésekkel. A DARPA tervei szerint 2014-re elkészülhet az első olyan rack prototípusa, ami 1 PFLOPS feletti teljesítményre képes 57 kilowattos energiaigény mellett. A 2018-re tervezet nagyvas ehhez hasonló blokkok százaiból épülhet majd fel.
2010. november 9., kedd
Textúrák, mapek és az OpenGL
2010. november 6., szombat
Textúrák szűrése
Belesünk egy lyukon át és amilyen színt látunk, az lesz a képpont színe. De mi van, ha több színes pontot (texelt) látunk a lyukon keresztül (ez az eset fordul elő gyakrabban)? Ha a térbeli alakzat, amire rálátunk a lyukon keresztül merőleges a rácsunkra akkor „kör” (négyzet) alakban látunk egy pixelcsoportot, ha nem merőleges (elég gyakran) akkor pedig „ellipszis” (téglalap) alakban látunk egy pontcsoportot. Ez azt jelenti, hogy a képernyőtérben egyenletes sűrűséggel kiválasztott pixel középpontok igen egyenlőtlenül mintavételezhetik a textúrát, amely végső soron problémákat okozhat. Ezért a textúra leképzésnél a mintavételezési problémák elkerülését célzó szűrésnek különleges jelentősége van. A textúra szűrés nehézsége abból fakad, hogy a textúratér és a képtér közötti leképzés nemlineáris. Például, ha doboz szűrést szeretnénk alkalmazni, azaz a pixel textúratérbeli képében kívánjuk a texeleket átlagolni, akkor szabálytalan, általános görbék által határolt területtel kell dolgoznunk.
A szokásos eljárások ezt az általános területet egyszerű területekkel, például ellipszissel, négyszöggel, téglalappal vagy négyzettel közelítik. A leggyakoribb szűrési módok a következőek:
- Point Sampling:
Egyszerűen kiveszi a középső pixelt, figyelmen kívül hagyva a többit és a "rácson keresztül látott" alakzat formáját. Ez a módszer kis memóriaigényű, de nem valami szép megoldás. Ha egy nagy objektum nagyon közel kerül a kamerához, akkor borzasztóan kockás képet eredményez, mivel több pixelhez is ugyanaz a texel tartozhat, ugyanazzal a színnel. - Bi-linear Filtering:
Négyzettel történő közelítés esetén egyetlen pixel színét úgy határozhatjuk meg, hogy megkeressük a pixel sarokpontjainak megfelelő textúratérbeli pontokat, előállítjuk a négy pontot tartalmazó legkisebb négyzetet, majd átlagoljuk a négyzetben lévő texelek színeit. A közeli objektumok így szépen elmosódnak (gyengülnek az élhibák és textúrazajok lásd AA), igaz ez csak egy mellékes hatás. Ennek a szűrésnek két hátránya van: négyzet (vagyis 2×2pont) formájú alakzattal dolgozik, ami az esetek többségében pontatlan (kamera irányára nem merőleges poligonok), valamint négyszeres sávszélesség igénye van a Point Samplinghoz képest. - Tri-linear Filtering:
A Mip-Mapping (lásd később) ötletét adja hozzá a Bi-linear-hoz. Mindkét Mip szinten végrehajtunk egy Bi-linear szűrést és a két értéket átlagoljuk. A memóriaigény megint duplázódik és még mindig négyzet alakzattal dolgozunk. - Anisotropic Filtering:
Az eddigi szűrési eljárások valójában csak arra voltak jók, hogy a közeli alakzatokat elmossák (ez valójában mellékhatás) a távoli alakzatok még mindig pixel összevisszaságok maradnak az alul mintavételezés miatt. A legjobb minőség akkor érhető el, ha minden egy rácspontból látható texelt felhasználunk a szín meghatározásához és figyelünk a textúratérképen látható alakzat formájára is. Persze ezek az eljárások nagyon komoly memóriaigénnyel rendelkeznek. Általában 16-32 texelt vesznek figyelembe pixelenkét és ügyelnek az alakzat elfordulására is. Anizometrikus szűrést többféleképpen meg lehet valósítani. Az egyik lehetőség a Rip-Mapping, ami egyfajta elforgatott Mip-Mapping. Nem csak az egyes Mip szinteket számolja ki a kártya, hanem bizonyos szögelforgatott textúrákat is. Ezeket az elforgatott textúrákat használja, miután megállapította az éppen renderelt poligonlap elfordulását a kamerához képest. Az eljárás gyors mivel nem kell minden pixelnél elforgatni a textúrát csak egyszer a Rip-mapok képzésekor, de nem teljesen pontos minden szögre.
- Dr. Szirmay-Kalos László, Antal György, Csonka Ferenc: Háromdimenziós grafika, animáció és játékfejlesztés
- http://vganfo.uw.hu/
2010. november 4., csütörtök
Megújul a GeForce GTX 460?
A GeForce GTX 460 SE a fogyasztás tekintetében nem különbözik a 768 MB-os elődtől, sőt a termékek kiépítése is megegyezik, de ez nem lényeges, mivel a partnerek úgyis egyénileg tervezett megoldásokat jelentenek be. Az SE jelzés nélküli 1 GB-os GeForce GTX 460 minden bizonnyal megmarad a termékkínálat részeként, még akkor is, ha az új termék elhanyagolható mértékben lesz olcsóbb nála. Itt elképzelhető, hogy a gyártók a régebbi modell esetében csak a gyári tuningra fognak koncentrálni, mivel a referenciaparamétereket alkalmazó kártyák alig 10-15 dolláros differencián belül lennének. Lényegében csak a karácsonyi szezont kell kibírni, hiszen hamarosan érkezik a GF114-es lapka, aminek hála újra lehet gondolni az eddigi árazási politikát, és a meglehetősen problémás termékpozícionálásra megoldást lehet találni.
GeForce kvartett kivételes jellemzőkkel
A hűtést egy méretes alumíniumborda biztosítja, mely négy darab hővezető csővel dolgozik, az aktív hőelvezetésről pedig két ventilátor gondoskodik. A hátlapon a szokásos felállás található, vagyis két DVI és egy mini HDMI várja a kijelzőket. Az 1 GB-os GDDR5 szabványú fedélzeti memóriával ellátott kártya november végén kerül az üzletek polcaira, az árcéduláról azonban még nem nyilatkozott a gyártó.
A Gigabyte is a tuningot tartotta fontosnak, így érkezik a GeForce GTX 460 OC2 és a GeForce GTX 480 Super Overclock. Az előbbi megoldás GF104-es chipre épül, és a megszokott 336 CUDA mag illetve 56 darab textúrázó csatorna mellett 760, 1520 illetve 3600 MHz-es mag-, shader- és effektív memória-órajelet alkalmaz. Az 1 GB kapacitású fedélzeti memória természetesen 256 bites buszt használ, és GDDR5 szabványú lapkákra alapoz. A kigyúrt versenyző hűtését a WindForce 2X oldja meg, mely egy méretes, hővezető csövekkel tarkított borda két darab ventilátorral tálalva. A két DVI és egy mini HDMI kimenettel rendelkező kártya novemberben érkezik, az ára viszont egyelőre ismeretlen.
A felsőkategóriát a GeForce GTX 480 Super Overclock szeretné bevenni. A termék a valaha készített leggyorsabb GF100-as alapokra épülő kártya lesz, ennek megfelelően a fogyasztása is megér egy misét. A gyártó nem is bízza a véletlenre a hűtést, ugyanis a meglehetősen nehéz hűtőbordán három ventilátor dolgozik a stabil működés érdekében. A 480 CUDA maggal operáló megoldás mag-, shader- és effektív memória-óraleje 820, 1640 illetve 3800 MHz lesz, az 1,5 GB-os fedélzeti memória pedig GDDR5-ös szabványú. A tuningosok is megtalálhatják a számításaikat, mivel a kártyán két BIOS kapott helyett, így egy esetleges hibás frissítés könnyedén kezelhető.
A Gigabyte izomkártyája már előrendelhető státuszban van, amennyiben hajlandóak a potenciális vásárlók az új generációs termékek megjelenése előtt, egy kifutó modellre áldozni nem kevesebb, mint 440 eurót.