Nvidia GeForce RTX 2080 & RTX 2080 Ti review: nieuwe generatie gebenchmarkt

238 reacties
Inhoudsopgave
  1. 1. Inleiding
  2. 2. Drie modellen: 2070, 2080 en 2080 Ti
  3. 3. Founders Editions en custom kaarten
  4. 4. Turing-architectuur: nieuwe cores, snellere shaders
  5. 5. Snellere caches, sneller geheugen
  6. 6. Rasterization vs. raytracing
  7. 7. Wat is raytracing?
  8. 8. Real-time raytracing
  9. 9. Tensor-cores: slimme trucs met AI
  10. 10. Nvidia's marketing in de hoogste versnelling: RTX-Ops
  11. 11. RTX-technologie: welke games?
  12. 12. Andere nieuwe rendermogelijkheden
  13. 13. Ondersteuning voor video en monitoren
  14. 14. SLI in het nieuw en overklokken voor dummy's
  15. 15. Testprocedure
  16. 16. Benchmarks: 3DMark Firestrike / Timespy
  17. 17. Benchmarks: Unigine Superposition
  18. 18. Benchmarks: Assassin's Creed Origins (DX11)
  19. 19. Benchmarks: Battlefield 1 (DX12)
  20. 20. Benchmarks: F1 2018 (DX11)
  21. 21. Benchmarks: Far Cry 5 (DX11)
  22. 22. Benchmarks: Forza Motorsport 7 (DX12)
  23. 23. Benchmarks: Ghost Recon: Wildlands (DX11)
  24. 24. Benchmarks: GTA V (DX11)
  25. 25. Benchmarks: Rise of the Tomb Raider (DX12)
  26. 26. Benchmarks: The Witcher 3: Blood & Wine (DX11)
  27. 27. Benchmarks: Total War: Warhammer II (DX12)
  28. 28. Benchmarks: Wolfenstein II: The New Colossus (Vulkan)
  29. 29. HDR
  30. 30. Benchmarks: Hardware.Info GPU Prestatiescore 2018-2
  31. 31. Testresultaten: Stroomverbruik
  32. 32. Testresultaten: Geluidsproductie
  33. 33. Conclusie
  34. 34. Besproken producten
  35. 35. Reacties

Inleiding

Vorige week vrijdag konden we jullie al alles vertellen over de Turing-architectuur van de nieuwe Nvidia GeForce RTX 2080 en Nvidia GeForce RTX 2080 Ti, maar één ding mochten we toen nog niet bekendmaken: de prestaties. Nu eindelijk wel - lees snel verder voor alle benchmarks van Nvidia's nieuwe videokaarten!

Voor wie niet kan wachten om de benchmarks te bekijken, klik vooral door naar pagina 15 van deze review. We beginnen echter bij de achterliggende techniek. Wat als eerste opvalt is de gewijzigde naamgeving van de kaarten: GeForce RTX en dus niet langer GTX. Dat heeft alles te maken met de nieuwe mogelijkheden die deze kaarten moeten bieden, naast een hogere snelheid dan die van de voorlopers. Toegevoegd aan de conventionele rekeneenheden in de chips (Cuda-cores in Nvidia-jargon) bevatten de nieuwe Turing-gpu's ook zogenaamde RT-cores en Tensor-cores. Deze bieden respectievelijk mogelijkheden voor real-time raytracing (een complexe rendering methode voor realistische 3D-beelden) en voor software die gebruik maakt van kunstmatige intelligentie c.q. machine learning.

Dat zijn veel buzzwords voor twee zinnen, maar op de komende pagina's doen we alle nieuwe technologie, inclusief de achterliggende theorie, uitgebreid uit de doeken. Nvidia vat alle functionaliteit van de nieuwe chiponderdelen samen in de term RTX, vandaar dan ook de veranderde naamgeving. In de nabije toekomst mogen we de eerste RTX powered games verwachten, en dat zijn niet de minste: titels als Battlefield V en Shadow of the Tomb Raider maken gebruik van raytracing en/of andere nieuwe technieken om ongekend fraaie beelden voor te schotelen.

Nvidia's marketing-machine draait uiteraard op volle toeren. "De grootste vernieuwing sinds de komst van de Cuda-cores in 2006" en "Na meer dan 10 jaar ontwikkeling kunnen we eindelijk raytracing aanbieden" zijn kreten die je gehoord kunt hebben bij de introductie tijdens Gamescom. Maar, ook als we alle marketing-blabla opzij schuiven, kunnen we objectief concluderen dat we met bijzondere producten van doen hebben; niet alleen vanwege de monsterlijke formaten van de TU102-chip (754 mm² en 18,6 miljard transistors), maar vooral omdat de de gpu's daadwerkelijk voor het eerst sinds lange tijd echt veel nieuwe mogelijkheden bieden. Uw redacteur van dienst schrijft al gpu-reviews sinds eind jaren 90, maar waar het in die tijd zo was dat iedere nieuwe generatie ook daadwerkelijk nieuwe functionaliteit bood, heeft de focus de laatste jaren voornamelijk op "sneller en zuiniger" gelegen. Met de RTX 20-serie is het bijna als of oude tijden herleven!

Op de eerstkomende pagina's vind je onze uitgebreide analyse van de Turing-architectuur en alles over de nieuwe GeForce RTX 20-serie modellen. Daarna lees je de uitslagen van al onze benchmarks, waarvoor we alle videokaarten volledig opnieuw hebben getest met de nieuwste Windows-versie en drivers. Let's go!

Een eerdere versie van dit artikel publiceerden we op vrijdag 14 september, toen nog zonder testresultaten - die zijn er nu wel, en in overvloed. Daarnaast zijn er kleine aanpassingen gedaan aan de pagina's met informatie over techniek en architectuur van de nieuwe kaarten.

Drie modellen: 2070, 2080 en 2080 Ti

Nvidia introduceert in één klap drie modellen in de GeForce RTX 20-serie; de GeForce RTX 2070, GeForce RTX 2080 en GeForce RTX 2080 Ti. Vooral die laatste is opvallend: tot dusver kwam de Ti-variant pas maanden na de introductie van de eerste kaart van een nieuwe generatie. Nvidia wil niet vertellen waarom het de introductie dit keer anders aanpakt, maar waarschijnlijk wil de fabrikant direct een mooie upgrademogelijkheid bieden voor wie nu een GTX 1080 Ti heeft.

Voor de lucky few

Meer nog dan voorheen zal de Ti-variant een videokaart zijn voor de lucky few, want de prijzen van de RTX-kaarten zijn in vergelijking met die van de vorige generatie erg hoog. Zo geeft Nvidia aan dat GeForce RTX 2080 Ti kaarten beginnen bij 999 dollar. Dankzij btw wordt dat vermoedelijk dus zo'n beetje hetzelfde bedrag in euro's. De eigen Founders Edition, waarover meer op de volgende pagina, moet zelfs 1259 euro kosten. Dat is even slikken, als je bedenkt dat een GTX 1080 Ti nu al voor (veel) minder dan 750 euro kunt aanschaffen.

Nvidia geeft aan dat de prijzen hoog zijn omdat de kaarten simpelweg ook duur zijn om te maken, vanwege de complexe (en grote!) gpu's die naast conventionele cores ook de zogenaamde RT- en Tensor-cores bevatten (waarover verderop meer). Dat zal allemaal waar zijn, maar ga er maar vanuit dat de belangrijkste reden waarom Nvidia dergelijke bedragen vraagt niet complexer is dan "omdat het kan". Nvidia heeft in het high-end segment momenteel geheel geen concurrentie meer van AMD. Als consument kun je dus klagen wat je wil, een alternatief is er helaas niet. Je zal je ermee tevreden moeten stellen dat je wel state-of-the-art technologie voor je geld krijgt.

Nvidia GeForce RTX 2080 Ti 11GB

De drie modellen

Terug naar die GeForce RTX 2080 Ti. Deze kaart is gebaseerd op de TU102 gpu en heeft 4352 Cuda-cores, ten opzichte van 3584 bij voorloper GeForce GTX 1080 Ti. De klokfrequentie is wat lager dan bij de voorloper, maar vanwege de overstap van 11 Gbps GDDR5X naar 14 Gbps GDDR6 is de geheugenbandbreedte veel hoger. De kaart heeft een tdp van 250W en in de regel twee 8-pin PEG-connectors.

De GeForce RTX 2080 en 2070 zijn beide gebaseerd op de wat kleinere TU104 en TU106 gpu's, waarbij dus voor het eerst een x80 en x70 kaart van verschillende chips gebruikmaken. De RTX 2080 heeft 2944 ingeschakelde Cuda-cores, de 2070 heeft 2304 stuks. Dat is in beide gevallen aanzienlijk meer dan de voorloper. Opnieuw is de klokfrequentie van de gpu's iets lager dan die van de vorige generatie, maar het geheugen is dankzij GDDR6 opnieuw een stuk sneller. Waar de GTX 1070 nog duidelijk langzamer geheugen had dan de 1080 (8 Gbps t.o.v. 10 Gbps) is het bij de RTX 2080 en RTX 2070 identiek. De tdp's van deze kaarten bedragen 215W en 175W respectievelijk. Ook hier forse prijzen: de RTX 2080's beginnen bij $ 699 en de 2070's bij $ 499. Ga opnieuw maar uit van vrijwel dezelfde bedragen in euro's. Dankzij schaarste bij introductie zullen de kaarten vermoedelijk de eerste weken nog (veel) duurder zijn.

De TU104 gpu heeft trouwens 48 SM's en daarmee in totaal 3072 Cuda-cores, waarvan er dus bij de RTX 2080 een deel zijn uitgeschakeld. De TU106 heeft 36 SM's em 2304 Cuda-cores, die op de RTX 2070 dus allemaal zijn ingeschakeld. Een verschil tussen de chips is dat de TU106 en daarmee de GeForce RTX 2070 geen ondersteuning biedt voor NVLink, een nieuwe technologie om twee gpu's met elkaar te verbinden, waarover meer verderop in dit artikel. Dat maakt dat SLI met de RTX 2070 niet mogelijk is.

De exacte specificaties van de drie nieuwe varianten alsmede die van de voorlopers vind je in onderstaande tabel. Hierin staat FE voor Founders Edition, Nvidia's eigen uitvoeringen, waarover meer op de volgende pagina.

Kaart GeForce RTX 2080 Ti GeForce GTX 1080 Ti GeForce RTX 2080 GeForce GTX 1080 GeForce RTX 2070 GeForce GTX 1070
GPU TU102 GP102 TU104 GP104 TU104 GP104
Die-grootte
754 mm²
471 mm²
545 mm²
314 mm²
445 mm²
314 mm²
Cuda cores 4352 3584 2944 2560 2304 1920
Tensor-cores 544 - 368 - 288 -
RT-cores 68 - 46 - 36 -
Klokfrequentie 1350 MHz 1481 MHz 1515 MHz 1607 MHz 1410 MHz 1506 MHz
Boost 1545 MHz
(FE: 1635 MHz)
1582 MHz 1710 MHz
(FE: 1800 MHz)
1734 MHz 1620 MHz
(FE: 1710 MHz)
1683 MHz
Geheugen 11GB GDDR6 11GB GDDR5X 8GB GDDR6 8GB GDDR5X 8GB GDDR6 8GB GDDR5
Geheugen freq. 14 Gbps 11 Gbps 14 Gbps 10 Gbps 14 Gbps 8 Gbps
Geheugen verb. 352-bit 352-bit 256-bit 256-bit 256-bit 256-bit
Geheugen bandb. 616 GB/s 484 GB/s 448 GB/s 320 GB/s 448 GB/s 256 GB/s
tdp 250W 250W 215W 180W 175W 150W
Stroomconnector 2x 8-pin 8-pin + 6-pin 8-pin + 6-pin 8-pin 8-pin 8-pin
NVLink / SLI NVlink 2X HB-SLI Ja HB-SLI - HB-SLI
Prestaties (RTX Ops) 78T RTX-Ops n.v.t. 60T RTX-Ops n.v.t. 45T RTX-Ops n.v.t.
Prestaties (RT) 10 Gigarays/s n.v.t. 8 Gigarays/s n.v.t. 6 Gigarays/s n.v.t.
Prijs v.a. $ 999
(FE: $ 1199 / € 1.259)
- v.a. $ 699
(FE: $ 799 / € 849)
- $ 499
(FE: $ 599 / € 639)
-

Na de aankondiging door Nvidia waren veel mensen teleurgesteld omdat ze op basis van het beperkt gestegen aantal Cuda-cores en de vrijwel identieke klokfrequenties verwachtten dat de nieuwe kaarten in de praktijk bij bestaande games niet veel sneller zouden zijn dan bestaande kaarten. Wat dat betreft kunnen we alleen maar zeggen: wees niet te snel met conclusies trekken. De ene Cuda-core is de andere niet, en zoals we op de komende pagina's uit de doeken zullen doen bieden de nieuwe kaarten niet alleen veel nieuwe mogelijkheden, maar zijn veel bestaande eigenschappen, waaronder die Cuda-cores, ook flink verbeterd.

De RTX 2080 Ti en RTX 2080 liggen vanaf morgen (20 september) officieel in de winkel en zijn inmiddels al geruime tijd te pre-orderen. Van wat wij horen zullen de voorraden in eerste instantie beperkt zijn, dus als je nu al zeker weet dat je er een wil, zou het zo maar eens een goed idee kunnen zijn om er direct een aan te schaffen. De RTX 2070 volgt iets later, naar verluidt in oktober of november.


Blokdiagrammen van de TU102, TU104 en TU106 gpu's.

Founders Editions en custom kaarten

Traditiegetrouw brengen alle bekende Nvidia partners eigen, custom uitvoeringen van de nieuwe GeForce RTX kaarten op de markt. Inmiddels kun je in onze Prijsvergelijker al heel wat kaarten vinden van onder meer ASUS, MSI, Gigabyte, Inno3D, EVGA, Zotac en anderen. Uiteraard zullen we proberen zo snel mogelijk zo veel mogelijk van de kaarten te testen.

Bij Nvidia zélf (lees: via de Nvidia website) kun je terecht voor de zogenaamde Founders Edition kaarten. Je betaalt er wat meer voor, maar dan krijg je wél de officiële Nvidia-koeler én een kaart die (voor het eerst) standaard overklokt is, al zal dat bij de partnerkaarten 9 van de 10 keer ook het geval zijn. Bij de Founders Edition kaarten zien we een grote trendbreuk: waar Nvidia sinds jaar en dag gebruik maakte van windtunnel-koelers, vinden we bij de RTX 20-serie voor het eerst koelers met twee fans die rechtstreeks richting de gpu blazen, gelijk aan vrijwel alle koelers van Nvidia's partners.

Volgens Nvidia zijn de nieuwe FE-koelers véél stiller dan die van vorige generaties en koelen ze tegelijkertijd beter. Dat mag geen verrassing heten, want dit ontwerp hanteren Nvidia's partners al jaren. De koeler maakt gebruik van een vapor chamber en - uiteraard - van heatpipes. Wat Nvidia bij de nieuwe Founders Edition ook heeft ontwikkeld, maar partners ook al jaren bij eigen ontwerpen bieden, is een gpu-stroomvoorziening die automatisch schakelt tussen 1 tot 8 actieve stroomfases om op die manier altijd een optimale efficiëntie te kunnen bieden.

Wij verwachten dat bij de RTX 20-serie net als bij voorgaande series de Founders Edition kaarten alleen al vanwege de prijs een zeldzaamheid zullen blijven. Nvidia's partners bieden in de regel betere kaarten tegen een lagere prijs.

Verschil OC en non-OC GPU's

Overigens verwachten we in de praktijk bij de partners een duidelijk prijsverschil tussen standaard en overklokte kaarten. Vanuit meerdere bronnen begrepen we dat Nvidia haar gpu's in twee varianten aan partners verkoopt. Alleen een tweede, duurdere variant mag standaard overklokt uitgeleverd worden. Dat betekent overigens gelukkig niet dat de goedkopere, standaard niet-overklokte kaarten niet alsnog door de gebruiker zelf overklokt kunnen worden: dat is nog steeds prima mogelijk. Het prijsverschil tussen beide varianten zou significant zijn; de $100 hogere adviesprijs van de Founders Edition (met 'OC GPU') is niet uit de lucht gegrepen.

Maak je overigens even niet te druk over de exorbitante prijzen die webshops nu in de weken en dagen vóór de lancering vragen voor kaarten: de ervaring leert dat prijzen vóór de introductie altijd extreem hoog liggen; distributeurs hanteren nog zeer hoge marges in de prijzen, omdat de uiteindelijke prijzen nog niet bekend zijn. Daarnaast verdienen webshops graag een extra centje aan mensen die koste wat kost als eerste een kaart willen hebben. Geef het een paar weken na de lancering en het zal duidelijk worden wat kaarten echt gaan kosten.

GeForce RTX 2070 Founders Edition

GeForce RTX 2080 Founders Edition

GeForce RTX 2080 Ti Founders Edition

Turing-architectuur: nieuwe cores, snellere shaders

De nieuwe GeForce RTX kaarten zijn zoals geschreven gebaseerd op een nieuwe generatie gpu's luisterend naar de naam Turing. De Turing-chips zijn qua opbouw en architectuur drastisch anders dan de Pascal-generatie chips zoals we die kennen van de GeForce GTX 10-serie kaarten. Nvidia spreekt zelf over de "grootste verandering sinds de komst van de volledig programmeerbare Cuda-cores in 2006". Hoewel we dergelijke marketingclaims bij nieuwe producten altijd met een gezonde dosis scepsis tot ons nemen, zijn we het vanuit technisch oogpunt dit keer wel met de fabrikant eens.

Waar gpu's de afgelopen jaren immers bestonden uit honderden en bij high-end exemplaren zelfs duizenden shader cores aangevuld met wat periferie als geheugen- en displaycontrollers, vinden we in de Turing-chips naast conventionele shader-cores ook twee nieuwe type cores: RT-cores voor het versnellen van raytracing en Tensor-cores voor het versnellen van machine learning c.q. kunstmatige intelligentie algoritmes. En alsof dat allemaal nog niet genoeg is, bevat de gpu ook nog technologie voor verschillende nieuwe rendertechnieken als mesh rendering (voor scènes met extreem veel detail) en variable rate shading (om beelden niet op het hele scherm in dezelfde resolutie te renderen). Zoals gezegd noemt Nvidia de eigen (software) technologieën om gebruik te maken van de nieuwe mogelijkheden van RT- en Tensor-cores RTX.


De Turing-architectuur bevat een nieuwe architectuur voor de conventionele shader-units, nieuwe RT- en Tensor-cores voor raytracing en AI en daarbovenop nog ondersteuning voor nieuwe rendertechnieken.

Ondersteuning voor real-time raytracing en AI is zonder enige twijfel de allerbelangrijkste vernieuwing bij de Turing-chips. Op de volgende pagina's gaan we uitgebreid in op deze nieuwe mogelijkheden. Dat betekent niet dat er bij de conventionele onderdelen van de chip niets gewijzigd is ten opzichte van de Pascal-generatie. In tegendeel! De Cuda-cores, maar bijvoorbeeld ook het geheugen zijn flink versneld.

Turing SM's: integer en floating-point operaties tegelijk

Net als Nvidia laatste paar generatie gpu's zijn de Turing-chips opgebouwd uit meerdere SM's ofwel Streaming Multiprocessors. Zo'n SM is een combinatie van een groot aantal cores en een stuk door deze eigen cores gedeeld cache-geheugen. De verschillende SM's binnen een gpu werken in principe onafhankelijk van elkaar: de ene SM kan bezig zijn met de ene taak, terwijl de andere SM een andere taak verwerkt. De technologie om taken aan de uiteindelijke rekeneenheden toe te wijze, de zogenaamde dispatchers, zijn dan ook binnen een SM verwerkt. De grootste Turing chip, de TU102, heeft in totaal 72 van deze SM's aan boord, waarvan er bij de GeForce RTX 2080 Ti overigens 68 (94%) zijn ingeschakeld.

Binnen een SM zitten traditioneel tussen shader-cores (ofwel Cuda-cores zoals Nvidia ze zelf het liefst noemt), cache-geheugen, texture-units en wat onderdelen om dat alles aan elkaar te knopen. Dat is nog steeds het geval: iedere SM bevat 64 shader-cores, vier texture units en 96 kB L1-cache (waar over verderop meer). Daarnaast bevat iedere SM een RT-core voor raytracing en acht Tensor-cores voor AI, waarvan we de eigenschappen verderop in dit artikel uit de doeken doen.

Shader core vernieuwing

De klassieke shader cores zijn door Nvidia dus ook onder handen genomen. Traditioneel zijn shader-units 32-bit floating-point rekeneenheden en dat is niet voor niets: zo'n beetje alle berekeningen die nodig zijn binnen traditionele 3D-rendering zijn floating point. Nu gpu's ook voor meer en meer taken worden ingezet dan louter 3D-rendering (ook binnen games), moeten de cores ook steeds vaker integer (gehele getallen) berekeningen doen. Met wat kunstgrepen kun je een floating point rekeneenheid integers laten verwerken, maar dat is niet bijster efficiënt, want een specifieke integer-unit kan veel kleiner en zuiniger zijn. Geen wonder ook dat je in CPU's binnen iedere core ook losse integer en floating point verwerkingseenheden hebt.

Dát principe heeft Nvidia bij Turing nu ook toegepast; naast 64 floating point rekeneenheden bevat iedere SM nu ook 64 integer rekeneenheden. De winst zit hem erin dat wanneer een bepaalde workload zowel floating-point als integer berekeningen heeft, deze gelijktijdig uitgevoerd kunnen worden. Hierdoor is het maximale aantal instructies dat een Turing SM per seconde kan uitvoeren in theorie dus een stuk hoger dan bij Pascal, en dat is nog los van de nieuwe RT- en Tensor-cores.

Nvidia heeft becijferd dat in courante games er op iedere 100 floating point instructies gemiddeld ook zo'n 36 integer instructies uitgevoerd moeten worden. Of dat klopt kunnen we niet verifiëren, maar hoe dan ook is het gelijktijdig kunnen uitvoeren van integer en floating point instructies volgens Nvidia één van de, zo niet dé belangrijkste reden waarom de nieuw GeForce RTX kaarten ook in bestaande games (dus zonder raytracing of andere moderne poespas) aanzienlijk sneller zijn dan hun voorlopers. Afhankelijk van de game kunnen instructies tot zo'n 50% sneller uitgevoerd worden op deze manier.

Niet alles tegelijkertijd

Waar de Turing SM's dus wél integer en floating point instructies tegelijkertijd kunnen uitvoeren, is het niet zo dat letterlijk alle onderdelen van de SM tegelijkertijd actief kunnen zijn. Van de driehoek shader-cores, Tensor-cores en RT-core kunnen in de praktijk slechts twee onderdelen daadwerkelijk tegelijkertijd taken uitvoeren, waarbij de bottleneck enerzijds bij de dispatcher ligt, maar vermoedelijk ook simpelweg bij het stroomverbruik van de gehele gpu in het theoretische geval dat alle onderdelen van alle SM's tegelijkertijd vol gas aan het werk zijn. Hier ligt dus duidelijk nog ruimte voor verbetering bij de volgende generatie gpu's.

Snellere caches, sneller geheugen

Het blijft niet bij de nieuwe type cores en de opdeling van integer en floating point operaties voor conventionele shader-cores: Nvidia heeft namelijk ook de cache-architectuur drastisch aangepakt.

Binnen de Pascal-architectuur had iedere SM 24 kB L1-cache voor instructies, 24 kB L1-cache voor data en daarnaast nog 96 kB gedeelde geheugen. Deze L1-cache werkt als traditionele cache voor het geheugen, waarvoor je als programmeur niets hoeft te doen; Nvidia's eigen algoritmes zorgen ervoor dat wanneer data naar het vanuit de rekeneenheden bekeken relatief langzame GDDR-geheugen moet worden weggeschreven, deze eerst naar de extreem snelle L1-cache gaat (en daarna nog langs L2), zodat de cores meteen door kunnen met andere taken en de data op de achtergrond kan worden getransporteerd naar de uiteindelijke bestemming. Even zo zorgen pre-fetchers ervoor dat data waarvan de gpu verwacht deze spoedig nodig te hebben alvast vanuit het geheugen naar L2- of zelfs L1-cache wordt opgehaald.

Shared memory 2.0

Het gedeelde geheugen werkt nu anders: dit was bij Pascal een (ten opzichte van de L1-cache) relatief groot stuk, 96 kB in totaal, bloedsnel geheugen binnen de SM's dat door software ontwikkelaars zelf beheerd kan worden. Op die manier kon je als developer van een game engine of een GPgpu-applicatie dus zelf bepalen welke data zeer dicht bij de rekeneenheden blijft, wat wanneer je je applicatie goed ontwerpt voor flinke prestatiewinst zorgt. Het voordeel van het gedeelde geheugen is direct ook het nadeel: maak je er als developer geen expliciet gebruik van, dan zit het snelle geheugen er voor niets.

Vandaar dat Nvidia dit bij de Turing-generatie heeft aangepast. Binnen iedere SM zitten nu twee blokken van 96 kB die flexibel ingericht kunnen worden als 32 kB L1 en 64 kB gedeelde geheugen of juist 64 kB L1 en 32 kB gedeeld geheugen. Wanneer een developer dus niet expliciet gebruik maakt van de shared memory-functionaliteit, heeft de applicatie in elk geval profijt van een totale L1-cache grootte die 2,7x groter is dan voorheen (128 kB ten opzichte van 48 kB). Daar komt bij dat de bandbreedte van de L1-cache is verhoogd én de latency is verlaagd.

Meer L2 cache

Vanuit de L1-cache wordt niet direct naar het GDDR-geheugen gecommuniceerd, daar tussen zit bij de Nvidia kaarten nog een grotere, tussen alle SM's gedeelde L2-cache. Die is bij Turing vergroot van 3 MB naar 6 MB. Al met al betekenen deze aanpassingen dat shader cores veel sneller over data kunnen beschikken en de kans dat ze bij een cache miss op langzaam GDDR-geheugen moeten wachten, veel kleiner is.

Dankzij de op de vorige pagina beschreven verbeteringen binnen de shader-cores, aangevuld met de snellere caches, belooft Nvidia bij Turing gemiddeld zo'n 50% betere prestaties per core. Wederom, dat is dus zonder nieuwe zaken als raytracing.

GDDR6

Als een cache-miss toch plaatsvindt, is dat minder erg dan bij de vorige generatie want de Turing-chips zijn de eerste gpu's met ondersteuning voor het nieuwe, beduidend snellere GDDR6-geheugen.

GDDR6 is een doorontwikkeling van GDDR5 en biedt nog hogere snelheden: de geheugen-interface werkt met 14 gigabit per seconde. In de grootste Turing-chip, de TU102, zitten 12 32-bit GDDR6-controllers, goed voor 384-bit totale busbreedte. Bij de RTX 2080 Ti zijn er daarvan 11 ingeschakeld, zodat je op 352-bit komt. De TU104 van de RTX 2080 en 2070 heeft een 256-bit (8x 32-bit) geheugencontroller. Al met al moet voor beide gpu's de overstap van GDDR5 naar GDDR6 voor zo'n 25% hogere geheugenbandbreedte zorgen.

Daarnaast heeft Nvidia haar lossless compressiealgoritmes voor alle geheugentoegang verbeterd. Afhankelijk van de game zou de totale effectieve geheugenbandbreedte daardoor zo'n 40% tot in extreme gevallen zelfs 60% hoger kunnen zijn dan bij Pascal.


Dankzij het snellere GDDR6-geheugen én betere compressie, is er in de praktijk zo'n 50% hogere geheugenbandbreedte beschikbaar.

Rasterization vs. raytracing

Hét buzzword bij de nieuwe kaarten is zoals in de inleiding al geschreven dat dit de eerste generatie gpu's is die, dankzij de speciale RT-cores, geschikt zou zijn voor real-time raytracing. Of, om het correcter te formuleren, het real-time berekenen van verschillende effecten op basis van raytracing technieken.

Wat is dat raytracing nu precies? Het is een al eind jaren 70 uitgedachte manier om zéér realistische 3D-beelden te renderen. 3D-animatiefilms zoals je die ziet in de bioscoop, zoals bijvoorbeeld de films van Pixar, worden vrijwel zonder uitzondering met behulp van deze techniek gemaakt. Voor 3D-games wordt een andere techniek gebruikt, genaamd rasterization. Dat is niet zonder reden: waar we bij games natuurlijk graag spreken over het aantal frames per seconde, praat je vanwege de complexiteit bij raytracing eerder over secondes, minuten en in sommige gevallen zelfs uren per frame. Laat één ding duidelijk zijn: van games volledig renderen via raytracing op een Pixar-achtige manier zijn we nog jaren verwijderd. Maar, met de nieuwe GeForce RTX kaarten is het wel voor het eerst mogelijk om uiteenlopende effecten in games, zoals bijvoorbeeld schaduwen of reflecties, realistischer dan ooit weer te geven met behulp van raytracing.

Voordat we op de volgende pagina bespreken wat er nu wel en niet mogelijk is met de GeForce RTX kaarten en wat de Nvidia RT-cores exact doen, leggen we je eerst uit wat nu precies het verschil is tussen de twee rendering methodes.

Rasterization

3D-games worden al sinds jaar en dag berekend volgens een methode die rasterization heet. Hierbij wordt het aantal benodigde berekeningen zo veel mogelijk geminimaliseerd. Dat was zeker in de begintijd van 3D-videokaarten een vereiste om überhaupt meerdere beelden per seconde te berekenen en weer te geven.

Iedere 3D-wereld wordt opgebouwd uit meerdere objecten, die op hun beurt in de regel weer zijn opgebouwd uit vele driehoeken, triangles in jargon. Die objecten zijn alles wat je in de game ziet: tegenspeler, de grond, muren, auto's, etc. Het opbouwen van al die 3D-objecten en deze plaatsen in de virtuele wereld wordt gedaan voor de engine van de game - en dit gebeurt overigens op de CPU, niet op de gpu.

De gpu komt in het spel zodra de game-engine een camerastandpunt heeft bepaald. Vervolgens wordt er in de 3D-wereld een 2D-vlak geplaatst, wat in principe de positie van je monitor is binnen de scene (en je monitor is natuurlijk ook een tweedimensionaal plat vlak). In een door de gpu uitgevoerd proces dat transformation wordt genoemd, wordt op basis van het camerastandpunt één voor één voor elk van de 3D-objecten bepaald of en zo ja waar op het 2D-vlak en dus op jouw monitor ze zichtbaar zullen zijn. Hierbij wordt direct gewerkt met de pixels van je monitor: voor elk van de objecten, of feitelijk voor elk van de driehoeken waaruit de objecten zijn opgebouwd, wordt bepaald welke pixels die beslaan op het scherm. Dit omzetten naar pixels heet rasterization.


In de 3D-wereld wordt een camerastandpunt bepaald en een 2D-vlak geplaatst op de positie van je monitor.


In een proces genaamd "transformation" wordt voor alle objecten bepaald of én waar ze op het scherm zichtbaar zijn.


Middels het "rasterization" proces wordt bepaald welke pixels op het scherm alle objecten beslaan.

Door objecten dit proces van achteren naar voren te laten doorlopen, weet de gpu uiteindelijk voor iedere pixel op het scherm wélk object daar zichtbaar is en daardoor dus voor iedere pixel van het scherm op basis van welk object de uiteindelijk kleur van de pixel berekend kan worden (shading in jargon).

Culling, clipping en z-buffering

So far so good, maar ook dit proces kan in potentie extreem complex zijn, aangezien het aantal objecten in een 3D-wereld kan oplopen tot miljoenen stuks, die elk weer uit tientallen, duizenden en soms zelfs uit honderdduizenden driehoeken bestaan. Bedenk je maar eens hoeveel objecten er aanwezig zijn op een Fortnite-eiland tijdens een potje wild in het rond schieten. Als alle objecten en dus alle driehoeken verwerkt zouden worden, zou zelfs de snelste videokaart ter wereld vermoedelijk rekenkracht tekort komen. Gelukkig zijn er de nodige trucs...

Zo bepaalt de game-engine in samenwerking met de gpu al vrij snel welke objecten überhaupt niet in het blikveld van de camera vallen. Deze objecten worden dan in geheel niet meer meegenomen in het transformation en rasterization proces, iets wat men view frustum culling noemt. Voor objecten die maar deels in het zichtveld staan, worden de driehoeken die buiten het blikveld vallen ook uit het proces gehaald, wat viewport clipping heet. Daar blijft het niet bij: voor alle objecten die daadwerkelijk zichtbaar zijn, wordt bepaald welke driehoeken zich vanuit het camera standpunt aan de achterkant van het object bevinden. Die zie je toch niet en worden dan ook niet meegenomen in de rest van het proces - back-face culling in jargon. Door al in het begin van het proces de diepte (bezien vanuit het camerastandpunt) van alle driehoeken van alle objecten te berekenen, kun je elementen die zich achter andere elementen bevinden eveneens wegfilteren, en dat heet dan weer z-buffering in jargon.


Boven: geen culling, Midden: view frustum culling, Onder: viewport clipping (Bron: Microsoft)


Boven: back-face culling, Onder: z-buffering (Bron: Microsoft)

Uiteindelijk hoeft de gpu nu enkel en alleen met (onderdelen van) objecten aan de slag die daadwerkelijk zichtbaar zijn. Het bepalen van de uiteindelijke kleur gebeurt op verschillende manieren, waaronder texturing (het plakken van een afbeelding op de driehoeken) en uiteenlopende andere methodes.

Rasterization is een beproefde methode die goed en snel werkt en er voor zorgt dat we sinds de introductie van 3D-videokaarten eind vorige eeuw en programmeerbare gpu's begin deze eeuw op hoge snelheid mooie 3D-beelden op ons scherm getoverd krijgen. Maar... als game-developers steeds realistischer beelden wensen, wordt rasterization steeds meer een beperking. Dat zit hem vooral op het vlak van belichting, schaduwen en reflecties. Belichting is op zichzelf nog niet eens de grootste uitdaging: op basis van de positie en felheid van de lichtbronnen in de game, kan tijdens het inkleuren (shaden) van de objecten prima rekening worden gehouden met hoe licht of donker dat moet gebeuren. Shaduwen en reflecties zijn een heel ander verhaal.

Licht, schaduw en reflectie bij rasterization

Na de rasterization stap zijn er immers geen 3D-objecten meer: alles in een scène is 2D, waardoor er geen informatie is hoe objecten ten opzichte van elkaar gepositioneerd zijn. Shaduwen en reflecties berekenen kan hierdoor niet meer. De game-engine moet daar met allerhande trucs vooraf rekening mee houden, wat nog eens wordt bemoeilijkt door het feit dat schaduwen en reflecties ook kunnen worden veroorzaakt door (delen van) objecten die dankzij de hierboven beschreven culling-technieken helemaal niet meer mee worden genomen in de berekeningen. Zelfs als je alle vormen van culling en clipping zou uitschakelen - waardoor ook de rasterization methodiek onwerkbaar traag wordt - heb je alsnog het probleem dat er in de hele manier van werken volgens deze methode niets zit waar het effect van lichtbronnen wordt doorgerekend.

In 3D-games zijn schaduwen en reflecties zodoende allemaal een kwestie fake it till you make it. Met uiteenlopende technieken wordt zo goed en zo kwaad als het gaat de illusie gewekt van kloppende schaduwen en reflecties, maar als je goed kijkt zul je zien dat het zelfs in de mooiste games nooit écht klopt. Aan het begin van deze eeuw kwamen game-developers nog weg met bijvoorbeeld een extra texture-laag met een vooraf gedefinieerd (en berekend) belichtingseffect dat op een basis-texture werd geplakt en klaar was kees. Met lichtbronnen en overige objecten met een vaste positie is dat vrij simpel te doen. Zodra objecten bewegen (zoals spelers binnen de games) of erger nog, er bewegende lichtbronnen zijn, wordt het een stuk complexer.




Een traditionele vorm van "fake it till you make": een basis texture, een vooraf berekend belichtingseffect en de combinatie ervan die op een 3D-object geplakt wordt.

Beperkingen van cube mapping

Een truc die voor reflecties nog wel aardig werkt is cube mapping. Hierbij wordt een virtuele kubus rondom een reflecterend object geplaatst en wordt vanuit de binnenkant van het object als camera standpunt met elk van de zes vlakken van de kubus als pseudo-schermen de 3D-scene nog eens opnieuw gerenderd. Het resultaat wordt uiteindelijk als extra texture op het object geplakt. Op zich leuk en aardig, ware het niet dat op dergelijke manier gesimuleerde reflecties ook complex zijn om te berekenen (voor ieder reflecterend object bereken je de hele scene nog maximaal zes keer). Daarnaast zijn objecten in de regel niet vierkant zijn en dus kan de reflectie-texture niet geheel kloppend gepositioneerd worden; daar komt bij dat de reflectie maar vanuit één punt middenin het object wordt berekend en dus niet kloppend vanuit het oorspronkelijke camerastandpunt. Dan hebben we het nog niet gehad over het feit dat cube mapping helemaal onmogelijk wordt zodra er meerdere reflectieve objecten zijn en je dit ook nog eens wil combineren met andere belichtingseffecten.


Cube mapping is één van de methodes om reflecties mogelijk te maken in 3D-games, maar 100% is realistisch is het bij lange na niet. (Bron: Wikipedia)

Kortom, met rasterization en bijbehorende technieken kun je een heel eind komen, zoals de schitterende graphics van state-of-the-art games bewijzen. Maar wil je belichtingseffecten volledig correct hebben en daarmee beelden nog véél realistischer maken, dan zijn andere methodes nodig. Daar komt raytracing om de hoek kijken.

Wat is raytracing?

Hoewel raytracing in detail een complexe technologie is, is het niet erg moeilijk om te begrijpen hoe het werkt. De basis van het algoritme werd al eind jaren 70 bedacht!

raytracing is het best te vergelijken met de manier waarop beelden naar onze ogen worden getransporteerd, alleen dan exact andersom. Het zien van objecten in de echte wereld heeft alles te maken met licht dat ontstaat bij een bron (bijvoorbeeld de zon of een lamp) en al dan niet via een omweg in onze ogen terecht komt. In feite stuurt een lichtbron naar alle richtingen lichtstralen, die natuurkundig het best te omschrijven zijn als een straal van zogenaamde fotonen. Zodra zo'n lichtstraal op een object botst, kan er een aantal zaken gebeuren. Een gedeelte van licht wordt geabsorbeerd, een deel wordt weerkaatst (reflections in jargon) en bij (semi-)transparante objecten kan een gedeelte van het licht al dan niet via een gewijzigde hoek binnen het object zijn weg vervolgen (refractions in jargon). Via één of meerdere van die reflecties komen de lichtstralen in onze ogen terecht en zo zien wij objecten. Kort samengevat nemen we niet zozeer een object zelf waar, maar het licht dat het weerkaatst.

Licht bestaat verder uit vele frequenties; licht dat alle zichtbare frequenties bevat zien wij als wit. Sommige materialen reflecteren slechts een beperkt deel van de frequenties; deze beperkte reflectie zorgt ervoor dat we kleuren kunnen onderscheiden: een object dat wij als ‘rood' ervaren reflecteert alleen de lichtfrequenties die binnen het spectrum van de kleur rood vallen.


De werking van raytracing uitgebeeld. (Bron: Wikipedia)

Andersom

Het berekenen van 3D beelden op de PC via de raytracingtechniek werkt zoals gezegd op een vergelijkbare manier, alleen dan exact andersom. Het heeft immers geen nut om alle ontelbare lichtstralen die vanuit een lichtbron ontstaan door te rekenen, het merendeel zal immers nooit in je gezichtsveld terecht komen. Daarom begint raytracing bij de positie waar volgens de maker van de afbeelding het oog van de kijker zich bevindt. Vanaf dit standpunt wordt er als het ware door elke pixel van het scherm een lichtstraal (ray) gestuurd, die verder gevolgd wordt (tracing). Die straal zal in de virtuele 3D wereld, die zich achter het scherm bevindt, botsen tegen een object. Door de eigenschappen van het materiaal in de berekening mee te nemen, weet de raytracingsoftware welk gedeelte van de lichtstraal gereflecteerd, geabsorbeerd en/of gerefracteerd moet worden.

Vanuit elk punt waar één van de virtuele stralen botst met een 3D object wordt een reflectiestraal in de richting van alle aanwezige lichtbronnen berekend. Mocht er ergens op die zogenaamde shadow ray een ander object staan, dan is bepaald dat die betreffende lichtbron geen rechtstreekse invloed heeft en dat het object dus in schaduw staat. Naast deze shadow ray wordt er (indien de materiaaleigenschappen van het object dat voorschrijven) vanuit het betreffende punt onder de juiste hoek een reflectie-ray doorgerekend. Indien een object (semi-)transparant is, wordt er ook een nieuwe ray met de juiste brekingshoek binnen het object zelf verder doorgerekend. Nadat alle stralen op de juiste manier recursief zijn doorgerekend, kan de kleur van de betreffende pixel worden bepaald.

Ook wanneer er andersom gewerkt wordt, blijft dit proces uitermate complex. Het begint weliswaar met één ray per pixel van het scherm, maar zodra een object bereikt wordt, moet op zijn minst voor iedere lichtbron in de scène een extra ray berekend worden. Zodra objecten ook maar een kleine beetje reflectief zijn, wordt het al snel exponentieel meer. Daar komt bij dat lichtbronnen in 3D-scènes niet per se één punt zijn, maar ook een grote vlak kunnen beslaan. Het aantal door te rekenen rays voor één scene gaat zo al snel richting de miljoenen, miljarden of nog meer. Geen wonder dat het via raytracing berekenen van beelden in professionele 3D-rendering software in de regel minuten per frame kost - en als je Pixar-kwaliteit wil, nog veel meer. Nvidia belooft nu met de GeForce RTX kaarten voor het eerst real-time raytracing, oftewel snel genoeg om gebruikt te worden in games. Hoe zit dat?


Zó mooi en realistisch kunnen beelden dankzij raytracing zijn: dit is geen foto, maar een 3D-model! (bron)

Real-time raytracing

Eerst en vooral: games volledig via raytracing berekenen ligt nog jaren in de toekomst. Zo'n tien jaar geleden deed Intel al een poging, maar destijds haalde men met de snelste desktop-processors nog maar 17 beelden per seconde op een resolutie van 256x256 pixels in de toen al antieke game Quake 4. Je zou zeggen dat het nu na tien jaar ontwikkeling veel sneller zou moeten gaan, maar tegelijkertijd willen we ook games met graphics die veel complexer zijn dan die van Quake 4, met veel meer lichtbronnen. Hoewel we tien jaar geleden in al ons enthousiasme nog schreven dat volledig ray-traced games in het verschiet lagen, zijn we daar nu een stuk voorzichtiger over.

Wellicht is een game volledig ray-tracen ook wel een doel dat op dit moment helemaal niet zo nuttig is om na te streven. Voor de meeste zaken is rasterization immers een prima en veel efficiëntere methode. Het is uitstekend mogelijk om beide technieken hybride toe te passen, bijvoorbeeld door een 3D-scène in de basis via rasterization te renderen en daarna bepaalde onderdelen, zoals bijvoorbeeld de shaduwen en/of reflecties, door middel van raytracing toe te passen. Dat is wat Nvidia met de RTX-kaarten mogelijk maakt.

Daarvoor zijn de twee nieuwe onderdelen in de chips aanwezig. De RT-cores versnellen het proces van het doorrekenen van de lichtstralen. Hoe dat precies in z'n werk gaat, leggen we hieronder uit. Er is ook werk voor de zogenaamde Tensor-cores. Zelfs de GeForce RTX 2080 zal in de regel niet snel genoeg zijn om bepaalde effecten volledig (lees: alle rays volledig doorgerekend) af te werken. In de praktijk zullen de RT-cores een beperkt tijdbudget per scène krijgen (lees: een paar milliseconden) en daarin zoveel mogelijk rays doorrekenen. Dan kan het zijn dat resultaten onvolledig c.q. een beetje korrelig zijn. De Tensor-cores kunnen op basis van AI-algoritmes dat echter weer corrigeren. Dit is een techniek die men denoising noemt. Zo wordt games renderen anno 2018 dus een samenwerking van shader-cores, RT-cores én Tensor-cores.

Werking van de RT-cores

De RT-cores die het ray-tracen versnellen hebben in de praktijk slechts één simpele taak, namelijk het volgen van lichtstralen en berekenen waar die een object raken. Alle overige taken binnen het raytracing principe (zoals het berekenen van reflecties) worden niet door de RT-cores gedaan, maar door de shader cores. Ofwel, aan enkel en alleen RT-cores heb je eigenlijk niet. Het doorrekenen van de stralen en bepalen van de punten waar deze objecten raken is wel verreweg het meeste en zwaarste werk binnen het hele raytracing algoritme.

Hoe weet Nvidia dit nu te versnellen? Door een algoritme dat luistert naar de naar Bouding Volume Hierarchy ofwel BVH. Zonder dit algoritme toe te passen zou je bij het traceren van een lichtstraal alle driehoeken van alle objecten moeten nalopen om te berekenen welke driehoek en dus welk object als eerste wordt bereikt door de straal en waar deze dus eindigt. Voor het BVH-algoritme worden alle objecten in een 3D-scène allereerst opgedeeld in een beperkt aantal vrij grote blokken of kubussen. De objecten in elk van die blokken worden weer verder opgedeeld in een aantal kleinere blokken. Elk van die kleinere blokken word op hun beurt weer opgedeeld in nog kleinere blokken en zo verder, totdat je uiteindelijk blokken met een overzichtelijk aantal objecten erin overhoudt.

Zodra een straal wordt gevolgd, hoeft in eerste instantie alleen maar bepaald te worden in welk hoofdblok deze eindigt. Daarna wordt binnen dat hoofdblok bepaald in welk subblok de straal eindigt en zo gaan het algoritme recursief verder totdat het uiteindelijke object gevonden is. Op die manier is er telkens maar een beperkte dataset benodigd en kan dus relatief snel het eindpunt van lichtstralen bepaald worden. Is dat eindpunt bepaald, dan wordt het werk doorgeschoven naar de conventionele shader cores om reflecties en kleuren te berekenen.

Eindpunten voor lichtstralen berekenen volgens dit BVH-trucje kan ook prima met conventionele cores, maar de speciale RT-cores die puur en alleen voor dit doel gemaakt zijn kunnen het veel sneller. Om dat in perspectief te zetten: de shader cores van de de GeForce GTX 1080 Ti (tot vandaag de snelste videokaart voor consumenten) kunnen volgens Nvidia 1,2 gigarays per seconde verwerken, ofwel 1,2 miljard lichtstralen per seconde doorrekenen. De RT-cores in de GeForce RTX 2080 Ti doen 10,9 gigarays per seconde ofwel 10,9 miljard lichtstralen per seconde, bijna een factor 10 meer. Plus: de shader cores blijven beschikbaar voor andere taken!

Gebruiksdoelen

Waarvoor kunnen de raytracing technieken nu gebruikt worden? We schreven het al, in de praktijk zijn schaduwen en reflecties de toverwoorden. Schaduwen zijn nog het eenvoudigst: als je vanuit iedere beeldschermpixel via raytracing al eens berekend of er wel of niet een directe lichtstraal bestaat vanuit ieder lichtpunt, heb je met een complexiteit van aantal pixels maal aantal lichtpunten al een zeer accurate invulling van schaduwen. Bovendien hoeven schaduwen niet met de hoogst mogelijke nauwkeurigheid doorgerekend te worden; de Tensor-cores en de denoising algoritmes doen de rest. Je kunt dus prima een volledige scene via rasterization berekenen - waarbij je de ook al niet bepaald simpele trucs om shaduwen te faken overslaat - en daarna accurate schaduwen via raytracing toevoegen. Het is één van de zaken waarvoor de ontwikkelaars van de nieuwe Tomb Raider game Nvidia's raytracing technieken inschakelen.

Realistische reflecties vragen heel wat meer raytracing rekenkracht, maar zorgen zo mogelijk voor een nog groter wow-effect. Nvidia's demonstratie van de RTX-technologieën in de toekomstige Battlefield V game is naar onze mening zeer indrukwekkend. We zien reflecties van explosies in glimmende auto's, we zien kloppende reflecties van de omgeving in de ramen van trams en winkelpuien en wanneer je kijkt op de motorkap van een geparkeerde auto of in een plas water kun je zien dat er een vliegtuig over gaat. Met conventionele 3D-rendering is dit allemaal onmogelijk - of je moet zoveel trucs toepassen om het te simuleren, dat het uiteindelijk qua prestatieniveau ook onmogelijk wordt. Ook hier geldt, het merendeel van wat je ziet wordt op conventionele wijze gerenderd, enkel voor de reflecties wordt raytracing gebruikt. Hoewel dat een enorme berg rekenwerk is, is het ook hier tegelijkertijd weer beperkt. Het aantal reflectieve objecten (en de grootte daarvan ten opzichte van het hele scherm) is beperkt en ook hier geldt dat alle berekeningen niet per se met de hoogste mogelijke nauwkeurigheid hoeven te gebeuren. Reflecties kunnen prima wat minder scherp zijn en daarnaast lossen de AI-algoritmes veel op.

De nieuwe Tomb Raider gaat RTX gebruiken voor schaduwen, de nieuwe Battlefield voor reflecties. Zijn beide games hiermee volledig fotorealistisch? Nee, nog verre van; het liefst zouden we zien dat games beide technieken gaan toepassen. Je kunt er een grote discussie over voeren hoeveel realistische schaduwen en/of realistische reflecties toevoegen aan de algehele gamebeleving, maar zelfs de grootste cynicus zal moeten toegeven dat beide games er veel beter uitzien dan we tot nu toe normaal vinden.

Niet Nvidia-only

In het hele stuk over raytracing praten we tot nu toe de hele tijd puur en alleen over Nvidia. Mag je hieruit concluderen dat dit hele realtime raytracing gebeuren een Nvidia-only techniek is zoals Nvidia Gameworks? Nee, gelukkig niet.

Ondersteuning voor real-time raytracing werd kort geleden al aangekondigd door Microsoft en wordt onderdeel van de volgende update voor DirectX 12, die komt met de nieuwe Windows 10 versie, die in september of oktober uitgebracht zal worden. DirectX Raytracing (ofwel afgekort DXR) is een open standaard waar ook andere gpu-fabrikanten op kunnen inhaken. Sterker nog, binnen DirectX bestaat een fall-back mogelijkheid om de DXR-berekeningen te laten uitvoeren door conventionele shader-cores en/of CPU-cores, al kun je er gerede twijfels bij hebben of er überhaupt een scenario denkbaar is waar dat een goed idee is. Mocht AMD met een gpu coming die raytracing kan versnellen, dan kun je er vanuit gaan dat deze ook gewoon gebruik zal maken van de DirectX-implementatie, in dit geval is Nvidia simpelweg de eerste.

Wat de Nvidia RTX-technologie in feite doet is op driver-niveau de DXR-instructies opvangen en deze dan via de eigen hardwareversnelling uitvoeren. Game-developers programmeren dus niet voor Nvidia RTX, maar voor DirectX. Gelukkig maar.

Overigens is AMD ook met software bezig om haar bestaande gpu's - zonder daarvoor specifiek bedoelde cores - raytracing algoritmes te laten versnellen. Maar zoals we uit AMD's eigen documentatie mogen opmaken, komt men daarmee op orde grootte honderden miljoenen rays per core, dus bij lange na niet de 10 miljard lichtstralen per seconde die de RTX 2080 Ti naar verluidt kan berekenen. Dat raytracing onderdeel uit gaat maken van de toekomst van PC-gaming, daar is vriend en vijand het over eens.

Tensor-cores: slimme trucs met AI

Zoals in het begin van dit artikel al geschreven zijn de RT-cores niet de enige rekeneenheden van een nieuwe soort binnen de Turing-chips. De gpu's bevatten daarnaast ook zogenaamde Tensor-cores, die geschikt zijn voor het versnellen van machine learning / kunstmatige intelligentie algoritmes. Die Tensor-cores komen we overigens bij Turing niet voor de eerst tegen: de Nvidia Volta-generatie, puur gebruikt voor professionele kaarten en voor de peperdure Titan V, had ook al Tensor-cores aan boord.

Machine learning

Eerst nog even een korte toelichting; machine learning is de hippe naam voor het concept om een computer zélf een programma/algoritme voor iets te laten bedenken door iets heel vaak voor te doen en het systeem daardoor te "trainen". Het mooiste voorbeeld is het herkennen van afbeeldingen: wanneer je een programma wil schrijven dat op foto's herkent of er een hond of poes op staat, zullen zelfs de slimste programmeurs ter wereld daar een enorme kluif aan hebben en na maanden programmeren met een algoritme komen dat nog steeds zeer geregeld de mist in gaat. In de wereld van machine learning toon je een computer duizenden, tienduizenden en liefst honderdduizenden foto's waarvan je direct meegeeft of het een poes of hond is ,en op basis van al die input ontwikkelt het systeem zélf een algoritme. Hoe meer data je erin stopt, hoe beter de uiteindelijke resultaten. Machine learning wordt inmiddels overal en nergens toegepast; van het herkennen van foto's bij diensten als Google Photos, via het snappen van commando's bij Amazon's Alexa tot aan het inschatten van verkeerssituaties in zelfrijdende auto's als die van Tesla.

Inferencing

Het trainen van een machine learning algoritme is zeer complex en tijdrovend, en gebeurt in de regel op super-computers in datacenters (waar Nvidia maar al te graag haar professionele Tesla-kaarten voor levert). Het toepassen van machine learning algoritmes, inferencing in jargon, is ook complex, maar veel gelukkig veel minder en kan ook op clients gebruiken. De Tensor-cores in de Turing-gpu's versnellen dit inferencing.

Wanneer je het plat slaat, is inferencing niet meer en niet minder dan input op hoge snelheid vergelijken met een uitvoerig uitgedokterde database van bestaande data. Onderliggend zijn chips die machine learning algoritmes uitvoeren de facto consequent matrixen van getallen met elkaar aan het vermenigvuldigen. Dat is een taak die shader cores binnen gpus vanwege de hoge parallelliteit al een stuk beter kunnen dan cpu's, maar specifiek voor deze taak gemaakte cores doen het nóg veel sneller. De zogenaamde Tensor-cores kunnen in één stap matrixen vermenigvuldigen en delen, waar shader cores hiervoor veel meer stappen nodig hebben. Op die manier kunnen machine learning algoritmes bestemd voor kunstmatige intelligentie (AI) met Tensor-cores flink versneld worden.

Nut in games?

Wat is daar het praktisch nut van? In principe kunnen zo'n beetje alle algoritmes die gebruik maken van machine learning door Tensor-cores versneld worden en stelt het programmeurs van software van allerlei soorten software in staat om via de verschillende door Nvidia beschikbaar gestelde API's op de Tensor-cores in te haken. Bij GeForce kaarten is het primaire doel natuurlijk gaming en ook op dit vlak is er voldoende wat de cores kunnen bijdragen.

Een belangrijk voorbeeld is al genoemd op de vorige pagina's: de GeForce RTX kaarten hebben weliswaar ondersteuning voor het versnellen van raytracing, maar snel genoeg om volledige games te raytracen zijn de chips bij lange na nog niet. Zelfs wanneer raytracing voor een beperkt aantal effecten wordt toegepast, kan het aantal lichtstralen dat binnen de rendertijd van één frame kan worden gevolgd te beperkt zijn om een vlekkeloos plaatje te krijgen. Nvidia gebruikt de eigen machine learning technologie en dus de Tensor-cores om het eindresultaat dan op te schonen. Of het zo is kunnen we niet controleren, maar Nvidia vertelde ons dat de Pixars van deze wereld ook al vergelijkbare technologieën gebruiken om rendertijden binnen de perken te houden.

DLSS: AI-powered anti-aliasing

Maar, er is meer. We weten allemaal dat wanneer je een game in native resolutie van je monitor rendert, er zeker aan de randen van objecten nare artefacten kunnen ontstaan als kartelranden. Al sinds jaar en dag bieden videokaarten allerhande anti-aliasing methodes om dit tegen te gaan en de beeldkwaliteit te verbeteren. De meest conventionele vorm is multi sample anti-aliasing (MSAA), waarbij de game in een hogere resolutie wordt gerenderd en daarna wordt teruggeschaald. Bij 4x MSAA worden dus 4x zoveel pixels berekend (3840x2160 bij een full hd-resolutie) wat de facto ook betekent dat voor veel onderdelen binnen de 3D-pipeline de werkdruk vier keer zo hoog is (met alle gevolg van dien voor de prestaties). Omdat conventionele MSAA ondanks de uitstekende resultaten wel erg veel prestaties kost, zijn er de afgelopen jaren allerhande andere technologieën bedacht, zoals bijvoorbeeld FXAA (Fast Approximate Anti-Aliasing, dat randen van objecten herkent en afvlakt) en TAA (Temporal Anti-Aliasing, dat data van opeenvolgende frames gebruikt om de beeldkwaliteit te verbeteren). Bij de GeForce RTX 20-serie krijgen we er een optie bij, DLSS, wat staat voor Deep Learning Super Sampling.

Wat er bij DLSS in principe gebeurt is dat game developers via machine learning een algoritme opbouwen om beelden zo goed mogelijk in resolutie te verhogen. Daartoe voeden ze het lerend systeem met zoveel mogelijk beelden die zowel in lage als hoge resolutie zijn gerenderd. Het systeem leert zichzelf hoe de beelden van de betreffende game het beste kunnen worden opgewaardeerd. Het leer-gedeelte gebeurt offline door de game-ontwikkelaar op super-computers van Nvidia. Het uiteindelijke algoritme wordt gebruikt in de game.

DLSS kan op twee manieren gebruikt worden. Als alternatief voor AA kan DLSS beelden opschalen en daarna terugschalen, waarmee je een soort MSAA krijgt, maar dan met veel minder werkdruk voor de shader cores. Maar DLSS kan ook gebruikt worden wanneer je videokaart bijvoorbeeld niet krachtig genoeg is voor de resolutie van je monitor; zo kan een game native gerenderd worden in Full HD en daarna via DLSS zo goed mogelijk worden opgewaardeerd naar 4K.

Het klinkt als magie, maar werkt wel degelijk. Tijdens het introductie-evenement toonde Nvidia ons diverse testopstellingen met links een GeForce GTX 1080 met 4x MSAA en rechts een GeForce RTX 2080 met DLSS. Het resultaat: in de regel zo'n 2x hogere framerate en een beeldkwaliteit die in ieder geval door ondertekende niet te onderscheiden was.

Om DLSS te gebruiken moet er dus een machine learning algoritme getraind worden dat specifiek is geoptimaliseerd voor de betreffende game. Nvidia zegt dat men deze dienst gratis aanbiedt aan game-developers. Zij kunnen dus gratis gebruik maken van de super-computers van Nvidia. De reden lijkt ons duidelijk: hoe meer games DLSS gebruiken, hoe meer munitie Nvidia heeft om de GeForce RTX kaarten aan te prijzen.

Nvidia's marketing in de hoogste versnelling: RTX-Ops

Inmiddels zal duidelijk zijn dat bij het renderen van een moderne game die gebruik maakt van real-time raytracing alle drie de soorten cores in gebruik zijn. De conventionele shader-cores (Cuda-cores in Nvidia-jargon) doen nog altijd het meeste werk, maar voor de raytracing effecten worden de RT-cores bijgeschakeld en voor het uiteindelijk afmaken van een frame komen ook nog de Tensor-cores om de hoek kijken.

Traditioneel konden Nvidia (en AMD) als simpele maat voor de prestaties van hun kaarten het maximale aantal floating-point operaties dat hun shader cores per seconde kunnen uitvoeren aanhouden, de zogenaamde Teraflops. Maar in een wereld met shader-cores, RT-cores en Tensor-cores is dat natuurlijk niet meer het complete verhaal. Tegelijkertijd is de maximale rekenkracht van de drie verschillende cores bij elkaar optellen ook onzinnig; enerzijds omdat de prestaties van de RT-cores überhaupt niet in Teraflops is uit te drukken, anderzijds omdat er nu binnen de shader-cores ook rekeneenheden zijn die helemaal niet met floating point getallen werken. Bovenal kunnen bij de Turing-chips zoals beschreven de drie chiponderdelen niet alle drie tegelijkertijd op volle kracht werken. De marketing dames en heren willen echter toch graag het niveau van prestaties van de kaarten in één getal vangen. Wat doe je dan? Dan bedenk je zelf maar wat... en dat zijn de zogenaamde RTX-Ops.

Marketing BS

Het hele concept van RTX-Ops is misschien wel de grootste - excusez le mot - marketing bullshit die we sinds tijden van Nvidia hebben gehoord, maar omdat de waardes prominent getoond zullen gaan worden op de dozen van RTX 20-serie kaarten en Nvidia de nieuwe "eenheid" actief wil gaan gebruiken, doen we toch maar even uit de doeken hoe het werkt.

In de "nieuwe wereld" zullen games, zoals op de vorige pagina's besproken, hybride worden gerenderd. Het gros van de scène wordt neergezet via rasterization. Parallel daaraan doen de RT-cores berekeningen voor belichtingseffecten, waarbij er integer én floatingpoint berekeningen van de shader cores nodig zijn om die te verwerken. Ten slotte schieten de Tensor-cores aan voor post-processing, zoals het opschonen van incomplete raytracing-berekingen. Veel zaken kunnen parallel, sommige zaken moeten achter elkaar en hoewel op meerdere momenten twee (of meer) onderdelen van de SM's actief zijn, zijn ze nooit allemaal tegelijkertijd actief.

Nvidia heeft becijferd dat in een "gemiddeld" scenario - waarbij het überhaupt twijfelachtig is hoe gemiddeld dit is, aangezien er simpelweg nog geen RTX-games beschikbaar zijn - de floating point shader cores 80% van de tijd actief zijn, de integer shader cores 28% van de tijd, de RT-cores 40% van de tijd en de Tensor-cores 20% van de tijd. Nvidia's oplossing? Pak de maximale verwerkingssnelheid van alle onderdelen, vermenigvuldig ze met deze percentages, tel het bij elkaar op en je hebt een maat voor de snelheid.

Dat FP32 en INT32 operaties echt wel iets anders zijn, dat van de Tensor-cores FP16-waardes worden meegenomen en dat je de snelheid van de RT-cores überhaupt niet in flops kunt uitdrukken en dat Nvidia daarom maar stelt dat ze 10 Tflops per gigaray doen omdat RT-cores 10x sneller zijn dan shader cores voor deze workload, moeten we volgens de fabrikant maar door de vingers zien. Iedereen met ook maar enige wetenschappelijke achtergrond zal inmiddels jeuk hebben.

Hoe dan ook, voor de RTX 280 Ti kom je zo op 0,80 * 14 + 0,28 * 14 + 0,40 * 100 + 0,20 * 114 = 77,92, afgerond 78. En zo komt met dus voor de RTX 2080 Ti voor 78 tera van de zelf bedacht RTX-Ops, tegen 60T RTX-Ops voor de RTX 2080 en 45T RTX-Ops voor RTX 2070.

Duidelijk? Mooi, dan mag je wat ons betreft deze onzin snel weer vergeten.

RTX-technologie: welke games?

Voor zover het met het lezen van de vorige pagina's nog niet duidelijk was geworden: RTX is Nvidia's verzamelnaam voor alle nieuwe technologieën die dankzij de RT-cores en/of de Tensor-cores mogelijk zijn. In de praktijk hebben we het dan vooralsnog over raytracing en de besproken DLSS-beeldverbeteringstechniek. Bij de introductie kondigde Nvidia een respectabel aantal games aan dat in de nabije toekomst raytracing en/of DLSS zullen toepassen, waaronder enkele grote titels.

De volgende games zullen gebruik gaan maken van real-time raytracing:

  • Assetto Corsa Competizione
  • Atomic Heart
  • Battlefield V
  • Control
  • Enlisted
  • Justice
  • JX3
  • MechWarrior 5: Mercenaries
  • Metro Exodus
  • ProjectDH
  • Shadow of the Tomb Raider

De volgende games zullen ondersteuning gaan bieden voor DLSS:

  • Ark: Survival Evolved
  • Atomic Heart
  • Dauntless
  • Darksiders 3
  • Deliver Us The Moon: Fortuna
  • Fear The Wolves
  • Final Fantasy XV
  • Fractured Lands
  • Hellblade: Senua's Sacrifice
  • Hitman 2
  • Islands of Nyne
  • Justice
  • JX3
  • KINETIK
  • Mechwarrior 5: Mercenaries
  • Outpost Zero
  • Overkill's The Walking Dead
  • PlayerUnknown’s Battlegrounds
  • Remnant: From the Ashes
  • SCUM
  • Serious Sam 4: Planet Badass
  • Shadow of the Tomb Raider
  • Stormdivers
  • The Forge Arena
  • We Happy Few

Zoals je kunt zien zijn het veelal nieuwe games, al vinden we vooral in de lijst met spellen die DLSS gaan ondersteunen ook verschillende bestaande titels, waaronder het zeer populaire PUBG. De grootste namen in het lijstje raytracing games zijn zonder meer Battlefield V, Mechwarrior 5, Metro Exodus en Shadow of the Tomb Raider. Zodra de games beschikbaar zijn, zullen we waar mogelijk benchmarks publiceren op Hardware.Info - een review van de nieuwe Tomb Raider kun je zelfs al zeer spoedig verwachten!

Wat we echter niet moeten vergeten is dat we met real-time raytracing van doen hebben met een klassiek kip-ei-probleem. Zo lang weinig mensen de geschikte hardware hebben, loont het voor game-developers niet om veel tijd te stoppen in het geschikt maken van games voor de nieuwe mogelijkheden. En zolang er weinig games zijn, loont het voor jou als consument niet om specifiek voor deze reden een nieuwe videokaart te kopen. Hoewel we de details absoluut niet kennen, zou het ons niets verbazen dat het feit dat 11 games binnenkort al enig gebruik gaan maken van real-time raytracing te verklaren is door uitvoerige (financiële) support van Nvidia richting deze developers. Daar is voldoende van te vinden, maar onze bescheiden mening is het positief: door als eerste hardware op de markt te brengen met ondersteuning voor DirectX raytracing én game-developers al dan niet financieel te enthousiasmeren er daadwerkelijk gebruik van te gaan maken, is het kip-ei probleen in ieder geval voor een eerste stap doorbroken.

Hoeveel meer games we de komende één, twee of drie jaar gaan zien met ondersteuning voor real-time raytracing valt te bezien. Uiteraard zal de grote doorbraak pas kunnen komen wanneer de technologie beschikbaar is op goedkopere kaarten en op videokaarten van alle pluimage (lees: ook AMD kaarten). Hoewel we nog niet weten van Nvidia's plannen voor toekomstige mid-range kaarten, noch van AMD aangaande de exacte mogelijkheden van hun toekomstige generatie, lijkt het een veilig aanname dat het nog zeer geruime tijd, misschien wel jaren, kan duren eer real-time raytracing support gemeengoed is op betaalbare videokaarten. Maakt dat de RTX-technologie op de RTX 20-serie vooralsnog een leuke (maar dure) gimmick die je puur in een aantal games kunt toepassen? Dat mag ieder voor zichzelf bepalen. Gelukkig is er alle reden om aan te nemen dat de nieuwe kaarten ook in conventioneel gerenderde games een duidelijke stap vooruit zetten.

Andere nieuwe rendermogelijkheden

Als we alle raytracing en AI trucs even laten voor wat het is, biedt de Turing-generatie gpu's ook nog verschillende andere nieuwe rendertechnieken. Mesh Shaders zijn een nieuwe manier om scènes met extreem veel objecten te renderen en dankzij Variable Rate Shading kun je binnen één frame met verschillende resoluties c.q. nauwkeurigheden werken.

Mesh Shaders

De afgelopen jaren is het aantal objecten dat op enig moment zichtbaar kan zijn in 3D-games flink toegenomen, maar toch is er op dat vlak nog altijd nog een beperking. Zoals we bij onze uitleg over de rasterization methode al toelichtten, is het traditioneel de taak van de cpu om alle objecten te verzamelen, te positioneren in de virtuele ruimte en door te zetten naar de gpu (dat laatste is een draw call in jargon). Die taak is in de praktijk nog complexer: 3D-objecten kunnen tegenwoordig makkelijk uit duizenden of zelfs tienduizenden driehoeken bestaan. Handig als je een object heel dichtbij ziet en bijna beeldvullend in zicht hebt, maar volstrekt onnodig als datzelfde object zich ergens ver weg bevindt en een paar pixels beslaat.

Om maar weer even het verband met een game te leggen: een boom of huis in een game als Fortnite (of welke game dan ook) kan uit extreem veel driehoeken bestaan voor veel detail, maar om dezelfde boom of hetzelfde huis ook op lange afstand in het klein weer te kunnen geven zonder dat dit teveel impact heeft op de prestaties, heeft de game ook een simpelere uitvoering van het object die bestaat uit minder driehoeken. En zo bestaan in huidige games voor vrijwel alle objecten meerdere versies, verschillend in detail en complexiteit. De processor moet niet alleen alle objecten plaatsen en doorsturen naar de gpu, maar binnen dat proces óók de juiste LOD (Level of Detail) variant uitkiezen.

Aangezien we allemaal graag gamen met (minimaal) 60 beelden per seconde en liefst zelfs met 120 beelden per seconde, mag het compleet berekenen van een frame in de praktijk maximaal 16 respectievelijk 8 milliseconde duren. In de praktijk is het tijdsbudget voor de CPU om objecten klaar te zetten maximaal ruwweg 2 ms. Lukt het de processor niet om alle objecten in deze tijd te verwerken, dan zakken je prestaties in en zul je in de game het detailniveau moeten terugschroeven.

Als in een theoretische scene 200.000 objecten zouden staan, zou de processor per object maximaal 10 ns kunnen besteden. Dat is zelfs voor de snelste CPU's te veel gevraagd.

Hier komt Mesh Shading om de hoek kijken. Bij deze technologie neemt Nvidia de conventionele 3D-rendering pipeline op de schop en verlegt het nog meer werk dan voorheen van de cpu naar de gpu. Wanneer dit gebruikt wordt is de processor nog altijd verantwoordelijk voor het doorsturen van alle objecten (de draw calls), maar neemt de gpu het bepalen van de LOD-varianten van alle objecten op zich. Al die verschillende varianten van de 3D-modellen kunnen dan ook in het geheugen van de videokaart opgeslagen staan, wat natuurlijk veel sneller te benaderen is dan het werkgeheugen van de CPU. De shader cores bouwen vervolgens de objecten verder op en kunnen dan in één keer ook direct tesselation (het geautomatiseerd verhogen van het detail van objecten) meenemen.

Mesh shading is nu nog een theoretisch concept; er is nog geen ondersteuning in bijvoorbeeld DirectX en zodoende zijn er ook zeker nog geen games op komst die het zullen gebruiken. Mocht Nvidia hier api-ontwikkelaars en game-ontwikkelaars voor geënthousiasmeerd krijgen, dan is het in potentie echter een interessante technologie die de cpu-afhankelijkheid van games verder kan verkleinen (en vanuit Nvidia's verkoopafdeling beredeneerd: gamers nog meer kan dwingen om meer te investeren in een zware gpu dan in een zware cpu).

Variable Rate Shading

Een ander nieuwtje is Variable Rate Shading, een technologie die in principe al bestaat (en bij VR-headsets al wordt toegepast), maar waar nu hardwarematige support voor komt. Wat VRS doet is dat het ene gedeelte van een frame minder nauwkeurig (lees: op een lagere resolutie) wordt gerenderd dan een ander deel. Waarom zou je dat willen? Er zijn voldoende redenen denkbaar.

Stel, je hebt een 4K-scherm, maar je videokaart is in principe niet snel genoeg om de game die je speelt met alle pracht en praal in deze resolutie te renderen. Bij VRS kan de developer aangeven welke gedeeltes van een frame veel detail hebben of in het centrum van de actie (en daarmee in het centrum van je blikveld) zitten. Die gedeeltes kunnen dan op volle resolutie gerenderd worden, terwijl de gedeeltes met minder detail of gedeeltes waar je vermoedelijk toch niet naar kijkt bijvoorbeeld op slechts de helft of een kwart van de resolutie kunnen worden gerenderd.

Een scenario waarin VRS heel goed toegepast kan worden is bij virtual reality headsets. De lenzen daarin vervormen het beeld altijd, waardoor beelden aan de rand een beetje bij elkaar geknepen worden. Aangezien daar uiteindelijk toch veel detail verloren gaat, is het helemaal niet nodig om de randen op volle resolutie te renderen. Nog een voorbeeld: het is een wetenschappelijk feit dat het menselijk oog bij snelle beweging minder scherpte ziet. Bij bijvoorbeeld een race-game is het zodoende eigenlijk onzinnig om de weg die onder je auto doorschiet op volle resolutie te renderen, je ziet het verschil met een lagere resolutie toch niet.

Ook hier geldt weer: er moet ondersteuning zijn in api's voordat game-developers hiervan gebruik willen maken. Vermoedelijk zullen Oculus en Valve snel van hardwarematige ondersteuning voor VRS gebruik gaan maken voor hun low-level VR api's voor hun VR-headsets. Van Microsoft hebben we qua ondersteuning in DirectX nog niets gehoord. Nvidia heeft wel al een eigen uitbreiding gemaakt op Vulkan en op basis daarvan een proof-of-concept ontwikkeld op basis van de Wolfenstein II game. Die demo kregen we tijdens de presentatie van de GeForce RTX kaarten te zien en op basis van de snelle demo moeten we inderdaad voorzichtig concluderen dat VRS een effectief middel kan zijn om de prestaties van een game te verbeteren, zonder zichtbaar op beeldkwaliteit in de boeten. Het is geheel de vraag of, wanneer en in welke mate dit door game-developers opgepakt gaat worden.

Ondersteuning voor video en monitoren

Even genoeg over 3D-rendering, zijn er nog vernieuwingen op het vlak van ondersteuning voor video en qua monitor aansluitingen? Jazeker!

De Turing gpu's kunnen H.264 (AVC), H.265 (HEVC) en VP9 video in alle resoluties (Full HD, 4K, 8K), met alle kleurdetail (8-bit, 10-bit, 12-bit) en al dan niet met HDR decoderen. De grootste verbeteringen zijn er echter op het vlak van de video encoders. Los van het feit dat de encoders nu snel genoeg zijn real-time video in 8K-resolutie te encoden (met maximaal 30 fps, maar toch) is vooral de kwaliteit van de hardwarematige video-encoder volgens Nvidia verbeterd.

Dat laatste betaalt zich uit aan twee kanten. Voor H.264 kan de nieuwe encoder voor dezelfde beeldkwaliteit gemiddeld af met 15% lagere bitrate. Voor H.265 (HEVC) is dat zelfs 25%. Sterker nog, waar met identieke bitrate de encoders in de Pascal-generatie kwalitatief wat achterliepen op de x264 softwarematige encoder, is de encoder in Turing beter in kwaliteit. Het feit dat deze ook nog eens minder dan 1% CPU-belasting heeft, maakt dat er volgens Nvidia in z'n geheel geen reden meer is voor game-streamers om te kiezen voor software-encoding.

Dan de ondersteuning voor monitoren. Net als de Pascal-chips ondersteunt Turing DisplayPort 1.4 en HDMI 2.0. HDMI 2.1 wordt uitdrukkelijk dus nog niet ondersteund, daarvoor was de standaard te laat klaar. Echter, Turing ondersteunt nu wél de DSC (Display Stream Compression) technologie van DisplayPort 1.4, waarbij beelddata vrijwel lossless wordt gecomprimeerd. Daardoor is 8K 60Hz 10-bit (incl. HDR) of 4K 120Hz 10-bit (incl. HDR) met één kabel mogelijk. Ondersteunt de monitor geen DSC, dan ben je net als nu beperkt tot 8K 30Hz, 5K 60Hz en 4K 120Hz 8-bit.

Nieuw is ook de aanwezigheid van een VirtualLink-aansluiting voor toekomstige VR-headsets op vrijwel alle RTX 2070 en 2080 kaarten. VirtualLink is een USB Type-C connector waarover naast een DisplayPort-signaal ook USB 3.1 én maximaal 27 watt aan stroomvoorziening (via USB Power Delivery). Het resultaat: VR-headsets kun je op die manier in de toekomst met één kabel aansluiten. Iets minder nuttig, maar wel grappig: je kunt ook je telefoon snelladen via deze poort.

SLI in het nieuw en overklokken voor dummy's

Nog twee nieuwtjes mogen in dit stuk niet ontbreken: verbeteringen op het vlak van SLI en nieuwe mogelijkheden qua overklokken.

Om met SLI te beginnen: al sinds lange tijd - sinds de GeForce 6800 om precies te zijn - kun je twee (of meer) GeForce kaarten combineren om zo de prestaties te verbeteren. Op een hele enkele uitzondering na werken de kaarten dan in zogenaamde AFR modus, ofwel Alternate Frame Rendering. Dat betekent dat twee videokaarten om en om frames uitrekenen, de één doet frame X, de andere X+1, de één weer X+2, en zo verder. Aangezien de monitor slechts op één van beide kaarten wordt aangesloten moeten de door de tweede kaart berekende beelden doorgestuurd worden naar de frame buffer van de primaire kaart. Om de PCI-Express bus die al gebruikt wordt om data tussen CPU en gpu uit te wisselen daar niet mee te belasten wordt daar al sinds jaar en dag de zogenaamde SLI-brug voor gebruikt.

Die SLI-brug heeft echter z'n beste tijd gehad. Was het voor de gangbare resolutie van een paar jaar terug nog prima, toen 4K-schermen langzaam gemeengoed werden was de bottleneck bereikt. Bij de Pascal-generatie introduceerde Nvidia al een high-bandwidth SLI-brug die snel genoeg was voor 4K in 60 Hz. Maar, hoe hoger de resolutie, hoe hoger de verversingsfrequenties en hoe hoger de kleurdiepte, hoe meer data er van de ene naar de andere kaart verstuurd moet worden. Hierdoor is de circa 5 GB/s van HB-SLI al snel niet meer toereikend. Om die reden introduceert Nvidia bij de Turing generatie NVLink.

NVLink is niet nieuw: het is een technologie die Nvidia al een paar jaar gebruikt bij haar professionele Tesla-kaarten om meerdere gpu's met elkaar te verbinden. Het is een eigen protocol, waarvan de nieuwste versie (NVLink 2.0) een zeer hoge bandbreedte biedt: 25 GB/s bidirectioneel, dus 50 GB/s tussen twee gpu's.

De RTX 2080 beschikt over één NVLink verbiding en dat is snel genoeg voor een 8K scherm op 60 Hz, een 5K scherm op 75 Hz en voor drie 4K schermen op 144 Hz. De RTX 2080 Ti biedt zelfs twee NVLink verbindingen (100 GB/s) waarmee zelfs 8K surround (ofwel drie 8K schermen) mogelijk is!

Het maakt dus wel dat er een nieuwe type brug nodig is, de NVLink Bridge. Nvidia biedt deze zelf aan met drie en vier slots tussenruimte. Twee GeForce kaarten direct onder elkaar plaatsen met twee slots tussenruimte wordt niet meer aangeraden en dus niet meer ondersteund. De NVLink bruggen gaan $ 79 kosten en vermoedelijk ruwweg hetzelfde in euro's.

Het zal de oplettende lezer zijn opgevallen dat de RTX 2070 in dit verhaal niet meer voorkomt. Op deze kaart is NVLink uitgeschakeld en SLI dus niet beschikbaar.

Overigens is wat ons betreft maar de vraag of NVLink het fenomeen SLI daadwerkelijk nieuw leven in kan blazen. Het probleem op dit moment is niet alleen dat de communicatiesnelheid via de SLI-brug te beperkt is, maar vooral dat de AFR-methode bij moderne DirectX 12 games niet meer zo goed werkt. Moderne API's als DirectX 12 en Vulkan bieden game-developers de mogelijkheid om zelf op slimmere manieren het werk over twee of meer gpu's te verdelen, maar die moeten wel de zin en tijd hebben om dat te goed implementeren in hun code. Zeker gezien het feit dat steeds minder mensen twee videokaarten hebben, maakt dat steeds minder game developers genegen zijn hier veel kostbare ontwikkeltijd in te steken. SLI is evenals AMD's Crossfire duidelijk op zijn retour en wij verwachten niet dat NVLink daar veel aan kan veranderen.

Overklokken

Ten slotte nog de nieuwe mogelijkheden voor overklokken. Nvidia heeft voor ontwikkelaars van overkloksoftware zoals EVGA Precision en MSI Afterburner een nieuwe api beschikbaar gesteld getiteld Nvidia Scanner. Via deze techniek kan de software de videokaart geheel automatisch optimale overklokinstellingen laten bepalen. Hiervoor gaat de gpu gedurende een proces dat een kleine half uurtje kan duren stap voor steeds hogere frequentie-voltage-curves uitproberen, die telkens direct via een ingebouwde workload worden getest, totdat er een instelling is die niet stabiel is. Het enige wat je als gebruiker hoeft te doen is een keuze te maken voor maximaal stroomverbruik en/of maximale temperatuur en daarna een half uurtje geduld hebben.

Hoe goed deze nieuwe automatische overklokmogelijkheid werkt ten opzichte van handmatig de maximale setting vinden, zullen we op een later moment moeten uitzoeken.

Testprocedure

De nieuwe RTX-videokaarten hebben wij samen met andere gpu's getest volgens onze nieuwe 2018-2 testmethode. Daarvoor hebben we nog eens goed gekeken naar onze testsuite wat betreft relevantie, actualiteit en bias van de games en benchmarks.

Founders Edition versus referentieclocks

Voor het testen van de RTX 2080 en RTX 2080 Ti als 3D-chip hebben wij gebruik gemaakt van de Founders Edition-kaarten. Opmerkelijk hierbij is dat deze 'referentiekaarten' voor het eerst hoger geklokt zijn dan de referentieclocks die Nvidia zelf opgeeft. Voorheen kon je bij videokaarten van aib's ervan uitgaan dat deze in ieder geval even snel waren als de referentiekaarten. Bij deze nieuwe generatie is dat dus niet zo, en is het daarmee mogelijk om een custom model te bemachtigen dat juist trager is dan een Founders Edition.

In het geval van de RTX 2080 is het verschil in boostclock tussen de referentiespecificatie en de Founders Edition 5,2 procent, bij de RTX 2080 Ti is dat 5,8 procent. In de praktijk zal vanwege Nvidia's GPU-Boost het verschil kleiner zijn, omdat deze dynamisch kloksnelheden regelt aan de hand van temperatuur en vermogen. Bij de 10-serie kaarten hebben we overigens gezien dat het gros van de kaarten die daadwerkelijk verkocht werden standaard overklokt waren. Hoe dan ook, hou er bij het bekijken van de grafieken op de volgende pagina's rekening mee dat de 2080 en 2080 Ti scores van Founder's Editions zijn en dat je, wanneer je prestaties van een kaart op standaard klokfrequenties zou willen weten, je 2 à 3 procent van de scores af moet trekken.

Testconfiguratie

Voor de benchmarks maken we gebruik van een testsysteem met de volgende specificaties:

Benchmarks

De volgende benchmarks vind je terug in deze review:

  • 3DMark Firestrike Extreme / Ultra (DX11)
  • 3DMark Timespy (DX12)
  • Unigine Superposition
  • Assassin's Creed Origins (DX11)
  • Battlefield 1 (DX12)
  • F1 2018 (DX11)
  • Far Cry 5 (DX11)
  • Forza Motorsport 7 (DX12)
  • Ghost Recon: Wildlands (DX11)
  • Grand Theft Auto V (DX11)
  • Rise of the Tomb Raider (DX12)
  • The Division (DX12)
  • The Witcher 3: Blood and Wine (DX11)
  • Total War Warhammer II (DX12)
  • Wolfenstein II: The New Colossus (Vulkan)

We testen de games in deze resoluties / settings:

  • 1920x1080 (Full HD) - Medium
  • 1920x1080 (Full HD) - Ultra / Highest
  • 2560x1440 (WQHD) - Medium
  • 2560x1440 (WQHD) - Ultra / Highest
  • 3840x2160 (Ultra HD) - Medium
  • 3840x2160 (Ultra HD) - Ultra / Highest

Op basis van de scores van de tien genoemde games berekenen we de Hardware.Info GPU-prestatiescore, die in feite voor elk van de resoluties/settings het gemiddelde van de gemeten framerates is. Deze GPU-prestatiescore geeft met één blik de beste indruk van de prestaties van videokaarten.

Driverversies

Op de testresultatenpagina van een 3D-chip vind je boven de resultaten van elk spel een extra regel met de gebruikte driverversie. Hardware.Info hertest vrijwel continu 3D-chips als daar aanleiding voor is (bijvoorbeeld game- of driverupdates met impact op de prestaties) én herziet minstens drie keer per jaar de gebruikte set games, wat tevens gepaard gaat met een grondige check of de resultaten nog actueel zijn.

Gemiddelde framerate en 99e percentiel frametime

In de grafieken op de volgende pagina's vind je telkens in eerste instantie gemiddelde framerates, ofwel het gemiddelde aantal beelden per seconde dat een videokaart kan berekenen. Daarnaast doen we waar mogelijk ook een 99e percentiel frametime analyse, om het minimale prestatieniveau van GPU's in kaart te brengen. De tijd die het kost om beelden binnen een 3D-game en dus binnen onze benchmark te renderen varieert van frame tot frame. Bij de 99e percentiel analyse worden de rendertijden van alle individuele frames opgeslagen. Daarna gooien we de 1% langzaamste frames weg - dit om vreemde invloeden van incidentele externe oorzaken uit de analyse te houden. De hoogste rendertijd van de resterende 99% van de frames (oftewel: het langzaamste frame) is de 99e percentiel frametijd. Die 99e percentiel frametijd rekenen we daarna weer terug naar een minimum FPS-waarde.

Stroomverbruik en geluidsproductie

Naast de prestaties meten we natuurlijk ook het stroomverbruik en de geluidsproductie van de kaarten. Voor het stroomverbruik gebruiken we nieuwe hardware, waardoor we het verbruik geïsoleerd van de rest van het systeem kunnen meten. In tegenstelling tot oudere reviews tonen de grafieken in deze test dus enkel het verbruik van de kaarten, niet van het hele systeem. We meten het verbruik zowel idle (gemiddelde van vijf minuten) als onder load. De load test is een gemiddeld verbruik tijdens een minuut in de Rise of the Tomb Raider benchmark in Ultra HD met maximale settings.

De geluidsproductie meten we tijdens de geautomatiseerde duurtest van 30 minuten in Project Cars. Dat doen we door het maximaal behaalde fanpercentage in deze duurtest te noteren, en de videokaart op dit behaalde fanpercentage in onze geluidsdichte box nauwkeurig te meten op de exacte geluidsproductie.

Benchmarks: 3DMark Firestrike / Timespy

Firestrike is een DX11-benchmark van 3DMark waarin realtime graphics worden gerenderd. De Timespy-benchmark is van dezelfde maker afkomstig, maar op basis van de DX12 api.

In 3DMark Firestrike is de RTX 2080 Ti 12 tot 20 procent sneller dan de GTX 1080 Ti, afhankelijk van welke benchmark je bekijkt. De RTX 2080 loopt in de gewone Firestrike-score gelijk aan de 1080 Ti, maar blijft zo'n 3 procent achter in Firestrike Ultra.

In Timespy ziet het er beter uit voor Turing; daar loopt de 2080 Ti met 33 tot 39 procent verder uit op de GTX 1080 Ti en lukt het ook de RTX 2080 om deze tien procent voor te blijven.

  • Firestrike
  • Firestrike Graphics
  • Firestrike Extreme
  • Firestrike Ultra

  • Timespy
  • Timespy Graphics

Benchmarks: Unigine Superposition

De Unigine Superposition 3D-benchmark draait in de Unigine 2-engine onder zowel OpenGL als DX11 en toont resultaten in Full HD en Ultra HD resoluties en maakt gebruik van state-of-the-art rendering technieken. De benchmark werd in april 2017 uitgegeven en stelt hedendaagse videokaarten behoorlijk op de proef. Wij draaien de benchmark in DirectX 11.

In Unigine Superposition is de RTX 2080 Ti 32 tot 34 procent sneller dan zijn voorganger. De RTX 2080 presteert ondertussen 3 á 4 procent beter dan de Pascal-kaart.

  • 1080p high - score
  • 1080p high
  • 4K optimized - score
  • 4K optimized

Benchmarks: Assassin's Creed Origins (DX11)

Assassin's Creed Origins draait in DX11 en maakt gebruik van de Anvil Next 2.0-engine. De Turings zijn hier sneller dan Pascal, met een winst van 8 procent voor de RTX 2080 en 31 procent voor de 2080 Ti ten opzichte van de GTX 1080 Ti. Op de lagere resoluties en bij lagere instellingen zijn de verschillen uiteraard wat kleiner.

  • 1080p med
  • 1080p ultra
  • 1440p med
  • 1440p ultra
  • 4K med

Benchmarks: Battlefield 1 (DX12)

Battlefield 1 maakt gebruik van de Frostbite-engine en draaien we in DirectX 12 modus. De RTX 2080 Ti is hier 39 procent sneller dan de Pascal-topper, terwijl de RTX 2080 11 procent hoger uitkomt.

  • 1080p med
  • 1080p ultra
  • 1440p med
  • 1440p ultra
  • 4K med

Frametimes

  • 1080p med
  • 1080p ultra
  • 1440p med
  • 1440p ultra
  • 4K med

Benchmarks: F1 2018 (DX11)

F1 2018 is ontwikkeld door Codemasters en draait op DX11. Het is haast gelijkspel tussen de RTX 2080 en de GTX 1080 Ti. De 2080 Ti is ondertussen 30 procent sneller dan de 1080 Ti, en in de frametimes liggen de verhoudingen grotendeels gelijk.

  • 1080p med
  • 1080p ultra
  • 1440p med
  • 1440p ultra
  • 4K med

Frametimes

  • 1080p med
  • 1080p ultra
  • 1440p med
  • 1440p ultra
  • 4K med

Benchmarks: Far Cry 5 (DX11)

Far Cry 5 draait op de Dunia Engine in de DX11-api, en heeft extra optimalisaties voor Radeon-kaarten gekregen. De winst van de RTX 2080 Ti is ten opzichte van zijn voorganger in deze game 37 procent op maximale resolutie en instellingen. De RTX 2080 verslaat nipt de GTX 1080 Ti.

  • 1080p med
  • 1080p ultra
  • 1440p med
  • 1440p ultra
  • 4K med

Benchmarks: Forza Motorsport 7 (DX12)

Forza Motorsport 7 werkt middels de Forza Tech-engine exclusief in DX12. In deze game komt de RTX 2080 duidelijk boven de GTX 1080 Ti uit, en wel met 12 procent. De RTX 2080 Ti is met 31 procent voorsprong ruim sneller dan zijn Pascal-voorganger.

  • 1080p med
  • 1080p ultra
  • 1440p med
  • 1440p ultra
  • 4K med

Benchmarks: Ghost Recon: Wildlands (DX11)

Ghost Recon: Wildlands is een open world game gebaseerd op de Anvil Next-engine, gebruik makend van DirectX 11. Het spel is voorzien van GameWorks-effecten en mede daardoor uiterst zwaar.

De RTX 2080 Ti is met 47,5 fps hier duidelijk de snelste videokaart, terwijl de 2080 zich 5 procent boven de GTX 1080 Ti weet te plaatsen.

  • 1080p med
  • 1080p ultra
  • 1440p med
  • 1440p ultra
  • 4K med

Benchmarks: GTA V (DX11)

GTA V draait op RAGE (Rockstar Advanced Game Engine), en doet het traditioneel goed op Nvidia-videokaarten. De ingebouwde benchmark meet zelf zowel framerates als frametimes in verschillende segmenten. De Titan V zet een topscore van 90 fps op 4K ultra neer, waarmee hij 15% sneller is dan de 1080 Ti. Op lagere settings lopen snelle videokaarten al gauw tegen een cpu-bottleneck aan.

De good old GTA V krijgt op 4k ultra nog steeds menig high end videokaart op z'n knieën, en de 2080 en 1080 Ti moeten het gemiddeld met nèt iets minder dan 60 fps doen. De RTX 2080 Ti begint iets minder snel te zweten en komt op een volle 70 fps uit.

  • 1080p med
  • 1080p ultra
  • 1440p med
  • 1440p ultra
  • 4K med

Frametimes

  • 1080p med
  • 1080p ultra
  • 1440p med
  • 1440p ultra
  • 4K med

Benchmarks: Rise of the Tomb Raider (DX12)

Rise of the Tomb Raider is een adventure game die gebruik maakt van DirectX 12 in de Foundation-engine. Hier scoren de 1080 Ti en RTX 2080 vergelijkbaar, zij het dat laatsgenoemde alsnog 4 procent hoger eindigt. Op 4k ultra komt de 2080 Ti zonder problemen met 30 procent boven de GTX 1080 Ti uit. Bij lagere resoluties zijn de verschillen iets kleiner.

  • 1080p med
  • 1080p ultra
  • 1440p med
  • 1440p ultra
  • 4K med

Benchmarks: The Witcher 3: Blood & Wine (DX11)

The Witcher 3 is een action role-playing game gebaseerd op de Red Engine 3 en gebruik makend van DirectX 11. Op 4k ultra zien we een vrij grote voorsprong van 44 procent voor de RTX 2080 Ti ten opzichte van zijn voorganger. De 2080 verslaat met 9 procent deze Pascal-kaart.

  • 1080p med
  • 1080p ultra
  • 1440p med
  • 1440p ultra
  • 4K med

Frametimes

  • 1080p med
  • 1080p ultra
  • 1440p med
  • 1440p ultra
  • 4K med

Benchmarks: Total War: Warhammer II (DX12)

Total War: Warhammer II is een RTS-game gebaseerd op de Warscape-engine. De RTX 2080 komt hier iets beter uit de verf dan de GTX 1080 Ti. De 2080 Ti ziet een 26 procent hogere framerate dan zijn voorganger.

  • 1080p med
  • 1080p ultra
  • 1440p med
  • 1440p ultra
  • 4K med

Benchmarks: Wolfenstein II: The New Colossus (Vulkan)

Wolfenstein II is een game die gebruik maakt van de id Tech 6-engine en exclusief op de Vulkan-api werkt. Turing weet heel goed raad met deze engine, en de 2080 eindigt 19 procent hoger dan de GTX 1080 Ti, terwijl de 2080 Ti maar liefst 55 procent voorloopt op deze videokaart.

  • 1080p med
  • 1080p ultra
  • 1440p med
  • 1440p ultra
  • 4K med

Frametimes

  • 1080p med
  • 1080p ultra
  • 1440p med
  • 1440p ultra
  • 4K med

HDR

Nvidia stelt dat de Turing-architectuur beter geoptimaliseerd is voor HDR, omdat de display engine dit native in de display pipeline kan verwerken. Daarnaast is tone mapping ook toegevoegd aan deze HDR pipeline. Daarmee zou het prestatieverlies geminimaliseerd moeten worden.

Om dit op de proef te stellen hebben wij drie games getest, met en zonder HDR ingeschakeld. Far Cry 5, Battlefield 1 en F1 2018 hebben we hiervoor gepakt, en bovendien op twee resoluties getest op 5 verschillende videokaarten. Gemiddeld pakt het prestateverlies inderdaad gunstiger uit voor de Turing-kaarten, maar dat komt vrijwel exclusief door Battlefield 1. Die game ziet bij de Pascal-generatie een significante teruggang in framerate wanneer HDR ingeschakeld wordt. Bij Turing is dat dus niet het geval, en AMD lijkt hier met Vega al eerder voor te hebben geoptimaliseerd.

Kaart GeForce RTX
2080 Ti
GeForce RTX
2080
GeForce GTX
1080 Ti
GeForce GTX
1080
Radeon RX
Vega 64
Far Cry 5 - WQHD Ultra 118,0 fps 104,0 fps 100,0 fps 81,0 fps 86,0 fps
Far Cry 5 - WQHD Ultra (HDR) 119,0 fps 103,0 fps 101,0 fps 81,0 fps 86,0 fps
Far Cry 5 - 4K Ultra 74,0 fps 56,0 fps 54,0 fps 42,0 fps 46,0 fps
Far Cry 5 - 4K Ultra (HDR) 74,0 fps 57,0 fps 55,0 fps 42,0 fps 46,0 fps
Battlefield 1 - WQHD Ultra 159,8 fps 133,2 fps 126,5 fps 98,9 fps 107,2 fps
Battlefield 1 - WQHD Ultra (HDR) 157,5 fps 131,2 fps 112,9 fps 92,2 fps 107,4 fps
Battlefield 1 - 4K Ultra 100,7 fps 80,1 fps 72,2 fps 54,8 fps 60,3 fps
Battlefield 1 - 4K Ultra (HDR) 96,0 fps 75,7 fps 66,2 fps 46,1 fps 61,1 fps
F1 2018 - WQHD Ultra 158,5 fps 124,5 fps 121,0 fps 93,8 fps 100,6 fps
F1 2018 - WQHD Ultra (HDR) 159,4 fps 129,3 fps 118,9 fps 94,7 fps 100,8 fps
F1 2018 - 4K Ultra 99,4 fps 77,1 fps 76,2 fps 58,0 fps 57,4 fps
F1 2018 - 4K Ultra (HDR) 101,0 fps 78,7 fps 73,9 fps 56,4 fps 58,0 fps
HDR vs, No HDR (gemiddeld) 99,49% 99,96% 96,51% 95,93% 100,46%

Benchmarks: Hardware.Info GPU Prestatiescore 2018-2

De Hardware.Info GPU Prestatiescore 2018-2 is de gemiddelde framerate in alle geteste games. Beide Turing-kaarten zetten hier een een nieuwe standaard, want zelfs de RTX 2080 zit comfortabel boven de 60 fps in 4K-resolutie met ultra instellingen. Deze videokaart is 7,7 procent sneller dan de GTX 1080 Ti. De RTX 2080 Ti levert prestaties van een hoger niveau, want de gemiddelde framerate in 4K ultra is maar liefst 82! Dat is precies 35 procent sneller dan een GTX 1080 Ti. Voor de eigenaar van een wqhd-scherm op 120 Hz is deze videokaart eveneens goed nieuws, want daar wordt op ultra instellingen 127 fps behaald.

  • 1080p med
  • 1080p ultra
  • 1440p med
  • 1440p ultra
  • 4K med

Testresultaten: Stroomverbruik

Voor het stroomverbruik gebruiken we een pci-e risercard waarmee we het verbruik geïsoleerd van de rest van het systeem kunnen meten. De grafieken in deze test tonen dus enkel het verbruik van de kaarten, niet van het hele systeem. We meten het verbruik zowel idle (gemiddelde van vijf minuten) als onder load. De load test is een gemiddeld verbruik tijdens een minuut in de Rise of the Tomb Raider benchmark in Ultra HD met maximale settings.

In idle zijn de Turingkaarten niet zo zuinig, zeker in vergelijking met de Pascals. Het verbruik is grofweg twee keer zo hoog. Nvidia heeft aangegeven hiervan op de hoogte te zijn, en stelt dit met een toekomstige driverupdate te gaan verhelpen. Onder belasting zijn de Turings ook niet de zuinigste, en verbruiken ze nog steeds wat meer dan hun voorgangers. De RTX 2080 Ti verbruikt onder belasting gemiddeld 6 procent meer, bij de RTX 2080 is dat zelfs 28 procent meer dan zijn voorloper.

In onderstaande grafiek zie je de verdeling van het stroomverbruik onder load; groen = totaal, blauw = PEG-connector 1, paars = PEG-connector 2, rood = stroom vanuit het PCI-Express slot. De verdeling van het verbruik is opnieuw bijna identiek aan dat van de 1080 Ti: er wordt 136 watt uit één PEG-stekker getrokken, 68 watt uit de tweede connector en net iets meer dan 50 watt uit het PCI-Express slot.

De oplettende lezer zal opvallen dat in onderstaande grafiek de waarden van de blauwe, paarse en rode balken opgeteld telkens net niet gelijk is aan het totaalverbruik uit de groene balk. Dat komt omdat videokaarten ook nog een heel klein beetje vermogen over de 3,3V lijn via het PCI-Express slot verbruiken. Dat hebben we in het totale vermogen ook meegerekend, maar niet verder uitgesplitst.

  • Groen = totaal
  • Blauw = PEG-connector 1
  • Paars = PEG-connector 2
  • Rood = Stroom vanuit het PCI-Express slot

Testresultaten: Geluidsproductie

De geluidsproductie meten we in een geluidsdichte box op 10 centimeter afstand. Ook hier doen we een meting bij idle als onder load. Voor de load test laten we de videokaart eerst circa 5 minuten opwarmen in een verlengde 3DMark Fire Strike Extreme test. Daarna meten we de gemiddelde geluidsproductie tijdens 30 seconden.

Wanneer gemeten op 10 centimeter afstand mag je de geluidsproductie van hardware als volgt interpreteren: alles onder de 30 dB(A) is onhoorbaar stil. Waarden tussen de 30 en 40 dB(A) mag je beschouwen als stil. Tussen de 40 dB(A) en 50 dB(A) zijn producten duidelijk hoorbaar. Waarden boven de 50 dB(A) zijn luidruchtig.

De nieuwe Founders Editions zijn in idle niet de stilste, met fans die altijd blijven draaien. Onder belasting is de geluidsproductie juist vrij beperkt, wat best een nette prestatie is gezien het verbruik hoger ligt dan bij de voorgaande generatie.

Conclusie

Het is alweer ruim twee jaar geleden dat Nvidia de 10-serie videokaarten introduceerde. Sindsdien was de videokaartenmarkt spraakmakend, maar niet om redenen die we graag zien, zoals spectaculaire toenames in prestaties of snelle ingebruikname van de low-level API's. In plaats daarvan ging het over de mining-gekte, waarbij videokaarten steeds schaarser werden en prijzen omhoog schoten. Met de GeForce RTX 2080 en RTX 2080 Ti zorgt Nvidia er eindelijk voor dat we weer over nieuwe hardware kunnen praten.

Gamen op hogere resoluties is anno 2018 geen niche meer, maar die betaalbare 4K-monitoren moeten nog wel aangedreven worden door een stevige videokaart. Kortom, de nieuwe generatie videokaarten is iets waar menig gamer en hardwareliefhebber reikhalzend naar heeft uitgekeken - helemaal met de genoemde ontwikkelingen in het achterhoofd. Het wachten op Nvidia's Turing is eindelijk voorbij, maar wat verandert er voor jou als gebruiker nu bij de keuze voor een videokaart?

Innovatie zonder concurrentie

Het mag Nvidia worden nagegeven: het bedrijf innoveert met de Turing-architectuur in meerdere opzichten. Waar we in het cpu-landschap in tijden van minimale concurrentie amper innovatie zagen, is dat bij Nvidia vooralsnog anders. Het bedrijf heeft de ruime meerderheid van de gpu-markt in handen, en verovert al generaties lang de prestatiekroon. Dat heeft Nvidia er niet van weerhouden om met Turing een radicaal andere aanpak te kiezen voor het renderen van games. Van simpelweg een geoptimaliseerde versie van de Pascal-architectuur is dus allerminst sprake.

De Turing-architectuur met RT- en Tensor-cores is dermate anders dan wat we bij Pascal zagen, dat hedendaagse games niet direct voordeel halen uit de meeste veranderingen en aanpassingen. Uiteraard zorgen de optimalisaties in de Streaming Multiprocessors - en simpelweg de verhoging van het aantal rekeneenheden - voor een prestatiewinst. Toch zal een aanzienlijk deel van de gigantische Turing-die's ongebruikt blijven tijdens het renderen van de huidige generatie games. Alleen games die ondersteuning hebben ingebouwd voor raytracing en/of DLSS, profiteren van de nieuwe hardwarematige features die Turing aan boord heeft.

Nieuw prestatieniveau, maar een manke prijs-prestatieverhouding

Voor hedendaagse games zien we dus geen opmerkelijke sprong wat betreft prestaties, al zijn deze wel naar een hoger niveau getild. Als we de Prestatiescore erbij pakken, zien we dat de RTX 2080 op 4K ultra 7,7 procent sneller is dan de GTX 1080 Ti en 40 procent sneller is dan de GTX 1080. De RTX 2080 Ti is zelfs 35 procent sneller dan zijn voorganger, de GTX 1080 Ti, en bereikt daarmee een nieuw prestatieniveau.

RTX 2080 Ti vs GTX 1080 Ti

Dat de nieuwe Turing-kaarten hogere prestaties leveren is mooi, maar helaas staat daar ook een flink prijskaartje tegenover. De RTX 2080 Ti Founders Edition krijgt een adviesprijs van 1259 euro mee, zo'n 48 procent hoger dan de gemiddelde prijs van veel GTX 1080 Ti's in de Prijsvergelijker. De custom versies van de RTX 2080 Ti zullen een vanaf-prijs krijgen van zo'n 1050 euro, wat zo'n 25 procent duurder is dan een gemiddelde GTX 1080 Ti op dit moment. Voor die meerprijs krijg je prestaties die dus gemiddeld 35 procent hoger liggen. Nu is er weliswaar vrijwel nooit een lineair verband tussen prijs en prestaties in het high-end segment, maar twee jaar na de komst van Pascal hadden we toch op een betere prijs-prestatieverhouding gehoopt.

RTX 2080 vs GTX 1080

Bij de RTX 2080 is dat ten opzichte van de GTX 1080 ook het geval. Deze Turing kost in de vorm van een Founders Edition 849 euro, 46 procent meer dan de GTX 1080. Van deze kaart zullen custom versies een vanaf-prijs van zo'n 750 euro krijgen, wat op een meerprijs van ongeveer 30 procent uitkomt ten opzichte van de gemiddelde GTX 1080 op dit moment. In de Prestatiescores zien we dat de nieuwe gpu 40 procent sneller is, wat ook hier weer betekent dat hogere prestaties mogelijk zijn door bij te betalen.

RTX 2080 vs GTX 1080 Ti

De RTX 2080 tegenover de GTX 1080 Ti is tenslotte ook nog een interessante vergelijking. De RTX 2080 is iets sneller, maar ook duurder. De Founders Edition kost rond de 100 euro extra - oftewel 14 procent meer - ten opzichte van de gemiddelde GTX 1080 Ti in de Prijsvergelijker. Nogmaals, custom versies van de RTX 2080 zullen naar verwachting op minimaal 750 euro uitkomen, wat niet veel goedkoper is dan de meeste GTX 1080 Ti's op dit moment. Met de RTX 2080 heb je dus prestaties die ruim 7 procent hoger liggen dan die van de GTX 1080 Ti, en kun je met raytracing aan de slag in games die daar ondersteuning voor bieden. Tegelijkertijd moeten we ook hier concluderen dat twee jaar na de komst van Pascal een licht verbeterde prijs-prestatieverhouding een vrij sombere uitkomst is.

Real time raytracing voor de massa?

De nieuwe videokaarten van Nvidia die we in deze review hebben besproken, maken het mogelijk om real-time raytracing aanvullend op rasterization uit te voeren, en zo mooiere en realistischer effecten te renderen. Wie het geld er voor over heeft, kan dus kiezen voor de aanschaf van een RTX 2080 of de nog duurdere RTX 2080 Ti. De komst van de meer betaalbare RTX 2070, die over dezelfde hardwarematige features beschikt, laat nog even op zich wachten. Het blijft echter de vraag hoeveel procent van de gamers over enige tijd beschikt over hardware met toegewijde raytracing-cores; het gerucht gaat dat Nvidia op een eventuele RTX of GTX 2060 geen RT- of Tensor-cores zal plaatsen.

Zolang slechts een kleine minderheid van gamers over deze hardware beschikt, zal er voor ontwikkelaars ook minder reden zijn om uit eigen beweging ondersteuning voor raytracing in hun spellen in te bouwen. Dit kip-ei-probleem doet zich uiteraard vaker voor bij nieuwe hardware features, maar Nvidia's prijsniveau zal niet helpen bij de acceptatie ervan.

Onder de streep

Nvidia's nieuwe RTX-kaarten leveren prestaties die voorheen niet mogelijk waren met een enkele videokaart en bieden dankzij de toevoeging van Tensor- en RT-cores daar bovenop nog een flinke hoeveelheid nieuwe functionaliteit. Technisch vooruitstrevend zijn de kaarten zonder meer en daar mogen we Nvidia mee complimenteren.

Als we echter puur naar de prestaties in bestaande (niet RTX) games kijken, moeten we concluderen dat hoewel het absolute prestatieniveau ten opzichte van de vorige generatie flink is gestegen, de prijs-prestatieverhouding nauwelijks verschilt met die van de GTX 10-serie kaarten. Je moet dus simpelweg meer betalen als je meer prestaties wil. Dat is duidelijk een trendbreuk met voorgaande introducties van nieuwe generaties Nvidia-kaarten, waarbij je in de regel voor een gelijkaardig prijsniveau als bestaande kaarten aanzienlijk betere prestaties kreeg.

Het prestatieniveau dat een RTX 2080 Ti neer kan zetten is goed nieuws voor de liefhebber met diepe zakken die tot vandaag moest uitwijken naar een 1080 Ti in SLI, omdat een enkele videokaart in de regel beter en consistenter presteert. Het is de eerste videokaart waarbij de combinatie 4K en HDR in principe altijd tot uitstekende framerates leidt.

Kies je nu een RTX 2080 in plaats van een GTX 1080 Ti, dan krijg je voor ongeveer even veel geld ook even veel prestaties, maar blijft het voordeel dat je bij de nieuwe kaart over de allernieuwste features beschikt. In principe is dit een uitstekende kaart voor wie wil gamen in 4K-resolutie.

Wat de nieuwe features betreft: de fonkelnieuwe hardware is beschikbaar, nu de software nog. Wie niet in het allerhoogste prijssegment shopt voor een nieuwe videokaart én niet direct warm loopt voor ray-tracing en/of AI, kan zich in ieder geval verheugen op flinke prijsstunts met de oude GTX 10-serie videokaarten in de komende maanden.


Besproken producten

Vergelijk alle producten

Vergelijk  

Product

Prijs

Nvidia GeForce RTX 2070 8GB

Nvidia GeForce RTX 2070 8GB

  • TU106
  • 2304 cores
  • 1410 MHz
  • 8192 MB
  • 256 bit
  • DirectX 12 fl 12_1
  • PCI-Express 3.0 x16
Niet verkrijgbaar
Nvidia GeForce RTX 2080 8GB

Nvidia GeForce RTX 2080 8GB

  • TU104
  • 2944 cores
  • 1515 MHz
  • 8192 MB
  • 256 bit
  • DirectX 12 fl 12_1
  • PCI-Express 3.0 x16
Niet verkrijgbaar
Nvidia GeForce RTX 2080 Ti 11GB

Nvidia GeForce RTX 2080 Ti 11GB

  • TU102
  • 4352 cores
  • 1350 MHz
  • 11264 MB
  • 352 bit
  • DirectX 12 fl 12_1
  • PCI-Express 3.0 x16
Niet verkrijgbaar
0
*