Dit zijn de nieuwe Intel CPU en GPU architecturen - alles van Intel Architecture Day 2018

40 reacties
Inhoudsopgave
  1. 1. Intel Architecture Day 2018
  2. 2. "Architecture Era"
  3. 3. Process en packaging: 10 nm status en chips stapelen voor gevorderden
  4. 4. Foveros demochip: big.LITTLE op z’n Intels
  5. 5. Sunny Cove CPU-architectuur belooft flink verbeterde IPC
  6. 6. Sunny Cove in detail
  7. 7. GPU’s: Eerste geïntegreerde teraflop GPU, nieuwe Xᵉ-architectuur & Gen11
  8. 8. Geheugen, interconnects, security en software
  9. 9. Afsluitend
  10. 10. Reacties

Intel Architecture Day 2018

Voor het eerst sinds lange tijd gunde Intel een selecte groep techmedia, waaronder Hardware.Info, een blik in de toekomstplannen, op zijn Architecture Day 2018. Hoewel het geen concrete producten aankondigde, introduceerde Intel een recordaantal nieuwe technologieën, waaronder nieuwe cpu- en gpu-architecturen, nieuwe chip packaging-technieken, een prototype chip die Atom- en high-end-cores combineert, en nog veel meer. In dit artikel lees je er alles over.

Veel nieuwe, bekende gezichten

Wie het nieuws over Intel heeft gevolgd, weet dat de chipgigant het afgelopen jaar meerdere zwaargewichten van concurrerende bedrijven heeft binnengehaald. De meest in het oog springende nieuwe Intel-medewerkers zijn Raja Koduri, tot ongeveer een jaar geleden hoofd van de Radeon-tak bij AMD, en Jim Keller, één van de beroemdste cpu-designers ter wereld. Keller heeft onder andere de AMD K8 (en daarmee de x86-64 architectuur), de Apple A5, AMD’s Zen-architectuur en recent diverse innovaties bìj Tesla op zijn naam.


Raja Koduri tijdens de Intel Architecture Day 2018

Ook aan de marketing-kant zijn er de nodige nieuwe gezichten bij Intel: vlak na Koduri maakte ook Chris Hook, één van AMD’s top marketingmensen, de overstap naar Intel, gevolgd door verschillende andere AMD-medewerkers. Recenter volgden onder andere Ryan Shrout, voormalig eigenaar van techsite PC Perspective, en Jon Carvill, een marketingveteraan die eerder onder andere bij AMD, Global Foundries, Qualcomm en Facebook werkte.

Blik in de toekomst

Koduri en Keller hebben duidelijk hun stempel gedrukt op de roadmap van Intel, niet alleen op het van deze heren te verwachten vlak van cpu's en gpu's, maar veel dieper. Tegelijkertijd hebben de marketingmannen ervoor gezorgd dat Intel eindelijk weer uit zijn schulp is gekropen om techjournalisten en daarmee de rest van de wereld een blik in de toekomst te geven. De toegenomen concurrentie door partijen als AMD, Qualcomm en Nvidia op de fronten van desktop/server-, laptop- en AI-chips zal daar ook zeker aan hebben bijgedragen.

De veranderingen die Koduri, Keller en anderen in korte tijd hebben doorgevoerd op de Intel roadmap, maakten samen met de hernieuwde open communicatie de Intel Architecture Day 2018 tot een uniek evenement, met heel veel informatie. In dit artikel nemen we de belangrijkste aankondigingen met je door.

"Architecture Era"

Traditiegetrouw berustte het succes van Intel in de chipmarkt op twee zaken: het bedrijf liep altijd voorop op het vlak van chipproductie en het had (vrijwel) altijd de meest geavanceerde chipontwerpen. Met deze combinatie wist de Intel de afgelopen tientallen jaren alle concurrentie af te troeven in de markten voor servers, desktops en laptops. De laatste tijd is die voorsprong echter minder vanzelfsprekend geworden. We hebben op Hardware.Info veel geschreven over de grote moeite die Intel heeft om zijn nieuwe 10 nm productieprocedé op gang te krijgen, en qua processor-architectuur zit AMD met zijn Zen-architectuur Intel op de hielen.

De komende 10 jaar zullen we meer vooruitgang zien op het vlak van CPU-architecturen dan in de afgelopen 50 jaar.

Aan het begin van de serie presentaties van de Architecture Day gaf Koduri aan dat de komende jaren een voorsprong op het vlak van productietechnologie belangrijk is, maar niet meer zo belangrijk als voorheen. Voor alle chipontwikkelaars, niet alleen voor Intel, wordt het werkend krijgen van nieuwe productie-nodes steeds uitdagender.

Volgens Koduri moet de voortdurende versnelling van computerchips de komende jaren veel meer komen van het slimmer maken van chips (door betere architecturen), dan erop te blijven vertrouwen dat kleinere transistors simpelweg de mogelijkheid bieden om meer cores in een chip te stoppen, of de klokfrequenties te verhogen. Desalniettemin nam Koduri tijdens de opening duidelijk stelling: "De komende 10 jaar zullen we meer vooruitgang zien op het vlak van cpu-architecturen dan in de afgelopen 50 jaar".

Koduri noemt de komende periode dan ook de architecture era, na de megahertz era van ca. 1980 tot de eeuwwisseling, waarin een alsmaar stijgende klokfrequentie de primaire reden was voor hogere prestaties, en de multi-core era van de afgelopen jaren waarin juist het verhogen van het aantal cores de primaire methode is geweest om chips sneller te maken.


De komende jaren hoeven we weinig stijging van klokfrequenties te verwachten. Ook de snelheid waarin transistors verkleind kunnen worden neemt af. Verdere toename van prestaties en efficiëntie bij cpu's, gpu's en andere chips moet primair door verbeterde architectuur mogelijk worden.

Zes speerpunten

Bovenal gaf Koduri aan dat Intel vanaf nu zes speerpunten heeft: chip-productie (process), architectuur, geheugen, interconnects, beveiliging (security) en software. Het bedrijf heeft zich tot doel gesteld op al deze fronten voorop te (blijven) lopen. Het is juist door de gecombineerde voorsprong op al deze fronten dat Intel als geen ander toegerust is om de beste producten voor de workloads van de toekomst op de markt te brengen, aldus Koduri.


De zes zaken waar Intel in voorop wil lopen

De verschillende aankondigingen tijdens de Architecture Day zijn stuk voor stuk te herleiden tot deze zes pilaren. En zoals gezegd, er is veel nieuws…

Process en packaging: 10 nm status en chips stapelen voor gevorderden

Laten we Intels zes speerpunten maar één voor één afpellen, om te beginnen bij productieprocedé’s. Tijdens het event gaf Intel eerlijk toe dat het bij het ontwikkelen van het nieuwe 10 nm productieprocedé tegen meer problemen dan ooit is aangelopen. Nog steeds is het wachten op de eerste 10 nm chips die in grote aantallen geproduceerd worden, terwijl dat volgens oorspronkelijke roadmaps al jaren geleden had moeten gebeuren.

De les van 10 nm

Tijdens een vraaggesprek aan het eind van de dag stelden we Intel de vraag wat de belangrijkste les was die men had getrokken uit de hele situatie rond 10 nm. Het antwoord was verfrissend en iets wat we niet eerder van Intel hebben gehoord: waar tot nu nieuwe cpu-architecturen (en andere chipontwerpen) op één productieprocedé toegespitst ontwikkeld worden, moeten toekomstige chipontwerpen veel flexibeler worden, zodat pas relatief kort voor introductie (circa een jaar) bepaald kan worden op welk procedé een nieuwe technologie daadwerkelijk geïntroduceerd wordt. Intel gaf eerlijk toe dat verschillende nieuwe technologieën die het al jaren in ontwikkeling heeft voor 10 nm cpu’s (zie ook de volgende pagina) niet naar voren konden worden getrokken naar de ingelaste extra 14 nm generaties als Coffee Lake, Whiskey Lake en Amber Lake, simpelweg omdat het bij de ontwikkeling te veel vastzat aan het specifieke 10 nm proces.

10 nm komt er echt aan...

Desalniettemin: 10 nm komt er daadwerkelijk aan. Recente geruchten dat Intel het hele 10 nm-procedé zou overslaan en direct zou overstappen naar 7 nm berusten volgens Intel niet op waarheid. We mogen volgend jaar de nodige 10 nm-processors verwachten. Toch is het bij presentaties als deze minstens zo interessant om te luisteren naar wat niet wordt gezegd, als naar wat wel wordt gezegd. Zo werd de Cannon Lake chipgeneratie, de vorig jaar geïntroduceerde 10 nm Core i3-chips die in extreem kleine aantallen zijn weg vond naar een handvol laptops, tijdens de gehele dag doodgezwegen.

...maar Cannon Lake zal nooit in grotere aantallen op de markt komen.

Zijdelings kwam Cannon Lake wel aan bod. In de sessies over nieuwe gpu-architecturen (zie volgende pagina) werd “Generatie 11” geïntroduceerd als opvolger van “Generatie 9”, de gpu die nu in de Kaby Lake, Coffee Lake, Whiskey Lake en ander recente Intel processors zit. Generatie 10 zou de gpu moeten zijn in Cannon Lake, maar die is in deze in zeer kleine oplage geïntroduceerde chip uitgeschakeld. Hoewel niet keihard bevestigd gisteren, kunnen we op basis van off-the-record gesprekken met ingenieurs wel concluderen dat de Gen 10 gpu niet werkt, nooit gaat werken en dat de Cannon Lake processors nooit in grotere aantallen op de markt zullen komen. Intel zal bij de volgende generatie 'Ice Lake' chips 10 nm-processors in massaproductie nemen.

Wat Intel ons toonde is dat er na het initiële 10 nm-procedé (zoals gebruikt voor Cannon Lake) twee geoptimaliseerde 10 nm-procedés komen, 1274.7 en 1274.12 in intern jargon. Daarnaast is er inmiddels een 10 nm-procedé gereed dat specifiek geoptimaliseerd is voor I/O-chips, met de codenaam 1273. Er wordt op dit moment druk ontwikkeld aan toekomstige 7 nm-procedés (1276 voor compute en 1375 voor I/O) en er wordt geëxperimenteerd met nieuwe technologieën voor opvolgende procedés.

Hoewel Intel het niet expliciet zei en het ook achteraf niet wilde bevestigen, zou het ons niets verbazen als de eerste 10 nm chips in massaproductie gebruik maken van het 1274.7 geoptimaliseerde procedé, dat we voor het gemak maar 10 nm+ noemen.


Na het initiële 10 nm-procedé komen er twee geoptimaliseerde processen. 7 nm wordt op dit moment ontwikkeld.

Ook Intel aan de chiplets… en niet alleen naast elkaar!

Intel geeft echter wel duidelijk aan dat een nieuwe productieprocedé niet per definitie altijd beter is voor alle doeleinden. Zo kunnen cpu-cores goed profiteren van kleinere transistors, maar kan voor bijvoorbeeld I/O-logica (denk aan geheugencontrollers, pci-express controllers, etc.) juist beter zijn om deze op bewezen, grotere productieprocedés te maken – ofwel omdat dit beter werkt, ofwel om kosten te besparen. Intel voorziet zodoende een toekomst waar processors bestaan uit meerdere losse mini-chips, zogenaamde chiplets, die samen in één chipverpakking zitten.


Voor verschillende soorten chips zijn er verschillende wensen en eisen qua prestaties, stroomverbruik en kosten.

Waar hebben we dat ook alweer eerder gehoord? Juist, een paar weken geleden bij AMD’s aankondiging van de Zen 2 architectuur en de Epyc Rome server-CPU’s. Bij die processors combineert AMD een achttal op 7 nm geproduceerde 8-core CPU-chiplets met een op 14 nm geproduceerde I/O-die. Deze communiceren met elkaar via AMD’s Infinity Fabric-technologie via een zogenaamde interposer.

Terug naar Intel: ook Intel heeft technologie in huis om meerdere chips in één processor te combineren, en doet dat naar eigen zeggen beter dan wie dan ook. Een nieuwe technologie genaamd Foveros, Grieks voor “uniek”, maakt het mogelijk voor Intel om zijn chips contactpunten te geven die slechts 36 micrometer breed zijn, waardoor het mogelijk is 828 contactpunten per mm² te plaatsen. Meerdere chips kunnen bovendien niet alleen naast elkaar geplaatst worden op een interposer, maar vooral ook bovenop elkaar.


Foveros biedt de mogelijkheid om meerdere chips naast elkaar te plaatsen op een interposer.

Foveros demochip: big.LITTLE op z’n Intels

Die mogelijkheid om chips te stapelen maakt Foveros extra interessant. Tijdens het evenement demonstreerde Intel een chip die volgens de fabrikant oorspronkelijk op verzoek van een grote klant was ontwikkeld, maar in 2019 voor alle Intel klanten beschikbaar komt. Deze chip, waarvan we niet eens een codenaam te horen kregen, is een complete SoC inclusief geheugen op een oppervlak van 12x12 millimeter. Dankzij de Foveros-technologie zijn een I/O-chip, een 10 nm chip met CPU/GPU-cores én ram-geheugen op elkaar gestapeld.


Deze chip met geïntegreerd ram-geheugen moet volgend jaar op de markt komen voor ultra-dunne laptops en tablets.

Het feit dat het Intel is gelukt om I/O, compute en geheugen bovenop elkaar te stapelen, is misschien niet eens het meest bijzondere aan de getoonde Foveros demochip. Deze chip is namelijk ook de eerste Intel-processor met twee soorten cores: de processor bevat twee high-performance (“Core”) cores en twee zuinige (Atom) cores. ARM’s big.LITTLE op z’n Intels dus!

Men demonstreerde de chip werkend met een workload die duidelijk liet zien dat tijdens het afspelen van video enkel de efficiënte cores actief zijn; zodra er meer rekenkracht vereist is om het systeem snel te laten reageren (tijdens de demo door het openen van het Windows startmenu) wordt de snelle cores actief.

Hoewel Intel geen extra specificaties en eigenschappen van de chip bekend wilde maken, is wel duidelijk dat het zich met deze chip wil gaan richten op apparaten met “multi-day battery life” (lees: 25+ uur), apparaten die tot een maand standy-by kunnen blijven en dankzij een optionele 4G/5G-verbinding always connected zijn. Ook dat hebben we recent eerder gehoord… namelijk een week geleden, toen Qualcomm de Snapdragon 8cx chip aankondigde met vergelijkbare beloftes. Het lijkt er dus op dat Intel een antwoord klaar heeft liggen, waarbij het bedrijf natuurlijk als voordeel heeft dat zijn processors native x86 spreken er dus voor geen enkele Windows-toepassing emulatie vereiste is.

Uit een gesprek dat we tijdens het evenement hadden met één van de ontwikkelaars van de chip blijkt dat Windows 10 sinds de Oktober 2018 update (RS5) geschikt is voor Intels big.LITTLE-tegenhanger. Oftewel: de software is er helemaal klaar voor wanneer de chip volgend jaar op de markt komt. Overigens is Intel zich er terdege van bewust dat niet alleen de SoC nog een goede naam moet krijgen, maar juist ook de technologie die de twee core-soorten combineert.


De demo-opstelling van de 12x12mm Foveros chip met high-performance én Atom-cores.


De demo-opstelling in close-up.

Tot zover de vernieuwingen voor wat betreft process-technologie en chipverpakkingen. Hoe zit het met nieuwe architecturen? Ook op dit vlak gunde Intel ons een mooie kijk in de keuken: we kregen de eerste details te horen van de toekomstige Sunny Cove cpu-architectuur, die gebruikt gaat worden voor de eerste 10nm-processors die in groot volume geproduceerd gaan worden.

CPU-cores worden voortaan aangeduid als cove (kreek), CPU's als lake (meer)

“Cove?!” zul je misschien denken. Inderdaad, Intel gaat vanaf nu iets anders met codenamen om. Tot nu toe gebruikte het dezelfde codenaam voor cpu-cores als voor de chips waarin deze gebruikt worden. De Kaby Lake cores bijvoorbeeld, worden gebruikt in uiteenlopende gelijknamige chips: Kaby Lake-S voor desktops, Kaby Lake-R voor laptops, etc. Aangezien het niet exact duidelijk is wanneer Intel (of wij techpublicaties) doelen op een cpu-core of juist een complete chip wanneer we refereren aan één van de vele lakes, gaat Intel vanaf nu de cores eigen codenamen geven. Dat doet het in elk geval volgens enige logica: omdat een cpu-core kleiner is dan de complete chip waarvan hij onderdeel uitmaakt, blijven de chips meren (lakes) en worden de kernen getypeerd als kreken (coves).

Na Sunny Cove komen Willow Cove (2020) en Golden Cove (2021)

Sunny Cove zal gebruikt worden in de eerste 10 nm chips; vermoedelijk Ice Lake, al werd dat ook na vragen van ons daarover niet expliciet bevestigd. Sunny Cove komt in 2019, wordt in 2020 opgevolgd door Willow Cove en in 2021 door Golden Cove. De belangrijkste ontwerpdoelstellingen voor Sunny Cove waren het verbeteren van single threaded-prestaties, het toevoegen van nieuwe instructies voor het versnellen van o.a. AI en Blockchain en het verbeteren van de schaalbaarheid van de cores. Voor Willow Cove mogen we een herontwerp van de caches, nieuwe transistoroptimalisaties en nieuwe security features verwachten. Golden Cove moet de single threaded-prestaties, AI-prestaties, network/5G-prestaties en beveiligingsfuncties weer verder verbeteren.

Atom roadmap

Overigens blijft Intel niet alleen met high-performance rekenkernen aan de weg timmeren. Ook voor de energiezuinige Atom-cores toonde het een roadmap met Tremont in 2019, Gracemont in 2021 en “Next mont” 2022. Voor Tremont richt Intel zich ook op het verbeteren van single-threaded prestaties, als ook het verbeteren van I/O-prestaties voor gebruik in micro-servers en het verbeteren van efficiëntie voor gebruik in mobiele toepassingen. Voor Gracemont en later richt men zich op het verder verbeteren van single-threaded prestaties, klokfrequentie als ook vectorprestaties.


Een nieuwe roadmap met de verschillende CPU-cores die we komende jaren van Intel mogen verwachten.

Sunny Cove in detail

Met Sunny Cove wil Intel zoals geschreven de prestaties van de de architectuur verder verbeteren. Zoals bekend zijn de prestaties van een processor in principe te omschrijven als de klokfrequentie maal het gemiddeld aantal instructies dat per klokslag kan worden verwerkt, de zogenaamde IPC (Instructions Per Clock). Wanneer er, zoals beschreven op pagina 1 van dit artikel, weinig rek meer zit in de klokfrequentie, moet de winst dus uit een verbeterde IPC komen. Dat is dan ook waar bij Sunny Cove de winst moet zitten – al wilde Intel hier nog geen percentages voor noemen.


De back-end van Sunny Cove vergeleken met die van Skylake

Ronak Singhal, chief core architect bij Intel en daarmee hoofdverantwoordelijk voor de architectuur van Intels high-performance cpu-cores, toonde bovenstaande blokschema’s van de backend van de Skylake architectuur en van de nieuwe Sunny Cove architectuur. Vergeet niet dat de Skylake architectuur ook de basis vormt voor Kaby Lake, Coffee Lake, Whiskey Lake en Amber Lake, oftewel alle 14 nm-processors sinds Broadwell. Een (klein) aantal van de verbeteringen in Sunny Cove zal overigens vermoedelijk ook al in de 10 nm Cannon Lake chip zitten, maar daarover heeft Intel nooit een uitgebreide presentatie gegeven en aangezien de chip in principe nooit echt op de markt zal komen, zal dat ook waarschijnlijk ook nooit meer gebeuren.

Singhal beperkte zich voor wat betreft echte details in zijn Sunny Cove preview tot de back-end, de laatste stappen van de CPU-pipeline, maar gaf aan dat in de front-end ook de nodige verbeteringen zijn doorgevoerd. Volgens Singhal is de prestatiewinst van Sunny Cove te danken aan het feit dat de architectuur dieper is (meer instructies kunnen tegelijkertijd in beeld zijn), breder is (meer instructies kunnen tegelijkertijd uitgevoerd worden) en bovenal slimmer is (lees: nieuwe algoritmes en slimmigheden om de verwerking van instructies te versnellen).

"Diepere" architectuur

Om met dieper te beginnen. Zoals bekend bevat iedere CPU-core meerdere execution units die instructies van bepaalde types kunnen uitvoeren. Om zo hoog mogelijke prestaties te behalen is het zaak om alle execution units zo veel mogelijk bezig te houden. Wanneer je programmacode simpelweg in de standaard volgorde uitvoert, heb je in de regel nooit voldoende variëteit in instructies om alle execution units gevuld te houden. Vandaar dat moderne processors instructies in geoptimaliseerde volgorde uitvoeren (out-of-order) om zo veel en zo vaak mogelijk combinaties van instructies gelijktijdig richting de execution units te kunnen sturen. Omdat er in programmacode vaak afhankelijkheden zijn van eerdere instructies (als dit, doe zus, anders zo…) moet een processorarchitectuur voor dergelijke vertakkingen vooraf inschatten welke programmapad het meest waarschijnlijk is, om instructies daarvan alvast te gaan verwerken. Dit is waar de branch predictor om de hoek komt kijken.

Als instructies in geoptimaliseerde volgorde uitgevoerd worden, moet de processor uiteraard wel de oorspronkelijke volgorde van instructies bijhouden om resultaten uiteindelijk in de juiste volgorde op te leveren. Deze oorspronkelijke volgorde wordt bijgehouden in de reorder buffer en die is volgens Singhal bij Sunny Cover aanzienlijk vergroot (al is niet duidelijk met hoeveel procent). Datzelfde geldt voor de reservation stations. In deze buffers worden instructies opgespaard om verwerkt te worden door de execution units en de load and store buffers, waarin benodigde data voor instructies c.q. resultaten van instructies worden bewaard. Het eindresultaat van deze aanpassingen: het blikveld van de cpu-core is vergroot; er kunnen meer instructies tegelijkertijd in verwerking zijn, waardoor de kans dat alle execution units op ieder moment in tijd bezig kunnen zijn, wordt vergroot. Om ervoor te zorgen dat de hoeveelheid in cache beschikbare data in verhouding blijft, is de L1 datacache verhoogd van 32 kB naar 48 kB en wordt de L2-cache verhoogd van (afhankelijk van de implementatie) 256/512 kB nu naar nog niet gedefinieerde hogere waardes.


Dankzij grotere buffers en grotere caches kan Sunny Cove meer instructies gelijktijdig in beeld houden, waardoor de execution units beter gevuld kunnen worden.

Bredere architectuur

Naast dieper is de architectuur ook breder gemaakt. Zoals je op de afbeelding bovenaan deze pagina kon zien, heeft iedere Skylake core 8 execution units. Dat aantal is bij Sunny Cove verhoogd naar 10 stuks. In theorie zou je dus kunnen zeggen dat bij een optimale mix van instructies een Sunny Cove core 25% sneller kan zijn. Nu zal het zelden voorkomen dat alle 10 de execution units gelijktijdig actief kunnen zijn, maar door verschillende EU’s meer functies te geven, zorgt Intel er ook nog eens voor dat er meer instructies parallel uitgevoerd kunnen worden. Zo zijn er nu twee store units in plaats van één voor het wegschrijven van data naar cache/geheugen, zijn de integer units flexibeler geworden (zo kunnen alle vier nu LEA-instructies uitvoeren, en zijn er nieuwe integerfuncties) en kunnen nu twee floating point units in plaats van één hiervan shuffle-instructies uitvoeren, die onder andere belangrijk zijn voor encryptie en compressie.


Het aantal execution units stijgt van 8 naar 10. Bestaande execution units krijgen meer functies. In het beste geval zorgt dit al voor 25% prestatiewinst.

Slimmere architectuur

Dan is er het aspect van het slimmer maken van de architectuur. We schreven al dat de branch predictor opnieuw flink verbeterd is, wat één onderdeel hier van is. Bovendien zijn de wachttijden om data uit L1-cache geheugen te halen flink verminderd, en zijn er nieuwe mogelijkheden, zoals het in één klokslag uitvoeren van delingen op integers.


Op veel vlakken is de nieuwe Sunny Cove architectuur ook slimmer.

Daar komt bij dat Sunny Cove diverse nieuwe instructies krijgt. Veel daarvan zijn voor het versnellen van cryptografie-algoritmes, belangrijk voor zaken als encryptie of blockchain. Twee voorbeelden van nieuwe instructies zijn een vector versie van de AES-NI instructies (waarmee er dus op meerdere stukken data tegelijkertijd AES-encryptie uitgevoerd kan worden) en nieuwe instructies om hashing volgens het SHA-algoritme te versnellen. Men toonde een live-demo van een nieuwe versie van 7Zip, die door Intel was voorzien van ondersteuning voor de nieuwste instructies - en daardoor data ruim 70% sneller kon versleutelen dan met de conventionele versie.


Sunny Cove krijgt verschillende nieuwe instructies, onder andere op het vlak van cryptografie.


Dankzij nieuwe instructie kan Sunny Cove (rechts) data ruim 70% sneller versleutelen dan de bestaande Intel architectuur (Kaby Lake).

Tussenpaus: Cascade Lake

Overigens gaf Singhal ook nog wat inzichten in wat we van Cascade Lake mogen verwachten, Intels op korte termijn verschijnende nieuwe (en als het goed is laatste) 14 nm generatie server-cpu’s. Deze processors krijgen een reeks nieuwe instructies die eerder bekend stonden als VNNI (Vector Neural Net Instructions) en inmiddels de marketingnaam DL Boost hebben gekregen. DL Boost moet ervoor zorgen dat AI-workloads sneller worden voltooid, door betere ondersteuning te bieden voor het parallel uitvoeren van instructies op Int8 en Int16 data. 8-bit integers beginnen langzaam de standaard te worden voor machine learning (geen wonder dat GPU-fabrikanten er ook steeds betere ondersteuning voor bieden) en Intel belooft voor dit datatype een drie keer hogere doorvoersnelheid in AI-workloads dan bij Skylake. Laat duidelijk zijn: deze nieuwe DL Boost functionaliteit zit ook in Sunny Cove.


Al wat eerder op de markt dan Sunny Cove: de Cascase Lake server-CPU’s zijn beter geschikt voor AI.

GPU’s: Eerste geïntegreerde teraflop GPU, nieuwe Xᵉ-architectuur & Gen11

Intel werkt niet alleen aan nieuwe cpu-architecturen, maar ook aan nieuwe gpu's. Niet voor niets heeft het een jaar geleden Raja Koduri bij AMD weggekaapt. Eerder maakte het bedrijf al bekend dat we in 2020 losse videokaarten van Intel mogen verwachten; die belofte werd tijdens het evenement nogmaals onderstreept. Nieuw is dat we de naam te horen kregen van de volledig nieuwe architectuur waarop deze gpu's gebaseerd zullen zijn: Xᵉ.

We spreken expliciet over gpu’s in plaats van gpu, want Intel gaf aan twee varianten van de Xᵉ-architectuur te maken: één geoptimaliseerd voor clients (en dus ook, zo mogen we aannemen, gaming) en de tweede geoptimaliseerd voor datacenters. Met die laatste variant wil men rekensnelheden tot 1 petaflops (een biljard FP32-instructies per seconde) bereiken. Aangezien dat circa 64 maal het prestatieniveau van een Nvidia Titan RTX is, zal men hier vast doelen op servers met meerdere (vele) Xᵉ gpu’s aan boord. Desalniettemin moge duidelijk zijn dat Intel hoog inzet. Verdere details wilde men nog niet bekend maken: buiten de codenaam en de herbevestiging dat de eerste producten in 2020 op de markt komen, wilde Intel over Xᵉ helaas weinig kwijt.


De architectuur voor Intels toekomstige losse videokaarten luistert naar de naam Xᵉ. Men werkt aan varianten voor zowel consumententoepassingen (lees: gaming) als voor datacenters.

Gen11

Waar Intel een stuk meer over wilde vertellen is de volgende generatie geïntegreerde graphics, Gen11. Deze nieuwe gpu wordt onderdeel van de eerste massaproduceerde 10nm-processors. Zoals we al schreven presenteert Intel Gen11 als opvolger van Gen9, onderdeel van de huidige Intel processors. Gen10 is de gpu van de 10 nm Cannon Lake processors en die is nooit geactiveerd, zal ook nooit geactiveerd worden en als we Intel goed begrijpen zullen die processors überhaupt dus nooit in massaproductie komen.

Wat mogen we dan verwachten van de nieuwe, 11e generatie geïntegreerde graphics? Allereerst, aanzienlijk betere prestaties. Volgens Intel wordt Gen11 Intels eerste geïntegreerde gpu die meer dan een biljoen FP32 berekeningen per seconde kan uitvoeren (1 teraflops in jargon). Hoewel de ene gpu-architectuur zeker niet klakkeloos vergeleken mag worden met de andere, mag je dan ongeveer uitgaan van een prestatieniveau van ruwweg een Nvidia GeForce GT 1030 (1,1 TFlops) c.q. dat van de geïntegreerde GPU van de AMD Ryzen 3 2200G (1,13 TFlops). Daarmee komt Intel nog steeds niet op het prestatieniveau van AMD’s snelste geïntegreerde GPU’s, maar maakt het wel een flinke inhaalslag.


Met de nieuwe Gen11 geïntegreerde graphics gaat Intel voor het eerst de grens van 1 teraflops voorbij.

Daarnaast moet Gen11 meer verbeteringen bieden dan louter prestaties. De nieuwe architectuur is volgens Intel ook efficiënter, biedt uiteenlopende nieuwe 3D-, media- en displaymogelijkheden en moet bovenal een betere gaming experience bieden.  

Van 24 naar 64 EU's

Om met de 3D-mogelijkheden te beginnen. De verhoogde snelheid 1 teraflops wordt behaald door het maximale aantal CPU-cores (execution units ofwel EU’s in Intel jargon) te verhogen van 24 naar 64. Om aan te geven wat voor impact dat heeft op gaming toonde men een demo van de game Tekken 7, draaiend in full hd-resolutie op medium settings. Een losse videokaart draait hier de hand natuurlijk niet voor om, maar op Intel Gen9 geïntegreerde graphics is het een diashow. Op Gen11 zag de game – die overigens bij ons totaal niet als veeleisend bekend staat – er vloeiend uit.

Tile-based rendering en grotere L3-cache

De prestaties worden verder verbeterd door de gpu optioneel middels tile-based rendering te laten werken. Hierbij wordt het complete beeld opgedeeld in meerdere segmenten (tiles) die één voor één worden bekend. In games waarbij geheugenbandbreedte de bottleneck is omdat er extreem veel objecten zichtbaar zijn, kan TBR zorgen voor een flinke prestatiewinst, aangezien het aantal objecten dat op iedere tile zichtbaar is natuurlijk beperkter is. Van wat we begrijpen moeten game-developers de mogelijkheid krijgen om via een speciale api deze functionaliteit in te schakelen, maar kan Intel het ook in haar drivers doen voor games waarvan men weet dat het een positief effect heeft.

Een andere weg naar prestatieverbetering is de vergroting van de binnen de gpu aanwezige L3-cache naar maximaal 3MB, een verviervoudiging van de maximale L3-cache bij Gen9 graphics, die tegelijkertijd ook broodnodig is vanwege het significant verhoogde aantal EU’s.


Verschillende innovaties zorgen voor betere prestaties bij 3D-games.


Intel toonde Tekken 7 in Full HD op Gen 9 en Gen 11. Op de één een dia-show, op de ander vloeiend.


Het demosysteem met 10 nm CPU met Intel Gen. 11 graphics

 

Coarse Pixel Shading

Wat absoluut genoemd moet worden is de ondersteuning voor Coarse Pixel Shading, iets waar Intel al sinds 2014 over praat maar nu eindelijk op de markt komt. Het is een technologie die het mogelijk maakt om gedeeltes van het scherm in een lagere resolutie te renderen, om zo de prestaties te verbeteren. Zo kun je bijvoorbeeld objecten die verder weg zijn in een lagere resolutie renderen, of juist het midden van het beeldscherm op native resolutie en de randen in lagere resolutie, aangezien je daar tijdens het gamen toch niet met volle aandacht naar kijkt.

Klinkt bekend? Dan heb je vermoedelijk onze GeForce RTX 2070/2080 review gelezen, want Nvidia heeft een vergelijkbare technologie en noemt het Variable Rate Shading. Technieken als deze moeten het mogelijk maken om VR headsets met extreem hoge resoluties toch van voldoende hoge framerates te voorzien.

Verbeterde H.265 en HDR-support

Op het vlak van ondersteuning voor video/media zijn er ook de nodige verbeteringen in Gen 11. Zo is de geïntegreerde HEVC (H.265) video-encoder volledig vernieuwd en kwalitatief stukken beter geworden. Sterker nog: Intel claimt dat er nog maar weinig reden is om van softwarematige H.265 encoders gebruik te maken. Verder heeft Intel het aantal videodecoders in de gpu vergroot en kunnen deze parallel werken. Dat is niet alleen om meerdere video’s tegelijkertijd weer te geven (wat in moderne UI’s van videotoepassingen steeds gebruikelijker wordt) maar vooral ook omdat de rekenkracht van de decoders gecombineerd kan worden om video’s in hogere resolutie (lees: 8K) te decoderen. Tenslotte is er in Gen. 11 ondersteuning voor HDR Tone Mapping en daarmee dus eigenlijk goede ondersteuning voor hdr-schermen.


Gen11 biedt een nieuwe, verbeterde HEVC-encoder en videodecoders met ondersteuning voor 8K.

Eindelijk adaptive sync

Als we het dan toch over displays hebben: naast ondersteuning voor hogere resoluties (we gaan uit van 5K-schermen, waarvan er komend jaar meerdere op de markt moeten komen) en hdr is er eindelijk een andere vernieuwing waar Intel het al jaren over heeft, maar tot dusver steeds maar niet introduceerde: ondersteuning voor adaptive sync. Als dat je niet meteen iets zegt, doet de bekendste naam voor deze technologie dat ongetwijfeld wel: AMD FreeSync!

Jawel, je leest het goed, systemen met Intel Gen. 11 geïntegreerde graphics kunnen met alle AMD FreeSync monitoren gebruik maken van een variabele verversingsfrequentie. Hiervoor geldt één beperking: het werkt bij Intel alleen via displayport, niet via hdmi. Dat is jammer, want de meeste laptops bieden hdmi, en geen displayport. Toch is deze techniek juist geïntegreerde graphics een big deal. Zoals we al vaker hebben besproken zorgt FreeSync voor een vloeiende(r) games-ervaring, ook wanneer een GPU slechts 35 à 50 beelden per seconde kan berekenen. Het zijn natuurlijk juist geïntegreerde graphics die vaak de gewenste minimaal 60 fps voor normale schermaansturing niet halen. Zeker nu AMD FreeSync zo’n beetje een standaardvoorziening is op nieuwe monitoren, is de komst hiervan naar Intel integrated graphics wat ons betreft een zeer belangrijke stap.


Eindelijk: AMD FreeSync komt naar Intel geïntegreerde graphics!

Geheugen, interconnects, security en software

Eén van de andere speerpunten waarmee Intel wil excelleren is geheugen. De manier waarop men dat wil doen met nieuwe technologieën is door de hiërarchie van geheugen binnen pc’s en servers meer granulair maken. Wat houdt dat in?

Traditioneel vinden we in een pc drie soorten geheugen, die opvolgend in capaciteit steeds groter worden, maar daarentegen qua toegangstijd steeds langzamer. Binnen processors is er cachegeheugen, met een capaciteit in de ordegrootte van megabytes (of tientallen megabytes bij serverprocessors) en benaderbaar in de ordegrootte van nanoseconden. Dan is er het werkgeheugen, enkele of tientallen gigabytes groot en benaderbaar in de ordegrootte van 100 nanoseconden. Ten slotte de vaste opslag, ssd's en/of hdd's, die capaciteiten en toegangstijden hebben van respectievelijk enige terabytes en 10 microseconden, dan wel 10+ terabytes en 10 (of meer) milliseconden.

Verschillende nieuwe en bestaande technologieën moeten hier volgens Intel tussenin passen. In package memory (zoals getoond in de Foveros demochips) kan maximaal enkele gigabytes groot zijn, maar omdat het zo dicht op de cpu zit is het wel met snelheden rond de 10 nanoseconden te benaderen. Op Optane-technologie gebaseerde dimms (Persistant Memory) bieden zowel qua capaciteit als toegangstijd het midden tussen dram een ssd's. Nieuwe qlc (quad level cell) ssd's beginnen de capaciteit van harde schijven te benaderen en zijn qua toegangstijd nog altijd circa 100x sneller.


Nieuwe en bestaande technologieën bieden meer opties in de hiërarchie van geheugentechnologieën.

De meeste van deze zaken zijn al op de markt; afgezien van het in package memory had Intel op dit vlak dus niet veel nieuws te melden, afgezien van de hierboven geschetste coherente strategie.

De laatste drie focusgebieden

Hoewel volgens Intel minstens even belangrijk, mogen we wel stellen dat de laatste drie focuspunten (interconnects, security en software) het minst sexy zijn. Om dit artikel nog enigszins behapbaar te houden zullen we deze drie elementen slechts kort behandelen.

Interconnects

Qua interconnects werkt Intel aan verschillende zaken. Een paar pagina’s terug schreven we al over de nieuwe technologie om meerdere chips binnen één processor te verbinden. Een hippe naam zoals AMD Infinity Fabric heeft Intel (nog) niet, maar ook Intel heeft hiervoor een schaalbare architectuur die in eerste instantie chips al op een snelheid van tientallen terabytes per seconde met elkaar kan laten communiceren.

Voor het verbinden van meerdere processors heeft Intel de UPI-technologie, naar eigen zeggen de snelste cpu-naar-cpu verbinding, die het in de toekomst verder wil verbeteren. Voor het verbinden van verschillende systemen in datacenters heeft Intel diverse oplossingen om met glasvezel extreem snelle verbindingen te maken. Tijdens het event toonde men een demo hoe door middel van nieuwe FPGA’s snelheden tot 112 gigabit/s behaald konden worden over een kabel van circa een halve meter. Voor draadloze verbindingen zet Intel net als Qualcomm vol in op 5G-technologie, al stond men daar tijdens het architecture event niet lang bij stil.


Intel heeft veel innovaties op het vlak van interconnects.

Security

Security is een topprioriteit, aldus Intel. Na alle Spectre, Meltdown en andere bugs en lekken waarmee Intel en andere cpu-ontwikkelaars zich de afgelopen twee jaar geconfronteerd zagen, is dat een voor de hand liggende uitspraak. Om aan te tonen dat het bedrijf zeer veel investeert in beveiliging op alle denkbare niveau’s (van cores, via SoC’s en moederborden tot aan platformen en software) toonde men een slide met tientallen verschillende technologieën en producten voor beveiliging. Alles op deze lijst is al op de markt of op zijn minst aangekondigd, maar het geeft een aardig beeld van wat Intel op dit vlak allemaal te bieden heeft.


Voor wie niet overtuigd is dat Intel veel investeert in security is deze slide wellicht een reden om die mening te herzien.

Software

Software ten slotte: Raja Koduri gaf in zijn openingspresentatie terecht aan dat je nog zulke geweldige hardware kunt hebben, als er geen geoptimaliseerde software voor beschikbaar is, is die hardware uiteindelijk waardeloos. De meeste mensen zien Intel puur als hardwarebedrijf, maar Koduri gaf aan dat Intel inmiddels 15.882 softwareontwikkelaars in dienst heeft. Die werken aan uiteenlopende zaken, van het ontwikkelen van developer tools en compilers, tot het helpen van software developers met het optimaliseren van hun software voor Intel-processors, tot aan het direct bijdragen aan talloze open-source projecten. Zo stelt Intel dat geen enkel bedrijf meer bijdraagt aan de ontwikkeling van de Linux-kernel dan Intel.

Tijdens zijn presentatie gaf Koduri nog een sneer richting zijn voormalige broodheer: “een hogere Cinebench score neerzetten is niet bepaald indrukwekkend, ervoor zorgen dat honderden softwarepakketten die daadwerkelijk op servers draaien zo goed mogelijk geoptimaliseerd worden is het echte werk”. Waarvan akte.

Op dit vlak was er ook nog een aankondiging: Intel wil zijn tientallen, zo niet honderden sdk's en andere middleware gaan convergeren naar één centrale omgeving, genaamd OneAPI. Het doel: als software-ontwikkelaars hun programmacode rond OneAPI schrijven, moet deze in één klap geoptimaliseerd zijn voor Intel cpu's, Intel gpu's, Intel AI-chips en alle andere producten die het bedrijf te bieden heeft. Software ontwikkeling behoort niet tot het expertisegebied van de Hardware.Info redactie, en de exacte impact die het OneAPI initiatief kan hebben is lastig goed in te schatten. Wel is nu al merkbaar in tal van benchmarks dat deze ook beter op Intelprocessors draaien omdat de compilers daarvoor geoptimaliseerd zijn - het valt te verwachten dat OneAPI dat effect van optimalisatie voor de architectuur van een merk alleen maar zal versterken.


Met OneAPI wil Intel de vele SDK’s die er voor de verschillende soorten Intel-chips zijn samenvoegen tot één geoptimaliseerde programmeeromgeving.

Afsluitend

Waar we als techmedia én als consumenten de afgelopen jaren flink konden klagen over het feit dat Intel weinig tot niks meer wilde vertellen over haar toekomstplannen, en zelfs daartoe opgerichte bijeenkomsten als het Intel Developer Forum afschafte, lijkt het bedrijf daar langzaam van terug te komen. Of het nu komt door nieuwe technische inspiratie van mensen als Raja Koduri en Jim Keller, door nieuwe marketinginzichten van mensen als Chris Hook, of door de toenemende druk van concurrenten: feit is dat we deze week een zeer uitgebreid kijkje in de keuken kregen.

Met al het nieuws van AMD (Zen 2, 7 nm, Chiplet-designs), Qualcomm (Snapdragon 8cx, multi-day battery life) en Nvidia (Real-time ray-tracing, AI-versnellers) zou je het gevoel krijgen dat grootmacht Intel links en rechts wordt ingehaald. Het is zeker zo dat Intel op dit moment op plekken concurrentie krijgt waar het bedrijf tot nu toe alleenheerser was. Denk aan de servermarkt (AMD Epyc) of de ultra-mobile laptopmarkt (Qualcomm 8cx).

Als de Intel Architecture Day 2018 ons één ding heeft geleerd, is dat Intel alles behalve stilzit en vastbesloten is om haar voorsprong in de verschillende marktsegmenten niet zo maar uit handen te geven. De visie van Raja Koduri is helder en met één ding moeten het hoe dan ook eens zijn: ook al weten andere bedrijven op één of meer vlakken Intel te benaderen of te overtreffen, voor succes in de in de markt van computerchips is meer nodig dan een goede architectuur en een state-of-the-art productieprocedé. Intel heeft op nog heel wat andere vlakken (geheugentechnologieën, software, security en interconnects) ongekend veel technologie en expertise, waarmee het de komende jaren weerwoord kan bieden aan de concurrentie.


Eén van de getoonde prototypes van een 10 nm cpu met Sunny Cove cores en Gen. 11 graphics.

Terug met twee voeten op de grond; met de relatief uitgebreide briefings van de Sunny Cove cpu-architectuur en de Gen. 11 gpu-architectuur hebben we een aardig beeld gekregen van wat we mogen verwachten van de eerste massaproductie 10 nm-processors die volgend jaar op de markt moeten komen. Uiteraard wordt alles weer sneller en efficiënter, maar we mogen ook echt nuttige vernieuwing verwachten, zoals ondersteuning voor adaptive sync (lees: AMD FreeSync).

De meest interessante demonstratie was echter zonder meer de Foveros-chip. Niet alleen vanwege het stapelen van I/O-, cpu- en geheugenchips, maar ook door de combinatie van high-end en Atom-cores in één product. Deze piepkleine (12x12 mm) alles-in-één processor zou volgend jaar echt vernieuwende ultradunne laptops en tablets mogelijk kunnen maken, al is het wachten op wat de verschillende fabrikanten ermee gaan doen.

Als er één aankondiging is waar we nog het meest enthousiast over zijn, is het wel de belofte van Intel om ons vanaf nu weer beter op de hoogte te gaan houden van de toekomstplannen. Die zijn toch wel iets waar iedere hardwareliefhebber, ongeacht merkvoorkeur, graag meer over te weten komt.


Cpu-ontwerper Jim Keller tijdens het architecture event. We zijn benieuwd wat we de komende jaren van hem mogen verwachten.

0
*