AMD-chiplets: En detaljerad patentförklaring –

Anledningen till att dubbla GPU:er försvann från hemmiljön och svaret på varför vi inte längre ser NVIDIA SLI- eller AMD Crossfire-kompatibla grafikkort är detsamma, applikationerna vi använder på våra datorer är programmerade att använda en enda GPU / GRAFISK PROCESSOR.

I datorspel när du använder dubbla GPU. Tekniker som alternativ frame-rendering, där varje GPU renderar en alternativ frame i förhållande till den andra, eller split frame-rendering, där ett par GPU:er delar arbetet med en ram, används.

Det här problemet uppstår inte med GPU-beräkningar, så på system som inte använder grafikkort för att rendera grafik, upptäcker vi att vissa av dem körs parallellt utan problem. Dessutom är applikationer som använder GPU:er som parallella dataprocessorer redan designade för att dra fördel av GPU:er på detta sätt.

Ökning av storleken på GPU:er de senaste åren

Om vi ​​tittar på utvecklingen av GPU:er under de senaste åren, kommer vi att se betydande tillväxt inom området avancerade GPU:er från en generation till nästa.

Det värsta av det nuvarande scenariot? Det finns ännu ingen GPU som har den perfekta prestandan för 4K-spel. Tänk på att den ursprungliga 4K-bilden har 4 gånger så många pixlar som en vid 1080p, och därför pratar vi om datarörelser som är fyra gånger vad som krävs för Full HD.

I den nuvarande situationen med VRAM har vi fallet med GDDR6, nämnda minne använder ett 32-bitars gränssnitt per chip, uppdelat i två 16-bitars kanaler, men med en klockfrekvens som leder till en kraftig ökning av dess strömförbrukning, detta leder till att vi letar efter andra lösningar för att öka bandbredden.

Utökar VRAM-bandbredden

Om vi ​​vill utöka bandbredden finns det två alternativ:

  • Öka först minnets klockhastighet, men tänk på att spänningen är kvadratisk med ökande MHz, och därmed strömförbrukningen.
  • Det andra är att öka antalet stift, som bör gå från 32 bitar till 64 bitar.

Vi kan inte heller glömma saker som PAM-4 som används i GDDR6X, men detta var Microns drag för att undvika höga klockhastigheter. För en eventuell GDDR64 bör vi alltså förvänta oss en 7-bitars buss på VRAM-kretsen.

Vi vet inte vad VRAM-tillverkarna kommer att göra, men att öka klockhastigheten är inget alternativ som vi tror att de så småningom kommer att acceptera inom sin begränsade effektbudget.

Vi vet inte vad VRAM-tillverkarna ska göra, men att öka klockhastigheten är inget alternativ som vi tror att de så småningom kommer att acceptera.

Gränssnitten mellan GPU och VRAM är dock placerade utanför omkretsen av själva GPU:n. Att öka antalet bitar innebär alltså att utöka periferin av nämnda GPU och därför öka den.

Vilket är ett allvarligt ytterligare problem på grund av den stora storleken kostnadsmässigt, det kommer att tvinga grafikkortstillverkare att använda flera chips istället för en, och det är här vi går in i de så kallade chiplets.

Typer av GPU:er baserade på chiplets

Det finns två sätt att dela upp GPU:n i chips:

  • Att dela upp en enorm grafikprocessor i flera chiplets leder till att utbytet av data mellan olika parter kräver mycket bandbredd, vilket kanske inte är möjligt utan användning av speciella intercoms.
  • Använd flera GPUS i samma utrymme som fungerar tillsammans som en.

I HardZone-artikeln med rubriken “Så här kommer framtidens chipset-GPU:er att se ut” kan du läsa om den första typen av konfiguration, medan AMD:s patent för dess chiplet-GPU är av den andra typen. en typ .

AMD Chiplet Patent Study:

Den första punkten som dyker upp i varje patent är uppfinningens användbarhet, som alltid är relaterad till dess bakgrund, vilket oroar oss:

Konventionella monolitiska strukturer, vars produktion blir dyrare och dyrare. Chiplets har använts framgångsrikt i CPU-arkitekturer för att minska produktionskostnaderna och öka utbytet. Eftersom dess heterogena beräkningskaraktär anpassar sig mer naturligt till att dela upp CPU-kärnorna i olika block, vilket inte kräver mycket interaktion mellan dem.

Processorreferensen är tydlig att referera till AMD Ryzen och är att en betydande del av Zen-arkitekturteamet har flyttats till Radeon Technology Group för att arbeta med att förbättra RDNA-arkitekturen. Begreppet chiplets är inte det första som ärvts från Zen, det andra är Infinite Cache, som ärver konceptet “Victim’s Cache” från Zen.

För det andra, intercom-problemet du pratar om hänvisar till den enorma bandbredd som GPU:er behöver för att kommunicera sina element till varandra. Vad är ett hinder för skapandet av dessa chiplets på grund av den energi som förbrukas under dataöverföring.

GPU:n körs parallellt i naturen. Geometrin som bearbetas av GPU:n inkluderar dock inte bara parallella delar av arbete, utan också verk som måste synkroniseras i en specifik ordning mellan olika partitioner.

Konsekvenserna av detta? En programmeringsmodell för GPU:n som fördelar arbete över olika trådar är ofta ineffektiv eftersom samtidighet är svår att fördela över flera olika arbetsgrupper och chiplets eftersom det är det är svårt och dyrt att synkronisera minnesinnehållet i de resurser som delas på systemet.

Den feta delen är en förklaring av mjukvaruutveckling som vi inte har sett chipletbaserade GPU:er. Detta är inte bara ett hårdvaruproblem, utan också ett mjukvaruproblem, så det måste förenklas.

Ur en logisk synvinkel skrivs applikationer också med endast en GPU i systemet. Det vill säga, medan en typisk GPU innehåller flera GPU-kärnor, är applikationer programmerade att fungera med en enda enhet. Således har det historiskt sett varit svårt att implementera chiplet-designmetodologi i GPU-arkitekturer.

Den här delen är nyckeln till att förstå patentet, AMD pratar inte om att dela upp en enda GPU i chiplets, vilket den gör i sina processorer, utan pratar snarare om att använda flera GPU: er, som var och en är en chiplet, vilket är viktigt att behålla. Notera denna skillnad då AMD:s lösning verkar vara mer Crossfire-fokuserad, där programmerare inte behöver anpassa sina program för olika GPU:er.

När problemet väl har identifierats är det dags att prata om lösningen som patentet erbjuder.

AMD Chiplet Patent Examination: Lösningen

Lösningen på det identifierade problemet, som föreslagits av AMD, är följande:

För att förbättra systemets prestanda med GPU-chiplets samtidigt som den nuvarande programmeringsmodellen bibehålls, visar patentet system och tekniker som använder passiva korsreferenser med hög bandbredd för att koppla GPU-chiplets till varandra.

En viktig del av patentet är dessa korsreferenser, som vi kommer att prata om senare i denna artikel, detta är kommunikationsgränssnittet mellan olika chiplets, det vill säga hur information överförs mellan dem.

I olika implementeringar inkluderar systemet en central processorenhet (CPU) som är ansluten till den första GPU-chipleten i kedjan, som är ansluten till den andra chipleten via passiv tvärbindning. I vissa implementeringar är passiv korskommunikation en passiv mellanliggande enhet som hanterar kommunikation mellan chiplets. …

I grund och botten handlar det om att vi nu har en dubbel GPU som fungerar som en, som består av två sammankopplade chips genom en adapter som kommer att finnas nedanför.

Passiva tvärlänkar med hög bandbredd

Hur interagerar chiplets med en mellanliggande enhet? Genom att använda en gränssnittstyp som skickar Scalable Data Fabric (SDF) för var och en av chipletarna till varandra, är SDF i AMD GPU:er den del som vanligtvis sitter mellan GPU:s toppnivåcache och gränssnittet. minne, men i det här fallet finns det en L3-cache mellan SDF för varje GPU-chiplet och SDF, och innan dess finns det ett gränssnitt som ansluter de två chipletarna till varandra.

I det här diagrammet kan du se ett exempel med 4 GPU-chiplets, antalet HBX-gränssnitt är alltid 2. 2 där n är antalet chiplets i den mellanliggande enheten. Om man tittar på cachehierarkinivån är L0 (som inte beskrivs i patentet) lokal för varje beräkningsenhet, L1 för varje shader-array, L2 för varje GPU-chiplet, medan L3-cachen kommer att vara ny, detta beskrivs som den sista nivåns cache eller LCC hela uppsättningen GPU:er.

För närvarande har olika arkitekturer minst en cachenivå konsekvent över hela GPU:n. Här, i en chipletbaserad GPU-arkitektur, allokerar den dessa fysiska resurser på separata chip och överför dem på ett sådant sätt att nämnda toppnivåcache förblir konsekvent över alla GPU-chiplets. Så trots att den körs i en massivt parallelliserad miljö måste L3-cachen vara konsekvent.

Under operationen skickas en begäran om en minnesadress från CPU:n till GPU:n till en enda GPU-chipset, som interagerar med en passiv tvärlänk med stor bredd för att hämta data. Ur ett CPU-perspektiv ser det ut som att du kommer att använda en monolitisk GPU med ett chip. Detta gör att en GPU med stor kapacitet som består av flera chiplets kan användas som om det vore en GPU för applikationen.

Det är därför AMD:s lösning inte är att dela upp GPU:n i flera olika chiplets, utan att använda flera GPU:er som om det vore en, och därigenom lösa ett av de AMD Crossfire-relaterade problemen och tillåta all mjukvara du kanske vill använda flera GPU:er på samtidigt, som om de vore ett och utan att behöva anpassa koden.

En annan nyckel till passiv korsreferens är det faktum att i motsats till vad många av oss har antagit, interagerar de inte med GPU:n med hjälp av kanaler via kisel eller TSV, utan att AMD skapade en proprietär sammankoppling för att bygga SoC. Processorer och GPU:er, både i 2.5DIC och 3DIC, vilket får oss att undra om X3D-gränssnittet ska ersätta det med Infinity Fabric.

AMD-chiplets är designade för RDNA 3 och senare.

Det faktum att problemet när man använder flera GPU:er inte är ett problem för applikationer som är designade för att beräkna över GPU:er gör det klart att den lösning som AMD föreslår i sitt patent riktar sig till den inhemska marknaden, i synnerhet GPU:er av RDNA-arkitekturer, det finns några tips om Det:

  • På chipletkretsarna i patentet förekommer termen WGP, vilket är typiskt för RDNA-arkitekturen, och inte för CDNA och/eller GCN.
  • Nämn i en del av patentet om användning av GDDR-minne, vilket är typiskt för inhemska GPU:er.

Patentet beskriver inte en specifik GPU för oss, men vi kan anta att AMD kommer att släppa den första dubbla GPU:n baserad på chiplets när RDNA 3 lanseras.Detta kommer att göra det möjligt för AMD att skapa en enda GPU istället för olika arkitekturer så olika chips som det gör. i dag.

AMD:s beslut står också i kontrast till vad som har ryktats av NVIDIA och Intel. Vi vet från början att Hopper kommer att vara dess första chiplet-baserade arkitektur, men vi känner inte till dess målmarknad, så det kan mycket väl vara inriktat på den högpresterande datormarknaden som spel.

Vad Intel beträffar vet vi att Intel Xe-HP är en GPU, även den består av chiplets, men utan behov av en lösning som AMD, eftersom Intels mål för nämnda GPU inte är hemmamarknaden.

Relaterade artiklar

Back to top button