Rambo Cache på Intel Xe GPU:er: Hur fungerar det? –

Hur tillverkar vi ett stort antal GPU/GPU-chiplets interagerar effektivt med varandra? Vi behöver minne för att fungera på intercom, och det är här Rambo Cache kommer in. Vi förklarar hur det fungerar och vad det har för funktioner.

Rambo Cache som skillnaden mellan Xe-HP och Xe-HPC

Som du kan se i Intel-bilden är själva Rambo Cache ett internt minneschip som kommer att användas exklusivt i Intel Xe-HPC för kommunikation mellan olika brickor/chiplets. … Medan Intel Xe-HP stöder upp till 4 olika brickor, hanterar Intel Xe-HPC mycket mer data, vilket gör detta extra minneschip väsentligt som en kommunikationsbrygga för extremt komplexa konfigurationer när det gäller datavolym. GPU-chiplets, eller brickor, som Intel kallar dem.

Rambo Cache kommer att placeras mellan flera Intel Xe-HPC-beräkningsplattor för att underlätta kommunikationen mellan dem. Compute Tiles är inget annat än Intel Xe GPU:er, men de är designade för högpresterande beräkningar, så klassiska fasta funktionsblock i GPU:er kommer inte att gå in i Intel Xe-HPC eftersom de inte används i högpresterande beräkningar.

Rambo Cache kommer dock att vara oöverträffad för resten av Intel Xe, särskilt de som inte är baserade på flera chips som Intel Xe-LP och Intel Xe-HPG. I det specifika fallet med Intel Xe-HP verkar det som om Rambo Cache med 4 chiplets är onödigt eftersom Interposer ger tillräckligt med bandbredd för att kommunicera med de olika chiplets som är installerade ovanpå den.

Målet är att nå ExaFLOP

Vi vet att gränsen för antalet chiplets på en mellanliggande enhet är 4 GPU:er, men med fler händer detta när anslutningen baserad på den mellanliggande EMIB-enheten inte längre ger tillräckligt med bandbredd för kommunikation, vilket kräver ett element som konsoliderar åtkomst till minne och det är här Rambo-cachen kommer väl till pass eftersom den kommer att tillåta Intel att bygga en mer sofistikerad GPU än de maximala 4 chiplets som den kan bygga med EMIB.

Mål? Möjligheten att skapa utrustning som, i kombination, kan nå 1 petaflop av våld eller, med andra ord, 1000 teraflops. Prestandan är mycket högre än de GPU:er vi har på PC, men vi pratar inte om en PC GPU, utan hårdvara designad för superdatorer med målet att nå ExaFLOP-milstolpen på 1000 petaflops och därför 1 miljon Teraflops.

Ett stort problem för hårdvaruarkitekter att uppnå detta är strömförbrukningen, särskilt vid överföring av data, mer beräkning mer data och mer data som flyttar mer kraft. Det är därför det är viktigt att hålla data så nära processorerna som möjligt, och det är här Rambo Cache kommer in.

Rambo Cache som cache på toppnivå

När vi har flera kärnor, oavsett om vi pratar om en CPU eller en GPU, och vi vill att alla ska ha tillgång till samma minne på både adresserings- och fysiska nivåer, då behövs en cache på sista nivån. Dess “geografiska” plats på GPU:n är direkt framför minneskontrollern, men efter de privata cacharna för varje kärna.

Dagens GPU:er har minst två nivåer av cacheminne, den första nivån saknar shader-enheter och är vanligtvis förknippad med texturenheter. Istället används det andra lagret av alla delar av GPU:n. I det här fallet är detta din sammankopplingsväg för kommunikation, åtkomst till de senaste uppgifterna och allt detta, för att inte överbelasta VRAM-styrenheten med förfrågningar till den.

Men det finns ett extra lager, när vi har flera fulla GPU:er anslutna till varandra i samma minne, då behövs ett extra lager cache som grupperar åtkomst till alla minnen. Intels Rambo Cache är Intels lösning för att förena åtkomst över alla grafikprocessorer som tillsammans utgör Ponte Vecchio.

Relaterade artiklar

Back to top button