De Wafer Scale Engine van Cerebras Systems is een Trillion Transistor Processor in een 12 'Wafer



This news isn't properly today's, but it's relevant and interesting enough that I think warrants a news piece on our page. My reasoning is this: in an era where Multi-Chip Modules (MCM) and a chiplet approach to processor fabrication has become a de-facto standard for improving performance and yields, a trillion-transistor processor that eschews those modular design philosophies is interesting enough to give pause.

De Wafer Scale-motor is ontwikkeld door Cerebras Systems om de voortdurende toename van de vraag naar AI-trainingsmotoren het hoofd te bieden. In workloads waar latentie een zeer reële impact heeft op trainingstijden en de mogelijkheden van een systeem, wilde Cerebras echter een processor ontwerpen die de noodzaak van een communicatiestrook voor al zijn cores om te communiceren vermeed - het systeem is in principe alleen beperkt door transistors 'schakeltijden. De 400.000 aders communiceren naadloos via interconnects, geëtst op 42,225 vierkante millimeter silicium (ter vergelijking, NVIDIA's grootste GPU is 56,7 keer kleiner bij 'slechts' 815 vierkante millimeter). Echter, in een wereld waar de productie van siliciumwafels nog steeds voorkomt in fabricagefouten die hele chips buiten werking kunnen stellen, hoe is het Cerebras gelukt om zo'n grote processor te bouwen en te voorkomen dat het zulke defecten heeft dat het eigenlijk niet kan leveren op de gerapporteerde specificaties en prestaties? Het antwoord is een oud antwoord, voornamelijk: redundantie, gecombineerd met enkele extra magische engineering-poeders die zijn bereikt in samenwerking met de fabrikant van de chips, TSMC. De chip is gebouwd op de 16 nm-knoop van TSMC - een verfijnder proces met bewezen opbrengsten, goedkoper dan een geavanceerd 7 nm-proces en met een lagere oppervlaktedichtheid - dit zou het nog moeilijker maken om die 400.000 kernen goed te koelen, zoals u kan het zich voorstellen.

Cross-dradenkruis connectiviteit, opbrengst, stroomaflevering en verpakkingsverbeteringen zijn allemaal onderzocht en ingezet door Cerebras bij het oplossen van de schaalproblemen die gepaard gaan met dergelijke grote chips. bovendien zijn de chips gebouwd met redundante functies die ervoor moeten zorgen dat zelfs als er enkele defecten optreden in verschillende delen van de siliciumchip, de gebieden die zijn ontworpen als 'overprovisioning' kunnen zorgen voor speling, routing en verwerking van gegevens zonder een slag overslaan. Cerebras zegt dat elk onderdeel (kernen, SRAM, enz.) Van de chip 1%, 1,5% extra overprovisioning-mogelijkheden biedt waarmee fabricagefouten slechts een te verwaarlozen speedbump zijn in plaats van een siliconenverspiller. De inter-core communicatie-oplossing is een van de meest geavanceerde ooit, met een fijnmazig, volledig hardware, on-chip mesh-verbonden communicatienetwerk genaamd Swarm dat een totale bandbreedte van 100 petabits per seconde levert ... dit is gekoppeld aan 18 GB lokaal, gedistribueerd, supersnel SRAM-geheugen als het enige niveau van de geheugenhiërarchie - levert geheugenbandbreedte in het rijk van 9 petabytes per seconde.

De 400.000 cores zijn speciaal ontworpen voor AI-werklastversnelling. Deze worden SLAC genoemd voor Sparse Linear Algebra Cores en zijn flexibel, programmeerbaar en geoptimaliseerd voor de schaarse lineaire algebra die ten grondslag ligt aan alle neurale netwerkberekeningen (zie deze als FPGA-achtige, programmeerbare arrays van cores). De programmeerbaarheid van SLAC zorgt ervoor dat cores alle neurale netwerkalgoritmen in het constant veranderende veld van machine learning kunnen uitvoeren - dit is een chip die zich kan aanpassen aan verschillende workloads en AI-gerelateerde probleemoplossing en training - een vereiste voor dure implementaties zoals de Wafer Scale Engine zeker zal zijn houding. De hele chip en de bijbehorende inzetapparatuur moesten in eigen huis worden ontwikkeld. Volgens oprichter en CEO Andrew Feldman waren er geen verpakkingen, printplaten, connectoren, koude platen, gereedschap of software die zou kunnen worden aangepast voor de productie en implementatie van de Wafer Scale Engine. Dit betekent dat Cerebras Systems en zijn team van 173 ingenieurs niet alleen de chip moesten ontwikkelen, maar bijna al het andere dat nodig is om te zorgen dat deze echt werkt. De Wafer Scale Engine verbruikt 15 kilowatt vermogen om te werken - een enorme hoeveelheid vermogen voor een individuele chip, hoewel relatief vergelijkbaar met een moderne AI-cluster. Dit is in essentie een cluster, maar geïmplementeerd in een solo-chip met geen van de latentie- en inter-chipcommunicatie die clusters pest.

In an era where companies are looking towards chiplet design and inter-chip communication solutions as ways to tackle the increasing challenges of manufacturing density and decreasing yields, Cerebras' effort proves that there is still a way of developing monolithic chips that place performance above all other considerations. Sources: VentureBeat, TechCrunch