cerebras systems 'wafer skalamotor er en billion transistor prosessor i en 12 'wafer - Cerebras

Cerebras Systems 'Wafer Scale Engine er en billion transistorprosessor i en 12 'wafer



This news isn't properly today's, but it's relevant and interesting enough that I think warrants a news piece on our page. My reasoning is this: in an era where Multi-Chip Modules (MCM) and a chiplet approach to processor fabrication has become a de-facto standard for improving performance and yields, a trillion-transistor processor that eschews those modular design philosophies is interesting enough to give pause.

Wafer Scale-motoren er utviklet av Cerebras Systems for å møte den fortsatt økende etterspørselen etter AI-treningsmotorer. Imidlertid i arbeidsmengder der latenstid har en veldig reell innvirkning i treningstider og et systems evne, ønsket Cerebras å designe en prosessor som unngikk behovet for en kommunikasjonsbane for alle kjernene å kommunisere - systemet er bare begrenset, i utgangspunktet, av transistorer 'byttetider. 400 000 kjerner kommuniserer sømløst via sammenkoblinger, etset på 42 225 kvadratmeter silisium (til sammenligning er NVIDIAs største GPU 56,7 ganger mindre på 'bare' 815 kvadratmeter). Imidlertid, i en verden der silisiumskivefremstilling fremdeles har forekomster av produksjonsfeil som kan gjøre hele brikker ubrukbare, hvordan klarte Cerebras å bygge en så stor prosessor og forhindre at den hadde slike feil at den faktisk ikke kan levere på de rapporterte spesifikasjonene og ytelse? Svaret er et gammelt, hovedsakelig: redundans, parret med noen ekstra magiske ingeniørpulver oppnådd i forbindelse med sjetongprodusenten TSMC. Chippen er bygget på TSMCs 16 nm-node - en mer raffinert prosess med påvist utbytte, billigere enn en nyskapende 7 nm-prosess, og med mindre arealtetthet - dette vil gjøre det enda vanskeligere å kjøle de 400 000 kjernene ordentlig, som du kan tenke meg.

Forbedringer på tvers av retikler, utbytte, kraftforsyning og emballasje har blitt undersøkt og distribuert av Cerebras for å løse skaleringsproblemene forbundet med så store flis. dessuten er brikkene bygget med overflødige funksjoner som skal sikre at selv om det oppstår noen feil i forskjellige deler av silisiumbrikken, kan områdene som er designet som 'overprovisioning' kutte i en plukke opp slakk, dirigere og behandle data uten hopper over en takt. Cerebras sier at en gitt komponent (kjerner, SRAM, osv.) I brikken inneholder 1%, 1,5% av den ekstra overprovisjoneringsevnen som gjør at eventuelle produksjonsfeil bare kan være en ubetydelig hastighetsbump i stedet for et silisium-avfall. Kommunikasjonsløsningen mellom kjernen er en av de mest avanserte noensinne sett, med en finkornet, all-hardware, nett-tilkoblet kommunikasjonsnettverk kalt Swarm som leverer en samlet båndbredde på 100 petabit per sekund ... dette er sammenkoblet med 18 GB lokalt, distribuert, superrask SRAM-minne som det eneste nivået i minnehierarkiet - og leverer minnebåndbredde i riket på 9 petabyte per sekund.

De 400 000 kjernene er spesialdesignet for AI arbeidsbelastning akselerasjon. Navnet SLAC for sparsomme lineære algebra-kjerner, disse er fleksible, programmerbare og optimaliserte for den sparsomme lineære algebra som understøtter all nevralt nettverksberegning (tenk på disse som FPGA-lignende, programmerbare matriser av kjerner). SLACs programmerbarhet sikrer at kjerner kan kjøre alle nevrale nettverksalgoritmer i det stadig skiftende maskinlæringsfeltet - dette er en brikke som kan tilpasse seg forskjellige arbeidsmengder og AI-relatert problemløsning og opplæring - et krav for så dyre distribusjoner som Wafer Scale Engine vil sikkert positur. Hele brikken og det tilhørende distribusjonsapparatet måtte utvikles internt. Som grunnlegger og administrerende direktør Andrew Feldman uttrykker det, var det ingen emballasje, trykte kretskort, kontakter, kalde tallerkener, verktøy eller programvare som kunne tilpasses produksjon og distribusjon av Wafer Scale Engine. Dette betyr at Cerebras Systems 'og teamet på 173 ingeniører måtte utvikle ikke bare brikken, men nesten alt annet som er nødvendig for å sikre at den faktisk fungerer. Wafer Scale Engine bruker 15 kilowatt kraft for å betjene - en enorm mengde kraft for en individuell chip, selv om den er relativt sammenlignbar med en moderne størrelse AI-klynge. Dette er en klynge, i hovedsak, men distribuert i en solo-brikke uten noe av latens og kommunikasjonsproblemer mellom brikken som plager klynger.

In an era where companies are looking towards chiplet design and inter-chip communication solutions as ways to tackle the increasing challenges of manufacturing density and decreasing yields, Cerebras' effort proves that there is still a way of developing monolithic chips that place performance above all other considerations. Sources: VentureBeat, TechCrunch