O mecanismo de escala de wafer da Cerebras Systems é um processador de trilhão de transistores em um wafer de 12 '



This news isn't properly today's, but it's relevant and interesting enough that I think warrants a news piece on our page. My reasoning is this: in an era where Multi-Chip Modules (MCM) and a chiplet approach to processor fabrication has become a de-facto standard for improving performance and yields, a trillion-transistor processor that eschews those modular design philosophies is interesting enough to give pause.

O mecanismo Wafer Scale foi desenvolvido pela Cerebras Systems para enfrentar o aumento contínuo da demanda por motores de treinamento em IA. No entanto, em cargas de trabalho onde a latência ocorre um impacto muito real nos tempos de treinamento e na capacidade de um sistema, a Cerebras queria projetar um processador que evitasse a necessidade de uma faixa de comunicação para todos os seus núcleos se comunicarem - o sistema é limitado apenas, basicamente, por transistores tempos de comutação. Seus 400.000 núcleos se comunicam sem interrupções por meio de interconexões, gravadas em 42.225 milímetros quadrados de silício (em comparação, a maior GPU da NVIDIA é 56,7 vezes menor em apenas 815 milímetros quadrados).

No entanto, em um mundo em que a fabricação de pastilhas de silício ainda possui ocorrências de defeitos de fabricação que podem tornar inoperantes os chips inteiros, como a Cerebras conseguiu construir um processador tão grande e impedir que ele tivesse defeitos que não podem realmente atender às especificações relatadas e desempenho? A resposta é antiga, principalmente: redundância, combinada com alguns pós mágicos de engenharia adicionais obtidos em conjunto com o fabricante dos chips, TSMC. O chip é construído no nó de 16 nm da TSMC - um processo mais refinado com rendimentos comprovados, mais barato que um processo de ponta de 7 nm e com menor densidade de área - isso tornaria ainda mais difícil o resfriamento adequado desses 400.000 núcleos, conforme você pode imaginar.

Conectividade reticular, rendimento, entrega de energia e aprimoramentos de embalagens foram todos pesquisados ​​e implantados pela Cerebras na solução dos problemas de escala associados a esses chips grandes. além disso, os chips são construídos com recursos redundantes que devem garantir que, mesmo que surjam alguns defeitos em várias partes do chip de silício, as áreas que foram projetadas como 'superprovisionamento' podem reduzir a folga, rotear e processar dados sem pulando uma batida. A Cerebras diz que qualquer componente (núcleos, SRAM, etc.) do chip possui 1%, 1,5% da capacidade adicional de superprovisionamento que permite que qualquer defeito de fabricação seja apenas um salto insignificante em vez de um desperdício de silício. A solução de comunicação entre núcleos é uma das mais avançadas já vistas, com uma rede de comunicação conectada em malha refinada, totalmente em hardware e com chip, denominada Swarm, que fornece uma largura de banda agregada de 100 petabits por segundo ... isso é combinado com 18 Gb de memória SRAM local, distribuída e super rápida como o primeiro e único nível da hierarquia de memória - fornecendo largura de banda de memória no domínio de 9 petabytes por segundo.

Os 400.000 núcleos são projetados para acelerar a carga de trabalho da IA. Nomeado SLAC para núcleos de álgebra linear esparsa, eles são flexíveis, programáveis ​​e otimizados para a álgebra linear esparsa que sustenta toda a computação da rede neural (pense nelas como matrizes de núcleos programáveis ​​do tipo FPGA). A capacidade de programação do SLAC garante que os núcleos possam executar todos os algoritmos de rede neural no campo de aprendizado de máquina em constante mudança - este é um chip que pode se adaptar a diferentes cargas de trabalho e treinamento e resolução de problemas relacionados à IA - um requisito para implantações caras como o Wafer Scale Engine certamente pose. Todo o chip e seu aparato de implantação tiveram que ser desenvolvidos internamente. Como afirma o fundador e CEO Andrew Feldman, não havia embalagens, placas de circuito impresso, conectores, placas frias, ferramentas ou qualquer software que pudesse ser adaptado para a fabricação e implantação do Wafer Scale Engine. Isso significa que a Cerebras Systems e sua equipe de 173 engenheiros tiveram que desenvolver não apenas o chip, mas quase tudo o mais necessário para garantir que ele realmente funcionasse. O Wafer Scale Engine consome 15 quilowatts de energia para operar - uma quantidade prodigiosa de energia para um chip individual, embora relativamente comparável a um cluster de IA de tamanho moderno. Este é um cluster, em essência, mas implantado em um chip solo sem nenhum dos problemas de latência e comunicação entre chips que afetam os clusters.

In an era where companies are looking towards chiplet design and inter-chip communication solutions as ways to tackle the increasing challenges of manufacturing density and decreasing yields, Cerebras' effort proves that there is still a way of developing monolithic chips that place performance above all other considerations. Sources: VentureBeat, TechCrunch