Na corrida para acelerar a inteligência artificial, a empresa do Vale do Silício Cerebras está adotando uma estratégia incomum: crescer.
Enquanto um chip de computador típico tem o tamanho de uma unha, Cerebras' chip é do tamanho de um prato de jantar.
Aprendizado profundo, uma tecnologia de IA que capacita assistentes de voz, carros autônomos e campeões de Go, depende de redes neurais complexas" software organizado em camadas. Os sistemas de aprendizado profundo podem ser executados em um único computador, mas os maiores sistemas estão espalhados por milhares de máquinas conectadas, às vezes em grandes data centers, como os operados pelo Google. Em um grande cluster, até 48 servidores do tamanho de uma caixa de pizza deslizam para racks com a altura de um homem; As prateleiras são alinhadas em fileiras e ocupam um prédio do tamanho de um depósito. As redes neurais nesses sistemas podem resolver problemas assustadores, mas também enfrentam desafios óbvios. Uma rede que se prolifera em um cluster é como um cérebro espalhado por uma sala e conectado entre si. Os elétrons se movem rapidamente, mas mesmo assim a comunicação entre os chips é lenta e consome muita energia.
Eric Vishria, sócio geral da empresa de capital de risco Benchmark de São Francisco, percebeu o problema pela primeira vez quando ouviu a palestra da Cerebras Systems, uma nova empresa de chips de computador, na primavera de 2016. A Benchmark é conhecida por ser um dos primeiros investidores em empresas como o Twitter, Uber e ebay - isto é, em software, não em hardware. A empresa analisa cerca de 200 start-ups por ano e investe em uma." Estávamos jogando esse jogo de beijar mil sapos," Vishria me contou. No início de seu discurso, ele decidiu jogar o sapo de volta." Eu pensei, por que concordo com isso?" Nós' não vamos investir em hardware," ele se lembra de ter pensado." É' é estúpido."
O co-fundador da Cerebras, Andrew Feldman, começou com a capa do slide de sua equipe e chamou a atenção de Vishria' seu talento era impressionante. Feldman então comparou os dois tipos de chips de computador. Primeiro, ele olhou para as unidades de processamento gráfico, ou Gpus - chips projetados especificamente para a criação de imagens 3D. Os sistemas de aprendizado de máquina atuais da' baseiam-se nesses chips gráficos por vários motivos. Em seguida, ele olhou para as unidades de processamento central, ou cpus, os chips de uso geral que fazem a maior parte do trabalho em um computador típico." O terceiro slide era sobre' Gpus,' que são realmente ruins para o aprendizado profundo - eles simplesmente são cem vezes melhores do que os cpus." A Cerebras apresentou um novo tipo de chip que não é projetado para gráficos, mas especificamente projetado para inteligência artificial.
Vishria está acostumado a ouvir propostas de empresas que planejam usar o aprendizado profundo em segurança cibernética, imagens médicas, chatbots e outras aplicações. Após a palestra da Cerebras', ele falou com engenheiros de empresas financiadas pela Benchmark, incluindo Zillow, Uber e Stitch Fix; Disseram-lhe que estavam tendo problemas com IA porque demorava muito para" treinar" a rede neural. O Google começou a usar unidades de processamento de tensores super-rápidas"" ou Tpus, chips especiais projetados para inteligência ARTIFICIAL. Vishria sabia que havia uma corrida do ouro acontecendo e alguém tinha que fazer as picaretas e pás.
Naquele ano, a Benchmark and Foundation Capital, outra empresa de capital de risco, liderou uma rodada de financiamento de US $ 27 milhões para a Cerebras, que arrecadou quase US $ 500 milhões. Outras empresas também estão fabricando os chamados aceleradores de inteligência artificial; Cerebras' os concorrentes groq, Graphcore e Sambanova levantaram mais de US $ 2 bilhões em capital entre eles. Mas Cerebras' abordagem é única. Em vez de imprimir dezenas de wafers em um grande pedaço de silício, cortando-os e conectando-os uns aos outros, a empresa criou um gigante" wafer level" lasca. Enquanto um chip de computador típico tem o tamanho de uma unha, o Cerebras tem o tamanho de um prato de jantar e é o maior chip de computador do mundo.
Até mesmo os concorrentes acharam o feito impressionante." Esta é uma nova ciência," Nigel Toon, presidente-executivo e cofundador da Graphcore', me contou." É' é uma incrível peça de engenharia. É' uma obra-prima." Enquanto isso, outro engenheiro com quem conversei o descreveu como um projeto de ciência - grande para o grande' s. No passado, a empresa tentou e não conseguiu fazer chips gigantes; Cerebras' plano equivale a uma aposta de que superar os desafios da engenharia é possível e vale a pena." Para ser sincero, para mim a ignorância é uma vantagem," Vishria disse." Não sei' se eu soubesse o quanto é difícil fazer o que eles fazem, teria coragem de investir."
É fácil presumir que os computadores estão ficando cada vez mais rápidos. Isso é frequentemente explicado pela Lei de Moore 39: o padrão estabelecido em 1965 pelo pioneiro dos semicondutores Gordon Moore, segundo o qual o número de transistores em um chip dobra a cada ano ou a cada dois anos. É claro que a Lei de Moore' não é realmente uma lei, e os engenheiros trabalham incansavelmente para reduzir os transistores enquanto também aprimoram a" arquitetura" de cada chip para criar designs mais eficientes e poderosos.
Os arquitetos de chips há muito se perguntam se um único chip de computador de grande escala pode ser mais eficiente do que um monte de chips menores, assim como uma cidade com recursos concentrados e blocos densos é mais eficiente do que um subúrbio. A ideia foi experimentada pela primeira vez na década de 1960, quando a Texas Instruments limitou a produção de chips de alguns centímetros de largura. Mas os engenheiros da empresa' s tiveram problemas de rendimento. Em qualquer pastilha de silício, os defeitos de fabricação inevitavelmente colocam em risco um certo número de circuitos. Se um wafer contém 50 chips, a empresa pode jogar fora os ruins e vender os bons. Mas se cada chip bem-sucedido dependesse do circuito operacional de um único wafer, muitos wafers caros seriam descartados. A Texas Instruments encontrou uma solução, mas a tecnologia e a necessidade ainda não existiam.
Na década de 1980, um engenheiro chamado Gene Amdahl tentou novamente resolver o problema com uma empresa que ele fundou chamada Trilogy Systems. Tornou-se a maior startup da história do Vale do Silício 39, com cerca de US $ 250 milhões em financiamento. Para resolver o problema de rendimento, a Trilogy imprimiu componentes redundantes no chip. Este método aumenta a produção, mas reduz a velocidade do chip. Enquanto isso, a Trilogy está lutando de outras maneiras. Amdahl atropelou um motociclista com seus rolos Royce, causando problemas legais; Seu presidente morreu de um tumor cerebral; As fortes chuvas atrasaram a construção de fábricas, enferrujando os sistemas de ar condicionado e acumulando poeira nos cavacos. Em 1984, a Trilogy desistiu." Não' não percebi como seria difícil," O filho de Amdahl' disse ao The Times.
Se a tecnologia da Trilogy' s for bem-sucedida, agora ela pode ser usada para aprendizado profundo. Em vez disso, os Gpus (chips usados em videogames) estão resolvendo problemas científicos em laboratórios nacionais. Reutilizar gpus para IA depende do fato de que as redes neurais, embora muito complexas, dependem de muita multiplicação e adição. Quando os&neurônios" na rede disparam uns aos outros, eles amplificam ou reduzem os sinais uns dos outros' s, multiplicando-os por coeficientes chamados pesos de conexão. Um processador AI eficiente irá computar muitas ativações em paralelo; Ele os combina em uma série de números chamados vetores, ou grades de números chamadas matrizes, ou blocos de dimensões superiores chamados tensores. Idealmente, você deseja multiplicar uma matriz ou tensor por outro de uma vez. Os Gpus são projetados para fazer algo semelhante:
& quot; A sombra da Trilogia é tão grande," Feldman me disse recentemente," que as pessoas param de pensar e começam a dizer' É' é impossível.'" As empresas de GPU, incluindo a Nvidia, aproveitaram a oportunidade de personalizar seus chips para aprendizado profundo. Em 2015, Feldman e um grupo de arquitetos de computadores começaram a discutir a ideia de chips maiores depois de cofundar uma fabricante de servidores de computador, a Seamicro, que eles venderam para a fabricante de chips AMD por US $ 334 milhões. Eles trabalharam no assunto por quatro meses em um escritório emprestado de uma empresa de capital de risco. Quando eles tiveram um esboço de uma solução viável, eles falaram com oito empresas; Obteve financiamento da Benchmark, Foundation Capital e Eclipse e começou a contratar.
Cerebras' A primeira tarefa é resolver os problemas de fabricação que afetam os grandes chips. O chip era originalmente um lingote cilíndrico de silício cristalino com cerca de trinta centímetros de diâmetro e o lingote de aço era cortado em bolachas com menos de um milímetro de espessura. O circuito é então" impresso" no wafer por meio de um processo chamado litografia. Os produtos químicos sensíveis aos raios ultravioleta são cuidadosamente depositados na superfície e, em seguida, um feixe de luz ultravioleta é projetado através de um modelo detalhado denominado máscara. Esses produtos químicos reagem para formar circuitos.
Normalmente, a área coberta pela luz projetada através da máscara torna-se um chip. Então o chip se move e a luz é projetada novamente. Depois que dezenas ou centenas de chips foram impressos, eles são cortados a laser do wafer." A maneira mais fácil de fazer isso é sua mãe pegar uma massa de biscoito redondo," Feldman disse." Ela tem uma forma para biscoitos e corta os biscoitos com cuidado." As leis da física e da óptica tornam impossível fazer um cortador de biscoitos maior. Como resultado," desenvolvemos uma tecnologia para que você possa se comunicar através de uma pequena massa entre dois biscoitos."
No sistema de impressão desenvolvido pela Cerebras em colaboração com a TSMC, empresa que fabrica o chip, as bordas dos biscoitos se sobrepõem para que seus fios sejam conectados. O resultado é um único tamanho de bolacha&&. wafer, quadrado de cor cobre e 21cm de cada lado. (Os maiores Gpus têm pouco menos de 3 cm de diâmetro.) A Cerebras produziu seu primeiro chip, Wafer-scale Engine 1, em 2019. Wse-2, lançado este ano, usa um circuito mais denso, com 2,6 trilhões de transistores embalados em 850.000 unidades de processamento , ou&núcleos &. (Top Gpus tem apenas alguns milhares de núcleos, enquanto a maioria dos cpus tem menos de 10.)
& 2,6 trilhões de transistores é surpreendente," disse Aart de Geus, presidente e co-CEO da Synopsys. A Synopsys fornece alguns softwares que a Cerebras e outros fabricantes de chips usam para fazer e validar seus designs de chip. De Geus diz que, ao projetar chips, os engenheiros devem primeiro considerar duas questões centrais:" De onde vêm os dados?" Onde isso é tratado?" Quando os chips eram mais simples, os designers podiam responder a essas perguntas com um lápis em uma mesa de desenho; Ao trabalhar com os chips mais complexos da' hoje, insira o código que descreve a arquitetura que eles desejam criar e, em seguida, passe para as ferramentas de visualização e codificação." Pense na aparência da casa vista do telhado," de Geus disse." A garagem fica perto da cozinha? Ou fica perto do quarto? Você o quer perto da cozinha - caso contrário, você' terá que carregar mantimentos por todos os cantos da casa." Depois de projetar a planta baixa, ele explicou," você pode usar equações para descrever o que está acontecendo na sala."
A complexidade do design dos chips é estonteante." Existem muitas camadas aqui," de Geus disse, com circuitos entrecruzados e em camadas um em cima do outro, como um viaduto de uma grande rodovia. Para os engenheiros da Cerebras, trabalhando na escala de um wafer, a complexidade aumenta. Synopsys' o software ajuda na forma de inteligência artificial: algoritmos de correspondência de padrões identificam problemas comuns e propõem soluções; O programa otimizador move a sala para uma disposição mais rápida e eficiente. Se muitas pistas tentarem se espremer em um prédio de dois blocos, o software permite que os engenheiros interpretem Robert Moses e movam o bloco.
No final, Feldman diz, existem várias vantagens em projetos de chips superdimensionados. Quando os núcleos estão no mesmo chip, eles se comunicam mais rápido: o cérebro do computador' agora está concentrado em um único crânio, em vez de espalhado por uma sala. Os chips maiores também lidam melhor com a memória. Normalmente, um pequeno chip pronto para processar um arquivo deve primeiro obter o arquivo de um chip de memória compartilhado localizado em outro lugar na placa de circuito; Apenas os dados mais comumente usados são armazenados em cache perto de casa. Ao descrever a eficiência dos chips no nível do wafer, Feldman ofereceu uma analogia: Ele me pediu para imaginar um grupo de colegas de quarto (núcleo) vivendo em um dormitório (chip) que quisesse assistir a um jogo de futebol (fazer trabalho de computação). Para assistir ao jogo, diz feldman, os companheiros de quarto precisam guardar cerveja na geladeira (os dados são armazenados na memória); A Cerebras mantém uma geladeira em cada quarto para que os colegas de quarto não tenham que correr o risco de ir para a cozinha comunitária do dormitório' ou ao Safeway. Isso tem o benefício adicional de permitir que cada núcleo processe dados diferentes mais rapidamente." Para que eu possa ter Bud no meu dormitório," Feldman disse." Em seu dormitório, você pode ficar com Schlitz."
Finalmente, a Cerebras deve superar os problemas de rendimento. Os engenheiros da empresa' s usam o truque da Trilogy' redundância. Mas aqui eles têm uma vantagem sobre seus predecessores. A Trilogy tenta fazer chips genéricos com muitos componentes diferentes, portanto, a fiação em torno de um único componente com falha pode exigir a conexão de um substituto distante. Na Cerebras' chip, todos os núcleos são idênticos. Se um biscoito estiver errado, os que estão ao redor são igualmente bons.







