1. É mostrada a solução de aprendizado de máquina Wafer Scale Engine (WSE) da Cerebras (a). Ele foi projetado para ser usado como está, não dividido em chips individuais. O WSE da Cerebras precisa de um sistema resfriado a água para mantê-lo funcionando sem um colapso (b). (Fonte: Cerebras Systems)

Entendendo a computação de borda | Design Eletrônico

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br


O aprendizado de máquina (ML) é apenas um aspecto da inteligência artificial (IA). O ML também tem muitas partes, mas as que têm o maior impacto agora são baseadas em redes neurais (NNs). Mesmo a análise detalhada dessa área não restringe muito o campo devido à grande variedade de variações e implementações. Alguns funcionam bem para certos tipos de aplicativos, como reconhecimento de imagem, enquanto outros podem lidar com processamento de linguagem natural ou até mesmo modificação e criação de arte.

Existem redes neurais profundas (DNNs), redes neurais convolucionais (CNNs) e redes neurais com spikes (SNNs). Alguns são semelhantes, enquanto outros usam abordagens e técnicas de treinamento significativamente diferentes. Todos tendem a exigir quantidades de energia computacional mais significativas que os algoritmos convencionais, mas os resultados tornam as redes neurais muito úteis.

Embora os aplicativos ML sejam executados em microcontroladores modestos, o escopo desses aplicativos é realmente limitado pelo hardware. Recorrer ao hardware ajustado ou projetado para NNs permite que os designers implementem aplicativos significativamente mais ambiciosos, como carros autônomos. Isso depende muito da capacidade do sistema de empregar NNs para reconhecimento de imagem, integração de sensores e uma série de outras tarefas.

A aceleração de hardware é a única maneira de fornecer soluções ML de alto desempenho. Um microcontrolador sem hardware de ML pode ser capaz de executar um aplicativo de ML para verificar o motor que está controlando para otimizar o desempenho ou implementar diagnósticos avançados, mas fica aquém ao tentar analisar o vídeo em tempo real.

Da mesma forma, o processamento de imagens maiores a uma taxa mais rápida é apenas uma tarefa de ML que exige muito do sistema. Uma infinidade de soluções estão sendo desenvolvidas e entregues que fornecem ordens de magnitude mais desempenho para abordar o treinamento e a implantação. Em geral, as necessidades de implantação são menores do que os sistemas que treinam, mas não há absolutos no que diz respeito ao ML.

A Conferência de processadores Linely Spring deste ano foi quase exclusivamente sobre IA e ML. A maioria das apresentações abordou soluções de hardware de alto desempenho. Enquanto muitos vão pousar no data center, muitos outros acabam “no limite” como sistemas embarcados.

A integração em escala de wafer visa o aprendizado de máquina

A criação de novas arquiteturas está tornando as plataformas ML mais rápidas; Ainda assim, há uma necessidade insaciável de mais poder de computação em ML. No lado positivo, está pronto para computação paralela e soluções baseadas em nuvem que podem conectar muitos chips em rede para lidar com modelos ML muito grandes ou muitos.

Uma maneira de tornar cada nó mais poderoso é colocar mais no pacote de computação. É isso que Cerebras SystemsWaferscale Engine (WSE) funciona com chips idênticos, mas não quebra o dado (Figura 1). Em vez disso, as conexões entre os chips permanecem, tornando os 46.225 mm2 solução de silício o maior dispositivo de computação completo com 1,2 trilhão de transistores que implementam 400.000 núcleos otimizados para IA. A matriz possui 18 GB de memória com 9 petabytes por segundo (PB / s) de largura de banda de memória. A largura de banda do tecido é de 100 petabits por segundo (Pb / s). O chip é implementado pelo TSMC usando seu processo de 16 nm.

1. É mostrada a solução de aprendizado de máquina Wafer Scale Engine (WSE) da Cerebras (a). Ele foi projetado para ser usado como está, não dividido em chips individuais. O WSE da Cerebras precisa de um sistema resfriado a água para mantê-lo funcionando sem um colapso (b). (Fonte: Cerebras Systems) 1. É mostrada a solução de aprendizado de máquina Wafer Scale Engine (WSE) da Cerebras (a). Ele foi projetado para ser usado como está, não dividido em chips individuais. O WSE da Cerebras precisa de um sistema resfriado a água para mantê-lo funcionando sem um colapso (b). (Fonte: Cerebras Systems)

Cada chip economiza energia; no entanto, reunir todo esse poder de computação em um pacote pequeno leva a muito calor. Múltiplas matrizes são colocadas em um sistema resfriado a água. Vários sistemas podem caber em um rack padrão com conexões Ethernet, permitindo a construção de sistemas muito grandes. A interconexão e o suporte computacional foram otimizados para lidar com redes neurais esparsas, comuns à maioria das aplicações.

Leia Também  Faça um enorme cilindro "8 X 4 X 16" - Open Electronics

Spiking Hardware de rede neural

As redes neurais spiking (SNNs) têm características diferentes das DNNs. Uma vantagem dos SNNs é que o suporte ao aprendizado está a par da implantação, enquanto os DNNs exigem muitos dados e recursos computacionais para treinamento em comparação à implantação. Os SNNs também podem lidar com treinamento incremental. Além disso, os SNNs exigem menos sobrecarga computacional, porque só processam neurônios quando acionados (Figura 2).

2. As redes neurais convencionais (em cima) avaliam todos os elementos do modelo em cada nível, ao passo que as redes neurais de ponta (em baixo) calculam apenas eventos desencadeados. (Fonte: GrAI Matter Labs)2. As redes neurais convencionais (em cima) avaliam todos os elementos do modelo em cada nível, ao passo que as redes neurais de ponta (em baixo) calculam apenas eventos desencadeados. (Fonte: GrAI Matter Labs)

BrainChipÉ O SoC de rede neural AKD1000 (NSoC) pode lidar com DNNs e SNNs. A arquitetura suporta até 80 unidades de processamento neural (NPUs) – o AKD1000 possui 20 NPUs (Fig. 3). Um complexo de conversão implementa um conversor de eventos de pico e um codificador de evento de pico de dados que pode manipular dados digitais multivariáveis, bem como dados de sensores pré-processados. O suporte SNN processa apenas eventos diferentes de zero.

3. O AKD1000 desenvolvido pelo tecido neuronal BrainChip suporta o aumento de redes neurais. Um Cortex-M4 gerencia os recursos do sistema.3. O AKD1000 desenvolvido pelo tecido neuronal BrainChip suporta o aumento de redes neurais. Um Cortex-M4 gerencia os recursos do sistema.

O AKD1000 se beneficia da escassez em ativações e pesos. Ele suporta quantização de pesos e ativações de 1, 2 ou 4 bits, resultando em um pequeno espaço de memória. As NPUs comunicam eventos por uma rede em malha, portanto, o processamento do modelo não requer suporte externo à CPU.

O Tenstorrent também tem como alvo SNN, DNN, CNN e outras aplicações de rede neural com seus núcleos Tensix (Fig. 4). Os núcleos têm cinco núcleos RISC de emissão única e um mecanismo de computação 4-TOPS. Um mecanismo de processamento de pacotes fornece suporte para decodificação / codificação e compactação / descompactação junto com o gerenciamento de transferência de dados.

4. O núcleo Tensix da Tenstorrent é construído com cinco códigos RISC de emissão única e um mecanismo de computação 4-TOPS.4. O núcleo Tensix da Tenstorrent é construído com cinco códigos RISC de emissão única e um mecanismo de computação 4-TOPS.

Como na maioria das plataformas SNN, os núcleos Tensix podem ser usados ​​na borda ou no data center. Eles fornecem execução condicional refinada que torna o sistema mais eficiente no processamento de modelos SNN ML. O sistema foi projetado para ser dimensionado, pois não usa memória compartilhada. Também não requer coerência entre os nós, permitindo que uma grade de núcleos seja conectada com eficiência por meio de sua rede.

O GrAI Matter Labs também tem como alvo essa abordagem de ML orientada a eventos com sua tecnologia NeuronFlow (Fig. 5). O GrAI One consiste em 196 núcleos de neurônios com 1024 neurônios / núcleo, que soma 200.704 neurônios. Uma rede proprietária no chip fornece a interconexão. Nenhuma DRAM externa é necessária. O SDK inclui suporte ao TensorFlow.

5. Eventos e respostas são tratados pelo network-on-chip (1). Os eventos (2) são então multiplicados pelos pesos apropriados (3), executados no pool de neurônios (4) e os resultados são processados ​​(5).5. Eventos e respostas são tratados pelo network-on-chip (1). Os eventos (2) são então multiplicados pelos pesos apropriados (3), executados no pool de neurônios (4) e os resultados são processados ​​(5).

CNNs, DNNs e muito mais

As redes neurais convolucionais são muito úteis para certos tipos de aplicações, como a classificação de imagens. SiMaai otimizou seu chip (Fig. 6) para cargas de trabalho da CNN. A propósito, sima significa “borda” em sânscrito. O chip também é compatível com ISO 26262 ASIL-B, permitindo que seja usado em locais onde outros chips não são adequados, como aplicações automotivas.

Leia Também  Nenhum texto e somente programação baseada em conversação
cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

6. O SoC da SiMaai é compatível com ISO 26262. Um Arm Cortex fornece suporte a aplicativos, mas é aprimorado com um acelerador de aprendizado de máquina (MLA) de 50 TOPS. O MLA inclui um ISP (processador de sinal de imagem) e um processo de visão por computador para pré-processar os dados, permitindo que todos os aspectos do sistema sejam executados em um único chip.6. O SoC da SiMaai é compatível com ISO 26262. Um Arm Cortex fornece suporte a aplicativos, mas é aprimorado com um acelerador de aprendizado de máquina (MLA) de 50 TOPS. O MLA inclui um ISP (processador de sinal de imagem) e um processo de visão por computador para pré-processar os dados, permitindo que todos os aspectos do sistema sejam executados em um único chip.

O Flex Logix é conhecido por sua tecnologia FPGA incorporada. A empresa trouxe essa experiência para a mesa com seu design nnMAX e o coprocessador InferX X1. O cluster de matriz nnMAX foi projetado para otimizar o uso de memória por pesos, implementando a aceleração Winograd que lida com a tradução de entrada e saída on-the-fly. Como resultado, o sistema pode permanecer ativo, enquanto outras soluções estão ocupadas movendo pesos para dentro e para fora da memória externa. O chip suporta INT8, INT16 e BFLOAT16. Vários modelos podem ser processados ​​em paralelo.

O chip de processador de streaming de tensão (TSP) da Groq oferece 1 operações por segundo, rodando a 1,25 GHz usando valores INT8. A arquitetura do chip também permite que o sistema forneça esse alto nível de desempenho dividindo o fluxo de dados e código (Fig. 7). As 20 superlanelas horizontais de fluxo de dados são gerenciadas pelo fluxo de instruções vertical SIMD. Seções leste / oeste idênticas permitem que os dados fluam nas duas direções. Existem 20 superlanes com 16 unidades SIMD cada.

7. O chip da Groq implementa 20 superlanes com 16 unidades SIMD cada. Os dados fluem para as bordas externas de cada lado, enquanto as instruções SIMD de controle fluem pela matriz que controla cálculos paralelos maciços. As unidades da matriz incluem SRAM (MEM) no chip, mecanismos de processamento de vetores (VXM), uma matriz de núcleos MAC (MXM) e remodeladores de dados (SXM).7. O chip da Groq implementa 20 superlanes com 16 unidades SIMD cada. Os dados fluem para as bordas externas de cada lado, enquanto as instruções SIMD de controle fluem pela matriz que controla cálculos paralelos maciços. As unidades da matriz incluem SRAM (MEM) no chip, mecanismos de processamento de vetores (VXM), uma matriz de núcleos MAC (MXM) e remodeladores de dados (SXM).

Processadores e DSPs

Os processadores ML especiais estão na ordem do dia para muitas novas startups, mas a extensão das arquiteturas existentes gera benefícios significativos de desempenho, mantendo o modelo de programação consistente. Isso permite fácil integração com o restante de um aplicativo.

O Tensilica HiFi DSP da Cadence agora é suportado por sua biblioteca HiFi Neural Network, além da biblioteca Nature DSP, que lida com matemática vetorial como cálculos FFT / FIR e IIR. O suporte SIMD de 8/16/32 bits e FPU vetorial (VFPU) fornece suporte eficiente para redes neurais, enquanto permite que um DSP de design personalizado inclua aprimoramentos específicos do cliente.

O DSP do sensor SensPro da CEVA combina o DSP escalar CEVA-BX2 com um processador NeuPro AI e um processador de visão CEVA-XM6. A ampla arquitetura do processador SIMD é configurável para lidar com 1024 8- × -8 MACs, 256 16- × -16 MACs ou suporte dedicado à rede binária-neural (BNN) 8- × -2. Ele também pode lidar com 64 MACs de ponto flutuante de precisão única e 128 de meia precisão. Isso foi traduzido para 3 TOPS para inferir a rede 8- × -8, 20 TOPS para inferir BNN e 400 GFLOPS para aritmética de ponto flutuante.

A solução de processador DesignWare ARC HS desenvolvida pela Synopsys assume o compromisso de ter muitos processadores para atender ao suporte de ML. Isso não é muito diferente da maioria das soluções, mas é mais parecido com os núcleos e interconexões RISC convencionais que normalmente são mais úteis para outros aplicativos.

Leia Também  Renesas combina buck síncrono e regulador LDO em um IC rígido

A AMD não é o único produtor de chips x86. A Via Technologies tem seu próprio IP x86 e sua tecnologia Centaur está fazendo uso disso. A plataforma x86 é integrada a um coprocessor AI Ncore amarrado por um anel (Fig. 8). O Ncore utiliza uma arquitetura SIMD muito ampla, organizada em fatias verticais, para fornecer uma configuração escalável, tornando os projetos futuros mais poderosos. O chip pode fornecer 20 TOPS a 2,5 GHz.

8. A Centaur Technology combina processadores x86 com o acelerador NCore AI.8. A Centaur Technology combina processadores x86 com o acelerador NCore AI.

Eu já cobri a combinação Arm Cortex-M55 e Ethos-U55. O Cortex-M55 possui um conjunto de instruções aprimorado que adiciona um pipeline de vetor e caminho de dados para dar suporte às novas instruções SIMD. O suporte DSP inclui recursos como zero overhead loops, buffers circulares e endereçamento reverso de bits.

Ainda assim, como em outras arquiteturas, um acelerador de IA dedicado está sendo adicionado à solução – ou seja, a unidade de processador de micro rede Ethos-U55 (microNPU). Ele suporta ativações de 8 ou 16 bits nos modelos, mas internamente, os pesos sempre serão 8 bits. O microNPU foi projetado para funcionar de forma autônoma.

Enquanto o V no RISC-V não representa vetores, o SiFiveÉ os projetos RISC-V mais recentes têm suporte a vetores, ideal para suporte computacional de rede neural (Fig. 9). O que torna esse suporte interessante é que o suporte vetorial pode ser configurado dinamicamente. As instruções de vetor funcionam com qualquer tamanho de vetor usando registros de comprimento e tipo de vetor. O suporte à vetorização do compilador leva isso em consideração. As plataformas VI2, VI7 e VI8 visam todos os espaços de aplicativos através do data center.

9. Os novos projetos RISC-V do SiFive incluem suporte vetorial configurável.9. Os novos projetos RISC-V do SiFive incluem suporte vetorial configurável.

Estendendo FPGAs e GPGPUs

XilinxÉ A plataforma de aceleração de computação adaptativa versátil (ACAP) é mais do que apenas um FPGA (Fig. 10). O tecido FPGA está no centro, fornecendo personalização de baixo nível. No entanto, existem núcleos rígidos e uma rede de interconexão em torno dele. Os núcleos rígidos variam de CPUs Arm Cortex para tarefas de aplicativos e em tempo real, juntamente com suporte a AI e DSP.

10. A plataforma de aceleração de computação adaptativa (ACAP) da Xilinx pode incorporar mecanismos de IA para complementar o tecido FPGA e os CPUs hardcore Arm Cortex.10. A plataforma de aceleração de computação adaptativa (ACAP) da Xilinx pode incorporar mecanismos de IA para complementar o tecido FPGA e os CPUs hardcore Arm Cortex.

Deixei a Nvidia até o fim, pois a empresa anunciou sua plataforma A100 na recente e virtual GPU Technology Conference (Fig. 11). Esta GPGPU incorpora uma série de aprimoramentos de ML, incluindo aceleração de escassez e suporte a GPU de várias instâncias (MIG). O último fornece particionamento baseado em hardware dos recursos da GPU, que permitem uma operação mais segura e eficiente. Implementações em larga escala aproveitam as tecnologias NVLink e NVSwitch de terceira geração que unem vários dispositivos.

11. Jensen Huang, da Nvidia, acabou de tirar esta placa-mãe do forno. Possui oito GPGPUs baseadas em A100, projetadas especificamente para a aceleração da IA.11. Jensen Huang, da Nvidia, acabou de tirar esta placa-mãe do forno. Possui oito GPGPUs baseadas em A100, projetadas especificamente para a aceleração da IA.

A infinidade de opções de aprendizado de máquina inclui mais do que apenas as plataformas descritas aqui. Eles refletem não apenas as várias maneiras pelas quais o ML pode ser acelerado, mas também a variedade de abordagens disponíveis para os desenvolvedores. Simplesmente escolher uma plataforma pode ser uma tarefa importante, mesmo quando se entende que tipo de modelo será usado e seus possíveis requisitos de desempenho. Da mesma forma, as variantes podem oferecer diferenças de desempenho com ordens de magnitude além. O design do sistema e do aplicativo nunca foi tão empolgante ou complicado. Se ao menos tivéssemos um sistema de aprendizado de máquina para ajudar nisso.

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br