Nesta análise, estamos analisando em profundidade o Gigabyte GeForce RTX 4090 Gaming OC, que representa o design personalizado de valor final da empresa da nova GPU principal da NVIDIA. As marcas Gaming OC e WindForce ficaram por conta própria sob o letreiro Gigabyte, já que a empresa posicionou a gama AORUS Gaming mais alta com seus vários níveis no topo de sua pilha de produtos. Com o RTX 4090, a Gigabyte está projetando apenas os níveis AORUS Xtreme e AORUS Master (e nenhum AORUS Elite inferior), o que cria espaço na pilha de produtos da empresa para o Gaming OC que temos aqui. Não confunda valor com barato, isso ainda é projetado para ser um formidável design personalizado, com todos os sinos e assobios que os entusiastas e jogadores gostariam. A GeForce RTX 4090 é a melhor placa gráfica da série RTX 40 que você pode ter (e o único SKU da série no momento desta análise). No coração do RTX 4090 está a nova arquitetura gráfica “Ada Lovelace”, que inaugura a 3ª geração do NVIDIA RTX, a tentativa pioneira da empresa de adicionar realismo aos visuais dos jogos, combinando gráficos 3D raster convencionais com elementos ray traced em tempo real como iluminação, sombras, reflexos, iluminação, desfoque de movimento, etc., todos os quais são o mais próximo possível da vida real, graças ao poder do traçado de raios. Ada lança novos núcleos RT de 3ª geração que aceleram o ray tracing; e núcleos Tensor de 4ª geração que fazem IA; combinado com muito mais núcleos CUDA do que a geração anterior, rodando em velocidades de clock muito mais altas, com muito mais cache on-die para amortecer o subsistema de memória.
Para Ada, a NVIDIA aproveitou o processo de fabricação de silício EUV de 4 nm e alcançou três vezes a contagem de transistores em relação à geração anterior, com área de matriz de GPU comparável e potência típica da placa de 450 W (semelhante à da RTX 3090 Ti) . Em troca, a empresa está prometendo o tipo de aumento de desempenho que estamos acostumados a ver quando a Lei de Moore ainda funcionava para GPUs - cerca de 50 a 100 por cento de aumento de desempenho geracional. Além disso, a empresa também introduziu uma grande atualização em seu popular aprimoramento de desempenho, o DLSS 3, que agora pode gerar quadros inteiros em vídeos ou jogos, sem envolver o pipeline de renderização gráfica da GPU; duplicando assim os rácios de fotogramas quando ativado.
A arquitetura gráfica Ada anuncia a terceira geração da tecnologia NVIDIA RTX, um esforço para aumentar o realismo nos visuais dos jogos, aproveitando o ray tracing em tempo real, sem a enorme quantidade de poder de computação necessária para desenhar gráficos 3D puramente ray-traced. Isso é feito combinando gráficos raster convencionais com elementos traçados por raios, como reflexos, iluminação e iluminação global, para citar alguns. A 3ª geração do RTX anuncia o novo núcleo IPC "Ada" CUDA mais alto, núcleo RT de 3ª geração, núcleo Tensor de 4ª geração e o novo processador de fluxo óptico, um componente que desempenha um papel fundamental na geração de novos quadros sem envolver os gráficos principais da GPU pipeline de renderização.
A arquitetura gráfica GeForce Ada que impulsiona o RTX 4090 aproveita o processo de fundição TSMC 4 nm EUV para aumentar a contagem de transistores para um mamute de 76,3 bilhões de transistores, um aumento de quase 3 vezes em relação à geração anterior; enquanto o tamanho da matriz é realmente menor, com 608 mm², comparado aos 628 mm² do GA102 da geração anterior. A GPU possui uma interface de host PCI-Express 4.0 x16 e um barramento de memória GDDR6X de 384 bits, que no RTX 4090 conecta-se a 24 GB de memória. O Acelerador de Fluxo Óptico (OFA) é um componente independente de nível superior. O chip possui duas unidades NVENC e uma NVDEC na série GeForce RTX 40; enquanto as futuras placas gráficas de visualização profissional terão todos os seis componentes NVENC e NVDEC habilitados.
O núcleo RT de 3ª geração acelera os aspectos mais intensivos em matemática do rastreamento de raios em tempo real, incluindo travessia de BVH. O motor de micro-malha deslocado é um recurso revolucionário introduzido com o novo núcleo RT de 3ª geração, que acelera o recurso de micro-malha deslocado. Assim como os shaders de malha e a tesselação tiveram um impacto profundo na melhoria do desempenho com geometria raster complexa, permitindo que os desenvolvedores de jogos aumentassem significativamente a complexidade geométrica; DMMs é um método para reduzir a complexidade da estrutura de dados da hierarquia de volume delimitadora (BVH), que é usada para determinar onde um raio atinge a geometria. Anteriormente, o BVH tinha que capturar até os menores detalhes para determinar corretamente o ponto de interseção. A arquitetura de rastreamento de raios da Ada recebe um grande aumento de desempenho do Shader Execution Reordering (SER), um recurso definido por software que requer reconhecimento dos mecanismos de jogo para ajudar a GPU a reorganizar e otimizar os threads de trabalho associados ao rastreamento de raios.
O BVH agora não precisa ter dados para cada triângulo em um objeto, mas pode representar objetos com geometria complexa como uma malha grosseira de triângulos de base, o que simplifica muito a estrutura de dados do BVH. Um BVH mais simples significa menos memória consumida e ajuda a reduzir bastante a carga da CPU de rastreamento de raios, porque a CPU só precisa gerar uma estrutura menor. Com os núcleos RT "Ampere" e "Turing" mais antigos, cada triângulo em um objeto tinha que ser amostrado em alta sobrecarga, para que o núcleo RT pudesse calcular com precisão a interseção de raios para cada triângulo. Com Ada, o BVH mais simples, mais os mapas de deslocamento podem ser enviados para o núcleo RT, que agora é capaz de descobrir o ponto de acerto exato por conta própria. A NVIDIA viu compressão de 11:1 a 28:1 na contagem total de triângulos. Isso reduz os tempos de compilação do BVH em 7,6x para mais de 15x, em comparação com o núcleo RT mais antigo; e reduzindo seu espaço de armazenamento em qualquer lugar entre 6,5 a 20 vezes. Os DMMs podem reduzir a utilização da largura de banda do disco e da memória, a utilização do barramento PCIe, bem como reduzir a utilização da CPU. A NVIDIA trabalhou com a Simplygon e a Adobe para adicionar suporte a DMM para suas cadeias de ferramentas.
Opacity Micro Meshes (OMM) é um novo recurso introduzido no Ada para melhorar o desempenho da rasterização, principalmente com objetos que possuem alfa (dados de transparência). A maioria dos objetos de baixa prioridade em uma cena 3D, como folhas em uma árvore, são essencialmente retângulos com texturas nas folhas onde a transparência (alfa) cria a forma da folha. Os núcleos RT têm dificuldade em cruzar raios com esses objetos, porque eles não estão realmente na forma em que aparecem (são apenas retângulos com texturas que dão a ilusão de forma. Os núcleos RT da geração anterior precisavam ter vários interações com o estágio de renderização para descobrir a forma de um objeto transparente, porque eles não podiam testar o alfa sozinhos.
Isso foi resolvido usando OMMs. Assim como os DMMs simplificam a geometria criando malhas de microtriângulos; Os OMMs criam malhas de texturas retangulares que se alinham com partes da textura que não são alfa, para que o núcleo RT tenha uma melhor compreensão da geometria do objeto e possa calcular corretamente as interseções dos raios. Isso também tem um impacto significativo no desempenho do sombreamento em aplicativos não RT. As aplicações práticas de OMMs não são apenas objetos de baixa prioridade, como vegetação, mas também sprites de fumaça e neblina localizada. Tradicionalmente, havia muito overdraw para esses efeitos, porque eles colocavam várias texturas em camadas umas sobre as outras, que precisavam ser totalmente processadas pelos shaders. Agora, apenas os pixels não opacos são executados — os OMMs fornecem uma aceleração de 30% com taxas de preenchimento de buffer gráfico e um impacto de 10% nas taxas de quadros.
O DLSS 3 apresenta um novo recurso revolucionário que promete dobrar o rácio de fotogramas com qualidade comparável, chama-se geração de fotogramas AI. Embora tenha todos os recursos do DLSS 2 e sua super-resolução de IA (aumentando um quadro de resolução mais baixa para resolução nativa com perda mínima de qualidade); O DLSS 3 pode gerar quadros inteiros simplesmente usando IA, sem envolver o pipeline de renderização de gráficos.
Cada quadro alternado com DLSS 3 é, portanto, gerado por IA, sem ser uma réplica do quadro renderizado anterior. Isso só é possível na arquitetura gráfica Ada, por causa de um componente de hardware chamado acelerador de fluxo óptico (OFA), que ajuda a prever como será o próximo quadro, criando o que a NVIDIA chama de campo de fluxo óptico. OFA garante que o algoritmo DLSS 3 não seja confundido por objetos estáticos em uma cena 3D que muda rapidamente (como um simulador de corrida). O processo depende muito do aumento de desempenho introduzido pelo formato matemático FP8 do núcleo Tensor de 4ª geração. Um terceiro ingrediente chave do DLSS 3 é o Reflex. Ao reduzir a fila de renderização para zero, o Reflex desempenha um papel vital em garantir que os tempos de quadro com DLSS 3 estejam em um nível aceitável, e uma fila de renderização não confunda o upscaler. Uma combinação de OFA e o núcleo Tensor de 4ª geração é o motivo pelo qual a arquitetura Ada é necessária para usar o DLSS 3 e por que não funcionará em arquiteturas mais antigas.