Inicio Tecnología Arquitectura Ada Lovelace y GPU AD102, todos los detalles

Arquitectura Ada Lovelace y GPU AD102, todos los detalles

9
0

La RTX 4090 utiliza una GPU AD102 del proceso de fabricación 4N de TSMC. Consta de 76.300 millones de transistores distribuidos en un área de 608 mm²

Arquitectura gráfica Ada LoveLace de Nvidia.

GPU AD102, arquitectura

Este procesador de gráficos utiliza la arquitectura de gráficos de Ada Lovelace. Su interfaz de alta es PCI-Express 4.0 x16 mientras que maneja memoria GDDR6X a través de un bus de 384 bits.

Arquitectura gráfica Ada LoveLace de Nvidia.

El diagrama propuesto por Nvidia revela una organización que aprovecha el motor Gigathread encargado de asignar recursos. La arquitectura de Ada Lovelace tiene un módulo llamado OFA, una contracción de Optical Flow Accelerator. Veremos al final del artículo que juega un papel fundamental para la tecnología DLSS de tercera generación. Genera imágenes completas usando IA sin requerir la maquinaria de renderizado de gráficos.

Arquitectura gráfica Ada LoveLace de Nvidia.

El chip incorpora el doble de unidades de codificación multimedia que «Amperio». Esto incluye la aceleración de hardware de la codificación y decodificación AV1. Esta elección mejora el rendimiento en un contexto de producción. La presencia de más unidades de codificación de medios significa que se pueden procesar más secuencias de video al mismo tiempo. Los principales componentes de representación de gráficos del AD102 son los GPC, también conocidos como clústeres de procesamiento de gráficos. Encontramos 12 contra 7 para el GA102 (Amperio). Consta de un motor Raster y 6 TPC (clusters de procesamiento de texturas). Cada TPC contiene dos SM (Streaming Multiprocessors).

Arquitectura gráfica Ada LoveLace de Nvidia.

Nvidia explica que los SM se han reelaborado. Cada SM contiene un núcleo RT de tercera generación, un caché L1 de 128 KB y cuatro TMU. Observamos 16 núcleos CUDA (FP32), 16 núcleos CUDA (FP32 + INT32), 4 unidades LD/ST (carga/almacenamiento), una pequeña caché L0 soportada por el «Warp Sheduler» y el «despacho», así como un archivo registro y un núcleo Tensor de cuarta generación.

Como resultado, por simple multiplicación, un SM integra 128 núcleos CUDA, 4 núcleos Tensor y un núcleo RT. Sabiendo que hay 12 SMs por GPC, encontramos un total de 1.536 CUDA cores, 48 ​​Tensor cores y 12 RT cores por GPC, es decir, para un conjunto de doce GPCs 18.432 CUDA cores, 576 Tensor cores y 144 RT cores.

NVIDIA no mencionó el tamaño de la memoria caché L2, pero se supone que es más grande que la generación Ampere.

Lea también la noticia :  GeForce RTX 3090 Ti de Nvidia - Las especificaciones

Arquitectura Ada LoveEncaje

Arquitectura gráfica Ada LoveLace de Nvidia.

Reordenación de la ejecución de sombreadores

Ada Lovelace también se beneficia de una reorganización del fragmento de ejecución (SER). La idea es reorganizar las cargas de trabajo matemáticas aguas arriba, para cada subproceso de trabajo, de modo que los componentes SIMD las procesen de la manera más eficiente posible. Se promete un impacto en el rendimiento en Rasterización pero sobre todo en Ray Tracing. Por qué ?

Arquitectura gráfica Ada LoveLace de Nvidia.

El rendimiento es mejor cuando se puede procesar la misma operación para varios destinos. Esto disminuye la carga de procesamiento. En Ray Tracing, cada rayo genera una gran cantidad de necesidades de procesamiento diferentes. La acción del SER es «ordenar» las operaciones para crear piezas de tareas idénticas y ejecutarlas. El impacto puede ser muy significativo. Por ejemplo, en Cyberpunk 2077, la tecnología SER mejora el rendimiento hasta en un 44 % y en un 29 % con Portal RTX.

Durante su presentación, Nvidia ha querido destacar que esta tecnología es adaptable y modular. Existen diferentes enfoques para SER y la mejor opción varía según el juego.La API ofrecerá control sobre cómo funciona el algoritmo de clasificación.

Micromallas desplazadas

Arquitectura gráfica Ada LoveLace de Nvidia.

Ada Lovelace también se beneficia de un motor de micromallas desplazadas proporcionado por los núcleos RT de tercera generación. Estos módulos DIMM construyen la jerarquía de volumen delimitador (BVH, también conocida como jerarquía de volumen delimitador) de una manera más eficiente y con menos recursos. Nvidia habla de una mayor velocidad por un factor de 10 y los requisitos de memoria de video divididos por 20. Esta malla estructurada de microtriángulos es procesada de forma nativa por los núcleos RT de 3el generación.

Arquitectura gráfica Ada LoveLace de Nvidia.

El enfoque es representar objetos con geometría compleja en forma de una malla gruesa de un triángulo básico. La estructura de datos BVH se simplifica, lo que alivia los requisitos de memoria y reduce la carga en el procesador de trazado de rayos. A diferencia de Ampere, donde los Core RT de 2ª generación deben procesar toda la información de cada triángulo formando la malla, los Core RT de 3ª generación de Ada LoveLace procesan un triángulo acompañado de un mapa que permite reconstruir el objeto y sus interacciones con la luz.

Lea también la noticia :  Intel visión 2022, ¿el lanzamiento de Arc Alchemist estaría programado entre el 10 y 11 de mayo?

Las ganancias son en varias escalas, suficientes para aliviar las necesidades en:

  • banda ancha,
  • almacenamiento,
  • autobuses PCIe,
  • y recursos del procesador.

Micro mallas de opacidad

Arquitectura gráfica Ada LoveLace de Nvidia.

También tenemos la función OMM, también conocida como Opacity Micro Meshes, destinada a aumentar el rendimiento de la rasterización, especialmente con objetos que tienen un valor «alfa» (datos de transparencia). Ciertos objetos que componen una escena 3D, como las hojas de un árbol, tienen una forma que es difícil de dominar para los núcleos RT encargados de determinar las interacciones con los rayos de luz. Las láminas son esencialmente rectángulos que explotan texturas pero acompañadas de un alfa (de transparencia). Ayuda a crear la forma de la hoja.

Los núcleos RT se encuentran en una situación compleja ya que la gestión de rayos con este tipo de objetos requiere conocer la forma. Los núcleos RT Ampere necesitan varias interacciones para determinar esta forma. La situación se ha resuelto con esta función OMM. Crea una malla de texturas rectangulares que se alinean con las partes de la textura sin datos alfa. Como resultado, los núcleos RT comprenden mejor la forma exacta del objeto que se va a procesar. El método también beneficia el sombreado en el renderizado sin Ray Tracing.

DLSS-3

Arquitectura gráfica Ada LoveLace de Nvidia.

Finalmente, la tecnología DLSS 3 promete duplicar la cantidad de imágenes por segundo con una calidad comparable. Esto es posible gracias a un nuevo avance llamado generación de marcos de IA. DLSS 3 se basa en el funcionamiento de DLSS 2 mientras genera imágenes completas de medio cuadro utilizando IA. Además, estos fotogramas alternativos son el resultado de un análisis de los fotogramas anteriores y posteriores.

Sin embargo, esto solo es posible en la arquitectura gráfica Ada lovelace, debido a un componente de hardware, el OFA (acelerador de flujo óptico). Ayuda a predecir el siguiente cuadro creando un campo de flujo óptico. Su función es permitir que DLSS 3 reconozca objetos estáticos en una escena 3D dinámica. Este proceso se basa en el formato matemático FP8 compatible con los núcleos Tensor de cuarta generación. Tenga en cuenta que para reducir la latencia inherente a este avance, DLSS 3.0 se basa en Reflex

Artículo anteriorAvatar 2: ¿por qué el primer guión terminó en la basura?
Artículo siguienteDahmer: la serie no pasa a las familias de las víctimas
Apasionado del running, vegano a los 25 años y comercial de la ropa, me incorporé al equipo de redacción de AltaVision.news en noviembre de 2021