Intel Xe LP, todos los detalles de la nueva arquitectura

Durante el Día de la Arquitectura de Intel 2020, la compañía ha dedicado una buena parte de su tiempo a hablar de sus planes para la arquitectura de GPU Intel Xe LP. Te explicamos todos los detalles de esta nueva arquitectura gráfica que llegará para luchar con AMD y Nvidia.

Intel es conocida principalmente por sus núcleos de CPU, pero los tiempos están cambiando y la compañía está dedicando cada vez más espacio a las GPU. Incluso se espera que en los próximos dos años se convierta en un verdadero tercer jugador en el espacio de las GPU de PC, lanzando su primera nueva tarjeta gráfica discreta en varias generaciones.

Como parte de la anunciada arquitectura de GPU Intel Xe, la compañía tiene la intención de convertirse en un proveedor de GPU de arriba a abajo. Esto significa ofrecer GPU discretas e integradas para todo, desde centros de datos y clusters de HPC, hasta máquinas de juego y portátiles de gama alta.

Esta es una expansión masiva para una compañía que durante la última década sólo ha estado ofreciendo GPU integradas, y que ha requerido mucha ingeniería para llegar hasta aquí. Pero, por fin, después de un par de años de hablar con Xe y exponer su visión, Xe está a punto de convertirse en una realidad.

Cuando se anunció por primera vez en 2018, Intel presentó planes para una única arquitectura de GPU, Xe, compuesta por tres microarquitecturas diferentes: Xe-LP, Xe-HP y Xe-HPC.

Abarcando el mercado de abajo hacia arriba respectivamente, Xe-LP iría en gráficos integrados y discretos de nivel básico, Xe-HP en productos para entusiastas y centros de datos, y finalmente Xe-HPC sería para clústeres de computación de alto rendimiento, como la próxima supercomputadora Aurora, la tan esperada máquina exaflop del Departamento de Energía de los Estados Unidos.

las-4-arquitecturas-intel-xe

Desde entonces, Intel ha revisado un poco ese plan, y lo que eran tres microarquitecturas ahora son cuatro. Como parte del Día de la Arquitectura de Intel, Intel está revelando el Xe-HPG, una microarquitectura adicional para chips enfocados a videojuegos. Intel Xe-HPG está previsto que llegue en 2021 y, en particular, se construirá completamente en una fábrica de terceros, a diferencia del resto de la familia Xe.

Lo cual, para volver al tema inmediato del Xe-LP, hace que el lanzamiento de este año de la primera microarquitectura Xe de Intel sea aún más importante. Los planes de Intel para el Xe implican la construcción de partes sucesivas del Xe – literalmente en el caso del Xe-HPC – ir a diseños más amplios que incorporen un número cada vez mayor de bloques de construcción base, y luego escalar el número de GPUs cuando ni siquiera eso es suficiente. Así que el Xe-LP es en gran medida la base de la familia Xe, no sólo en los diagramas sino también en la arquitectura; y en consecuencia, lo que Intel ha diseñado para el Xe-LP tendrá repercusiones en toda la pila de productos Xe.

Intel Xe LP son los gráficos integrados de Tiger Lake

Mientras que los planes de productos de Intel para Xe pasan por llegar eventualmente a todos los sectores, es justo que las cosas empiecen en el mismo lugar que siempre tienen para las GPUs de Intel: los gráficos integrados.

Intel Xe-LP hará su primera aparición en el mercado como parte del nuevo procesador Tiger Lake de Intel, que la compañía lanzará oficialmente el 2 de septiembre.

productos-basados-en-intel-xe-lp

Tiger Lake ha sido muy claramente el punto focal para el diseño de Xe-LP. Así que es el catalizador de todo, como veremos cuando hablemos de las características de Xe-LP.

Dadas las revelaciones oficiales de Intel, está claro que Tiger Lake incluirá una GPU integrada Xe-LP con 96 unidades de ejecución de GPU (EUs), las unidades más fundamentales de Intel en procesadores gráficos. En general, la compañía tiene como objetivo aumentar 2 veces el rendimiento frente a los gráficos de Ice Lake (Gen11),

Pero Tiger Lake no será el único lugar donde Xe-LP aparecerá. Como previamente reveló Intel, la compañía está desarrollando una versión de GPU discreta de él, que están llamando DG1.

Diseñada para ser emparejada con Tiger Lake en portátiles y otros dispositivos móviles, DG1 es la primera GPU discreta de Intel en más de veinte años, y es el sucesor espiritual de las configuraciones de GPU integradas GT3 y GT4e de Intel.

Sólo que en lugar de construir diseños de CPU de bajo volumen con una GPU más grande, Intel venderá a los fabricantes de equipos originales una GPU discreta basada en la misma arquitectura y construida en el mismo proceso de 10nnm SuperFin que la GPU integrada.

DG1 se enviará este año, sin embargo, Intel está revelando muy pocos detalles. Así que aunque sabemos que está basado en Xe-LP y que se centra en los portátiles, no tenemos detalles oficiales sobre nada, como su configuración o el tipo de memoria que utilizará.

Intel también ofrecerá un producto para servidores que llaman SG1. Basado en cuatro GPU DG1, este será un reemplazo para la familia de productos de Acelerador de Computación Visual Xeon de Intel.

Diseñadas para aprovechar las anteriores GPU integradas de Intel, las tarjetas VCA Xeon se dirigieron al mercado de la codificación de vídeo, utilizando el motor QuickSync de Intel para acelerar el proceso. Ahora que Intel tiene GPU discretas, ya no necesitan usar las CPU para este mercado, y en su lugar pueden vender aceleradoras basadas sólo en GPU.

Intel Xe-LP es compatible con DirectX FL 12_1 y sombreado de tasa variable

Seguimos con un resumen del conjunto de características gráficas del Xe-LP.

Desde una perspectiva a nivel de API, el conjunto de características del Xe-LP va a ser virtualmente idéntico al de los gráficos Gen11 de Intel. Al contrario que AMD con su arquitectura RDNA1, Intel ha decidido concentrar sus esfuerzos en la actualización de los aspectos de bajo nivel de su arquitectura de GPU, haciendo numerosos cambios bajo el capó. Como resultado, relativamente pocas cosas han cambiado con respecto a las características de los gráficos.

El resultado neto es que el Xe-LP es un acelerador DirectX de nivel 12_1, con un par de características añadidas. En particular, el sombreado de tasa variable de nivel 1, que fue introducido por primera vez por Intel en su hardware Gen11, está de nuevo en el Xe-LP.

Aunque no tan capaz como la nueva implementación de nivel 2, permite un soporte básico de VRS, con juegos capaces de configurarlo en base a llamadas por dibujo. Con ello, Intel sigue siendo el único proveedor que soporta el nivel 1; AMD y NVIDIA han pasado directamente al nivel 2.

La buena noticia para Intel, al menos, es que ya estaban un poco adelantados con Gen11, enviando soporte 12_1 incluso para sus GPUs integradas más lentas antes de que AMD lo introdujera en todos sus productos. Así que en este punto, Intel sigue a la par con otras soluciones gráficas integradas, si no ligeramente por delante.

El inconveniente es que también significa que Intel es el único proveedor de hardware que lanza una nueva GPU/arquitectura en 2020, sin soporte para la próxima generación de características, que Microsoft está codificando como DirectX 12 Ultimate.

DirectX Ultimate incorpora soporte para el nivel 2 de sombreado de tasa variable, junto con el trazado de rayos, sombreadores de malla y retroalimentación de muestras.

Xe LP será el silicio gráfico más grande de Intel con 96 EUs

En vez de centrarse en las características de los gráficos de alto nivel, la mayor parte de la atención de Intel se ha centrado en los detalles arquitectónicos de bajo nivel de sus nuevas GPU.

Intel Xe-LP es la base de muchas más GPU Xe por venir, por lo que esta es un área donde Intel necesitaba hacer las cosas bien, tanto en diseño como en eficiencia energética, para tener una base estable para la construcción de futuros productos.

Aunque Xe es una nueva marca y el comienzo de algo mucho más grande para Intel, no es un diseño nuevo, sino más bien es una gran evolución de Gen11, actualizando y reemplazando aquellos elementos que necesitan ser alterados por razones de escalabilidad o eficiencia. En consecuencia, hay una buena parte que se retiene de Gen11, y la estructura organizativa básica de las GPU de Intel sigue siendo la misma.

Como siempre, esto significa que empezaremos con el módulo Xe-LP y los objetivos generales de diseño de la GPU de Intel. El bloque de construcción común más grande de Intel, las GPU de la compañía están organizadas en uno o más módulos, con una solo modulo que contiene una copia completa de los bloques funcionales básicos necesarios para el cálculo y el renderizado.

intel-xe-lp-50-mas-grande

Esto incluye el frontend de geometría y raster, el hardware de envío de hilos, las propias unidades de EO, las unidades de textura y los backends de píxeles ROP.

Con Xe-LP, Intel ha expandido casi todo lo relacionado con una porción en un 50%. Lo que significa que frente a las iGPU Gen11 de Intel, hay un 50% más de hardware de ejecución en la mayoría de los aspectos de la GPU.

intel-xe-lp-50-mas-grande-2

Esto incluye un 50% más de unidades de unidades de ejecución, llevando el total a 96 unidades de ejecución, así como un 50% más de unidades de textura y un 50% más de ROPs, para una tasa total de 48 texeles/reloj y 24 píxeles/reloj respectivamente.

La única parte del módulo que no ha sido explícitamente escalado es el frontend. Todavía hay un único frontend de geometría, rasterizador y píxeles que alimenta el resto de la porción.

Sin embargo, no es el mismo hardware de 1/tringle/reloj que en las anteriores GPU de Intel. El frontend de geometría de Xe-LP ahora puede escupir dos triángulos de selección por reloj, duplicando el rendimiento máximo de la geometría de Intel además de las mejoras en la velocidad de los relojes de Xe-LP.

Aparte del rendimiento, es un gran paso adelante en el diseño de la GPU de Intel, ya que la ampliación de una GPU por encima de 1 triángulo/reloj requiere una importante reelaboración de sus capacidades de procesamiento de la geometría.

Por definición, una GPU con una tasa de 2+ triángulos necesita ser capaz de manejar múltiples triángulos a la vez, con toda la complejidad añadida que ello conlleva.

Además, como el motor de geometría es parte del módulo, eso significa que los diseños Xe-LP más grandes (y Xe-HPG) podrán ampliar sus frontales de geometría aún más, ya que el motor de geometría se replicaría con cada módulo. Esta es una distinción notable con respecto a los anteriores diseños como el Gen9 GT4e, donde el motor de geometría era un frontend fijo para toda la GPU.

Continuando, hablemos de la velocidad de los relojes, la compañía está apostando fuerte por la eficiencia energética y las mejoras en la velocidad de reloj de su nuevo proceso SuperFin de 10 nm para poder aumentar la velocidad de reloj de la GPU, y así cumplir con sus objetivos de rendimiento.

intel-xe-lp-rendimiento

Como ya hemos comentado, Intel busca duplicar el rendimiento de la GPU en comparación con Gen11, y con un 50% más de hardware de ejecución que sólo cubre como mucho la mitad de esa necesidad, gran parte del resto del aumento vendrá de velocidades de reloj más altas.

Ice Lake de Intel llegó al tope a 1.1GHz, así que no sería muy sorprendente ver a Tiger Lake y DG1 ejecutarse a 1.6GHz o más, dadas las proyecciones de rendimiento de Intel.

intel-xe-lp-mejora-eficiencia

El plan de Intel para aumentar el rendimiento de la GPU se completa con el tercer pilar del diseño del Xe-LP, que es la mejora de la eficiencia. Mientras que añadir EUs añade FLOPs, y mejorar la eficiencia energética permite a Intel hacer funcionar el chip más alto para añadir aún más FLOPs, añadir FLOPs por sí solo no es suficiente.

También hay que trabajar en la mejora del rendimiento efectivo de una arquitectura, para encubrir más de esos FLOPs teóricos en el trabajo del mundo real.

Y aquí es donde entra la salsa secreta de Intel. Hay algunos cambios notables de bajo nivel en la UE a los que llegaremos en un momento, pero se trata más bien de impulsar los cambios de eficiencia energética mencionados. Aquí Intel simplemente dice que han utilizado el análisis de la carga de trabajo, para identificar y eliminar múltiples pequeños cuellos de botella en toda la GPU, para mejorar los gráficos y la eficiencia del rendimiento de los cálculos.

Otra consecuencia de la ampliación del módulo, es que Intel ha reorganizado la estructura interna análoga en algunos aspectos a las SM de NVIDIA, una sub-sección es un bloque de construcción más pequeño dentro de la GPU, centrado en el cálculo y el sombreado en todas las formas, así como en la textura.

intel-xe-lp-6-subunidades

En el caso de las GPU Gen11 de Intel, la compañía organizó las GPU en 8 subcortes, cada uno de los cuales contiene 8 unidades de ejecución. Con Xe-LP, cada subcorte ha sido agrupado, y el número de subcortes globales se ha reducido.

Un módulo completo de Xe-LP incluye ahora 6 subunidades. Cada subunidad de Xe-LP, a su vez, ha visto duplicados muchos de sus atributos. El número de EUs se ha duplicado a 16 y el rendimiento de la muestra de textura ha aumentado de 4 texels/reloj a 8 texels/reloj.

Cada subunidad también obtiene un caché de datos/textura L1, que es de 64KB y puede asignarse dinámicamente entre el almacenamiento de datos L1 y el de texturas. Este cache parece reemplazar al mal documentado cache L2 de Gen11, que ocupaba un rol similar en la jerarquía.

Esto significa que la mitad de una GPU es ahora 48 EUs (3 subcortes), una GPU completa es 96 EUs (6 subcortes), e Intel tendrá que decidir si y cómo quiere enviar SKUs en el medio con 80 o 64 EUs habilitadas.

Como Intel no está proporcionando información de producción, sólo podemos especular, pero sería una caída bastante grande en el rendimiento si el siguiente nivel después de una GPU Xe-LP totalmente habilitada fuera una configuración de 64 EUs, perdiendo el 33% de su rendimiento potencial en el camino.

Estructura de las EUs, el corazón de Intel Xe LP

Sumergiéndonos un nivel más profundo, tenemos el bloque de construcción más pequeño a nivel de hilo de la arquitectura de la GPU Xe-LP, la venerable Unidad de Ejecución. Intel los ha ajustado unas cuantas veces a lo largo de los años, y para el Xe-LP están siendo ajustados una vez más.

Como un rápido repaso, a partir de la arquitectura de la GPU Gen11 de Intel, una EU (o UE en Español) se compone de una unidad de control de un solo hilo y dos juegos de SIMDs de 4 anchos.

Un bloque se encarga de las matemáticas de punto flotante y enteros, mientras que el otro bloque puede manejar las funciones de punto flotante y especiales, que Intel denomina «matemáticas extendidas».

A pesar de esto, el ancho de frente de onda más pequeño de Gen11 es de 8 hilos de ancho (SIMD8), por lo que puede tomar múltiples ciclos de reloj para ejecutar un solo frente de onda, con Intel intercalando múltiples frentes de onda como una forma de ocultar la latencia.

unidades-de-ejecucion-intel-xe-lp-1

Intel Xe-LP, por su parte, aporta varios cambios importantes en el diseño de las EU. En primer lugar, una sola UE ya no es un bloque independiente, sino que dos EU comparten ahora una unidad de control de un solo hilo.

Como resultado, una unidad de control de hilo ahora obtiene el recurso combinado de dos EU para repartir el trabajo, en lugar de una sola. Y mientras que los conjuntos SIMD en sí mismos también han cambiado – complicando aún más las cosas – el impacto aquí es que ahora hay menos unidades de control de hilo en una GPU, lo que debería reducir el número de frentes de onda que están funcionando en un momento dado.

Estos cambios en la ALU también afectan a la forma en que los frentes de onda se moverán a través de la GPU. Con un SIMD8 siendo el arreglo ALU más pequeño para la aritmética normal, el tamaño mínimo del frente de onda de Intel es ahora del mismo tamaño que el hardware subyacente.

unidades-de-ejecucion-intel-xe-lp-2

Esto significa que el Xe-LP ya no necesita múltiples ciclos para ejecutar una sola instrucción de un frente de onda en un solo ciclo, al menos para el tamaño de frente de onda más pequeño.

En Gen11 Intel también permitió los frentes de onda SIMD16 y SIMD32, se espera el documento técnico del Xe-LP para confirmar si se han conservado, en cuyo caso seguirían necesitando múltiples ciclos, o si Intel está obligando a que todo sea SIMD8.

unidades-de-ejecucion-intel-xe-lp-3

Vale la pena notar que este cambio es bastante similar a lo que AMD hizo el año pasado con su arquitectura RDNA, eliminando la ejecución de múltiples ciclos de un frente de onda aumentando su tamaño SIMD y devolviendo su tamaño de frente de onda.

En el caso de AMD esto se hizo para ayudar a mantener sus ranuras SIMD ocupadas más a menudo y reducir la latencia de las instrucciones, y no sorprendería si es una historia similar para Intel.

unidades-de-ejecucion-intel-xe-lp-4

Otro beneficio de esta reorganización es que Intel ha sido capaz de simplificar su hardware de programación de hilos en general. Tan recientemente como Gen11, Intel todavía usaba el hardware de programación de hilos para determinar cuándo ejecutar los hilos y cuándo los datos de los hilos estarían listos. Pero con Xe-LP, el score boarding se ha trasladado al software, convirtiéndose en una responsabilidad del compilador de Intel.

Mientras que el cambio al software significa que la programación tiene que ser determinada de antemano por el software, y por lo tanto se vuelve estática y potencialmente resulta en una programación menos óptima, la recompensa es que el hardware necesario para hacerlo es bastante caro desde el punto de vista del área del dado y de la potencia.

Por lo tanto, el cambio al software score boarding permite que las unidades de energía sean más pequeñas y más eficientes, lo que contribuye a la capacidad de Intel para construir un mayor número de unidades de ejecución, y mejorar su eficiencia energética general.

En general, esto refleja los cambios que NVIDIA introdujo en su arquitectura hace casi una década con Kepler, donde también se pasó al software score boarding para obtener el gran beneficio de su eficiencia energética, y al mismo tiempo mantener su alto rendimiento.

Ahora que hemos tenido la oportunidad de ver todos los cambios realizados a nivel de la UE, hablemos de lo que esto significa para las tasas de rendimiento reales de las EU.

unidades-de-ejecucion-intel-xe-lp-5

Empezando por el punto flotante, las cosas son simples aquí. A pesar de la reorganización de las UAL, el número de UAL de FP por EU sigue siendo 8. Y como resultado, el rendimiento de FP por EU se mantiene en 16 FP32 operaciones/reloj y 32 FP16 operaciones/reloj, al igual que el Gen11.

Por otro lado, para el rendimiento de enteros, el número de ALU con capacidad de enteros se ha duplicado de 4 a 8 en relación con la arquitectura Gen11.

Como resultado, el rendimiento de los números enteros también se ha duplicado: Intel Xe-LP puede almacenar 8 operaciones INT32 o 32 operaciones INT16 por ciclo de reloj, de 4 y 16 respectivamente en el Gen11. Esto significa, sin embargo, que el Xe-LP conserva la inusual desventaja de INT32 de Gen11; la tasa de INT32 es sólo la mitad de la tasa de FP32, mientras que la tasa de INT16 es igual a la tasa de FP16.

Finalmente, no parece que Xe-LP no tenga nada equivalente a un núcleo tensor u otro conjunto sistólico de ALU para hacer matemáticas densas, lo cual se ha convertido en la moda para el entrenamiento de redes neuronales y la inferencia.

Este hardware vendrá a la familia Xe en partes posteriores como las Xe Matrix eXtensions (XMX), pero por ahora el Xe-LP tiene que conformarse con sus EU regulares.

Pero por esa razón, Intel ha añadido una característica más a su EU SIMD: soporte para INT8. INT8 se ha hecho cada vez más popular para la inferencia de redes neuronales en los últimos años, y los productos INT8 a su vez una operación muy común en ese proceso.

Así que añadir soporte para los productos de punto INT8 le da al Xe-LP un gran impulso en esta forma de ejecución de la IA. Con la instrucción DP4A, la tasa de rendimiento de INT8 puede llegar a 64 operaciones/reloj, el doble de la tasa de INT16.

Nueva caché L1 y bus de doble anillo

Cambiando de marcha, echemos un vistazo al subsistema de memoria de Xe-LP y cómo Intel alimentará a la bestia que es su nueva arquitectura de GPU.

Entre muchas primicias contemporáneas para las arquitecturas de GPU de Intel, Xe-LP se encontrará en la interesante posición de estar en la línea entre una GPU integrada y una GPU discreta. Esto significa que tiene que ser capaz de trabajar tanto con el IMC compartido de Tiger Lake, como con el propio controlador de memoria dedicado de DG1.

Xe-LP introduce una nueva caché combinada de datos y texturas de L1. La información sobre esta caché es limitada, pero Intel ha confirmado que es una caché de 64KB por subcorte, y que puede ser reconfigurada dinámicamente entre L1 y la caché de texturas según sea necesario.

Según la compañía, agregaron la caché L1 como resultado de su análisis de carga de trabajo, y que al hacerlo mejoró el rendimiento del conducto de carga/almacenamiento.

Desafortunadamente, no está claro cómo encaja esto en el panorama general con la anterior caché L2 de subcorte de Intel, y si ha sido reemplazada o todavía existe y simplemente no está en estos diagramas.

intel-xe-lp-nueva-cache-l1-y-bus-de-doble-anillo-1

La caché L3 de la GPU (que no debe confundirse con la caché de último nivel compartida de Tiger Lake) también ha sufrido sus propias actualizaciones, recibiendo tanto un aumento de capacidad como de ancho de banda.

En cuanto a la capacidad, el caché L3 puede ser ahora tan grande como 16MB, a diferencia de sólo 3MB en Gen11. Dicho esto, basado en las revelaciones de Tiger Lake de Intel, está claro que un caché tan grande no llegará a los SoCs de Intel; en su lugar Tiger Lake se enviará con un caché L3 de 3,8MB de GPU. Tiger Lake tiene su propio LLC más allá de esto, que la GPU puede aprovechar también, por lo que no necesariamente necesita un caché tan grande.

Para DG1, por otro lado, el caché L3 de la GPU es el último nivel de caché, por lo que un caché más grande tiene sentido en la práctica. Para ello no me sorprendería si eso es exactamente lo que vemos en DG1: un caché L3 de 16 MB.

Aunque Intel ha reiterado que es una presentación arquitectónica y no una presentación de producto, por lo que puede ser que no estén equipando ninguna GPU Xe-LP con un tamaño máximo de caché L3.

Esta caché L3 más grande es también más rápida que la L3 de Gen11, con Intel duplicando el tamaño de transferencia. La caché L3 del Xe-LP puede ahora transferir 128 bytes/reloj, lo que para un chip teórico de 1.6GHz le daría más de 190GB/seg. de ancho de banda interno L3.

Esta mejora es importante para alimentar los ROP y otras partes de la GPU, y va de la mano con el objetivo de Intel de duplicar el rendimiento de la GPU, lo que significa que necesitan alimentar a la bestia con muchos más datos en el proceso. Además este cambio también mantiene la caché L3 alineada con lo que el nuevo doble ringbus puede hacer.

Uno de los cambios más enigmáticos para Tiger Lake, el SoC ha añadido un segundo ringbus aparentemente idéntico al chip, creando un segundo bucle que conecta los cuatro núcleos de la CPU y la iGPU al controlador de memoria integrado.

Como consecuencia de esto, la iGPU necesita ahora dos puertos de Interfaz de tecnología gráfica (GTI) para crear las dos paradas del ringbus.

intel-xe-lp-nueva-cache-l1-y-bus-de-doble-anillo-2

El gran beneficio de este cambio es que, manteniendo todos los demás aspectos iguales, esto duplica la cantidad de ancho de banda entre la GPU y el IMC en Tiger Lake. Así que en lugar de sólo ser capaz de transferir 64B/reloj arriba y abajo, Xe-LP puede enviar dos peticiones de 64B usando los dos ringbus.

Dado que en esta coyuntura la iGPU se ha convertido en el mayor consumidor de ancho de banda en un Intel SoC, sospecho firmemente que el segundo ringbus se ha añadido principalmente en beneficio de la iGPU.

Desafortunadamente esto no es algo que podamos calcular directamente, ya que el ringbus que tiene su propio dominio de reloj complica un poco las cosas, por lo que no está claro si 1 ringbus puede incluso igualar el ancho de banda de la memoria de un chip Tiger Lake con LPDDR5-5200. Pero incluso si puede, la GPU de mayor rendimiento como el Xe-LP está sin duda poniendo mucha presión en el subsistema de memoria SoC de Intel.

intel-xe-lp-nueva-cache-l1-y-bus-de-doble-anillo-3

Mientras tanto, esto también nos da un fuerte indicio de que la DG1 utilizará un bus de memoria de 128 bits para su VRAM dedicada. El backend de 2x64B podría ser fácilmente conectado a un controlador de memoria de 128 bits, en lugar de los dos ringbuses de 64B. Esto también aseguraría que la DG1 obtenga tanto o más ancho de banda de memoria que Tiger Lake.

Finalmente, incluso con las significativas mejoras en el ancho de banda, Intel también ha estado trabajando para reducir su consumo de ancho de banda.

Xe-LP se envía con versiones actualizadas de sus algoritmos de compresión de color y profundidad, que aunque Intel no está proporcionando cifras específicas para ello, cualquier mejora aquí se traducirá directamente en la reducción del tráfico de memoria.

Mientras tanto, la compañía también está extendiendo esta funcionalidad de compresión a los medios e interfaces de visualización, lo que significa que los datos de imagen pueden permanecer comprimidos siempre que se muevan entre el motor de gráficos, el motor de medios y la pantalla.

intel-xe-lp-nueva-cache-l1-y-bus-de-doble-anillo-4

Nuevo motor multimedia de Intel Xe LP

La última parada en nuestra revisión de la arquitectura Xe-LP, son los aspectos de la GPU no relacionados con el renderizado: sus controladores de medios y de pantalla.

Los cambios aquí no son tan llamativos como los cambios en la arquitectura central, pero las mejoras realizadas en estos bloques ayudan a mantener la GPU general al día, al soportar nuevos formatos de medios, así como nuevos protocolos de conectividad de pantalla.

En primer lugar, hablemos del motor multimedia. No hay grandes revisiones, pero Intel ha hecho algunas adiciones para Xe-LP. La característica de la marquesina aquí es fácilmente compatible con la aceleración de decodificación de AV1, haciendo a Intel el primer proveedor de los tres grandes en agregar soporte de decodificación de hardware para el nuevo códec.

nuevo-motor-multimedia-de-intel-xe-lp-1

Se espera que el prometedor códec libre de regalías se convierta en el sucesor de facto de H.264/AVC, ya que aunque HEVC ha estado en el mercado durante varios años, la situación de regalías en torno al códec ha desalentado su adopción.

Por el contrario, AV1 debería ofrecer una calidad similar o ligeramente superior a la de HEVC sin derechos de autor por su uso en la distribución, lo que lo hace mucho más apetecible para los vendedores de contenidos.

La única desventaja de AV1 hasta ahora es que es bastante pesado para la CPU, lo que hace que el soporte de decodificación de hardware sea aún más importante, no sólo por razones de duración de la batería, sino también para asegurar una reproducción fluida y sin problemas.

Mientras tanto, de manera similar a los objetivos de rendimiento de Intel, la compañía ha trabajado para mejorar el rendimiento de codificación y decodificación del motor de medios.

Según la compañía, el bloque actualizado es ahora capaz de aumentar hasta dos veces el rendimiento de codificación y decodificación. Para las máquinas de consumo esto no es muy importante, pero es algo que será particularmente importante para el producto de servidor SG1, que se centrará en la codificación en masa.

Por último, entre los pequeños cambios realizados en el motor de medios, Intel ha añadido soporte oficial para la reproducción de HDR y Dolby Vision.

La compatibilidad con HDR continúa extendiéndose a las PC, aunque sea lentamente, por lo que este es un paso notable para asegurar que los PC más nuevos puedan manejar el contenido HDR codificado en esos formatos.

También es notable la mejora del bloque de codificación HEVC de Intel, que ahora es compatible con la extensión de la codificación de contenidos de pantalla HEVC (SCC), que está diseñada para mejorar las tasas de compresión HEVC en contenidos con imágenes estáticas o casi estáticas.

Por último, pero no menos importante, tenemos el motor de pantalla del Xe-LP. Al igual que el bloque de medios no hay cambios radicales aquí, pero hay algunas mejoras bienvenidas.

Tal vez el mayor cambio aquí es que después de varios años, Intel ha añadido finalmente un cuarto conducto de pantalla, lo que significa que la GPU puede ahora manejar cuatro pantallas independientes.

Antes de esto, Gen11 y los diseños anteriores sólo podían manejar tres pantallas, y aunque esto es más de lo que la mayoría de la gente usará, 4 pantallas se ha convertido en el número mágico para otros diseños de GPU.

Lo que complica las cosas es el reciente impulso de los portátiles con doble pantalla y otros dispositivos móviles con múltiples pantallas, que se comerían dos de esas tres salidas.

nuevo-motor-multimedia-de-intel-xe-lp-2

En este sentido, Intel también ha añadido una segunda salida DisplayPort integrada, que sería muy útil para esos dispositivos de doble pantalla.

Por lo demás, las opciones básicas de salida de pantalla no han cambiado desde Gen11. Xe-LP soporta DisplayPort 1.4 así como HDMI 2.0. Este último es un poco decepcionante ya que ahora se comercializan televisores HDMI 2.1, pero hay que reconocer que no es inusual que Intel tome una generación extra para adoptar los nuevos estándares HDMI.

Estas salidas de pantalla también se pueden alimentar en un puerto USB4/Thunderbolt 4, donde los datos del DisplayPort son de primera clase y se pueden mezclar en la señal, o el puerto se puede reconfigurar a través de modos alternos.

No evidente en los diagramas de bloques, la compañía ha hecho algunos cambios de plomería para alimentar mejor los controladores de la pantalla. Específicamente, la compañía ha aumentado el ancho de banda disponible para el motor de la pantalla, para que pueda manejar el tipo de pantallas extremas de alta resolución para las que fue diseñado el DisplayPort 1.4.

Como resultado, el controlador ahora tiene suficiente ancho de banda y potencia de procesamiento interno para manejar pantallas UHD de 8K, así como la reciente generación de pantallas de 360Hz.

Primeras expectativas de rendmiento de Intel Xe LP

primeras-expectativas-de-rendmiento-de-intel-xe-lp

Para terminar esta inmersión profunda en la arquitectura Intel Xe LP, la compañía se tomó un momento para discutir las expectativas de rendimiento para Xe-LP, y ofrecer algunos videos de su nueva GPU en acción. Desafortunadamente no se permitió grabar las demostraciones.

En cualquier caso, como se ha comentado anteriormente, el objetivo de Intel era duplicar el rendimiento gráfico de Ice Lake (Gen11), lo que Xe-LP logrará mediante una combinación de una GPU más amplia con más hardware, una GPU más eficiente en cuanto a potencia permitiendo relojes más altos, y una GPU más eficiente en cuanto a rendimiento con un IPC más alto.

Este es un objetivo elevado dado el hecho de que no obtienen el beneficio de un nodo de proceso totalmente nuevo, pero Intel parece bastante confiada en el potencial de rendimiento de su nuevo nodo de proceso de 10nm SuperFin.

Si Intel puede cumplir sus objetivos de rendimiento, entonces Tiger Lake debería ser capaz de ir por delante de las APU Ryzen de la serie U. Como siempre, esto va a depender del juego, pero los portátiles de gama alta de Ice Lake nunca se han quedado atrás en más de un 30% más o menos en los escenarios limitados por la GPU.

Pero ya que estamos hablando de escenarios móviles, la potencia y la refrigeración siempre serán un comodín potencial que puede retrasar a un portátil. Así que para los portátiles ultraportátiles para juegos en particular, Intel querrá sin duda que sus socios construyan portátiles con las mismas capacidades de refrigeración, para dar a Tiger Lake todas las oportunidades posibles de éxito.

Intel también espera que el rendimiento del Xe-LP aumente significativamente el nivel de calidad de imagen. Con los gráficos integrados que generalmente van a la zaga en términos de calidad de imagen para ofrecer los framerates necesarios, la duplicación del rendimiento de su iGPU permitiría que muchos juegos se ejecutaran con una mayor calidad de imagen.

Esto, una vez más, variaría de un juego a otro, pero al menos con fines promocionales, Intel está observando que Tiger Lake/Xe-LP puede funcionar con una alta calidad de imagen en juegos en los que Ice Lake sólo puede funcionar con una calidad baja.

Pero Xe-LP no es sólo una solución de gráficos integrados: también es para gráficos discretos. Y mientras esperamos con impaciencia más información sobre DG1, dado el enfoque de Intel hoy en día en la arquitectura sobre los productos, nos quedamos con más preguntas que respuestas.

Intel tiene un plan muy interesante y fácil para los fabricantes de equipos originales (OEM) con Xe-LP, y al aprovechar la misma arquitectura tanto para la iGPU como para una GPU discreta opcional, los OEM van a amar el hecho de no tener que validar y cargar controladores de GPU separados para las GPU integradas y las discretas.

Pero lo más importante es que Intel también se niega a responder a la pregunta de los 10 millones de píxeles: ¿podrá la iGPU de Tiger Lake trabajar en conjunto con la DG1?

Intel ciertamente no ha hecho ningún esfuerzo para derribar esa idea, pero tampoco la están confirmando. El renderizado multi-GPU está casi muerto, y por una buena razón: tiende a no funcionar bien con ciertas técnicas modernas de renderizado, y puede añadir un poco de retraso de entrada.

La respuesta a esta pregunta, y si Intel ha sido capaz de conquistar los inconvenientes tradicionales de la renderización multi-GPU, tendrá absolutamente un enorme impacto en la viabilidad comercial de la GPU DG1. Así que estaremos esperando ansiosamente la respuesta a esas preguntas.

De lo contrario, Xe-LP marca un paso importante en la evolución de las arquitecturas de GPU de Intel, sin importar un enorme paso en sus planes de convertirse en un proveedor de GPU de arriba a abajo. Aunque sólo destinado a portátiles, Xe-LP es la base de algo mucho más grande para Intel.

[irp]

Xe-LP será la base de toda una generación de GPU por venir. Así que lo que Intel hace aquí en cuanto a características, arquitectura y sobre todo eficiencia energética tendrá enormes repercusiones por venir, para todo, desde hardware de juegos hasta supercomputadoras. En muchos sentidos es el amanecer de una nueva era para Intel, y una que esperamos que sea mejor que la que dejan atrás.

Fuente
anandtech

Juan Gomar

Apasionado de la informática, los videojuegos y la tecnología en general. En este blog encontrarás mis mejores artículos para ayudarte en todas las dudas que tengas.
Botón volver arriba