Intel Tiger Lake, todo sobre la CPU más importante de Intel desde Core 2 Duo

A principios de año Intel empezó a mostrar las primeras obleas de su próxima generación de procesadores Tiger Lake. Se trata de un nuevo procesador de cuatro núcleos, fabricado a 10nm y enfocado a los portátiles.

Tiger Lake utiliza la nueva arquitectura de gráficos Xe, y supone la piedra angular de las nuevas ofertas de procesadores de Intel para portátiles. Como parte del Día de la Arquitectura 2020 de Intel hace un par de días, la compañía entró en detalles sobre lo que hace que Tiger Lake sea el verdadero vehículo para sus 10nm, y por qué los clientes querrán un dispositivo con este procesador.

Antes de comenzar a profundizar en la información sobre Tiger Lake, debemos comprender la importancia de estos nuevos procesadores. Intel no pasa por su mejor momento, con una arquitectura Skylake que ya no da más de sí, un proceso de fabricación a 14 nm estirado durante más de 5 años, y una AMD imparable con su arquitectura Zen 2 a 7 nm y con Zen 3 programada para finales de año.

La situación es similar a la que se vivía en el año 2005. En aquel momento Intel no estaba a la altura con sus Pentium 4 y Pentium D basados en la arquitectura Netburst, y AMD dominaba en rendimiento con sus Athlon 64. Fue en 2006 cuando Intel dio la vuelta a la situación con la llegada de sus Conroe, y desde entonces dominó con mano de hierro el mercado de los procesadores x86 hasta la llegada de Zen en 2017.

Qué hay de nuevo en el núcleo de Willow Cove de Tiger Lake

En el Día de la Arquitectura de Intel 2018, la compañía mostró su nuevo plan de trabajo para el núcleo de la CPU, que cubre las próximas generaciones, tanto de los núcleos de alto rendimiento como de los núcleos de alta eficiencia. Intel actualizó la diapositiva para el nuevo evento.

nucleo-de-willow-cove-de-tiger-lake-1

En la parte superior tenemos los núcleos Cove, que representan los diseños de alto rendimiento de Intel. Comienza con Sunny Cove como el núcleo de 2019, que podemos encontrar hoy en día dentro de los procesadores Ice Lake y Lakefield de Intel.

Sunny Cove fue creado para proporcionar un aumento en el rendimiento de un solo hilo (vimos un 15-20% de reloj por reloj), un nuevo conjunto de instrucciones (VNNI para aprendizaje profundo) y mejoras en la escalabilidad.

En el centro de la sección de Cove está Willow Cove, que forma el núcleo de cálculo fundamental para Tiger Lake. En esta diapositiva se muestra que Willow Cove tiene un rediseño de la caché, una nueva optimización de los transistores, e implementa nuevas características de seguridad.

El núcleo de alto rendimiento de 2021 será Golden Cove, que según Intel ofrecerá otro salto en el rendimiento de un solo hilo, más rendimiento de IA, y ofrecerá un rendimiento relacionado con la red y 5G.

Willow Cove: +10-20% de rendimiento sobre Sunny Cove

La microarquitectura del núcleo de Willow Cove es casi idéntica a la del núcleo de Sunny Cove. Es casi una copia-pegado, pero con tres diferencias clave que permiten un aumento del rendimiento del 10-20% sobre Sunny Cove.

Tal y como está, no tiene sentido dibujar un diagrama para explicar la parte delantera y trasera de Willow Cove. Los mismos predictores y decodificadores de ramas, los mismos buffers de reordenación y TLBs, los mismos puertos de ejecución, las mismas estaciones de reserva, las mismas capacidades de carga/almacenamiento.

Mover el núcleo de Sunny Cove a Willow Cove permite sólo tres diferencias que deben ser destacadas. Hay un cambio adicional dentro del subsistema de memoria que también se abordará.

nucleo-de-willow-cove-de-tiger-lake-2

Frecuencia SuperFin

Primero, de donde viene la mayor parte del aumento de rendimiento, es el nodo de proceso. Pasando a 10SF y el nuevo transistor SuperFin ha permitido a Willow Cove escalar mejor con respecto al voltaje y la frecuencia, permitiendo mejores métricas en general.

Esto significa un mejor rendimiento con el mismo voltaje, o el mismo rendimiento con un voltaje más bajo, en comparación con Sunny Cove. De donde viene el rendimiento de +10-20% es en la gama alta. Donde Sunny Cove se limitó a una frecuencia máxima de alrededor de 4,0 GHz, Willow Cove parece prometer algo más parecido a 5,0 GHz.

nucleo-de-willow-cove-de-tiger-lake-3

Esta es la diapositiva de Intel mostrando esto, sin embargo en este momento la compañía no está dando ningún número duro para actuar como puntos de referencia aquí.

Podríamos estar hablando de cualquier cosa de 10 mV a 100mV o más de ahorro en frecuencias activas, o no. Lo único que parece eminentemente legible es esa frecuencia máxima.

Con el mismo pico de voltaje de Sunny Cove vemos más de una ganancia de +500 MHz para Willow Cove, pero se requiere más voltaje para llegar a ese otro pico más cerca de 5,0 GHz, lo que obviamente significaría un mayor consumo de energía.

Teniendo en cuenta que los valores PL2 (pico de consumo de energía turbo) para Ice Lake fueron esencialmente 50 W cuando todos los núcleos estaban cargados con el AVX-512, esto significa que podríamos estar mirando más cerca de 65 vatios para Tiger Lake.

Intel mencionó en un momento dado que esta versión de Tiger Lake debía escalar de 10 W a 65 W, pero a pesar de las repetidas preguntas de la compañía, no se explayó sobre qué producto entraría en juego la métrica de los 65 W.

Más caché de L2 y L3

La segunda actualización de Willow Cove es la estructura de la memoria caché. Intel ha aumentado el tamaño de la caché L2 y L3 dentro del núcleo, sin embargo, como siempre con los tamaños de la caché, hay compensaciones que vale la pena señalar.

La caché privada L2 es la que más se actualiza. Lo que solía ser una caché L2 de 8 vías de 512 KB en Sunny Cove ahora es una caché L2 de 20 vías de 1,25 MB no incluída.

Esto representa un aumento de +150% en tamaño, sin embargo a expensas de la inclusión. Tradicionalmente, el aumento del tamaño de la caché en el doble disminuirá la tasa de errores en √2, por lo que el aumento de 2,5 veces debería reducir los errores de la caché L2 en ~58%.

La otra cara de esto es que las cachés más grandes a menudo tienen latencias de acceso más largas, por lo que esperaríamos que la nueva L2 sea ligeramente más lenta. Intel se negó a darnos el nuevo valor.

Para la L2, también hay una pequeña ganancia de rendimiento adicional, ya que las cachés no incluidas no requieren validación de respaldo. Sin embargo, pasar a un caché no inclusivo tiene un efecto de repercusión en el área de la muerte y la potencia.

En las arquitecturas anteriores de Intel, la caché L2 incluía la caché L1, lo que significaba que cada línea de caché que se encontraba dentro de la L1 tenía una copia idéntica en la L2.

Con una caché no inclusiva, hay que incorporar hardware adicional en el núcleo para satisfacer las reglas de coherencia de la caché. Cabe señalar que ya en 2010, Intel ha presentado en conferencias que puede construir cachés inclusivos que se ejecutan a la velocidad de los cachés no inclusivos; tal vez esto ya no sea cierto a medida que aumenta el tamaño de la caché.

En cuanto a la caché L3 en un sistema Willow Cove de cuatro núcleos, Intel ha pasado de una caché L3 compartida no inclusiva de 8 MB a una caché L3 compartida de 12 MB.

Esto es un aumento de +50% en la capacidad, sin embargo Intel ha reducido la asociatividad, de una caché de 8 MiB de 16 vías a una caché de 12 MiB de 12 vías. Es probable que el efecto de ambos en el rendimiento esté equilibrado.

Se espera que las ganancias globales de IPC en el núcleo debido a este aumento sean de un solo dígito. Muchas de estas características son, en última instancia, un ejercicio de ajuste: aumentar una cosa para obtener un mejor rendimiento podría causar una latencia extra y tal.

Una pregunta interesante será cómo estos cambios de caché han tenido un efecto en el área de la matriz (¿el núcleo es más grande?) o en la potencia (¿puede el núcleo entrar en estados de menor potencia?). El nuevo transistor SuperFin también puede permitir a Intel crear cachés más densos, y esto se está aprovechando de ello.

Tecnología para la aplicación de la seguridad y el control de flujos

Otro aspecto de las noticias recientes es la seguridad de Intel, y dado el ciclo de vida de los modernos procesadores de vanguardia, tratar de predecir las necesidades de seguridad de un producto futuro suele ser difícil.

Con cada generación y giro del silicio, Intel ha estado tapando los agujeros de seguridad, así como permitiendo que más elementos mejoren la seguridad tanto para los ataques dirigidos como a nivel holístico.

Willow Cove ahora habilitará la tecnología de aplicación de flujo de control (CET) para protegerse contra los ataques orientados al retorno/salto que pueden desviar potencialmente el flujo de instrucciones a un código no deseado.

La CET está soportada en Willow Cove a través de la habilitación de Shadow Stacks para la protección de las direcciones de retorno a través del seguimiento de páginas.

El seguimiento indirecto de ramas se añade para defenderse de los objetivos de salto/llamada mal dirigidos, pero requiere que se construya un software con nuevas instrucciones.

El subsistema de memoria: Más ancho de banda, soporte de LPDDR5

Aunque no es estrictamente hablando parte del núcleo de Willow Cove, con respecto al SoC de Tiger Lake, el nuevo subsistema de memoria también tendrá un efecto en el rendimiento.

Tiger Lake soportará hasta 64 GB DDR4-3200 o 32 GBLPDDR4X-4266, lo que permitirá un ancho de banda de 51,2 GB/s o 62,8 GB/s respectivamente, sin embargo, también soporta 32 GB de memoria LPDDR5-5400 para un impresionante aumento del ancho de banda de la memoria hasta 86,4 GB/s.

LPDDR5 es la última tecnología nueva para subsistemas de memoria móvil, y se nos dice que Tiger Lake la soportará desde el principio, sin embargo dependerá de los socios OEM de Intel utilizarla en sus sistemas Tiger Lake.

En la actualidad, se nos dice que el costo de la LPDDR5 es demasiado alto para los productos de consumo, por lo que es probable que veamos sistemas DDR4/LP4 para empezar. El coste bajará a medida que la fabricación aumente y la demanda se incremente, sin embargo esos sistemas podrían estar más adelante en el ciclo de vida de Tiger Lake.

nucleo-de-willow-cove-de-tiger-lake-4

Cabe señalar que el SoC de Tiger Lake se ha duplicado para soportar una interconexión bidireccional de doble anillo que permite 2×32 B/ciclo en cualquier dirección.

Esto ayuda a los controladores de memoria a alimentar los núcleos, así como los gráficos, por lo que deberíamos ver algún aumento en el rendimiento en los escenarios de memoria limitada.

Una pregunta para Intel es por qué han optado por un diseño de doble anillo, en lugar de simplemente hacer un solo anillo de doble ancho. La respuesta probablemente esté relacionada con la energía del estado de reposo, si un anillo puede ser puesto en reposo según sea necesario.

Cifrado total de la memoria

El sistema de memoria de Tiger Lake también soporta la encriptación total de la memoria. TME ha sido una característica popular de los nuevos diseños de silicio en los últimos tiempos, y permite a los usuarios de dispositivos móviles tener los datos guardados en la memoria de un sistema físicamente seguro contra los ataques de hardware.

En otros sistemas se nos ha dicho que una característica como TME, cuando se implementa correctamente, sólo da un 1-2% de rendimiento en el peor de los casos, Intel no ha proporcionado números equivalentes hasta ahora.

Dado el tipo de característica que es, sospechamos que TME podría ser más bien una característica de un producto con vPro, sin embargo tendremos que aclarar eso.

Nuevos gráficos Intel Xe LP en Tiger Lake

Una gran parte de la comparación entre Tiger Lake y Ice Lake será la diferencia de rendimiento en los gráficos. Mientras que Ice Lake tiene 64 unidades de ejecución de gráficos Gen11, Tiger Lake tiene 96 unidades de ejecución pero de la nueva arquitectura Xe LP.

nuevos-graficos-intel-xe-lp-en-tiger-lake-1

Además, está la nueva pila de transistores SuperFin que promete aumentar las frecuencias mucho más, haciendo que Tiger Lake sea más escalable que antes.

Los gráficos de Intel muestran que a la misma tensión, donde Ice Lake Gen11 alcanza los 1100 MHz, los nuevos gráficos del Xe LP llegarán a ~1650 MHz, un incremento bruto de +50%. Eso significa que en el pico de potencia de Ice Lake, debemos esperar que Tiger Lake se desempeñe al menos 2,25 veces mejor.

Expandiéndose más allá de eso, el pico para Tiger Lake parece estar en el rango de 1800 MHz, dando en última instancia un mínimo de 2,45x más de rendimiento sobre Ice Lake. Esto es antes de que comencemos a hablar de las diferencias fundamentales en la arquitectura del Xe LP comparado con el Gen11.

Intel está promoviendo el Xe LP como operando a 2x el rendimiento de Gen11, así que aunque estos números podrían sugerir fácilmente un aumento de 2,25x antes de tener en cuenta la arquitectura, en última instancia dependerá de cómo se utilicen los gráficos.

Gen11 vs Xe LP

Para una mirada más profunda al portafolio de gráficos Xe de Intel, incluyendo HP, HPC, y la nueva arquitectura de juegos HPG, Ryan ha escrito un artículo que cubre el Xe con mayor detalle. En este artículo, cubriremos lo básico.

En el sistema de gráficos Ice Lake Gen11, cada una de las 64 unidades de ejecución consistía en dos ALU de cuatro anchos, un juego de cuatro para FP/INT, y el otro juego de cuatro para FP/Extended Math. 16 de estas unidades de ejecución formarían un subdeslizamiento dentro del Gen11.

nuevos-graficos-intel-xe-lp-en-tiger-lake-2

Para Xe LP, ese 4+4 por unidad de ejecución se ha reequilibrado para este mercado objetivo. Ahora hay 10 ALU por unidad de ejecución, pero en una configuración 8+2. Las 8 ALUs soportan 2xINT16 y tipos de datos INT32, pero también con las nuevas instrucciones DP4a pueden acelerar las cargas de trabajo de inferencia INT8.

nuevos-graficos-intel-xe-lp-en-tiger-lake-3

Las nuevas unidades de ejecución también trabajan ahora en parejas: dos unidades de ejecución compartirán un único bloque de control de hilo para ayudar a ayudar a coordinar el envío de la carga de trabajo.

Al igual que con la ICL, 16 de las unidades de ejecución ahora forman un subcorte con los gráficos, y los cortes se añaden en el SoC a medida que se necesita el rendimiento.

Lo que es nuevo en Tiger Lake es que cada subcorte tiene ahora su propia caché de datos y textura L1, y el fondo de píxeles funciona a 8 píxeles/reloj por cada dos subcortes.

En general, el sistema de gráficos puede soportar 1536 FLOP/reloj, con los muestreadores a 48 Tex/reloj por subcorte y un total de 24 píxeles/reloj en el back-end.

El LP en Tiger Lake tiene 16 MiB de su propio caché L3, separado del resto del caché L3 del chip, y la interfaz con el tejido de la memoria se duplica, soportando 2x64B/reloj de lectura o escritura o una combinación de ambos.

Los números exactos de rendimiento de Xe LP en Tiger Lake serán un signo de interrogación hasta que nos acerquemos al lanzamiento. Intel ha declarado que la versión de gráficos discretos de LP, conocida como DG1, saldrá a finales de este año.

Xe LP Media y Display

La otra pregunta sobre el Lago Tigre en los gráficos será el apoyo de los medios de comunicación y de la pantalla. Tiger Lake será el primer soporte oficial de Intel para el codec AV1 en modo de decodificación, e Intel también ha duplicado su rendimiento de codificación/decodificación para otros codecs populares.

Esto significa un conducto de video de 12 bits basado en hardware completo para compatibilidad de reproducción HDR y 8K60.

nuevos-graficos-intel-xe-lp-en-tiger-lake-4

La compatibilidad de pantalla para Tiger Lake también se ha ampliado con cuatro tuberías de pantalla 4K. Conexiones sobre DP1.4, HDMI 2.0, Thunderbolt 4 y USB 4 tipo C simultáneamente es la forma en que Intel espera que los usuarios operen si las cuatro salidas se necesitan a la vez.

nuevos-graficos-intel-xe-lp-en-tiger-lake-5

El motor de la pantalla también es compatible con HDR10, color BT2020 de 12 bits, Adaptive Sync y soporte para monitores de hasta 360 Hz.

Gráficos externos y soporte híbrido

Una de las preguntas interesantes que enviamos a Intel durante el Día de la Arquitectura fue sobre cómo funcionará el Xe LP en presencia de gráficos adicionales, y potencialmente emparejado con una versión discreta de LP más adelante en el año.

Desafortunadamente parecía haber cierta confusión entre las definiciones de gráficos «híbridos» y «conmutables», así que lo aclaramos a tiempo para el artículo.

En la actualidad, Intel espera que casi todas las soluciones de Tiger Lake funcionen en dispositivos donde no hay una solución de gráficos discretos, sólo los gráficos integrados se proporcionan como el ordenador principal para los juegos y la aceleración.

Sin embargo, Tiger Lake apoyará soluciones gráficas intercambiables con gráficos discretos Xe LP. Intel no indicó si se trataba de gráficos discretos con respecto a un chip LP incorporado o una solución de gráficos discretos externa a través de Thunderbolt.

Debido al soporte de PCIe 4.0 y Thunderbolt 4 de Tiger Lake, dependiendo de cómo esté configurado un sistema Tiger Lake exacto, Intel espera que cualquier solución de gráficos discretos opere a una latencia menor, principalmente debido al hecho de que los carriles PCIe 4.0 estarán directamente conectados a la CPU, en lugar de un chipset.

Intel citó ~100 nanosegundos de latencia más baja. También declararon un ancho de banda de 8 GB/s a la memoria principal, que parecía un poco bajo…

En el tema de los gráficos híbridos, donde los gráficos integrados y una solución discreta Xe LP podrían trabajar en tándem en la misma tarea de renderizado, Intel declaró que no hay ningún plan para apoyar una solución Multi-GPU de esta configuración.

Máxima eficiencia con 10 nm SuperFin

Para aquellos dentro de la industria de los semiconductores, no serán ningún secreto las noticias sobre los problemas del proceso de fabricación de Intel.

La odisea de Intel con los 10 nm

En resumen, la tecnología de proceso de 10nm de Intel no ha cumplido con las expectativas de rendimiento y producción, llegando más de cinco años más tarde de lo esperado, y con una incapacidad para competir con sus propios productos de la generación anterior.

Aún hoy en día sigue siendo de bajo volumen, y se espera que Tiger Lake sea el primer ejemplo verdadero de lo que la visión de Intel de sus 10nm estaba destinada a ser.

El siguiente paso de Intel, el proceso a 7nm utilizando la tecnología de Ultra Violeta Extremo (EUV), se ha anunciado recientemente que también tiene un retraso adicional de seis meses.

Con noticias como esta, se ha vuelto difícil mantener la confianza en la capacidad de Intel, para ofrecer una tecnología de nodos de fabricación líder en la industria, que sea competitiva en el mercado. Esta solía ser la posición que Intel mantuvo hasta los retrasos en el proceso de 10nm.

tiger-lake-con-10-nm-superfin-1

La divulgación de la tecnología de fabricación de Intel varía en complejidad según el grado de éxito que se perciba internamente en el producto.

Cuando Intel anunció por primera vez FinFET en su nodo de proceso de 22nm, en mayo de 2011, hubo mucha información, y el nodo tuvo mucho éxito. Con la siguiente generación de 14nm, hubo algunos retrasos con la generación inicial de productos Broadwell, pero finalmente el proceso fue explicado en detalle por la compañía en su propio evento.

El nodo de proceso de 14nm ha sido el nodo de fabricación más rentable de Intel hasta la fecha, y las continuas mejoras en el intranodo a lo largo de los años (14+, 14++, 14+++, 14++++*), han proporcionado a la empresa una mejora efectiva equivalente a una actualización de nodo puro.

tiger-lake-con-10-nm-superfin-2

Cuando se trata de 10nm, la situación no es tan halagüeña, incluso comparada con los retrasos en 14nm. Hasta la fecha, Intel ha tenido dos generaciones de productos de 10nm en el lado de la CPU, una de las cuales la compañía se abstiene de siquiera tratar de mencionarla en público, aunque la hemos revisado con un detalle insoportable.

Cannon Lake, el primer producto a 10nm, se introdujo en los mini PCs NUC Crimson Canyon de Intel y fue un gran desastre: sólo dos núcleos, desactivó los gráficos integrados y, aunque se envió para obtener ingresos en 2017, Intel hizo bien en relegarlo a la historia muy rápidamente.

Ice Lake fue el vehículo de lanzamiento adecuado de Intel para los 10nm, ofreciendo cuatro núcleos, y gráficos Gen11 dentro de un paquete de 15 vatios.

Ha encontrado su camino en más de 50 diseños de portátiles, pero a pesar de su aumento del 15-20% en el rendimiento bruto reloj por reloj, una disminución del 10-20% en la frecuencia lo deja con una mínima mejora de la CPU frente a los 14nm.

Los gráficos de Ice Lake siguen siendo mucho mejores que los de 14nm, y el soporte para Thunderbolt 3, así como las instrucciones de vector de 512 bits significa que Ice Lake todavía tiene algunos puntos a favor.

Tal como está, debido a que Intel no quiere considerar a Cannon Lake como una verdadera parte de su patrimonio, Ice Lake fue considerado un producto de «10nm», sin plusses y sin bits adicionales.

Qué significa realmente 10 nm

Como muchos de nuestros lectores saben, el número real asignado al proceso en la era de la tecnología FinFET se ha convertido efectivamente en nada más que un nombre propio de la tecnología de nodos de proceso. No está relacionado con ninguna característica dentro de los productos construidos sobre ese proceso.

Esto se vuelve especialmente confuso cuando hay características de un proceso, construido a una escala menor que el número de la tecnología: por ejemplo, los 10nm de Intel tienen características que son de 8 nm. A los nodos de fabricación también se les podría dar nombres como Gordon, Eric o Lisa, a fin de detener la confusión que genera el hecho de tener ese número.

Dentro de una generación de tecnología de nodos de proceso, la empresa que fabrica los semiconductores puede actualizar periódicamente su proceso de fabricación, pero aún así mantenerlo, en general, dentro de los límites de esa generación.

Estas actualizaciones son a menudo menores, pero se llaman actualizaciones BKM, y pueden conducir a simples mejoras en la frecuencia o en la eficiencia de la energía, quizás del orden de 50 mV o 25 MHz, pero a veces permiten mayores ganancias.

Cuando se trataba de transistores planares, a 22nm, 32nm, 45nm y más, estas actualizaciones del BKM estaban a la par durante el ciclo de vida de un producto construido en ese nodo.

Se tomaron mejoras en la fabricación, se introdujeron en el producto automáticamente, y simplemente se vendió en la misma caja sin mucho alboroto, pero tenía características marginalmente mejores.

A medida que nos hemos movido hacia múltiples generaciones de tecnologías FinFET, donde la creación de un procesador de alto rendimiento de vanguardia puede costar entre 10 y 100 millones de dólares o más, estas actualizaciones BKM se han convertido en actualizaciones comercializables, tanto para las empresas de diseño de chips como para las fábricas en las que se construyen.

Pequeños retoques al BKM se están utilizando ahora para lanzar nuevas olas de productos, y ofrecen a las compañías involucradas la oportunidad de destacar la destreza de ingeniería de los equipos involucrados, así como ofrecer al cliente un mejor producto.

Intel ha optado por la nomenclatura +,++,+++,++++ para su proceso de 14nm, y cada paso proporciona un mejor rendimiento del dispositivo de transistores, y se está introduciendo en nuevas generaciones de productos.

tiger-lake-con-10-nm-superfin-3

Sin embargo, el esquema de nomenclatura de Intel se ha convertido en una especie de meme y una broma en los últimos años. Ante la imposibilidad de la empresa de sacar a la luz los 10 nm en su programa inicial, Intel decidió agregar más + a cada nueva actualización del proceso de 14nm.

Como 10nm se retrasó más, los consumidores y usuarios vieron otro + añadido a 14nm. El meme de Intel incapaz de hacer funcionar 10 nm y ver un producto futuro de 14+++++++++ es un golpe fundamental para el alma de una compañía que ha pasado los últimos 30+ años enorgulleciéndose de su capacidad, para impulsar la fabricación de semiconductores de vanguardia, para un alto rendimiento.

A medida que Intel ha ido avanzando lentamente en su cartera de productos de 10 nm, la nomenclatura + volvió a aparecer casi de inmediato. 10 nm para Cannon Lake, 10 nm+ para Ice Lake, que más tarde se convirtió en sólo ’10 nm’, 10 nm+ para Tiger Lake, y luego 10 nm++ y 10 nm+++ se exhibieron en mapas de ruta en varios eventos de la industria. La misma historia se repite para sus futuros procesos, como los de 7 nm y 5 nm.

tiger-lake-con-10-nm-superfin-4

Hoy en día, Intel se está acercando a su portafolio de 10 nm desde un ángulo diferente. El primer resultado de este cambio es 10 nm SuperFin o Intel 10SF, la mayor mejora de un solo intranodo en la historia de Intel

10nm SuperFin es la tecnología de proceso de fabricación sobre la que se construye Tiger Lake, y representa el nuevo nombre de 10+. 10SF se basa en 10nm introduciendo un diseño redefinido de FinFET (FinFET de 4ª generación de Intel?) con un mayor rendimiento de las aletas, así como un nuevo diseño de condensador SuperMIM (metal-insulador-metal).

El diseño actualizado de FinFET en 10 nm se centra en tres áreas.

A través de nuevas técnicas de fabricación, se ha mejorado el crecimiento epitaxial de las estructuras cristalinas en la fuente y en el drenaje, aumentando en última instancia la tensión, con el fin de reducir la resistencia, permitiendo que fluya más corriente a través del canal.

tiger-lake-con-10-nm-superfin-5

Una arquitectura mejorada de fuente/drenaje y un proceso mejorado de fabricación de compuertas, ayuda a impulsar una mayor movilidad del canal, lo que permite a los portadores de carga moverse más rápidamente, y mejora el rendimiento del transistor.

Además, un paso de puerta más grande para permitir una mayor corriente de accionamiento para ciertas funciones del chip que requieren el mayor rendimiento.

tiger-lake-con-10-nm-superfin-6

Normalmente, un tono de puerta más grande suena a lo contrario de lo que queremos para una tecnología de nodo de proceso denso, sin embargo se explicó que en este caso, hacer el transistor más grande con un rendimiento mejorado, significa en realidad que se necesitan menos buffers en las bibliotecas de células de alto rendimiento, y en última instancia el tamaño de la célula disminuye como resultado.

De hecho, en algunas de las variantes de 14nm de Intel, una de las técnicas utilizadas para ayudar a impulsar una mayor frecuencia fue un mayor tono de puerta.

En cuanto a la pila metálica, Intel hace algunas afirmaciones muy audaces con una tecnología impresionante. En las capas inferiores de la pila, Intel está introduciendo un nuevo conjunto de materiales de barrera para permitir barreras más finas, lo que también ayuda a reducir la resistencia de las vías hasta en un 30% al permitir que cada vía de metal sea una proporción mayor del tamaño fijo. La reducción de la resistencia mejora el rendimiento de la interconexión entre las capas de metal

En los niveles superiores, Intel está introduciendo un nuevo condensador SuperMIM (metal-aislante-metal). Intel afirma que este nuevo diseño da un aumento de 5 veces en la capacitancia sobre una tapa MIM estándar de la industria dentro de la misma huella.

tiger-lake-con-10-nm-superfin-7

Esto impulsa una reducción de voltaje que, en última instancia, conduce a una mejora drástica del rendimiento del producto y del transistor. Intel afirma que se trata de un diseño pionero/líder en la industria, que permite, gracias a la cuidadosa deposición de los nuevos materiales Hi-K en capas finas, menores de 0,1nm, formar una superred entre dos o más tipos de materiales.

En conjunto, la arquitecta principal de transistores de Intel, Ruth Brain, afirma que estas características permiten «la mayor mejora de un solo intranodo en la historia de Intel», lo que permite mejorar entre un 17 % y un 18 % el desempeño de los transistores a partir de los diseños básicos de 10nm.

tiger-lake-con-10-nm-superfin-8

Esto hace que 10SF equivalga a una mejora de nodo completo sobre el proceso base de 10nm de Intel. Para establecer paralelismos con los 14nm de Intel, 10SF a 10 es el equivalente de Coffee Lake (14+++) a Broadwell (14nm).

Allanando el camino para 10 nm Enhanced SuperFin

Intel también ha declarado que la actualización del intranodo más allá de 10SF se llamará 10 nm ESF, o 10 nm Enhanced SuperFin. No se dieron detalles específicos sobre lo que 10 nm ESF proporcionará sobre 10 nm SF, sólo que traerá un rendimiento adicional e innovaciones de interconexión.

Dicho esto, Intel declaró que sería optimizado para el centro de datos, lo que probablemente significa que algunas características serán cambiadas para soportar el aumento de la densidad térmica y de corriente que viene con la aceleración vectorial. Intel, quizás accidentalmente, nos confirmó que habrá tres productos basados en 10 nm ESF.

Conectividad mejorada en Tiger Lake

Como parte de Tiger Lake, se han hecho otras mejoras en el chip fuera de los componentes tradicionales de CPU/GPU. En este artículo, ya hemos discutido las mejoras en el tejido, que permiten duplicar el ancho de banda con el diseño de doble anillo bidireccional, y el nuevo controlador de memoria con soporte para LPDDR5-5400.

Soporte del PCIe 4.0

Tiger Lake será el primer procesador para portátiles de Intel que soporte PCIe 4.0 directamente desde la CPU. Intel no ha indicado específicamente cuántos carriles de PCIe 4.0 soportará el procesador, pero han dejado claro que no han experimentado una penalización de consumo al pasar de PCIe 3.0 en Ice Lake a PCIe 4.0 en Tiger Lake.

En este momento, Intel espera que los carriles PCIe 4.0 se utilicen principalmente para el almacenamiento. Sin embargo, dado el estado de los actuales SSD PCIe 4.0 NVMe, y los elevados requisitos de potencia del controlador Phison E16 (~8W), es posible que tengamos que esperar un poco para que otros controladores lleguen en volumen.

Intel declaró que la cantidad de carriles PCIe 4.0 tenía una correlación directa con el número de CPU y la potencia del chip, pero se negó a declarar cuál es el escalado.

Basándonos en los comentarios realizados por Intel, como que Tiger Lake soportaba 24 MB de caché L3 que requeriría una CPU de 8 núcleos, sospechamos que habrá una versión de 16 pistas PCIe 4.0 con ese producto.

Eso significaría que la versión de 4 núcleos de Tiger Lake sería más parecida a un procesador de 8 carriles, lo que se ajustaría a lo que hemos visto con otros procesadores de móviles en el pasado.

Incluso con cuatro carriles PCIe 4.0, sigue siendo suficiente para una tarjeta gráfica Thunderbolt discreta y un SSD NVMe superrápido, o dos unidades NVMe 4.0 x2.

Otro elemento para apoyar la teoría del PCIe 4.0 x4, es que Intel afirma que los dispositivos que acceden a la memoria a través del PCIe tendrán ‘8 GB/s de ancho de banda. Cada enlace del PCIe 4.0 x1 es de aproximadamente ~2 GB/seg, lo que implicaría que sólo hay cuatro.

Acelerador Gaussiano y Neural 2.0 (GNA)

Uno de los aceleradores que Intel ofrecía en Ice Lake era el GNA, un sencillo motor de inferencia de bajo consumo de energía, que permite al sistema descargar análisis básicos o cargas de trabajo, como la reducción de ruido para llamadas o grabación de voz.

conectividad-mejorada-en-tiger-lake-1

En un aspecto anterior, el GNA se basaba en el modelo de mezcla gaussiano, que creemos que era un IP dedicado a la aceleración del Cortana de Microsoft en el reconocimiento de voz. Con Tiger Lake, ahora tenemos GNA 2.0.

No sabemos lo que ha cambiado esta vez, aparte de tener los beneficios de la tecnología del proceso 10 nm SF. Sin embargo, Intel citó algunos números útiles, afirmando que el GNA 2.0 puede realizar 1 GigaOP a 1 milivatio, y esto puede escalar linealmente hasta 38 GigaOP para 38 milivatios.

Unidad de visualización y procesamiento de imágenes

Tiger Lake contiene cuatro salidas de video 4K: DP1.4, HDMI 2.0, Thunderbolt 4, y USB4 Tipo-C, que pueden ser usadas simultáneamente.

El motor de la pantalla también es compatible con HDR10, color BT2020 de 12 bits, Adaptive Sync y soporte para monitores de hasta 360 Hz. Intel tambiém afirma que puede soportar hasta 64 GB/s a la memoria, lo que sugiere que hay cierta sobrecarga o cuello de botella en comparación con los 86,4 GB/s que soporta LPDDR5-5400.

conectividad-mejorada-en-tiger-lake-2

Tiger Lake también soporta la transferencia de datos directamente a la memoria para el motor de la pantalla, evitando la CPU, una característica introducida por primera vez con Skylake.

Para la unidad de procesamiento de imágenes, Intel ha utilizado el presupuesto de transistores de 10 nm SF para aumentar el tamaño de sus tuberías de imágenes en el hardware.

Todavía hay soporte para seis cámaras, lo mismo que en Ice Lake, pero el silicio de Tiger Lake eventualmente será capaz de soportar video 4K 90 FPS y 42 MP de imágenes. La versión Tiger Lake de cuatro núcleos sólo soportará 4K 30 FPS y 27MP para video e imágenes respectivamente.

Thunderbolt 4

Tiger Lake será el primer procesador de Intel con Thunderbolt 4. TB 4 es un superconjunto del estándar USB 4, y por lo tanto Tiger Lake también soportará el USB 4.

Dos puertos Thunderbolt 4 serán soportados en cada lado del portátil, y cada puerto soportará el ancho de banda completo de 40 Gb/s. Para calificar para las especificaciones de la próxima generación de Athena, uno de ellos tendrá que ser un puerto de carga rápida.

conectividad-mejorada-en-tiger-lake-3

Uno de los requisitos clave para la certificación de TB 4 es que el procesador debe soportar algún tipo de protección de escritura DMA para evitar ataques físicos.

Intel hace esto a través de sus procesadores que soportan instrucciones VT-d, y cuando salgan los controladores TB 4, otros proveedores de procesadores tendrán que habilitar tecnologías similares. Otro requisito de certificación de TB 4 va a ser el soporte de despertar del sueño a través de cualquier dispositivo TB4, como un dock. Administración de energía y escalado de frecuencia/voltaje.

Mejor gestión de la energía

Uno de los controladores más importantes de los procesadores móviles es la energía de reposo y de sueño: cuantas más partes del chip se puedan poner en un estado de baja energía cuando no se utilicen, mejor será la duración de la batería.

A un alto nivel esto significa que si un portátil está reproduciendo un vídeo, en la CPU tenemos el motor de pantalla está encendido y el vídeo decodificado, pero la mayoría/todos los núcleos están en un estado de baja energía o en un modo de sueño profundo, y los gráficos están esencialmente apagados, y el conjunto se apaga tanto como sea posible.

A medida que avanzamos hacia nodos de proceso más densos con mayores presupuestos de transistores, más de esos transistores están siendo usados para crear dominios de potencia y frecuencia individuales, para manejar cómo un procesador se ocupa de subdividir sus partes para los modos de baja potencia.

Además, es necesario aplicar la lógica para gestionar todos los diferentes dominios, y debe diseñarse de tal manera que cuando se necesiten de nuevo las partes que se apagan, se puedan encender sin un retraso notable para el usuario final.

Con cada generación de productos portátiles, tanto Intel como AMD introducen continuamente nuevas características y un mejor control sobre los diferentes bloques de computación e interconexión dentro de los procesadores móviles donde más importa.

conectividad-mejorada-en-tiger-lake-4

En el caso de Tiger Lake, Intel ha actualizado sus algoritmos autónomos de escalado dinámico de voltaje/frecuencia (DVFS), para tener en cuenta los requisitos de ancho de banda, para una carga de trabajo determinada.

Esto se hace además de otras optimizaciones de energía a nivel de SoC, como un mejor control del reloj para los núcleos de la CPU, y una mejor eficiencia de los reguladores de voltaje para los reguladores integrados.

Conclusiones sobre rendimiento y productos basados en Tiger Lake

Con Tiger Lake, Intel ha hecho algunos cambios sustanciales sobre su anterior diseño de Ice Lake. Si te has saltado al final de este artículo sin leer las páginas intermedias, entonces deberías saber que el nuevo proceso de fabricación a 10 nm SuperFin es uno de los grandes temas de conversación.

Las frecuencias en SuperFin y Willow Cove

Intel ha eliminado los nombres 10+ y 10++, y los 10 nm SuperFin han reemplazado los 10 nm +.

Se llama SuperFin porque Intel ha refinado sus aletas de transistor de próxima generación, y la pila metálica en su fabricación para permitir un mayor rango de rendimiento, y eficiencia en comparación con el proceso base de 10nm.

Esto significa que Intel afirma que con la misma potencia que Ice Lake, ITiger Lake tiene un aumento de frecuencia de +10%, pasando de 4,0 GHz a 4,5 GHz. No sólo esto, sino que como 10 nm SF permite un mayor rango, cuando el núcleo es empujado, Tiger Lake debería moverse cerca de los 5.0 GHz.

Eso sería un +20% de aumento de frecuencia directa en el rendimiento máximo, mucho mayor que una actualización de fabricación intra-nodo tradicional.

En el frente del diseño del núcleo, comparando el nuevo núcleo de Willow Cove con el de Ice Lake, tenemos muy pocos cambios. La mayor parte es idéntica, excepto por el caché L2 (+150%, ahora no incluido) y el caché L3 (+50%) que es cada vez más grande, y las nuevas medidas de seguridad de la memoria que se están implementando.

Intel ha citado que fue tras la frecuencia en lugar del IPC, ya que la frecuencia de +20% es más parecida a un cambio de nodo en el rendimiento, mientras que perseguir un aumento de IPC en este producto no habría producido el mismo cambio.

En este momento, predecimos un pequeño aumento de un solo dígito en el IPC. Tendremos que esperar hasta la próxima generación de productos para ver que el IPC aumente sustancialmente de nuevo.

Gráficos Xe

Tiger Lake también será el vehículo de lanzamiento de la estrategia de Intel para Xe Graphics. A bordo tenemos 96 unidades de ejecución Xe-LP, un 50% más que las 64, funcionando a una frecuencia al menos 50% superior, a 1600+ MHz.

Intel está anunciando el doble de rendimiento de los gráficos sobre Ice Lake. Tiger Lake no sólo soporta DDR4-3200 y LPDDR4X-4267, sino también LPDDR5-5400, lo permitirá obtener hasta 86,4 GB/s de ancho de banda, que será genial para los gráficos integrados.

Aunque hay que señalar que los vendedores de portátiles no se están subiendo al carro de las LPDDR5 inmediatamente, ya que los precios son altos y los volúmenes son bajos. LPDDR5 va a ser más bien una actualización de medio ciclo para Tiger Lake.

Mejor ecosistema

Además de su rendimiento, Tiger Lake también amplía sus capacidades de IO y de pantalla, soportando Thunderbolt 4 de forma nativa, así como cuatro pantallas 4K y soporte para decodificación AV1 entre otras cosas.

Intel afirma que TGL es compatible con PCIe 4.0, y la cantidad de carriles se escalará con el recuento de núcleos. Intel no entró en el recuento de carriles, pero en base a una serie de indicadores en las diapositivas de Intel, creemos que la versión de cuatro núcleos del chip tiene un enlace de PCI e 4.0 x4.

El lanzamiento oficial de los procesadores Core Mobile de 11ª generación de Intel (Tiger Lake) será el 2 de septiembre. Todavía hay una serie de preguntas sobre el chip, la capacidad de Intel para fabricarlo, cómo competirá con AMD, y así sucesivamente, que esperamos conocer más cerca de ese momento.

Tiger Lake en CPU de 10 W a 65 W

Como pensamiento final, uno de los primeros comentarios hechos por Intel como parte de nuestras sesiones informativas fue que el diseño de Tiger Lake va a ser escalable, de 10 a 65 vatios.

El actual procesador que conocemos hoy es un procesador de cuatro núcleos de 15 vatios. Ya hemos supuesto que Intel está preparando una variante de ocho núcleos, con el doble de la caché L3, que sospechamos que llegará a esa marca de 65 W; sin embargo, cabe preguntarse dónde acabará ese producto.

Los procesadores móviles tradicionales tienden a tener un techo de 45-54 W TDP, y el espacio de 65 W suele reservarse para los procesadores de sobremesa.

Intel lanzó previamente versiones de 65 W de su CPU móvil Broadwell en el escritorio en 2015, y me pregunto si podríamos ver algo similar aquí, que permitiría ver Willow Cove, 10 nm SF, y Xe-LP en el escritorio.

Fuente
anandtech

Juan Gomar

Apasionado de la informática, los videojuegos y la tecnología en general. En este blog encontrarás mis mejores artículos para ayudarte en todas las dudas que tengas.
Botón volver arriba