Intel Haswell (o al menos aquellos productos que incorporan el Iris Pro 5200 GPU) y POWER7 de IBM y POWER8 todos incluir DRAM, "eDRAM".
Una cuestión importante que ha llevado eDRAM de no ser común hasta hace poco es que la DRAM proceso de fabricación no es necesariamente compatible con la lógica de los procesos, de modo que los pasos adicionales que deben ser incluidos (que aumento de costos y disminución del rendimiento) cuando eDRAM que se desea. Así, debe haber una razón de peso para querer incorporarlo en el fin de compensar esta desventaja económica. Alternativamente, DRAM puede ser colocado en un aparte de morir, que se fabrica de forma independiente, pero a su vez integrado en el mismo paquete, el de la CPU. Esto proporciona la mayor parte de los beneficios de la localidad, sin las dificultades de la fabricación los dos en un verdadero manera integrada.
Otro problema es que la DRAM no es como el SRAM en que no se almacene su contenido de forma indefinida, mientras que la energía es aplicada, y la lectura también destruye los datos almacenados, la cual debe ser escrita después. Por lo tanto, tiene que ser actualizado periódicamente y después de cada lectura. Y, debido a una DRAM de la célula está basado en un condensador, carga o descarga de forma suficiente para que la fuga no corrompen su valor antes de la siguiente actualización se lleva a cierta cantidad finita de tiempo. Este tiempo de carga no es necesaria con el SRAM, que es sólo un pestillo; en consecuencia, se puede corre a la misma velocidad que la de la CPU, mientras que la memoria DRAM es limitado a 1 GHz, mientras que el mantenimiento razonable de consumo de energía. Esto hace que la DRAM para tener una mayor latencia inherente de SRAM, que hace que no merece la pena usar para todos, pero la gran mayoría de las cachés, donde la reducción de la señorita tasa de pagar. (Haswell y POWER8 son aproximadamente contemporáneas y ambos incorporan hasta 128 MB de eDRAM, que se utiliza como un L4 de caché.)
También, en la medida de como la latencia se refiere, una gran parte de la dificultad es la distancia física de las señales debe viajar. La luz puede viajar sólo 10 cm en el reloj período de 3 GHz de la CPU. Por supuesto, las señales no viajan en líneas rectas a través de la matriz y tampoco se propagan a nada que se acerque a la velocidad de la luz debido a la necesidad de almacenamiento en búfer y fan-out, que incurrir en retrasos de propagación. Así, la distancia máxima de memoria puede estar lejos de una CPU con el fin de mantener el 1 ciclo de reloj de latencia es de unos pocos centímetros en la mayoría, la limitación de la cantidad de memoria que pueden ser acomodados en el área disponible. Intel Nehalem procesador en realidad reduce la capacidad de la memoria caché L2 frente a Penryn en parte para mejorar su latencia, lo que llevó a un mayor rendimiento.* Si no nos importa mucho acerca de la latencia, entonces no hay ninguna razón para poner la memoria en el paquete, en lugar de más lejos, donde es más conveniente.
También se debe señalar que la tasa de aciertos de caché es muy alto para la mayoría de las cargas de trabajo: el bien por encima del 90% en casi todos los casos prácticos, y no pocas veces incluso por encima del 99%. Así, el beneficio de la inclusión de grandes recuerdos en el morir es inherentemente limitada para reducir el impacto de este pequeño porcentaje de fallos. Los procesadores destinados a la enterprise server mercado (como la ALIMENTACIÓN) normalmente tienen un enorme caché y útil incluir eDRAM porque es útil para dar cabida a los grandes conjuntos de trabajo de muchas cargas de trabajo empresariales. Haswell tiene para apoyar la GPU, ya que las texturas son grandes y no caben en la memoria caché. Estos son los casos de uso para la eDRAM de hoy, que no es típico de escritorio o cargas de trabajo HPC, que son muy bien atendidos por el típico jerarquías de la caché.
Para abordar algunas de las cuestiones planteadas en los comentarios:
Estos eDRAM almacena en caché no se puede utilizar en lugar de la memoria principal, ya que están diseñados como L4 víctima cachés. Esto significa que son volátiles y eficacia de contenido direccionable, de modo que los datos almacenados en ellos no es tratado como residente en un lugar específico, y puede ser descartada en cualquier momento. Estas propiedades son difíciles de conciliar con el requisito de memoria RAM para ser directo asignado y persistente, pero a cambio, haría que las cachés inútil para el propósito previsto. Por supuesto que es posible integrar los recuerdos de un diseño más convencional, como se hace en los microcontroladores, pero esto no es justificable para sistemas con grandes recuerdos ya que la baja latencia no es tan beneficioso en la memoria principal como en una memoria caché, por lo que la ampliación o la adición de una memoria caché es una parte más valiosa de la proposición.
En cuanto a la posibilidad de grandes cachés con capacidad en el orden de los gigabytes, una caché de sólo está obligado a estar en la mayoría el tamaño del conjunto de trabajo para la aplicación. Aplicaciones de HPC puede tratar con terabyte conjuntos de datos, pero tienen buena espacial y temporal de la localidad, por lo que sus conjuntos de trabajo normalmente no son muy grandes. Aplicaciones con grandes conjuntos de trabajo son, por ejemplo, bases de datos y ERP software, pero sólo hay un mercado limitado para los procesadores optimizados para este tipo de carga de trabajo. A menos que el software realmente lo necesite, la adición de más caché proporciona muy rápidamente decreciente. Recientemente hemos visto procesadores de ganancia de prefetch instrucciones, por lo que las memorias caché son capaces de ser utilizados de manera más eficiente: uno puede utilizar estas instrucciones para evitar pierde causada por la imprevisibilidad de acceso a la memoria de los patrones, en lugar de la absoluta tamaño del conjunto de trabajo, que en la mayoría de los casos, es todavía relativamente pequeño.
*La mejora en la latencia no se debió sólo a las de menor tamaño físico de la memoria caché, pero también porque la asociatividad se redujo. Hubo cambios significativos en toda la memoria caché de la jerarquía en Nehalem por diversas razones, no todos de los cuales se centraron en la mejora del rendimiento. Así que, mientras esto basta como ejemplo, no es un relato completo.