Xilinx ha desarrollado una forma de combinar varios troqueles en un solo paquete utilizando un intercalador de silicio (no sé si realmente son los primeros en hacerlo). De esta manera, consiguen enormes anchos de banda entre los troqueles individuales, mucho más de lo que sería posible si las señales tuvieran que pasar por los pines IO (para más detalles, véase aquí o consulte el libro blanco ).
Ahora bien, ¿por qué Intel, por ejemplo, no utiliza una técnica similar para combinar la CPU y la RAM en un solo paquete? Esto permitiría un ancho de banda de memoria mucho mayor, entre otras ventajas (latencia ligeramente menor, menor disipación de energía, menos pines de E/S en el paquete, menos rutas de señal en la placa base).
Claro que hay algunos inconvenientes (los chips de DRAM tendrían que apilarse, la cantidad de RAM es fija, se necesita un troquel de interposición adicional (aunque se puede fabricar en un nodo de proceso más antiguo y barato), pero teniendo en cuenta que el cuello de botella del ancho de banda de la memoria es un problema cada vez mayor para un número creciente de núcleos, debería merecer la pena. ¿Qué me falta?