Demasiado genérico
El transistor podría estar en una sección que no usas, así que nunca lo sabrás.
Podría estar en una sección que usas, pero la condición de fallo podría seguir apareciendo para trabajar sólo necesitaba un cero allí, falló a un cero y que está bien, no me di cuenta hasta que tal vez una actualización de firmware que utiliza ese transistor de manera diferente.
O podría estar en un lugar que usted utiliza y el fallo puede dar lugar a cualquier número de posibles problemas que pueden parecer manifestarse de muchas maneras. No es posible extenderse aquí, ciertamente, ya que no sabemos qué parte está utilizando y cuán grande es el número casi inconmensurable de posibles resultados una gota en el océano no comienza a cubrir el número de hipotéticos. No merece la pena hablar de ello en general, ni siquiera en el ámbito aeroespacial.
Para COTS sistemas, no hay nada en absoluto que lo proteja; puede tener un software que cubra las cosas densas o arriesgadas como la RAM, un POST tipo de prueba de memoria. Pero si el transistor que falla está como sugieres en el núcleo del procesador, entonces tienes un ladrillo, de nuevo una gota en el océano, no es posible hacer un POST que cubra las posibilidades e informe sobre ellas adecuadamente, no merece la pena ni siquiera hablar de ello. Tiras el cacharro y te compras otro. Ahora bien, al hacer las piezas, cosas como la RAM que son de mayor riesgo podrían tener bloques alternativos en la matriz que se pueden fusionar usando el BIST u otras pruebas de pantalla. Asimismo, algunos productos se derivan de otros productos, para volver en el día a 80486SX vs 80486DX . Si la unidad de punto flotante ha fallado durante la prueba de fabricación del chip, se funden los fusibles para que pase de ser un DX potencial a un SX y se venda así.
La pantalla de chips busca y, con la experiencia, cubre más de, digamos, el 99,99% de los fallos. Dependiendo del producto, se espera que haya uno en algún número de miles o decenas de miles que falle en el camino. Esto es así.
Los flip flops aeroespaciales, especialmente los que sufren de radiación, son, o eran, cuando todavía había gente que sabía cómo construir cosas fiables (ahora se han retirado en su mayoría), triplemente votados, tres conjuntos de transistores por, si un bit falla o experimenta un un solo evento de disgusto (que es la razón principal de la triple votación) entonces los otros dos dominan la votación. Se podría argumentar que se obtiene el argumento de si uno falla. Pero no se vota triple todo lo que la lógica combinacional no es; si obtiene un acierto debería resolverse antes de engancharse al siguiente flip flop/bit. También se necesitan transistores mucho más robustos para hacer frente a las perturbaciones de un solo evento, y también hay más material para hacer frente a la dosis total para extender la vida de la pieza antes de que todo muera por la exposición. Décadas de experiencia (todas perdidas por los jóvenes que crecieron en la era de lo desechable, hacer basura espacial en lugar de hacer una que siempre funcione). El fallo de un solo transistor no es una preocupación principal, el trastorno de un solo evento y el latch-up sí lo son (que podrían/llevar a la destrucción si no se manejan) dosis total, etc. El punto único de fallo junto con el MTBF son muy importantes; el MTBF debería ser mayor que la vida de la misión, y ningún punto único de fallo debería quedar sin detectar y resolver. Dos fallos a la vez no suelen ser solucionables (una gota en el océano).
Con los COTS no te preocupas de que falle un solo transistor; todo se basa en promedios/estadísticas. Se parte de la experiencia y, de todos modos, no hay muchas fundiciones que sepan lo que hacen. Se sigue la experiencia de décadas en el diseño, la disposición, la verificación del diseño, las pruebas, etc. Y lo más seguro es que se espere un rendimiento inferior al 100%, y que de las piezas empaquetadas y entregadas se espere que un porcentaje de ellas falle sobre el terreno. Si sus clientes esperan una calidad y un precio COTS, pero piezas tolerantes a fallos o de grado militar o aeroespacial, sólo tiene que educar al cliente de que lo que está pidiendo es un orden de magnitud más en el precio y un orden de magnitud más lento en el ancho de banda/potencia de procesamiento. Además, el plazo de entrega es un orden de magnitud mayor.
La memoria RAM es un área que se enfoca mucho, no para una falla de un solo transistor, sino más bien para un evento único, un bit volteado. Así que ECC / EDAC se utilizan, como se menciona en la fabricación puede haber un BIST y un banco alternativo que se puede fusionar. Con cosas como la memoria flash y/o los discos duros son propensos a fallar, así que más allá de la vista del usuario puede haber bancos/sectores extra que pueden ser marcados como malos y otros intercambiados. Es posible con la RAM, pero normalmente no, ya que no se usa la RAM como se usa el almacenamiento no volátil, sino que se usa DIMMs por ejemplo, y hacer que el usuario los sustituya si/cuando fallan. Normalmente, al igual que el zócalo del procesador, esto es para las actualizaciones o las opciones de configuración, no porque la RAM falle a un gran ritmo en comparación con otros componentes de la placa.
0 votos
Antes de que los procesos salgan a la "luz", llevan años en el mercado. Los 14nm fueron experimentales hace 10 años y por fin han llegado al mercado gracias a la consistencia de los umbrales y a la ausencia de fallos en los transistores. A estas alturas somos muy buenos fabricando transistores.
0 votos
Yo esperaría que durante el POST hay un núcleo de ejecuciones de autoprueba para el loopback en el bus y comparar con el Op Code redundante. Pero sólo Intel y AMD no sabrán cuáles son sus niveles de detección de fallos de autoprueba durante el encendido. Probablemente hay sumas de comprobación para las operaciones de registro y los códigos FSM utilizados para la autocomprobación, además del rango de direccionamiento ilegal y, por supuesto, las comparaciones multinúcleo que pueden utilizarse para la autocomprobación.
0 votos
Para que un transistor no I/O falle en funcionamiento cuando antes funcionaba es mucho, mucho menos probable que uno (o probablemente varios) sea malo o al menos marginal desde el principio debido a un defecto de fabricación, así que ahí es donde va la mayor parte de la atención. Si se bombardea el chip con partículas energéticas, las cosas pueden empezar a ser diferentes. Los lugares en los que sí se ven fallos de edad de elementos individuales en equipos ordinarios son cosas como las células de memoria flash, pero no es realmente el comportamiento del transistor lo que falla, sino más bien el comportamiento de almacenamiento/no almacenamiento de carga de la estructura única del transistor.