8 votos

Tasa de error de CPU/procesador en los cálculos

¿Intel o AMD publican especificaciones sobre la velocidad a la que pueden producirse fallos de cálculo en sus CPU? Sospecharía que depende mucho de la edad y la temperatura, pero seguramente debe haber algún tipo de cifras disponibles.

No me interesan los errores de fabricación evidentes (en los que todo un lote está defectuoso o algo así). Me interesan los errores espontáneos debidos a fenómenos físicos no relacionados con un error de diseño. También interesa si el error se origina en la CPU o en algún otro chip del sistema (por ejemplo, un fallo momentáneo de tensión en el procesador también provocaría errores).

Tengo curiosidad, pero mi búsqueda en la red no me da lo que quiero. Sólo quiero obtener ideas aproximadas de que dejé mi programa en ejecución durante X horas cuántos errores espontáneos podría esperar tener.

0 votos

1 votos

Creo que es mucho más probable que los módulos de memoria del sistema se vuelvan un poco locos por los impactos de partículas. Incluso si pudieras encontrar la tasa de error de la CPU hay ciertamente más que considerar. La mayoría del hardware de servidor comercial utiliza memoria ECC, pero no he oído hablar de mucho fuera del sector aeroespacial que haga redundancia de cálculo. Redundancia de CPU en caso de fallo, claro... pero no una redundancia que compruebe los cálculos.

1 votos

Sí, de todo el material que he encontrado ahora parece que la memoria es el mayor problema. Aunque las consideraciones de diseño de AMD indican que también lo consideran un problema en sus CPU.

5voto

GrizzlyGuru Puntos 62

Algunas cosas están presentes. cpuid con eax=01H Devolución MCA-Machine Check Architecture en EDX 14 bits:

Machine Check Architecture. The Machine Check Architecture, which
provides a compatible mechanism for error reporting in P6 family,
Pentium 4, Intel Xeon processors, and future processors, is
supported. The MCG_CAP MSR contains feature bits describing how
many banks of error reporting MSRs are supported.

Consulte Volumen de referencia Intel 3B Capítulo 15 ARQUITECTURA DE COMPROBACIÓN DE MÁQUINAS :

The Pentium 4, Intel Xeon, Intel Atom, and P6 family processors
implement a machine-check architecture that provides a mechanism
for detecting and reporting hardware (machine) errors, such as:
system bus errors, ECC errors, parity errors, cache errors, and
TLB errors.

Las CPUs Intel 64 tienen comprobaciones adicionales, véase el capítulo 15.6, por ejemplo las hay:

  • Error de paridad en la ROM interna de microcódigo
  • FRC (functional redundancy check) error maestro/esclavo
  • Error de paridad interna.

Véase también:

3voto

Chris Miller Puntos 2552

Busca "partículas alfa". Ese es el principal fenómeno físico relevante.

Pero no, no publican esas cifras.

0 votos

Gracias, eso da el tipo de información que estoy buscando. Entonces, ¿los errores a los que me refiero se llaman "fallos blandos" o "fallos transitorios de semiconductores"?

0 votos

Averigüé que, aunque no lo publican (al menos AMD), tienen directrices y objetivos que cumplen. Un médico también dio algunos índices (aunque no oficialmente).

2 votos

¿Cómo entra una partícula alfa en la CPU, teniendo en cuenta que no puede atravesar más que unas micras de cualquier sustancia sólida? ¿Quizás se refiera a los rayos cósmicos, que normalmente son protones? ¿O quiere decir que hay algún contaminante radiactivo dentro del propio CI?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X