6 votos

¿Por qué no han aumentado los bitflips de memoria aparentes en la memoria no ECC?

De vuelta en la década de 2000 recuerdo que le pregunté acerca de por qué era tan importante que los servidores de uso de memoria ECC. La idea predominante en la época era que los sistemas con un montón de memoria RAM sería, estadísticamente, más propensos a sufrir bitflips. Esto tiene sentido si cada célula tiene un 10-20 probabilidad de sufrir un bitflip por segundo, entonces 109 células tienen un 10-11 probabilidad por segundo. El más células que tienen, mayor es la probabilidad de que un bitflip en un periodo de tiempo determinado.

Entonces estaríamos buscando en un estadio de béisbol de 128 mb a 1 gb de RAM. En estos días nos regularmente ponen de 16 gb o más en portátiles y equipos de sobremesa, estaciones de trabajo comúnmente tener 64 GB o más. Para el motivo de la discusión, digamos que he aumentado la memoria RAM total importes en dos órdenes de magnitud. Por tanto, deberíamos ver un centenar de veces o de manera más bitflips, en promedio, en cualquier sistema dado, suponiendo que nada ha cambiado.

Cuanto más pensaba en ello, sin embargo, más me di cuenta de que el azar bitflip tasa debería ser mucho mayor en los sistemas más recientes:

  • Bajar los voltajes de funcionamiento significa una menor distinción entre un 0 y un 1.
  • Inferior de la puerta de carga significa menos energía necesaria para mover de un tirón un poco.
  • Más densamente puertas aumenta la probabilidad de ser afectados por los rayos cósmicos.
  • Tiempos de actualización no parecen haber ido a cualquier lugar. DDR2 tRFC fue 40-60 relojes, DDR3 tRFC era más como 90-130 relojes, y DDR4 tRFC es más como 200-450 relojes. Cuando se divide por la memoria interna tasas de reloj para obtener una pared de tiempo para cada actualización de temporización que en realidad no muestran mucho de una tendencia es plana pero con un mayor margen de cualquier manera como pasa el tiempo.

Pero, que yo sepa, no estamos viendo bitflips en todas partes en la no-ECC RAM, al menos dentro de los confines de nuestra atmósfera.

Así que, ¿cuál es el trato? ¿Por qué no vemos un sinfín bitflips en todas partes, al menos 100 veces si no 10000x con más frecuencia que la de hace dos décadas? Es ECC realmente importante en el contexto de la creciente RAM tamaños, o hacer que las estadísticas no una copia de seguridad? O hay algún otro avance tecnológico que es la mitigación de bitflip problemas de memoria no ECC? Estoy particularmente interesado en las respuestas con referencias oficiales en lugar de la especulación acerca de las tasas de error.

5voto

dahulius Puntos 11

Único evento molesta (SEU) en el nivel del mar tienden a ser causadas por contaminantes radiactivos en el IC de fabricación de materiales (en particular los metales) la generación de partículas alfa o por neutrones de alta energía (causado por los rayos cósmicos en la atmósfera) la ionización de los átomos de silicio en sí.

A través de los años, los fabricantes han reducido en gran medida la amenaza causada por contaminantes radiactivos. Hay también propiedad de los enfoques para el diseño de la célula que pueden ayudar a mitigar el riesgo de la SEU. Todo esto es probablemente va a ser secretos comerciales y no a la información pública.

Y, no, yo no voy a hacer su búsqueda en la literatura para usted. Sin embargo, recomiendo que usted vaya a través de la IEEE transactions on de la Ciencia Nuclear si desea referencias.

2voto

laptop2d Puntos 331

La respuesta es, más trabajo necesita ser hecho, y no están seguros de:

Los resultados muestran que la radiación de la susceptibilidad en realidad ha mejoró algo para los dispositivos que han avanzado a la 0,13 µm nivel, que contradice las predicciones anteriores. Esta tendencia es alentadora, pero esto no necesariamente puede continuar para los dispositivos que son escaladas por debajo de 0.1 µm. Es importante tener en cuenta que los últimos modelos de computadora los cálculos para VER la susceptibilidad de la escala de los dispositivos predice un gran aumento de la recogida de carga que está directamente en conflicto con la prueba de resultados de iones pesados de neutrones y de los errores de software.
Fuente: El Efecto del Dispositivo de ajuste de Escala en Único Evento de Efectos de Antemano Los Dispositivos de CMOS

enter image description here
Fuente: El Efecto del Dispositivo de ajuste de Escala en Único Evento de Efectos de Antemano Los Dispositivos de CMOS

El mecanismo real para VER/SEU tiene más que ver con la tensión y la geometría de tamaño. Uno podría pensar que los de menor tamaño y menor carga de cada elemento de la memoria haría elementos de memoria más fácil darle la vuelta y causa de los errores, pero el efecto es pequeño y está más relacionado con la tensión y la geometría. Que es bueno para el espacio de las aplicaciones que se basan cada vez más en la tecnología comercial (como cubesats).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X