Loading [MathJax]/jax/element/mml/optable/BasicLatin.js

7 votos

¿Es posible obtener una puntuación z superior a 3?

Estoy realizando un estudio de psicología con 361 adultos de 18 a 62 años. He realizado pruebas para diversas variables y he obtenido puntuaciones z muy superiores a 3, como 9, 14 y similares. Me han dicho que mis datos no son normales. ¿Significa eso que mis puntuaciones z son correctas o que estoy haciendo algo mal?

0 votos

¿Sus datos están muy sesgados?

2 votos

¿Están las puntuaciones z normalizadas a su propia media y desviación estándar de la muestra de la variable original o están normalizadas por alguna media y/o desviación estándar externa?

0 votos

¿Exactamente cómo obtuviste la puntuación z? ¿Cómo ha probado las distintas variables para qué pregunta? ¿Cuáles son sus datos/variables de resultado (tal vez le digan que no son normales por principios generales, por ejemplo, si son una pregunta de sí/no, un tiempo a un evento con censura o algo parecido).

9voto

AdamSane Puntos 1825

Asumiré que te refieres a variables estandarizadas por sus propias estadísticas muestrales.

Valores superiores a 3 son ciertamente posibles en n=361 para datos con distribución normal. De hecho, la puntuación z de mayor magnitud debería superar 3 más de la mitad de las veces.

Se trata de la distribución de la mayor puntuación z absoluta de muestras de tamaño 361 de poblaciones con distribución normal.

enter image description here

Si se estuviera analizando una sola variable, los valores de la mayor magnitud de la puntuación z mucho más allá de 4 serían algo sorprendentes para las muestras extraídas de una distribución normal. Si se analizan, por ejemplo, 20 variables, es de esperar que algunas sean superiores a 4, pero un valor como 4,6, más o menos, puede resultar sorprendente. Los valores mucho más allá de 5 no suelen ser creíbles para muestras de tamaño 361 de una distribución normal (en el sentido de que un valor al menos tan grande sería una ocurrencia extremadamente rara), a menos que se analice un número muy grande de variables.


Sin embargo, no está claro por qué te importaría que alguna de estas variables se distribuyera normalmente (de hecho, me sorprendería que alguna saliera de una distribución normal, pero eso no debería tener ninguna importancia).

¿Por qué iba a importar que la distribución de la que se extrajo alguna variable fuera una distribución normal?

(¿Qué estás haciendo que requiera distribuciones normales para cualquiera de estas variables?)

0 votos

Según la desigualdad de Chebyshev, un punto de datos a 14 sd de la media en una muestra de 361 sigue estando en el límite, independientemente de la distribución. Tengo entendido que este límite superior suele exagerar considerablemente las posibilidades de que se produzca un punto de este tipo. Por lo tanto, una especificación errónea o un error de medición parecen más probables que simplemente datos no normales (no es que haya una razón particular para esperar la normalidad).

1 votos

@Robert Puedes obtener una puntuación z de casi 19 (18,947) en una muestra de tamaño 361 (prueba con 360 0's y un 1). Si usas R, puedes hacerlo con n=361; max(abs(scale(c(1,rep(0,n-1))))) En general, se puede obtener una puntuación z de un poco más de n2 en una muestra de tamaño n -- Creo que el límite exacto es (n1)/n (que es n2 para grandes n ).

0 votos

Su ejemplo de cómo construir una distribución con una puntuación z tan alta parece subrayar el punto que estaba tratando de hacer en mi última frase. Si el PO no esperaba ese tipo de patrón de datos extremos de acuerdo con su conocimiento de la materia, algún tipo de error o especificación errónea parece más plausible que estos datos reflejen con precisión lo que se está estudiando.

8voto

throwaway Puntos 18

Para un punto de datos x y una distribución con media μ y la desviación estándar σ la puntuación z es simplemente (xμ)/σ . Por lo tanto, una puntuación z alta significa que el punto de datos está a muchas desviaciones estándar de la media. Esto puede ocurrir de forma natural con pesado / largo distribuciones de cola, o podrían significar valores atípicos. Un buen primer paso sería trazar un histograma u otro estimador de densidad y echar un vistazo a la distribución.

0 votos

Sólo para añadir a su punto, suponiendo que el Z se calcula a partir de los datos de la muestra, el ˆZ=(xi¯x)/s . A ˆZ de 14 pondría el punto 14s de la media y un ˆZ de 9 pondría el punto 9s de la media.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X