1 votos

¿Cómo combinar gráficos de probabilidad y pruebas de hipótesis para comprobar la normalidad?

Tengo dos muestras X ( $N$ = 97) y X2 ( $N$ =4782) extraídos de los mismos datos de población. Me gusta probar (utilizando visualizaciones estadísticas como normplot y qqplot y pruebas de hipótesis como jbtest , chi2gof y kstest en matlab) si los datos de cada muestra se distribuyen normalmente.

Mis primeros datos son:

X = [8.13010235400000,13.6713071300000,14.0362434700000,18.4349488200000,26.5650511800000,30.9637565300000,34.3803447200000,40.6012946500000,45,49.3987053500000,58.6713071300000,59.0362434700000,59.0362434700000,59.0362434700000,61.9275130600000,61.9275130600000,63.4349488200000,63.4349488200000,63.4349488200000,63.4349488200000,63.4349488200000,64.4400348300000,71.5650511800000,71.5650511800000,71.5650511800000,71.5650511800000,75.9637565300000,75.9637565300000,75.9637565300000,75.9637565300000,75.9637565300000,75.9637565300000,75.9637565300000,75.9637565300000,75.9637565300000,75.9637565300000,77.4711922900000,77.4711922900000,77.4711922900000,77.4711922900000,77.4711922900000,77.4711922900000,77.4711922900000,77.4711922900000,77.4711922900000,78.6900675300000,90,90,90,90,90,90,90,90,90,90,90,90,90,90,90,93.1798301200000,97.1250163500000,97.7651660200000,102.528807700000,102.528807700000,102.528807700000,102.528807700000,102.528807700000,104.036243500000,104.036243500000,104.036243500000,104.036243500000,104.036243500000,104.036243500000,104.036243500000,105.255118700000,108.434948800000,108.434948800000,108.434948800000,108.434948800000,109.440034800000,116.565051200000,118.072486900000,120.963756500000,127.746805400000,130.601294600000,135,137.489552900000,139.398705400000,139.398705400000,149.036243500000,153.434948800000,159.227745300000,161.565051200000,179.999998800000,180];

Los análisis mediante visualizaciones estadísticas en matlab muestran que las distribuciones subyacentes de ambas muestras son normales. Sin embargo, a partir de las pruebas de hipótesis, la hipótesis nula para la primera muestra no se rechaza utilizando el mismo valor de significación (excepto para la prueba chi-cuadrado), pero que para la segunda muestra, X2 se rechaza completamente.

Ahora no sé cómo demostrar que mis muestras tienen una distribución normal y que proceden de los mismos datos de población. ¿Qué puedo hacer en esta situación?

PS: muestra X2 es demasiado grande para que lo publique, pero si hay alguna sugerencia sobre cómo podría mostrarlo, no me importa.

enter image description here

EDIT: Acabo de cotejar otro conjunto de muestras (N = 4700) de los mismos datos de población en los que los qqplots y las comparaciones cdf se ven bien (véase la nueva imagen añadida). Extrañamente, las pruebas de hipótesis con jbtest y kstest en Matlab rechazan ambas la hipótesis nula. Empiezo a creer que, después de todo, estas pruebas de hipótesis no son de fiar, sobre todo cuando se trata de datos de casos reales.

PD: No he podido probar la prueba de Shapiro-Wilks porque Matlab no dispone de ella.

enter image description here

2voto

Nick Cox Puntos 22819

Creo que la actitud aquí no debería ser un intento de "demostrar" que los datos se distribuyen normalmente, sino simplemente comprobar en si los datos se acercan lo suficiente a la normalidad como para que sea una aproximación adecuada para sus fines no declarados .

Yo iría más lejos que @CroGo y sugeriría ir directamente a gráficos de cuantiles . La comparación con una línea recta de referencia es mucho más fácil que comparar dos funciones de distribución entre sí cuando una es una ojiva normal (es decir, sigmoidea) y el reto visual es comparar una curva sigmoidea exacta y otra aproximada. (EDIT 2: Los gráficos de funciones de distribución publicados confirman mi prejuicio al no mostrar claramente las limitaciones de los datos).

He aquí un gráfico normal cuantílico (los puntos de datos distribuidos normalmente seguirían la línea) y una representación en espiga de la distribución.

enter image description here

El gráfico de cuantiles aquí para su muestra más pequeña me sugiere que no puede rechazar una hipótesis nula en parte porque el tamaño de la muestra es bastante pequeño. A muchos efectos, la aproximación parece aceptable, pero no excelente. Si tienes una teoría (física o de otro tipo) que dice que la distribución debe ser normal, entonces no está bien apoyada. Si sólo le interesa utilizar técnicas que funcionan bien si los datos son aproximadamente normales, entonces no hay malas noticias.

Pero mantenlo ahí:

He etiquetado los gráficos en términos de 0(45)180 porque el límite agudo en 180 me hace preguntarme si se trata de medidas acotadas en grados. Un vistazo a los detalles del distribución mostrada como picos para valores distintos parece apoyar esa idea: ¿por qué si no un pico a 90?

Confusión: Debería haber leído estos datos en mi software (no revelación: no MATLAB) en doble precisión. Si la diferencia entre 179,999998800000 y 180 es significativo para usted, que era una aproximación gruesa.

El rechazo de la hipótesis nula con un tamaño de muestra mucho mayor no es ninguna sorpresa. Es probable que sólo sea una indicación de que se tiene más información en la muestra más grande. El mismo tipo de discrepancia para una muestra de mayor tamaño tiene más probabilidades de calificarse de significativa a niveles convencionales. Así es como funcionan las pruebas de significación, del mismo modo que si 7/10 monedas salen cara podría ser fácilmente una casualidad, pero si se obtienen 700000/1 millón realmente hay pruebas de sesgo.

Si el gráfico de la otra muestra, más amplia, se parece al de aquí, la conclusión es similar. Pero si sus datos son realmente ángulos, o el equivalente, en [0, 180] o (0, 180], entonces la normal es, en el mejor de los casos, una referencia dudosa, ya que la normal no está acotada y los ángulos están acotados. Pero es probable que las distribuciones equivalentes para datos acotados se parezcan mucho a la normal, así que la objeción es de principio.

Pregunta: ¿Existe algún sentido en el que 0 = 180?

Nota: Si tiene que comprobar la normalidad, las pruebas chi-cuadrado pertenecen a un museo y una prueba específica como Shapiro-Wilk o Doornik-Hansen es preferible a las que menciona: esa es mi impresión de mi lectura de la literatura.

EDIT 1: Como bien señala @whuber en un comentario, la cuestión de si las distribuciones son similares no es la misma que la de si cada una es normal.

EDIT 2: El gráfico de cuantiles de la muestra más grande muestra más claramente los efectos de la delimitación. La distribución es normal en el medio como muchos son, pero en principio la normal no es una referencia apropiada para datos acotados donde los límites muerden . Así pues, los gráficos de cuantiles pueden ser útiles para explorar, pero las pruebas formales de normalidad parecen inútiles.

1voto

John Sweeney Puntos 18

(Respuesta parcial): Para la prueba KS una buena visualización es trazar la curva ECDF contra la curva CDF teórica. Si los datos proceden de la distribución, la curva ECDF debería reflejar fielmente la curva CDF. No soy un programador de Matlab, pero aquí es un relevante enlace .

Para el ajuste de la distribución, los gráficos qq son muy similares a los gráficos ECDF en el sentido de que se comparan las cantidades teóricas de la distribución con las muestreadas. Una línea lineal sería la prueba de un ajuste decente. También en este caso enlace .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X