Tengo dos muestras X
( $N$ = 97) y X2
( $N$ =4782) extraídos de los mismos datos de población. Me gusta probar (utilizando visualizaciones estadísticas como normplot
y qqplot
y pruebas de hipótesis como jbtest
, chi2gof
y kstest
en matlab) si los datos de cada muestra se distribuyen normalmente.
Mis primeros datos son:
X = [8.13010235400000,13.6713071300000,14.0362434700000,18.4349488200000,26.5650511800000,30.9637565300000,34.3803447200000,40.6012946500000,45,49.3987053500000,58.6713071300000,59.0362434700000,59.0362434700000,59.0362434700000,61.9275130600000,61.9275130600000,63.4349488200000,63.4349488200000,63.4349488200000,63.4349488200000,63.4349488200000,64.4400348300000,71.5650511800000,71.5650511800000,71.5650511800000,71.5650511800000,75.9637565300000,75.9637565300000,75.9637565300000,75.9637565300000,75.9637565300000,75.9637565300000,75.9637565300000,75.9637565300000,75.9637565300000,75.9637565300000,77.4711922900000,77.4711922900000,77.4711922900000,77.4711922900000,77.4711922900000,77.4711922900000,77.4711922900000,77.4711922900000,77.4711922900000,78.6900675300000,90,90,90,90,90,90,90,90,90,90,90,90,90,90,90,93.1798301200000,97.1250163500000,97.7651660200000,102.528807700000,102.528807700000,102.528807700000,102.528807700000,102.528807700000,104.036243500000,104.036243500000,104.036243500000,104.036243500000,104.036243500000,104.036243500000,104.036243500000,105.255118700000,108.434948800000,108.434948800000,108.434948800000,108.434948800000,109.440034800000,116.565051200000,118.072486900000,120.963756500000,127.746805400000,130.601294600000,135,137.489552900000,139.398705400000,139.398705400000,149.036243500000,153.434948800000,159.227745300000,161.565051200000,179.999998800000,180];
Los análisis mediante visualizaciones estadísticas en matlab muestran que las distribuciones subyacentes de ambas muestras son normales. Sin embargo, a partir de las pruebas de hipótesis, la hipótesis nula para la primera muestra no se rechaza utilizando el mismo valor de significación (excepto para la prueba chi-cuadrado), pero que para la segunda muestra, X2 se rechaza completamente.
Ahora no sé cómo demostrar que mis muestras tienen una distribución normal y que proceden de los mismos datos de población. ¿Qué puedo hacer en esta situación?
PS: muestra X2
es demasiado grande para que lo publique, pero si hay alguna sugerencia sobre cómo podría mostrarlo, no me importa.
EDIT: Acabo de cotejar otro conjunto de muestras (N = 4700) de los mismos datos de población en los que los qqplots y las comparaciones cdf se ven bien (véase la nueva imagen añadida). Extrañamente, las pruebas de hipótesis con jbtest y kstest en Matlab rechazan ambas la hipótesis nula. Empiezo a creer que, después de todo, estas pruebas de hipótesis no son de fiar, sobre todo cuando se trata de datos de casos reales.
PD: No he podido probar la prueba de Shapiro-Wilks porque Matlab no dispone de ella.