Por ejemplo, en la regresión lineal, asumimos los errores están normalmente distribuidas, tienen varianza constante y tienen un valor esperado de 0. Estos supuestos se refieren a la población. Pero nos fijamos en nuestros puntos de datos reales para ver si estos supuestos se cumplen, ¿por qué hacemos esto? ¿Cómo sabemos que resultados tienen para la población? Si sólo tenemos 10 puntos de datos, ¿por qué no decimos que no tenemos suficientes datos para comprobar si se cumplen estos supuestos?
Respuestas
¿Demasiados anuncios?Ciertamente, usted puede decir que usted no tiene la cantidad suficiente de datos para probar las hipótesis. Generalmente hablando, en pruebas de significación sostenemos que hay un defecto de la posición que vamos a seguir creyendo, a menos que haya pruebas suficientes de que el contrario. (Algo raro, estoy de acuerdo.) Este 'defecto' va por el nombre de 'la hipótesis nula'. Así, por ejemplo, con el supuesto de normalidad, podemos simplemente asumir que los datos (en realidad los residuos) están distribuidos normalmente hasta que los datos que nos obligan a cambiar nuestra mente.
En cuanto a la pregunta de por qué hacemos esto visualmente en lugar de a través de un formal de la prueba de hipótesis, hay varias cosas. En primer lugar, su sistema visual es simplemente asombroso de gran alcance: posiblemente la mayoría de su cerebro se dedica al procesamiento visual (dependiendo de cómo se cuenta), ~70% de la información sensorial visual en la naturaleza, etc. Es bastante más potente que el racional / razonamiento partes (como contra-intuitivo, ya que puede de sonido). Personalmente, me siento como si me entiende algo sobre mis datos cuando veo que no puedo, cuando leí en la producción de estadísticas que p<.05. Creo que una segunda razón es que no es un buen argumento el hecho de que muchos de los tests estadísticos en última instancia sería mostrar "significado" si hemos tenido suficiente de datos, y por lo tanto sólo son pruebas de su $N$ (que ya conocía). Por otra parte, si usted tiene datos suficientes para establecer que no son normales, pero sus datos son razonablemente normal-ish, el teorema del límite central cubrirá a usted de todos modos. Así que, lo que realmente quiero saber es ¿tiene un tamaño moderado (o más grande) desviación de la normalidad con un tamaño mediano (o menor) del conjunto de datos. Dado que usted sabe que su $N$, un qq-plot, o enfoque similar, es más útil. Más a lo largo de estas líneas se puede encontrar en este clásico de CV pregunta.
No estoy de acuerdo con la celebración de la opinión de que los datos están distribuidos normalmente, a menos que usted tiene estadísticamente rechazó la normalidad. Este es el procedimiento que debemos seguir cuando el objetivo de nuestra investigación es en realidad para RECHAZAR H0. No es un procedimiento que se debe seguir para probar las hipótesis de nuestro análisis estadístico.
¿Qué hacemos normalmente para la prueba de normalidad? Hay pruebas, pero como mucha gente, yo no creo que ellos son generalmente útiles. Si la muestra es pequeña, la potencia es demasiado baja y si es grande la pruebas de detectar incluso pequeñas desviaciones de la normalidad, que casi siempre están allí y en realidad no importa mucho. Así que, por lo general, a hacer es mirar el QQ-plot. Desde el uso de "visualmente" supongo que usted está familiarizado con ella.
Ya que las parcelas de cuantiles estimados contra los cuantiles teóricos, se puede esperar que la estimación de los cuantiles son asintóticamente las poblaciones de cuantiles y que el QQ-plot es más o menos estables, como el tamaño de la muestra aumenta.
Si el tamaño de la muestra es muy pequeña (10 califica) o bien admiten que no ser capaz de asumir la normalidad, o que son capaces de justificar en alguna otra manera (por experiencias similares de datos, razones teóricas,...) . En un mundo ideal es al menos una hipótesis que debe ser discutido.
¿Por qué nos fijamos en el ejemplo - porque es todo lo que tenemos. Sería genial un vistazo a la población para ver si cumple con nuestras hipótesis, pero no podemos.
Nos suelen saber lo que los residuos (o lo que sea) de nuestra muestra se vería como si la población se reunió nuestras suposiciones - así que nos fijamos en ellos, como parte del proceso normal de inferencia a partir de la muestra de la población.
Obviamente es una tontería mirar su muestra de 2 y concluyen que "sí, eso es plausible de una distribución normal". Por lo que la estrategia se convierte en uno de pensar cuidadosamente acerca del poder, lo que se puede esperar de su tamaño de la muestra, lo que usted sabe acerca de cómo la muestra fue generada, etc.