1 votos

Prueba de normalidad y detección de valores atípicos

En esta pregunta, me gustaría preguntar dos cosas:

  1. detección de valores atípicos
  2. prueba de normalidad

Los detalles son los siguientes:

Necesito detectar y eliminar valores atípicos en mis datos. Antes de hacerlo, quiero comprobar si mis datos se distribuyen normalmente o no. Tengo dos variables X(independiente) e Y(dependiente) y 951 registros para ambas.

Quiero saber si, al comprobar la normalidad, tengo que considerar las dos variables simultáneamente o las dos variables de una en una. (En algún lugar, he leído que sólo la variable dependiente se considera para probar la normalidad).

Las figuras adjuntas muestran los resultados de la prueba de normalidad (Análisis>>Descriptivo >>Explorar) de la variable dependiente. Si la prueba de normalidad se realiza sólo en la variable dependiente, entonces muestra que los datos están muy sesgados. En tal caso, ¿cómo puedo eliminar los valores atípicos? The image shows histogram of dependent variable

El nivel de significación de las pruebas de Shapiro-Wilk y Kolmogorov-Smirnov es 0,00. La asimetría tiene un estadístico de 22,909 con un SE de 0,079.

3voto

Zizzencs Puntos 1358

Tú escribes:

Necesito detectar y eliminar valores atípicos en mis datos

¿Por qué es necesario hacer esto? Detectar valores atípicos es bueno, pero eliminarlos automáticamente no lo es (y parece que eso es lo que quieres hacer). Dado que, por tu pregunta, parece que tienes algún tipo de problema de regresión, deberías considerar conservar los datos y cambiar el método de regresión a, por ejemplo, regresión cuantílica o regresión robusta.

También debe tener en cuenta que incluso la regresión OLS no no hacer suposiciones sobre la distribución de la datos (excepto que la VD es continua o casi) sino sobre el error.

Luego escribes:

Antes de hacer eso, quiero probar si mis datos se distribuyen normalmente o no

De nuevo, ¿por qué? Pero, si quieres probar la normalidad, como dijo @brad en su respuesta, los métodos gráficos son los mejores. Me gustan tanto los gráficos de densidad (como sugirió Brad) como los de cuantiles (como sugirió Nick). Sin embargo, estos últimos requieren un poco de experiencia para utilizarlos bien. También puedes probar con gráficos de caja.

Luego escribes:

Quiero saber si al comprobar la normalidad debo tener en cuenta ambas variables simultáneamente o ambas variables pero una a la vez? a la vez? (En alguna parte, he leído que sólo la variable dependiente es para probar la normalidad).

Esto me hace sospechar que estás haciendo una regresión. Como he señalado anteriormente, ni la variable tiene que estar distribuida normalmente (no dudo que leas lo que lees, pero es incorrecto).

Por último, muestra un histograma de tu DV. El histograma no es un gráfico muy útil (como señala William S. Cleveland en sus libros).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X