6 votos

¿Cuáles son las consecuencias de la eliminación de las colas de una distribución?

Me gustaría saber las consecuencias de la eliminación de las colas de una distribución mediante la eliminación de observaciones por encima y por debajo de ciertos umbrales.

Por ejemplo, si uno se para calcular los percentiles de una medición, a continuación, retire todos los valores que están por debajo y por encima del percentil umbral en cada extremo (todas las observaciones por debajo de 1 de percentil, todas las observaciones por encima de percentil 99).

La intuición me dice que esto es una mala idea, pero me gustaría más explicación concreta de por qué.

Aquí hay algunas preguntas que tengo:

  • ¿Cómo podría esto cambiar el comportamiento de la distribución?
  • ¿Qué principios de la estadística están siendo violados aquí?
  • ¿Cómo podría esto cambiar las conclusiones alcanzadas durante el análisis de estos datos?
  • Es este un método viable para la eliminación de valores atípicos?
  • Es esta estrategia aceptable en cualquier situación?

Gracias de antemano.


Editar:

Gracias por la respuesta, Glen_b. Como actividad de seguimiento, me gustaría preguntar acerca de una situación específica.

Supongamos que queremos calcular los puntajes estándar para una medición que cuenta por alguna covariable. Hacemos esto mediante la regresión de la medición en contra de la covariable, a continuación, obtener los puntajes estándar utilizando la predicción de las respuestas de la regresión.

Nos gustaría hacer este proceso más sólido a los valores atípicos.

Es aconsejable recortar los datos antes de cualquier análisis (sin la retención de la descartados los valores), luego de realizar el análisis?

Como una alternativa a simplemente desechar los datos, se podría ajustar un modelo de regresión utilizando una recortada subconjunto, a continuación, aplicar este modelo para estandarizar el conjunto de datos completo? Sería similar a lo Menos Recorta los Cuadrados de la Regresión?


Edición #2:

Aclaración: utilizamos la covariable como la variable independiente/predictor de la medición en la regresión.

El objetivo es corregir las mediciones en una covariable, ya que creemos que la medición es altamente dependiente de esta covariable.

Hacemos esto mediante la estandarización de los valores de la predicción de la respuesta del modelo de regresión. La normalización puede ser aplicado a los recién obtenido pares de medición y valores de la covariable para determinar si se comportan de manera similar a la muestra original.

$Z(Y_{i})$ = $\frac{y_{i}-E(y|x_{i})}{\hat{\sigma}}$

Los valores atípicos son una preocupación con respecto a la variable dependiente (y-outliers), la medición.

¿Qué tipo de regresión robusta sería el adecuado? M-estimación?

8voto

AdamSane Puntos 1825

La eliminación de las observaciones por debajo de la $k$percentil y por encima de el (100-$k$)th antes de calcular algunos estimador es el mismo que el recorte (es decir, el cálculo de un tapizados estimador).

El efecto de la poda sobre la distribución, efectivamente, es de truncamiento en ambos extremos.

El impacto que tiene sobre lo que estás haciendo, depende de las circunstancias; por ejemplo, el impacto en algunos estimador depende del estimador se va a aplicar después de cortar las observaciones, y en la distribución de aplicar el procedimiento.

Que sin duda puede reducir el efecto de la contaminación que produce bruto de los valores atípicos (a pesar de que otros estimadores, como el M-estimadores de localización, puede ser una mejor opción que una recortada ubicación estimador en muchas situaciones; lo mismo para otros tipos de estimadores).

Si usted lo aplica a (por ejemplo) un cálculo de la varianza, se producirá un sesgo hacia abajo. Algunos autores han sugerido que el recorte de medios y Winsorizing en lugar de recorte para el cálculo de las varianzas o desviaciones estándar (que no eliminar el sesgo, pero se reducen).


¿Qué principios de la estadística están siendo violados aquí?

No estoy seguro exactamente lo que estás pidiendo, pero las propiedades de muchas cosas van a cambiar; por ejemplo, véase la respuesta a la siguiente pregunta.

¿Cómo podría esto cambiar las conclusiones alcanzadas durante el análisis de estos datos?

Depende de lo que estás haciendo! Por ejemplo, la prueba t aplicada a los tapizados de las muestras ya no tienen el nominal nivel de significación; pero un ajuste de la varianza y de los grados de libertad deben permitir que se acerque a el tipo deseado de la tasa de error.


Este enfoque es, sin duda a veces se utiliza. Es una opción sencilla y en algunas situaciones se desempeña bastante bien, pero no es siempre la mejor opción.

Usted puede encontrar que es útil para leer un poco sobre estadísticas robustas.


Edit: más respuestas en respuesta a la nueva pregunta

Anteriormente se describe un procedimiento univariante (recorte de grandes y pequeños valores de una distribución), pero ahora usted se está preguntando acerca de la regresión, lo que involucra más de una variable. Esto cambia las cosas.

Con la regresión, estamos hablando de una diferente distribución condicional de la respuesta para cada punto, usted no puede simplemente ignorar el IV, cuando tratando de averiguar qué es lo que más extremas.

Supongamos que queremos calcular los puntajes estándar para una medición que cuenta por alguna covariable. Hacemos esto mediante la regresión de la covariable en contra de la medida, luego de obtener los puntajes estándar utilizando la predicción de las respuestas de la regresión.

No me queda claro cómo este te da lo que quieres. (Ni, de hecho, es claro que el camino alrededor de su regresión va; sospecho que cuando usted dice "la regresión en contra" son frases como IV "una regresión respecto a la" DV, que parece revertirse a partir de la convención habitual.)

Nos gustaría hacer este proceso más sólido a los valores atípicos.

Voy a tratar de dejar a un lado mis preocupaciones anteriores.

Es aconsejable recortar los datos antes de cualquier análisis (sin la retención de la descartados los valores), luego de realizar el análisis?

Si he entendido correctamente, no, ya que se va a aplicar un marginales (es decir, incondicional) enfoque para corregir problemas con un modelo condicional, antes de haber tenido la oportunidad de incluso evaluar si es condicionalmente inusual. Me gustaría que en vez de aconsejar considerando robusto métodos de regresión.

Como una alternativa a simplemente desechar los datos, se podría ajustar un modelo de regresión utilizando una recortada subconjunto, a continuación, aplicar este modelo para estandarizar el conjunto de datos completo?

Yo aconsejo que por la razón arriba descritos.

Sería similar a lo Menos Recorta los Cuadrados de la Regresión?

Si he entendido correctamente, de ninguna manera es similar. (Implica el recorte de algo, pero no en todos, como yo entiendo de lo que estás proponiendo.)

Valdría la pena abordar qué tipo de problemas se puede anticipar con sus datos - es y-valores atípicos?, x-valores atípicos?, algunos de cada uno?, los dos juntos?


Respuestas a la nueva edición:

Si es sólo en y de los valores atípicos en cuestión (es decir, influyente observaciones no están presentes), un M-estimación puede ser razonable, pero para muchos otros de los estimadores de regresión robusta. [Puede utilizar el recorte, como bien, pero que tendría que aplicar a los residuos de ... de un robusto esitmate, y si ya tienes una, probablemente no es necesario recortar.]

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X