98 votos

¿Cómo deberían afloramientos abordarse en análisis de regresión lineal?

Muchas veces un analista de estadística se entrega un conjunto de conjunto de datos y se le pidió que se ajustan a un modelo mediante una técnica como la regresión lineal. Muy frecuentemente el conjunto de datos es acompañado con un descargo de responsabilidad similar a la de "Oh, sí, metimos la pata recopilación de algunos de estos puntos de datos, hacen lo que pueden".

Esta situación lleva a los ajustes de regresión que son fuertemente afectadas por la presencia de valores atípicos que puede ser errónea de datos. Dada la siguiente:

  • Es peligroso a partir de los científicos, y el punto de vista moral para tirar de datos para ninguna otra razón que "hace que el ajuste se ven mal".

  • En la vida real, las personas que la recogida de datos con frecuencia no están disponibles para responder a preguntas tales como: "cuando la generación de este conjunto de datos, que de los puntos que se hizo un lío, exactamente?"

¿Qué pruebas estadísticas o reglas de oro puede ser utilizado como base para la exclusión de valores extremos en el análisis de regresión lineal?

Hay consideraciones especiales para la regresión multilineal?

43voto

Senseful Puntos 116

En lugar de excluir los valores atípicos, puede utilizar un método robusto de regresión. En R, por ejemplo, el rlm() función del paquete de masa de se puede utilizar en vez de la lm() función. El método de estimación puede ajustarse para ser más o menos resistente a valores extremos.

31voto

Dori Puntos 1325

A veces, los valores extremos son malos datos, y deben ser excluidos, tales como errores tipográficos. A veces son Wayne Gretzky o Michael Jordan, y debe ser guardado.

La detección de valores atípicos métodos incluyen:

Univariante -> boxplot. fuera de 1.5 veces inter-cuartil rango es un valor atípico.

Bivariante -> diagrama de dispersión con la confianza de la elipse. fuera de, por ejemplo, 95% de confianza de la elipse es un valor atípico.

Multivariante -> D2 de Mahalanobis distancia

Marca las observaciones como valores atípicos.

Ejecutar una regresión logística (en Y=IsOutlier) para ver si hay alguno de los patrones sistemáticos.

Eliminar las que usted puede demostrar que no son representativos de todos los sub-población.

23voto

Brendan Puntos 7674

Sí creo que hay algo que decir para sólo excluyendo los valores atípicos. Una línea de regresión se supone que para resumir los datos. Debido a la influencia que puede tener una situación donde el 1% de los puntos de datos afecta a la pendiente del 50%.

Es peligroso sólo de una moral y el punto de vista científico si no decirle a nadie que se excluyen los valores extremos. Como siempre que punto pueden decir:

"Esta línea de regresión se ajusta muy bien para la mayoría de los datos. 1% del tiempo de un valor se venga, que no se ajustan a esta tendencia, pero bueno, es un mundo loco, ningún sistema es perfecto"

14voto

ManiacZX Puntos 1461

Sharpie,

Tomando su pregunta literalmente, yo diría que no hay pruebas estadísticas o reglas de oro puede ser utilizado como base para la exclusión de valores extremos en el análisis de regresión lineal (como opuesto a la determinación de si o no una determinada observación es un valor atípico). Esto debe venir de la asignatura-conocimiento de la zona.

Creo que la mejor manera es empezar a preguntarnos si los valores atípicos sentido, especialmente teniendo en cuenta las demás variables que hemos recogido. Por ejemplo, es muy razonable que usted tiene un 600 libras mujer en su estudio, el que se reclutaron de varios deportes de lesiones clínicas? O, ¿no es extraño que una persona es listado de 55 años de experiencia profesional cuando están a sólo 60 años de edad? Y así sucesivamente. Con suerte, usted entonces tiene una base razonable para tirarlos a la basura o la obtención de los datos de los compiladores para comprobar los registros para usted.

También me gustaría sugerir robusto métodos de regresión y la transparencia en la información de caer observaciones, como se sugiere por Rob y Chris respectivamente.

Espero que esto ayude, Brenden

8voto

He publicado un método para la identificación de afloramientos en regresión no lineal, y puede también utilizar al montar un modelo lineal.

HJ Motulsky y Brown. Detección de valores atípicos cuando ajuste los datos con regresión no lineal – un nuevo método basan en la regresión no lineal robusta y la tarifa falsa del descubrimiento. Bioinformática BMC 2006, 7:123

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X