11 votos

Residuos influyentes frente a valores atípicos

En primer lugar, debo decir que he buscado la respuesta en este sitio. O bien no encontré una pregunta que respondiera a mi pregunta o mi nivel de conocimientos es tan bajo que no me di cuenta de que ya había leído la respuesta.

Estoy estudiando para el examen de estadística AP. Tengo que aprender la regresión lineal y uno de los temas es el de los residuos. Tengo una copia de Introducción a la estadística y al análisis de datos en la página 253 dice.

Los puntos inusuales en un conjunto de datos bivariados son aquellos que se alejan de la mayoría de los otros puntos en el gráfico de dispersión, ya sea en el $x$ dirección o la $y$ dirección

Una observación es potencialmente un observación influyente si tiene un $x$ valor que está alejado del resto de los datos (separado del resto de los datos en el $x$ dirección). Para determinar si la observación es de hecho influyente, evaluamos si la eliminación de esta observación tiene un gran impacto en el valor de la pendiente o el intercepto de la línea de mínimos cuadrados.

Una observación es una El atípico si tiene un gran residuo. Las observaciones atípicas se alejan de la línea de mínimos cuadrados en el $y$ dirección.

Stattreck.com establece cuatro métodos para determinar un valor atípico a partir de los residuos:

Los puntos de datos que difieren en gran medida del patrón general se denominan valores atípicos. Hay cuatro formas en las que un punto de datos puede considerarse un valor atípico.

  1. Podría tener un valor X extremo en comparación con otros puntos de datos.
  2. Podría tener un valor Y extremo en comparación con otros puntos de datos.
  3. Podría tener valores X e Y extremos.
  4. Puede ser distante del resto de los datos, incluso sin valores X o Y extremos.

Estas dos fuentes parecen entrar en conflicto. ¿Podría alguien ayudarme a aclarar mi confusión? Además, ¿cómo se define un extremo? La Estadística AP utiliza la regla de que si el punto de datos está fuera de (Q1-1.5IQR,Q3+1.5IQR) es un valor atípico. No sé cómo aplicar eso a partir de un simple gráfico de los residuos.

5voto

El sitio de stattrek parece tener una descripción mucho mejor de los valores atípicos y los puntos de influencia que su libro de texto, pero sólo ha citado un breve pasaje que puede ser engañoso. No tengo ese libro en particular, así que no puedo examinarlo en su contexto. Sin embargo, ten en cuenta que el pasaje del libro de texto que has citado dice "potencialmente". Tampoco es excluyente. Teniendo en cuenta esos puntos, stattrek y su libro no están necesariamente en desacuerdo. Pero sí parece que tu libro es engañoso en el sentido de que da a entender (a partir de este breve pasaje) que la única diferencia entre los valores atípicos y los puntos influyentes es si se desvían en el eje x o en el eje y. Esto es incorrecto.

La "regla" de los valores atípicos varía según el contexto. La regla que citas es sólo una regla general y sí, no está realmente diseñada para la regresión. Hay algunas formas de utilizarla. Puede ser más fácil de visualizar si se imaginan múltiples valores de y en cada x y se examinan los residuos. Los ejemplos típicos de regresión de los libros de texto son demasiado simples para ver cómo podría funcionar esa regla de los valores atípicos, y en la mayoría de los casos reales es bastante inútil. Con suerte, en la vida real, recoges muchos más datos. Si es necesario que se aplique la regla de los cuantiles para los valores atípicos a un problema de regresión, entonces deben proporcionarse datos para los que sea apropiada.

5voto

Awais Tariq Puntos 116

Estoy de acuerdo con John. Aquí hay algunos puntos más. Una observación influyente es (estrictamente) una que influye en las estimaciones de los parámetros. Una pequeña desviación en el valor de Y da un gran cambio en los parámetros beta estimados. En la regresión simple de 1 variable frente a otra, las variables influyentes son precisamente aquellas cuyo valor X se aleja de la media de las X. En la regresión múltiple (varias variables independientes), la situación es más compleja. Hay que fijarse en la diagonal de la llamada matriz del sombrero $X(X'X)^{-1}X'$ y el software de regresión te lo dará. Busca en Google "apalancamiento".

La influencia es una función de los puntos de diseño (los valores X), como dice su libro de texto.

Tenga en cuenta que la influencia es el poder. En un experimento diseñado, se quieren valores X influyentes, suponiendo que se pueda medir con precisión el valor Y correspondiente. De este modo, se obtiene una mayor rentabilidad.

Para mí, un valor atípico es básicamente un error, es decir, una observación que no sigue el mismo modelo que el resto de los datos. Esto puede ocurrir por un error en la recogida de datos, o porque ese sujeto en particular era inusual de alguna manera.

No me gusta mucho la definición de stattrek de un atípico por varias razones. La regresión no es simétrica en Y y X. Y se modela como una variable aleatoria y las X se suponen fijas y conocidas. La rareza en las Y no es lo mismo que la rareza en las X. La influencia y la externalidad significan cosas diferentes. La influencia, en la regresión múltiple, no se detecta mirando los gráficos de residuos. Una buena descripción de los valores atípicos y de la influencia para el caso de una sola variable debería permitirle comprender también el caso múltiple.

Su libro de texto me disgusta aún más, por las razones expuestas por John.

En resumen, los valores atípicos influyentes son peligrosos. Hay que examinarlos de cerca y tratarlos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X