22 votos

Interpretando la salida de drop1 en R

En R, el comando drop1 produce algo ordenado.
Estos dos comandos deberían darte algún resultado:
example(step)#-> swiss
drop1(lm1, test="F")

El mío se ve así:

> drop1(lm1, test="F")
Eliminación de términos únicos

Modelo:
Fertilidad ~ Agricultura + Examen + Educación + Católica + 
    Mortalidad_Infantil
                 Df Suma_de_Cuad    RSS    AIC F valor     Pr(F)    
                     2105.0 190.69                      
Agricultura       1    307.72 2412.8 195.10  5.9934  0.018727 *  
Examen            1     53.03 2158.1 189.86  1.0328  0.315462    
Educación         1   1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Católica          1    447.71 2552.8 197.75  8.7200  0.005190 ** 
Mortalidad_Infantil  1    408.75 2513.8 197.03  7.9612  0.007336 ** 
---
Códigos de significancia:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

¿Qué significa todo esto? Supongo que las "estrellas" ayudan a decidir qué variables de entrada se deben mantener. Viendo la salida anterior, ¿quiero desechar la variable "Examen" y enfocarme en la variable "Educación", es correcta esta interpretación?

Además, el valor de AIC, ¿menor es mejor, verdad?

Ed. Por favor, toma nota de la respuesta de la Comunidad Wiki a continuación y agrega lo que creas conveniente para clarificar esta salida.

9 votos

El propósito de la ayuda en R es explicar cómo utilizar la función. No está destinada a ser un curso de estadística. En general, creo que las páginas de ayuda de R son de las más completas y útiles de todos los paquetes de código abierto que conozco. Y de los paquetes de pago también. SPSS y SAS te dan un montón de tonterías con medias verdades y completas tonterías como "guía para la interpretación".

1 votos

Esta pregunta ha sido votada negativamente. No era mi intención darle mi +1, pero me parece ahora que votarla negativamente no es muy constructivo: (1) el OP deja claro que se trata de una tarea y utiliza un conjunto de datos incorporado en R para la ilustración, no sus propios datos, (2) una pregunta relacionada con step() ha sido valorada con +2 en el momento de escribir esto (¡entonces, ¿por qué?!), (3) el OP reconoció la utilidad de la respuesta de @Joris.

0 votos

@chl : parece que no soy el único con dedos de los pies sensibles cuando se trata de las páginas de ayuda de R :-). Pero estoy completamente de acuerdo contigo. La pregunta es válida, se formuló de manera clara y, por lo tanto, no hay absolutamente ninguna razón para votarla negativamente.

14voto

J Wynia Puntos 4679

drop1 te proporciona una comparación de modelos basada en el criterio AIC, y al usar la opción test="F" agregas un "ANOVA de tipo II" a él, como se explica en los archivos de ayuda. Si solo tienes variables continuas, esta tabla es exactamente equivalente a summary(lm1), ya que los valores F son simplemente los valores T al cuadrado. Los valores p son exactamente los mismos.

Entonces, ¿qué hacer con ella? Interprétala de la siguiente manera: expresa de alguna manera si el modelo sin ese término es "significativamente" diferente al modelo con ese término. Ten en cuenta las "" alrededor de significativamente, ya que la significación aquí no se puede interpretar como la mayoría de la gente piensa. (problema de múltiples pruebas y todo...)

Y en cuanto al AIC: parece mejor cuanto más bajo sea. El AIC es un valor que va para el modelo, no para la variable. Por lo tanto, el mejor modelo de esa salida sería el que no incluya el examen de la variable.

Ten en cuenta que el cálculo tanto del AIC como del estadístico F es diferente de las funciones de R AIC(lm1) y anova(lm1) respectivamente. Para AIC(), esa información se encuentra en las páginas de ayuda de extractAIC(). Para la función anova(), es bastante obvio que las sumas de cuadrados de tipo I y tipo II no son iguales.

No quiero ser grosero, pero si no comprendes lo que se explica en los archivos de ayuda, no deberías estar usando la función en primer lugar. La regresión paso a paso es increíblemente complicada, poniendo en peligro tus valores p de manera profunda. Una vez más, no te bases en los valores p. Tu modelo debería reflejar tu hipótesis y no al revés.

6 votos

Me gusta este sentimiento, "si no entiendo lo que estoy haciendo, no debería intentar aprenderlo..." Esta también es la aproximación tomada en la ayuda de R - no es útil a menos que ya sepas lo que está pasando. Tenía la esperanza de que esto podría ser el comienzo de algo diferente.

0 votos

Pero puedo usar esta parte de tu respuesta: "Interprétalo exactamente de esa manera: expresa si el modelo sin ese término es significativamente diferente del modelo con ese término". Para mí, esto significa que los valores de Pr(F) son la significancia de cada uno de estos términos, y un valor pequeño significa que esta variable es importante. Entonces, un buen modelo debería incluir las variables "***" y no las que no tienen estrellas.

4 votos

@gakera: Me malinterpretaste. Si no entiendes lo que estás haciendo, definitivamente deberías tratar de aprenderlo antes de utilizarlo. Eso significa, investigar sobre estadísticas y seguir un curso. Por lo tanto, un buen modelo debe incluir las variables que se formulan en la hipótesis. Si te basas en las variables "***", necesitas primero un curso detallado sobre modelado. Obviamente no entendiste mi último comentario. Disculpa la comunicación directa, así soy yo. Nada personal.

7voto

SemiColon Puntos 1053

Para referencia, estos son los valores que se incluyen en la tabla:
Df se refiere a Grados de libertad, "el número de grados de libertad es el número de valores en el cálculo final de una estadística que son libres de variar."

La columna de Sum of Sq se refiere a la suma de cuadrados (o más precisamente la suma de desviaciones al cuadrado). En resumen, esto es una medida de cuánto se desvía cada valor individual de la media general de esos valores.

RSS es la Suma de Cuadrados Residual. Se trata de una medida de cuánto varía el valor predicho de la variable dependiente (o de salida) respecto al valor real para cada punto de datos en el conjunto (o más coloquialmente: cada "línea" en la tabla de datos).

AIC es el Criterio de Información de Akaike que generalmente se considera "demasiado complejo para explicar", pero en resumen, es una medida de la bondad de ajuste de un modelo estadístico estimado. Si necesita más detalles, tendrá que recurrir a árboles muertos con palabras en ellos (es decir, libros). O Wikipedia y los recursos allí.

El valor F se utiliza para realizar lo que se llama una prueba F y a partir de este se deriva el valor Pr(F), que describe qué tan probable (o probable = Pr) es ese valor F. Un valor Pr(F) cercano a cero (indicado por ***) es indicativo de una variable de entrada que de alguna manera es importante de incluir en un buen modelo, es decir, un modelo que no la incluye es "significativamente" diferente al que sí lo hace.

Todos estos valores son, en el contexto del comando drop1, calculados para comparar el modelo general (incluyendo todas las variables de entrada) con el modelo resultante de eliminar esa variable específica en cada línea de la tabla de salida.

Ahora, si esto se puede mejorar, siéntase libre de agregar o aclarar cualquier problema. Mi objetivo es solo aclarar y proporcionar una mejor referencia de "búsqueda inversa" a partir de la salida de un comando R al significado real de este.

0 votos

@gakera Regresión y Anova Prácticos usando R es un buen punto de partida para entender los modelos lineales y los métodos relacionados con la selección de variables/modelo. Como señaló @Joris, la regresión paso a paso rara vez es la panacea.

0 votos

Hah, gracias por añadir los enlaces @chl manteniendo mi descargo sobre por qué no puedo publicarlos. Debes estar de acuerdo en que soy un desastre :D

1 votos

@gakera Creo que necesitas tener más reputación para agregar más de un enlace por edición - Puedo entender que esto no es muy agradable al comenzar en un sitio de preguntas y respuestas. Estaba asumiendo que eliminarías tu última oración tu mismo. Por otro lado, creo que no deberías esperar demasiados votos positivos por proporcionar una respuesta a tu propia pregunta, ya que es una especie de resumen (útil, sin embargo).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X