45 votos

¿Cómo interpretar el valor F y p en un ANOVA?

Soy nuevo en estadística y actualmente trabajo con ANOVA. Realizo una prueba de ANOVA en R usando

aov(variableDependiente ~ VariableIndependiente)

Obtengo, entre otros, un valor F y un valor p.

Mi hipótesis nula ($H_0$) es que todas las medias de grupo son iguales.

Hay mucha información disponible en cómo se calcula F, pero no sé cómo leer una F-estadística y cómo se relacionan F y p.

Entonces, mis preguntas son:

  1. ¿Cómo determino el valor F crítico para rechazar $H_0$?
  2. ¿Cada valor F tiene un valor p correspondiente, por lo que ambos significan básicamente lo mismo? (por ejemplo, si $p<0.05$, entonces se rechaza $H_0$)

1 votos

¿Has probado los comandos summary(aov(dependendVar ~ IndependendVar))) o summary(lm(dependendVar ~ IndependendVar))? ¿Te refieres a que todas las medias de grupo son iguales entre sí y iguales a 0 o solo entre sí?

0 votos

Sí, intenté el summary(aov...). Gracias por el lm.*, no sabía sobre esto :-) No entiendo lo que quieres decir con igual a 0. Si eso es abreviatura de mi hipótesis nula 0, entonces la hipótesis necesitaría un valor, y no probé uno específico, así que en este caso: ¡simplemente entre ellos!

1 votos

Para una explicación intuitiva, consulte el blog de Yhat sobre el tema de la regresión.

34voto

Eero Puntos 1612

El estadístico F es una ratio de 2 medidas diferentes de varianza para los datos. Si la hipótesis nula es verdadera, entonces ambas son estimaciones de lo mismo y la ratio estará alrededor de 1.

El numerador se calcula midiendo la varianza de las medias y si las medias verdaderas de los grupos son idénticas entonces esto es una función de la varianza general de los datos. Pero si la hipótesis nula es falsa y las medias no son todas iguales, entonces esta medida de varianza será mayor.

El denominador es un promedio de las varianzas muestrales para cada grupo, que es una estimación de la varianza poblacional general (asumiendo que todos los grupos tienen varianzas iguales).

Entonces, cuando la hipótesis nula de todas las medias iguales es verdadera, entonces las 2 medidas (con algunos términos adicionales para los grados de libertad) serán similares y la ratio estará cerca de 1. Si la hipótesis nula es falsa, entonces el numerador será grande en relación al denominador y la ratio será mayor que 1. Buscar esta ratio en la tabla F (o calcularla con una función como pf en R) dará el valor p.

Si prefiere utilizar una región de rechazo en lugar de un valor p, entonces puede usar la tabla F o la función qf en R (u otro software). La distribución F tiene 2 tipos de grados de libertad. Los grados de libertad del numerador se basan en el número de grupos que está comparando (para un solo sentido es el número de grupos menos 1) y los grados de libertad del denominador se basan en el número de observaciones dentro de los grupos (para un solo sentido es el número de observaciones menos el número de grupos). Para modelos más complicados, los grados de libertad se vuelven más complicados, pero siguen ideas similares.

0 votos

¡Gracias por la explicación! Supongo que si puedo buscar el valor de F en una tabla para ver el valor p, entonces el valor p y F son solo dos formas de expresar la probabilidad de que ocurra un resultado como el analizado si H0 es correcta.

2 votos

En toda estadística paramétrica hay un vínculo funcional directo entre la estadística de prueba (F en este caso) y el valor p. Estos se han colocado en una tabla por conveniencia, pero también se pueden calcular directamente. Puedes usar alfa para encontrar el límite para una región crítica para comparar la estadística de prueba (que creo que es más intuitivo) o usar la estadística de prueba calculada para encontrar el valor p para comparar con alfa. En ambos casos empezamos con un nivel alfa y una fórmula de estadística de prueba que sigue una distribución dada cuando la hipótesis nula es verdadera.

24voto

Alfred Puntos 9

La mejor manera de pensar en la relación entre $F$, $p$ y el valor crítico es con una imagen:

introducir descripción de la imagen aquí

La curva aquí es una distribución $F$, es decir, la distribución de las estadísticas $F$ que veríamos si la hipótesis nula fuera cierta. En este diagrama, la estadística $F$ observada es la distancia desde la línea punteada negra hasta el eje vertical. El valor $p$ es el área azul oscuro bajo la curva desde $F$ hasta el infinito. Observa que cada valor de $F$ debe corresponder a un valor único de $p$, y que valores más altos de $F$ corresponden a valores más bajos de $p.

Deberías notar un par de cosas más sobre la distribución bajo la hipótesis nula:

1) Los valores de $F$ que se acercan a cero son muy improbables (esto no siempre es cierto, pero es cierto para la curva en este ejemplo)

2) Después de cierto punto, cuanto más grande es el valor de $F$, menos probable es. (La curva se estrecha hacia la derecha)

El valor crítico $C$ también aparece en este diagrama. El área bajo la curva desde $C$ hasta el infinito es igual al nivel de significancia (en este caso, 5%). Puedes ver que la estadística $F$ aquí resultaría en un fallo al rechazar la hipótesis nula porque es menor que $C$, es decir, su valor $p$ es mayor que 0.05. En este ejemplo específico, $p=0.175$, pero necesitarías una regla para calcularlo a mano :-)

Observa que la forma de la distribución $F$ depende de sus grados de libertad, que para ANOVA corresponden al número de grupos (menos 1) y al número de observaciones (menos el número de grupos). En general, la "forma" general de la curva $F$ está determinada por el primer número, y su "planitud" está determinada por el segundo número. El ejemplo anterior tiene $df_1 = 3$ (4 grupos), pero verás que establecer $df_1 = 2$ (3 grupos) resulta en una curva notablemente diferente:

introducir descripción de la imagen aquí

Puedes ver otras variantes de la curva en Página de Wikipedia. Algo que vale la pena mencionar es que debido a que la estadística $F$ es una proporción, los números grandes son poco comunes bajo la hipótesis nula, incluso con grados de libertad altos. Esto contrasta con las estadísticas $\chi^2$, que no se dividen por el número de grupos, y crecen esencialmente con los grados de libertad. (De lo contrario, $\chi^2$ es análogo a $F$ en el sentido de que $\chi^2$ se deriva de puntuaciones $z$ distribuidas normalmente, mientras que $F$ se deriva de estadísticas $t$ (t-student) distribuidas $t$).

Eso es mucho más de lo que pretendía escribir, ¡pero espero que responda tus preguntas!

(Si te estás preguntando de dónde vienen los diagramas, se generaron automáticamente con mi paquete de estadísticas de escritorio, Wizard.)

14voto

Chris Conway Puntos 6678

Para responder a tus preguntas:

  1. Encuentras el valor crítico de F a partir de una distribución F (aquí hay una tabla). Ver un ejemplo. Debes tener cuidado con unidireccional versus bidireccional, grados de libertad del numerador y denominador.

  2. Sí.

0 votos

No tiene sentido hablar de comparaciones de una o dos vías en una prueba general como el F-test.

4 votos

Marcus Morrisey: Creo que estás confundiendo una vs. dos colas con una vs. dos vías. La prueba F no tiene múltiples "colas" para elegir, pero se debe considerar el ANOVA de una vía vs. el ANOVA de dos vías al construir la estadística de prueba.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X