Tengo datos de una encuesta en la que se pedía a los participantes que eligieran dos veces entre sí y no Para este ejemplo digamos (aunque no estoy muy seguro de que sea un buen ejemplo).
- Opción 1: ¿Quieres tomar para ser reconocido por tus compañeros de trabajo?
- Opción 2: ¿Quieres ser responsable si algo va mal?
Así que ahora encontramos diferencias considerables en la cantidad de síes y noes a las dos preguntas.
pacman::p_load(tidyverse)
# MRE Data
> df
Choice2
Choice1 No Yes
No 6 1
Yes 22 6
# dput
structure(c(6L, 22L, 1L, 6L), .Dim = c(2L, 2L), .Dimnames = list(
Choice1 = c("No", "Yes"), Choice2 = c("No", "Yes")), class = "table")
Me interesa saber si estas diferencias son significativas. Así que si, por ejemplo, un número sustancialmente mayor de participantes eligieron el sí para la opción 1 que para la opción 2. He pensado que podría analizar esto con un χ2 ¿Prueba?
Sin embargo, debido a la pequeña muestra (y al pequeño recuento de células previsto) recibí una advertencia, de chisq.test
Así que en su lugar realicé una prueba exacta de Fisher.
# Chi² Test of Independence
chi <- chisq.test(df)
chi
# Exepected Cell Count
chi$expected
# Due to small expected cell count and Warning: Chi-squared approximation may be incorrect
# Instead conduct a fisher exact test
fisher.test(df)
Fisher's Exact Test for Count Data
data: df
p-value = 1
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.1437625 87.6035655
sample estimates:
odds ratio
1.615585
Lo que me llama la atención del resultado es un p valor de 1.
Si se observan las proporciones de la opción 1, el 80% votó no, y la opción 2, el 20%. Parece que las diferencias son razonables.
# Print proportions
df %>%
rbind("Prop" =(prop.table(df) %>% colSums() *100)) %>%
cbind("Prop" = c((prop.table(df) %>% rowSums() *100),100))
# Choice 1: No = 80%, Choice 2: No = 20% how is p = 1
No Yes Prop
No 6 1 20
Yes 22 6 80
Prop 80 20 100
No, me pregunto si estoy usando la prueba correcta. Sé que el χ2 es una prueba de independencia. Así que la H1 sería que la elección 1 y la elección 2 son dependientes. Sin embargo, me interesa saber si las propociones entre la opción 1 y la opción 2 son significativamente diferentes. ¿Y cómo es que obtengo una p \= 1
Editar Creó la Variable de diferencia
> df
# A tibble: 35 x 3
Choice1 Choice2 differ
<fct> <fct> <dbl>
1 Yes No 1
2 Yes No 1
3 Yes No 1
4 No No 0
5 No No 0
6 Yes No 1
7 Yes Yes 0
8 Yes No 1
9 Yes Yes 0
10 Yes No 1
# ... with 25 more rows
> df %>% dput()
structure(list(Choice1 = structure(c(2L, 2L, 2L, 1L, 1L, 2L,
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 1L, 2L, 2L, 2L, 2L, 2L, 1L, 2L,
2L, 1L, 2L, 2L, 2L, 2L, 2L, 1L, 2L, 2L, 1L, 2L, 2L), .Label = c("No",
"Yes"), class = "factor"), Choice2 = structure(c(1L, 1L, 1L,
1L, 1L, 1L, 2L, 1L, 2L, 1L, 1L, 1L, 1L, 2L, 1L, 1L, 2L, 1L, 1L,
1L, 2L, 1L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L
), .Label = c("No", "Yes"), class = "factor"), differ = c(1,
1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1,
0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0)), class = c("tbl_df",
"tbl", "data.frame"), row.names = c(NA, -35L))
Solución Editar:
Además de la respuesta proporcionada, me gustaría llamar la atención sobre la pregunta muy útil que @Scortchi enlazó en los comentarios (ver aquí). La respuesta proporcionada por Gung realmente mejoró mi comprensión y me ayudó a navegar. La prueba correcta para mi pregunta sería la prueba binominal (como se menciona en la respuesta aceptada) o la prueba de McNemmar χ2 prueba. Consulte el enlace para obtener más detalles sobre el razonamiento que hay detrás.