Loading [MathJax]/extensions/TeX/mathchoice.js

6 votos

De arranque y la comparación de proporciones múltiples

EDIT 1: Gracias a @gung por señalar que si la bolsa inicialmente había 324 dulces, y luego como Madre de las manos, hay consecutivamente menos cantidades ella puede entregar. Para simplificar las cosas (porque estoy interesado en la comprensión de los conceptos básicos en lugar de algo demasiado avanzado), ofreció un cambio en la redacción.

EDIT 2: Esto no es la tarea. Sólo estoy tratando de aprender algunas estadísticas de una manera divertida

COMENTARIO: todos los amables comentarios/respuestas hasta ahora, se me ocurre que realmente necesito para trabajar en la definición de mis preguntas en el futuro mucho mejor porque me di cuenta de cuánto la respuesta podría variar dependiendo de cómo se plantea (muy útil lección!). Yo al principio pensaba que esto estaba bien planteado, pero es bueno aprender estas cosas y esperemos que mejore, gracias.

Digamos que una madre tiene una bolsa que contiene un número infinito de dulces.

Mantenemos un seguimiento de la cantidad de dulces que se le dé a cada uno de sus hijos llamado "A", "B", ..., "G" de esta bolsa, y cómo muchos de los que ella da a un desconocido número de adultos. Cuando la madre llega a cada persona, ella se abre una nueva, idéntica bolsa de dulces, alcanza y agarra unas para ese individuo. Al final del día, ella se ha dado un total de 324 dulces!

> (DF <- data.frame(A=15, B=4, C=1, D=4, E=44, F=4, G=1, Adults=251, Total=324))

   A B C D  E F G Adults Total
  15 4 1 4 44 4 1    251   324

Pregunta 1: a Sus hijos dieron un total de 73 dulces de los 324. Los adultos se dan 251 dulces de los 324. Que los niños quieren saber si los adultos que recibieron una diferencia estadísticamente significativa proporción de los dulces a pesar de que su madre afirma que todos tenían la misma oportunidad de obtener el mismo número de caramelos y fue solo suerte que tengo algunos más que otros. Así que, básicamente, queremos comparar el todo el grupo de niños contra el todo el grupo de los adultos, no a los individuos.

Pregunta 2: ¿uno o más de los niños obtener un número estadísticamente significativo de los más dulces cuando en comparación con sus hermanos (es decir, ignoramos los Adultos para esta pregunta, y considerar sólo los niños "", ..., "G")? Y si es así, que uno(s) obtuvo una diferencia estadísticamente significativa proporción? Madre de nuevo las reclamaciones que todos tienen la misma oportunidad de obtener el mismo número de caramelos, y fue solo suerte que tengo algunos más que otros.

Información adicional: quiero usar un arranque de enfoque porque me parece a obtener una mejor idea de la probabilidad de que al uso de la simulación (NB: no soy un estadístico, sólo haciendo esto por diversión). A continuación voy a dar mi enfoque a la primera pregunta que creo que está bien, pero agradecería algún consejo sobre si lo estoy haciendo correctamente. No tengo idea de cómo acercarse a la segunda pregunta porque hay varias proporciones involucrados.


Mi enfoque de la Pregunta Uno:

Hipótesis: Mi hipótesis nula es que los niños y los adultos tenían la misma probabilidad de obtener el mismo número de caramelos. Mi hipótesis alternativa es que la Madre es más generoso con la entrega de dulces a los adultos que a sus hijos.

Pregunta de investigación: ¿Cómo a menudo podemos observar una proporción de dulces tan pequeños como los niños se, si la madre realmente estaba repartiendo dulces justa?

Metodología: se puede probar de manera directa mediante la creación de una población hipotética que encarna la hipótesis nula, con un 50% de "niños" y 50% "adultos" y dibujo repetidamente muestras aleatorias de 324 a partir de ella, con la sustitución, el registro de los resultados. Entonces observamos cómo muchas de estas muestras tiene 73 o menos "niños" nodos en ellos (esta es nuestra p-valor).

replicates <- 999
size <- 324
runs <- list(replicates)
reference <- 73/size

for(i in 1:replicates){
  runs[[i]] <- table(sample(x=c("children", "adult"), size=size, replace=TRUE, prob=c(0.5, 0.5))) 
}

bootstraps <- as.data.frame(do.call(rbind, runs))
#   adult children
# 1   166      158
# 2   171      153
# 3   158      166
# 4   151      173
# 5   156      168
# etc.

sum(bootstraps$children <= reference) / replicates
#[1] 0

Conclusión: Mi p-valor es efectivamente cero, lo que significa que hay una fuerte evidencia de que la Madre ha estado repartiendo dulces injustamente porque conseguir 73 o menos dulces es muy poco probable que haya ocurrido por suerte en solitario.

Como para la pregunta 2, estoy dibujando un completo espacio en blanco :(

5voto

mat_geek Puntos 1367

El bootstrap no es necesario aquí debido a la nula distribución está bien definido. Bootstrap no debe ser utilizado sólo porque usted se sienta cómodo con la simulación. El arranque de obras en esta situación y le dará essentally los mismos resultados que el método directo. Por lo que su motivación no es un factor aquí. Suena como que usted maneja la primera pregunta correctamente.

Para la pregunta 2 hacer un pares de comparación de proporciones (dos de muestreo binomial o correspondiente bootstrap). Ajustar los valores de p para la multiplicidad. Los niños con signifiicant p-valores de los ajustes de la comparación puede ser considerado para ser tratados de forma diferente con respecto a los dulces recibido.

Esta fue la respuesta a la pregunta inicial antes de que se modificara. Selección aleatoria de un número de darle a un niño enturbia las aguas (se suma a la incertidumbre). Diferencias estadísticamente significativas entre los niños puede ser debido a que preferentemente se entrega a algunos niños más que los otros (el efecto de la preferencia que usted estaría interesado en) o, simplemente, porque por casualidad que ciertos niños que sucedió a obtener de la suerte y conseguir más dulces cuando se selecciona (un evento aleatorio que no es de interés). Como Aniko señala que el problema está bien definido si se especifica una distribución de probabilidad para el número dibujado.

4voto

La forma en que ha construido su problema que no puede realmente conseguir las respuestas que usted quiere, incluso con el arranque. Te voy a dar respuestas desde el bootstrap perspectiva.

#1 Todo lo que se puede concluir es que ella era igual de generoso. Es porque sólo tienes una muestra de que el proceso aleatorio, el uno para niños. La extrapolación de que a los adultos significa que aún la misma distribución y una adecuada bootstrap del problema de los niños de datos que muestran los adultos son los mismos. (si usted quiere generosidad a cada individuo adulto y cada niño en particular, que es lo que tiene sentido)

#2 Esto no responde porque no tiene ningún otro conocimiento de la distribución de la que tienen. Por lo tanto, que es su definición de azar y no se puede llamar a cualquiera de las muestras injustamente mayor que el de cualquier otro. Tal vez si tenía más de una muestra para cada niño que se podría, pero no lo hace.

2voto

John with waffle Puntos 3472

Las preguntas, especialmente el segundo, no tiene sentido pie derecho, ya que ahora. El problema es que el concepto de "tomar un número al azar de los caramelos de la bolsa" no está definido. Incluso con un número finito de dulces en la bolsa podría haber múltiples definiciones. Por ejemplo, las siguientes dos sonar razonable, pero dan resultados diferentes:

  1. Si hay n dulces en la bolsa, las probabilidades de tomar exactamente 0,1,,n dulces son todos de la misma: 1/(n+1).
  2. Ir a través de cada uno de los caramelos, y decidir si lleva a cabo con una probabilidad de p. Esto significa que la probabilidad de que exactamente x caramelos es {n\choose x} p^x (1-p)^{n-x}.

Una vez que usted vaya a una infinita bolsa, ninguna de estas opciones se aplican. Así que todo lo que podemos decir que hay algunos desconocidos de distribución que da la probabilidad de x caramelos. El uso de bootstrap idea que le estima como la distribución observada: P(1 \text{ candy})=2/7, P(4 \text{ candies})=3/7, P(15 \text{ candies})=1/7, y P(44 \text{ candies})=1/7. Tenga en cuenta que esto implica que la cuestión de comparar el número de caramelos que recibió por diferentes niños es casi de sentido. Usted podría calcular la probabilidad de recibir el número real o menos dulces para cada niño, y algunos podrían ser menos suerte que otros, pero alguien tiene que ser menos de la suerte, por definición.

Como para la primera pregunta, necesitaría bootstrap a partir de la distribución observada después de hacer algunas hipótesis sobre el de los adultos, o el proceso que envía los niños/los adultos de la Mamá. No puedo pensar en varias opciones, pero nada es totalmente satisfactorio, como usted quiere mantener el número de niños que se fija a las 7 y el número total de caramelos fija en 324, manteniendo la distribución observada de los dulces por un puñado y variando el número de adultos de forma adecuada. Tal vez dejar ir algunas de estas condiciones (por ejemplo, número total de caramelos) es razonable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X