7 votos

¿Por qué la asignación al azar es importante en el muestreo estratificado?

De fondo

Me planteó esta cuestión, a causa de una discusión que estoy teniendo con una pregunta de user697473 aquí. El título de su pregunta es "Formal de la definición de la asignación al azar." En el post se hace una afirmación de que uno puede obtener estimaciones imparciales de la diferencia del efecto de tratamiento, incluso si un grupo que se representa en la población no es muestreada. Al menos esa es la manera de interpretar la demanda. Él apunta a un papel escrito en coautoría por Don Rubin en modelos causales aquí. Tanto él como StasK argumentar a través de ejemplos de que esta afirmación es verdadera. Esta cuestión se planteó también en otra pregunta que había publicado aquí. En ese post titulado "asignación al Azar: ¿por qué molestarse?" gung expresa skeptism.

En la primera pregunta mi respuesta incluye una declaración en el sentido de que sin el muestreo de todas las posibles asignaciones de un potencial factor de confusión no puede construir una estimación de la diferencia en el efecto del tratamiento sin la asignación de las muestras para cada estrato para el factor de confusión.

El Problema

Estoy confundido acerca de la reclamación. Como debo interpretar el reclamo estoy seguro de que es falso. La afirmación se apoya en dos ejemplos, uno dado por user697473 y el otro por StasK. Los ejemplos son confusas para mí y en ningún caso es una prueba o una demostración dada para mostrar que la afirmación es verdadera.

Yo podría ser la interpretación errónea de la reclamación, pero basado en mi interpetation es falso. Para ilustrar mi punto, veamos un ejemplo famoso por el diseño de experimentos libro de el Padrino de la aleatorización Sir Ronald Aylmer Fisher: "La Señora Cata de Té".

En caso de que usted no sabe el ejemplo que voy a describir y proporcionar una modificación para aclarar el ejemplo. La señora afirma que ella tiene la capacidad de determinar por la degustación de una taza de té si el té se derramó la primera o la leche se vierte en primer lugar. Fisher plantea un experimento para probar su afirmación, proporcionando algunas de las tazas con té derramado primero, y otros con la leche se vierte en primer lugar. Si la Señora tiene la experiencia de que ella dice que ella debe ser capaz de identificar correctamente los tipos mejor que una persona que conjeturas al azar. Así que el experimento es el diseño para ver si su probabilidad de clasificación correcta es mejor que 0.5. Así que al azar proporciona la Señora con tazas de ambos grupos (en el ejemplo, había 6 3 tazas de leche se vierte primero y 3 con té derramado en primer lugar.

Ahora me deja modificar el experimento ligeramente. Supongamos que tengo tres marcas de té y para mi la población de estas marcas se sirve un té partes por igual. La pregunta que quiero hacer es cuando se le da una taza de té en una fiesta de té puede la Señora predecir si la leche se ha derramado primero o el té se vierte primero. Quiero probar si su exactitud de la predicción es mayor que 0.5 en el marco de las fiestas del té. Así que voy a aplicar de Fisher experimento para la estimación de esta probabilidad cuando la Señora está en una de estas fiestas de té.
Nota: no me importa si es o no ella pueden diferenciarse de las marcas.

Supongamos que en la población de las fiestas del té, la Señora de la capacidad es:

Marca Una Puede predecir el té primero con una probabilidad de 0.7 y puede predecir primera leche con una probabilidad de 0.7.

La marca B se Puede predecir el té primero con una probabilidad de 0,75 y puede predecir primera leche con una probabilidad de 0.75.

Marca C Puede predecir el té primero con probabilidad 0.5 y puede predecir primera leche con una probabilidad de 0.6.

Así que ella no es mejor que la oportunidad con la Marca C, pero puede hacerlo mejor que el azar con las Marcas a y B.

Para el experimento que sólo proporcionan a las Marcas a y B para su gusto. Todo lo que quiero saber es su capacidad para predecir correctamente en la normal de la fiesta de té de la situación.

Mis Preguntas

  1. Puedo obtener estimaciones imparciales de sus capacidades de predicción con este experimento?

  2. Si la respuesta a (1) es no, es user697473 reclamación falsa o he interpretado mal?

La aleatorización se utiliza para evitar el sesgo que se produce por las variables de confusión. Esto es importante cuando se trata de hacer inferencias a partir de una muestra a una población. En mi ejemplo, las Marcas son los factores de confusión. El tratamiento es la degustación de las tazas. En la población de que le darían Una Marca, la Marca B Marca y C cada 1/3o de la época. Si yo sé esto y me muestra las Marcas con probabilidades desiguales que me reclama que yo pueda obtener una estimación insesgada de sus capacidades de predicción por tomar un determinado promedio ponderado de las estimaciones de las proporciones si puedo utilizar un muestreo aleatorio estratificado con estratos totales n$_1$, n$_2$ e n$_3$ mayor que 0. Pero yo no si n$_3$ = 0. Además, no hay otra estimación puedo calcular a partir de una muestra donde la asignación de la Marca C igual a 0, que será una estimación insesgada.

9voto

matt Puntos 11

No has interpretado correctamente user697473 de la reclamación. Él no está hablando de no incluir los datos de la marca C. Él estaba hablando acerca de dar un determinado vector de assignemnts $0$ de probabilidad. Él no estaba diciendo que por arte de magia puede determinar el valor de alguna variable, mientras que nunca con la prueba. Él quiere ser capaz de utilizar una equilibrada subconjunto aleatorio, de modo que cada punto está incluido en el subconjunto aleatorio con el derecho de la probabilidad, pero no uniformemente al azar.

Por ejemplo, si el conjunto es $\lbrace x_1,x_2,x_3,x_4 \rbrace$, entonces el siguiente al azar subconjuntos de tamaño uniforme $2$ todos tienen la propiedad de que la probabilidad de que $x_i$ está incluido es $1/2$:

$S_1 = 1/6\lbrace x_1,x_2\rbrace + 1/6\lbrace x_1,x_3\rbrace + 1/6\lbrace x_1,x_4\rbrace + 1/6\lbrace x_2,x_3\rbrace + 1/6\lbrace x_2,x_4\rbrace + 1/6\lbrace x_3,x_4\rbrace $

$S_2 = 1/4\lbrace x_1,x_3\rbrace + 1/4\lbrace x_1,x_4\rbrace + 1/4\lbrace x_2,x_3\rbrace + 1/4\lbrace x_2,x_4\rbrace $

$S_3 = 1/2\lbrace x_1,x_2\rbrace + 1/2\lbrace x_3,x_4\rbrace $

Estos son todos los equilibrado en el sentido de que si calcular el valor promedio de una función $f$ sobre el conjunto aleatorio, el valor esperado es $1/4(f(x_1) + f(x_2) + f(x_3)+f(x_4))$. En el tercer subconjunto aleatorio, la probabilidad de que el subconjunto $\lbrace x_1,x_3 \rbrace$$0$.

Dicho esto, el punto de que el experimento no debe ser el de producir una estimación insesgada. Que es sólo un examen. Otro objetivo es el de proporcionar información útil. Si usted sabe que usted puede desear para estimar el $f$ en un subconjunto $T$ (es decir $\lbrace x_1,x_2 \rbrace$) y su complemento y se restan los dos, la calidad de su estimación depende de $\#(T \cap S)$$\#(T^c \cap S)$. Entonces no todo equilibrado subconjuntos tienen la misma calidad. Para esa tarea, $S_3$ es peor que la asignación al azar ($S_1$), mientras que $S_2$ es mejor que la asignación al azar.

4voto

StasK Puntos 19497

Michael, yo no he dicho que cuando se excluye a un grupo a partir de la aleatorización usted todavía puede obtener estimaciones imparciales, y nunca iba a argumentar en favor de esta idea; ciertamente, esto no es cierto. Lo cierto es que usted no tiene que tener las mismas tasas de muestreo, y ese es el desequilibrio que se puede corregir con pesas. Usted ilustrar este punto con su Señora-Degustación de Té ejemplo, que funciona a menos que uno de los tamaños de la muestra es igual a cero.

El ejemplo que me dio está dirigido a un diferente punto sutil. Utiliza todas las unidades en la población, pero no es un diseño completo (que serían ${5 \choose 2}=10$ posibles asignaciones); sin embargo, cada unidad se le asigna al tratamiento dos veces, y de controlar, tres veces. Así, con respecto a la asignación al azar para estas tareas, con la diferencia de que el grupo de tratamiento significa que es un proceso imparcial estimador de la media de la diferencia de población (en los posibles resultados). Este ejemplo muestra que no tiene completamente aleatorio, en el sentido de lanzar una moneda de forma independiente para cada unidad (que puede poner a una difícil situación de no tener controles o no de los tratamientos con probabilidad de 1/16 para la muestra de este pequeño, por cierto). Sin embargo, para que este ejemplo funcione, usted necesita tener un tamaño de muestra que se fija de antemano, y había que tirar de una de cinco caras de la moneda por adelantado antes de la primera unidad entra en el estudio. Así que cada enfoque tiene sus pros y sus contras; dudo que la muestra equilibrada ejemplo que me dio es muy práctico, aunque cubo de muestreo aparece para ser recogida en la encuesta de estadísticas.

Yo no soy una inferencia causal estadística, ni soy tan buena con los diseños experimentales. Pero sé que mi aleatorización inferencia a partir de la encuesta de estadísticas, por lo que la manera en la que he estado viendo este problema es desde la perspectiva de estimador Horvitz-Thompson.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X