8 votos

¿Cuándo/por qué es la tendencia central de una simulación de remuestreo marcado diferente del valor observado?

Se debe siempre esperar a la tendencia central (es decir, media y/o la mediana) de un bootstrap de la muestra a ser similar al valor observado?

En este caso en particular tengo respuestas que se distribuyen de forma exponencial por los sujetos a través de dos condiciones (yo no ejecutar el experimento, sólo tengo los datos). He sido encargado de arranque de flejado el tamaño del efecto (en términos de Cohen d, la fórmula de la muestra, es decir, $\bar{M_D}\over{s_D}$ donde es el ejemplo de estimación de la desviación estándar de población. El forumla para esto está previsto en Rosenthal Y Rosnow (2008) en la página 398, la ecuación 13.27. Que el uso de $\sigma$ en el denominador porque es históricamente correcto, sin embargo en la práctica estándar ha misdefined d como el uso de $s$, y así puedo seguir con ese error en el cálculo anterior.

He aleatorizado, tanto dentro de los participantes (es decir, los participantes de la RT puede ser muestreado más de una vez) y a través de los sujetos (participantes pueden ser muestreado más de una vez) tal que incluso si el participante 1 es muestreado dos veces, su Media de RT en ambas muestras es poco probable que sea exactamente igual. Para cada aleatorio/remuestreada conjunto de datos I recalcular d. En este caso,$N_{sim} = 10000$. Lo que estoy observando es una tendencia por la que el valor observado de Cohen d típicamente más cerca de la 97.5 percentil de que a 2.5 percentil de simulación de los valores observados. También tiende a estar más cerca de 0 que la mediana de la secuencia de arranque (en un 5% a 10% de la densidad de la simulación de la distribución).

Lo que puede dar cuenta de esto (teniendo en cuenta la magnitud del efecto estoy observando)? Es debido a que es más fácil " en el momento de remuestreo para obtener más extremas variaciones que los observados en relación a la extremidad de los medios sobre el remuestreo? Podría esto ser un reflejo de los datos que ha sido demasiado masajes/selectivamente recortado? Es este remuestreo enfoque de la misma como un bootstrap? Si no, ¿qué más se debe hacer para venir para arriba con un CI?

4voto

StasK Puntos 19497

Cualquier estadística no lineal (no lineal combinación lineal de estadísticas tales como muestras de medios) tiene una pequeña muestra de los prejuicios. Cohen $d$ es, obviamente, no es la excepción: es esencialmente $$ d=\frac{m_1 - m_2}{\sqrt{m_3-m_4^2}} $$ lo que es relativamente no-lineal, al menos en los términos en el denominador ir. Cada uno de los momentos puede ser considerado como un estimador imparcial de lo que se supone que la estimación: $$ \begin{array}{ll} m_1 & = \frac1{n_1} \sum_{i\in\mbox{group }1} y_i , \\ m_2 & = \frac1{n_2} \sum_{i\in\mbox{group }2} y_i , \\ m_3 & = \frac1{n_1+n_2} \sum_{i} y_i^2 , \\ m_4 & = \frac1{n_1+n_2} \sum_{i} y_i , \\ \end{array} $$ Sin embargo, por la desigualdad de Jensen no hay manera en la Tierra de obtener un estimador imparcial de la cantidad de la población de una relación no lineal combinación. Por lo tanto ${\mathbb{E}}[ d]\neq$ población $d$ en muestras finitas, aunque el sesgo es típicamente del orden de $O(1/n)$. La Wikipedia artículo sobre los tamaños del efecto , se menciona la pequeña muestra de los sesgos en la discusión de las Coberturas' $g$.

Me imagino que la de Cohen $d$ tiene un alcance limitado (en el caso extremo de que no hay variabilidad dentro de los grupos, a continuación, $d$ debe ser igual a $\pm 2$, ¿verdad?), de ahí su distribución de muestreo debe ser sesgada, lo que contribuye a la muestra finita sesgos (alguna función de la asimetría de la distribución de muestreo es normalmente el multiplicador en frente de $1/n$ que he mencionado anteriormente). Cuanto más cerca se está de los límites del rango permitido, la más pronunciada de la asimetría que es.

Lo bootstrap hace, más bien, milagrosamente, teniendo en cuenta que es un método simple, se obtiene que la capacidad para la estimación de esta muestra finita sesgo a través de la comparación de la secuencia de arranque y la estimación de la muestra original. (Tenga en cuenta, sin embargo, que a menos que usted haga los ajustes especiales de cómo el bootstrap de muestreo, el ex estará sujeto a Monte Carlo variabilidad). Yo siempre más detalladas y explicaciones técnicas en otro bootstrap pregunta que puede ser vale la pena leer de todos modos.

Ahora, si hay un sesgo positivo, es decir, la estimación basada en la original de la muestra está sesgada hacia arriba con relación a la población $d$, entonces el bootstrap se burla de esa y producir estimaciones que son, en promedio, incluso más alto que el presupuesto de la muestra. En realidad no es tan malo como suena, como entonces se puede cuantificar el sesgo y la resta de la estimación original. Si la estimación original de una cantidad, se $\hat\theta_n$, y la media de bootstrap de la bootstrap replica es $\bar\theta^*_n$, entonces el sesgo de la estimación es $\hat b_n=\bar\theta^*_n-\hat\theta_n$, y una corrección de sesgo de la estimación es $\hat\theta_n - \hat b_n=2\hat\theta_n - \bar\theta^*_n$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X