Processing math: 100%

9 votos

La comprensión del método bootstrap para el intervalo de confianza de los coeficientes de correlación

Por favor me corrigen cuando me equivoco:

Mi comprensión de arranque es que es una manera de estimar la distribución de algunos de estadística (media, error estándar, correlación de Pearson, coef, etc), que se da sólo una muestra. Así que si me quiere estimar la media de una población que hace uso de métodos bootstrap, me generan muchos bootstrap muestras, calcular la media de cada una de estas muestras bootstrap y, a continuación, utilizar la distribución de los valores a deducir donde el desconocido de la población significa que es probable que caiga y calcular un intervalo de confianza para la estadística.

Pero, ¿cómo son las muestras bootstrap generado? Hay un scikit bootstrap módulo y veo que tiene un método de arranque para calcular el intervalo de confianza para una determinada estadística: ver la primera función, def(ci).

El primer estimador de la distribución empírica de la función, que debe ser una serie que la estadística de interés puede ser calculada. ¿Cómo es esto empírica de los datos utilizados para generar la secuencia de arranque de las muestras?

Para ampliar esta pregunta, si quiero calcular un intervalo de confianza 95% para el coeficiente de correlación de Pearson entre dos variables aleatorias x e y, y paso a data = [(x1,y1), (x2,y2), ... (xi,yi), ... (xn,yn)] a la aplicación de bootstrap CI, eso no significa que (x1, ..., xn) y (y1, ..., yn) se generan de forma independiente el uno del otro para cada uno de bootstrap de la muestra que se genera?

11voto

AdamSane Puntos 1825

La respuesta corta es que - al menos en los casos simples - las observaciones se realiza un muestreo con reemplazo. Imagine escribir cada uno de los valores de los datos en un n colindado mueren y lanzar el dado n veces.

Si usted está tratando de arrancar una correlación, volver a muestrear los datos en pares (xi,yi). Si usted piensa de sus datos de dos columnas, cada fila es una observación, y aumenta las observaciones (filas).

He aquí un ejemplo:

enter image description here

Más en general, creo que de una matriz de datos donde las observaciones (filas) se vuelven a muestrear.

(Esto no es un adecuado esquema de remuestreo para cada situación, sin embargo. Hay una gran cantidad de bootstrap esquemas.)

4voto

alexs77 Puntos 36

El bootstrap es uno de una gran cantidad de técnicas de estimación basado en la función de distribución empírica de los datos, x:

F(t)=t0ni=1I(s>xi)nds

En el multivariante, considerar las filas de observaciones perfectamente correlacionadas cuando arranque. Esto nos impide muestreo en la postmenopausia a los varones en riesgo de cáncer de estudios.

Con una muestra de la función de distribución acumulativa, pero usted puede obtener muestras de se basa en ninguna técnica de muestreo aleatorio, que es una de facto de la herramienta en casi cualquier paquete estadístico. Dibujo de muestras de esto es equivalente a la asignación de 1/n de probabilidad para cada conjuntamente observado fila en sus datos. Esto significa que, en su caso, (xi,yi) pares tendría que ser muestreados de forma conjunta. Pruebas de permutación por otro lado le permite al azar reorganizar las columnas de forma conjunta observaron filas de datos y realizar el remuestreo de las pruebas basadas en los valores.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X