16 votos

¿Por qué necesitamos de Arranque?

Actualmente estoy leyendo Larry Wasserman "Todo de Estadísticas" y desconcertado por algo que él escribió en el capítulo sobre la estimación de las funciones estadísticas de los modelos no paramétricos.

Escribió

"A veces podemos encontrar el estimado del error estándar de un estadístico la función por hacer algunos cálculos. Sin embargo, en otros casos no obvio cómo estimar el error estándar".

Me gustaría señalar que en el siguiente capítulo habla acerca de bootstrap para solucionar este problema, pero dado que yo no entiendo muy bien esta declaración no estoy totalmente de obtener el incentivo detrás de Arranque?

Qué ejemplo está ahí para cuando no es obvio cómo estimar el error estándar?

En todos los ejemplos que he visto hasta ahora han sido "evidente" como $X_1,...X_n ~Ber(p)$ $ \hat{se}(\hat{p}_n )=\sqrt{\hat{p}\cdot(1-\hat{p})/n}$

17voto

Brandon Grossutti Puntos 140

Dos respuestas.

  1. ¿Cuál es el error estándar de la proporción de los dos medios? ¿Cuál es el error estándar de la mediana? ¿Cuál es el error estándar de cualquier complejo de estadística? Tal vez hay una forma cerrada de la ecuación, pero es posible que nadie ha imaginado todavía.
  2. Con el fin de utilizar la fórmula para (por ejemplo) el error estándar de la media, debemos hacer algunas suposiciones. Si estos supuestos son violados, no necesariamente podemos utilizar el método. Como @Whuber señala en los comentarios, bootstrap nos permite relajar algunas de estas hipótesis y, por tanto, podría ser más apropiado de los errores estándar (aunque también se puede hacer suposiciones adicionales).

9voto

alexs77 Puntos 36

Un ejemplo puede ayudar a ilustrar. Supongamos que, en una causal marco de modelado, usted está interesado en determinar si la relación entre el $X$ (una exposición de interés) $Y$ (con un resultado de interés) está mediada por una variable $W$. Esto significa que en los dos modelos de regresión:

$$\begin{eqnarray} E[Y|X] &=& \beta_0 + \beta_1 X \\ E[Y|X, W] &=& \gamma_0 + \gamma_1 X + \gamma_2 W \\ \end{eqnarray}$$

El efecto de $\beta_1$ es diferente el efecto de $\gamma_1$.

Como un ejemplo, considere la relación entre el tabaquismo y el riesgo cardiovascular (CV). Fumar, obviamente, aumenta el riesgo CV (para eventos como el ataque cardíaco y accidente cerebrovascular) provocando que las venas se vuelven frágiles y calcificado. Sin embargo, el hábito de fumar también es un supresor del apetito. Así que sería curioso si la estimación de la relación entre el tabaquismo y el riesgo CV es mediada por el IMC, que de forma independiente, es un factor de riesgo para el riesgo CV. Aquí $Y$ podría ser un binario evento (infarto o neurológico agudo de miocardio) en un modelo de regresión logística o una variable continua, como la calcificación arterial coronaria (CAC), fracción de eyección ventricular izquierda (FEVI), o la masa ventricular izquierda (MVI).

Nos cabrían dos modelos de 1: ajuste de fumar y el resultado junto con otros factores de confusión como la edad, sexo, nivel de ingresos, y la historia familiar de enfermedades del corazón, a continuación, 2: todos los anteriores covariables, así como el índice de masa corporal. La diferencia en el efecto de humo entre los modelos 1 y 2 es donde tenemos la base de nuestra inferencia.

Estamos interesados en probar la hipótesis $$\begin{eqnarray} \mathcal{H} &:& \beta_1 = \gamma_1\\ \mathcal{K} &:& \beta_1 \ne \gamma_1\\ \end{eqnarray}$$

Un posible efecto de la medición podría ser: $T = \beta_1 - \gamma_1$ o $S = \beta_1 / \gamma_1$ o cualquier número de mediciones. Usted puede utilizar el habitual estimadores para $T$$S$. El error estándar de los estimadores es muy complicado para derivar. El arranque de la distribución de ellos, sin embargo, se suele utilizar la técnica, y es fácil calcular el $p$-valor directamente de eso.

2voto

johv Puntos 191

Tener paramétrica de soluciones para cada medida estadística que sería deseable, pero, al mismo tiempo, muy poco realista. Bootstrap es muy útil en esos casos. El ejemplo que viene a mi mente tiene que ver con la diferencia entre dos medios, de muy desigual distribución de los costos. En ese caso, el clásico two-sample t-test no cumple con sus teórica de los requisitos (las distribuciones de las muestras objeto de investigación fueron atraídos seguramente salen de la normalidad, debido a su larga derecho-cola) y pruebas no paramétricas falta para transmitir información útil para la toma de decisiones (que generalmente no están interesados en las filas). Una posible solución para evitar la parálisis en que es un asunto de dos muestras bootstrap t-test.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X