5 votos

¿Es correcto hacer un bootstrap de la muestra de una tabla a partir de sus proporciones, y cómo hacerlo (en R)?

Deseo crear un intervalo de confianza para un estadístico calculado en una tabla (digamos el valor p.de chisqr.test).

Para ello, podría muestrear una muestra bootstrap con el mismo tamaño, a partir de una tabla con las proporciones de la tabla que tengo. Y mis preguntas son:

  1. ¿Es este un procedimiento correcto, o hay algún truco que se me escapa?
  2. ¿Cómo se puede "muestrear" una tabla en R? (mi primer instinto es "abrir" la tabla usando melt, luego gastar la tabla en filas, muestrearlas, y doblar los resultados de nuevo a una tabla. ¿Hay alguna forma mejor?)

p.d: Conozco el interruptor "simulate.p.value" en chisqr.test - mi pregunta es más general - ¿tiene sentido utilizar bootstrap de esta manera.

Tabla de muestra si alguien desea mostrar algo:

(x <- matrix(c(12, 5, 7, 7), ncol = 2))
prop.table(x)

# undoing a table
as.data.frame(as.table(x)) # but how do we open up the rows now? - **update**: this was answered in the comments thanks to chl.

4voto

merriam Puntos 67

A ver si te entiendo bien:

Tienes una tabla de contingencia que dice $M$ por $N$ y se calcula una estadística basada en esta tabla. Quieres un IC para esta estadística y no tienes un IC teórico (o puede que no quieras usarlo, debido a alguna razón).

Generalmente, si tiene una tabla de contingencia, las columnas representan los posibles niveles de la variable de respuesta (aquí: $Y$ tendrá $N$ niveles) y las filas representan los niveles de las variables explicativas (aquí: $X$ tendrá $M$ niveles).

Ahora bien, si quieres arrancar, tienes que asegurarte de acoplar $Y$ s y $X$ s juntos. Es decir, barajar $(X_i, Y_i)$ juntos para $i$ de $1$ al número total de observaciones (tenga en cuenta que será mayor que $MN$ a menos que todas las entradas de la tabla sean $1$ ).

Básicamente, lo que puede hacer es traducir su tabla a un conjunto de datos "hipotético" utilizando los números de fila como niveles para su $X$ y el número de columna como valor para el correspondiente $Y$ s.

Para que quede matemáticamente claro:

Digamos que su $(i, j)^{th}$ La entrada en la tabla es $a$ entonces necesitas crear, $a$ puntos de datos para los que el valor de $Y$ es $j$ (recuerde el número de columna para $Y$ valor) y $X$ valor es $i$ . Haga lo mismo para $i = 1 \ldots m$ y $j = 1 \ldots n$ . Ahora tiene un conjunto de datos "hipotético". Realice un bootstrap a partir de este conjunto de datos como lo haría en la regresión lineal, por ejemplo $B$ número de veces. Cada uno de los nuevos conjuntos de datos generados es una muestra bootstrap. Para cada una de las muestras bootstrap calcule la tabla de contingencia correspondiente (digamos para $Y=1$ cuántos $X$ s=1, ¿cómo puede $X$ s=2, ... Esto le dará la entrada (1,1), (2,1),... para su tabla). Calcule la estadística para cada uno de los $B$ tablas y se tiene la distribución bootstrap deseada.

No sé si esto es lo que querías decir con "bootstrapping" de la tabla. Por favor, hágamelo saber si piensa lo contrario.

HTH

S.

1voto

Marc-Andre R. Puntos 789

Una vez pregunté algo similar pregunta en stackoverflow . Básicamente se muestrea de la tabla de la misma manera que se muestrea el vector.

0voto

Mike Green Puntos 457

La forma de arrancar una tabla debería depender de cómo se haya obtenido. hay varias formas de hacerlo.

por ejemplo, se puede tomar una muestra de n individuos y clasificarlos a todos en un $r\times c$ En este escenario, ni los totales de las filas ni los de las columnas son fijos. parece entonces plausible que una muestra bootstrap tome una muestra de tamaño n con reemplazo de los n encuestados originales y los clasifique en un $r\times c$ mesa.

En otro escenario, los totales de las filas de la tabla podrían haberse fijado de antemano. en ese caso, se extraería con reemplazo una muestra de $n_{i+}$ individuos de la $n_{i+}$ individuos en fila $i$ por separado para cada fila.

¿tiene esto sentido? [disculpas si esto reitera lo que ya se ha dicho, no lo entiendo del todo].

me gustaría reiterar la consulta de @whuber sobre el motivo de esta pregunta. normalmente no se habla de obtener un CI para una estadística [como un valor p]. ¿puede aclararlo un poco?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X