8 votos

Qué método es simular pvalues de re muestreo de los datos

Hace un tiempo le pregunté a una pregunta acerca de la correlación de tiempos entre las marcas de tiempo y recibió una respuesta de Peter Ellis que dijo que se podía calcular la media de las distancias entre los códigos de...

Esto ya se va a dar cierta sensación de que los comportamientos están agrupados, pero usted también debe comprobar que esto no es factible debido sólo a la casualidad.

Para comprobar eso, me gustaría crear simulada de los datos generados por un modelo bajo la hipótesis nula de no relación. Haciendo esto requeriría la generación de datos para cada comportamiento del tiempo de un posible modelo nulo, probablemente basados en remuestreo de los tiempos entre cada evento (por ejemplo, entre cada bostezo) para crear un nuevo conjunto de sellos de tiempo para hipotético modelo nulo eventos. A continuación, calcular el mismo indicador de estadística para este modelo nulo y comparar con el indicador de su genuina de datos. Mediante la repetición de esta simulación de un número de veces, usted podría averiguar si el indicador a partir de los datos es lo suficientemente diferente del modelo nulo de datos simulados (menor tiempo promedio de cada bostezo para el tramo más cercano, por ejemplo) a contar como evidencia estadísticamente significativa en contra de su hipótesis nula.

Finalmente me poseen el conjunto de habilidades para ello y lo hemos hecho en R, pero no sé lo que este método o técnica se denomina así que puedo (a) a aprender más acerca de ella (b) hablar inteligentemente acerca de la teoría detrás de lo que estoy haciendo.

Algunas personas han sugerido que esto se llama una prueba de permutación, otros dicen similar pero no el mismo como arranque y algunos me han dicho que está relacionado con Monte Carlo re muestreo.

¿Qué es este método de remuestreo, dada la NULA es VERDADERA, se llama? Si usted tiene un de referencia o dos para una copia de su respuesta que puede ser útil pero no necesario.

4voto

Jake Westfall Puntos 3777

A mí me parece que Ellis podría estar refiriéndose a tres ideas distintas aquí. Primero dice algo acerca de la creación de "simulada de los datos generados por un modelo bajo la hipótesis nula de no relación." Yo diría que se trata de una forma de bootstrap paramétrico. Entonces él dice que esto sería "probablemente basados en remuestreo de los tiempos entre cada evento (por ejemplo, entre cada bostezo) para crear un nuevo conjunto de sellos de tiempo para hipotético modelo nulo eventos". Que, vamos a ser claro, para hacer esto es no para "crear datos simulados." Estamos en cambio, si lo he entendido correctamente, el remuestreo de nuestra realidad con los datos observados. Este último procedimiento es una prueba de permutación o no paramétrica de arranque, dependiendo de cómo el remuestreo se lleva a cabo.

Supongo que debería decir unas pocas palabras más sobre paramétrico de arranque, pruebas de permutación, y no paramétricos de arranque.

Generalmente paramétrico de arranque se realiza mediante la simulación basado en el modelo estimado, y no se basa en un modelo hipotético que es igual que el modelo estimado, excepto la hipótesis nula se supone verdadera, como Ellis parece sugerir a primera. Por "simular datos" me refiero a algo así como un ejemplo: mi modelo de los estados de que mis datos provienen de dos grupos, cada uno con una distribución normal, con los medios de $\mu_1$$\mu_2$, respectivamente, y la desviación estándar $\sigma$, así que voy a generar muchos conjuntos de datos que satisfacen este y el uso de la distribución de la estadística de prueba calculado a partir de cada uno de estos conjuntos de datos simulados como mi distribución de muestreo. Nota, estoy creando este tipo de datos usando algo como rnorm() en R, no directamente a través de mis datos observados. Ahora, seguramente se podría hacer este procedimiento y obtener un tipo de muestreo de la distribución bajo la hipótesis nula de que, digamos, no hay diferencia en el grupo de medios que acaba de asumir la $\mu_1=\mu_2$ en todos los conjuntos de datos simulados, contrariamente a lo que realmente observada-y de este modo se consigue un bootstrap p-valor (en lugar de un intervalo de confianza bootstrap, que es lo que la ex/método tradicional que se ofrece a usted). De nuevo, acabo de llamar a esto una forma de obtener un p-valor paramétrico a través de bootstrapping.

Una prueba de permutación, por otro lado, implica la mezcla de sus datos observados y otra de una manera que sea consistente con la hipótesis nula. Así, por ejemplo, si la hipótesis nula implica que la asignación de grupo no hace ninguna diferencia en términos de las medias de los grupos, de forma aleatoria shuffle las etiquetas de grupo entre todos sus observaciones, muchas, muchas veces y ver qué diferencias de medias se obtendría de todas las formas posibles de barajeo de esta manera. Y a continuación, habría que ver de dónde dentro de la distribución de la estadística de prueba calculado a partir de estas revueltas conjuntos de datos hace su real observado de la estadística de la mentira. Tenga en cuenta que hay un número finito (pero generalmente grandes) número de maneras que usted puede barajar el hecho de que los datos observados.

Finalmente, la paramétrica de arranque es muy similar a la prueba de permutación, pero nos remuestrear los datos observados con el reemplazo para intentar acercarnos a una infinita la "población" de valores que nuestros datos han sido extraídos de. Hay muchas, muchas más maneras para volver a muestrear a partir de los datos con el reemplazo de los que hay que barajar datos (aunque técnicamente es finito en la práctica). De nuevo, similar a paramétrico de arranque, esto se hace generalmente no bajo la hipótesis nula, pero bajo el modelo implícitas en los datos observados, dando intervalos de confianza en torno a lo observado de la estadística de prueba, no p-valores. Pero seguramente se podría imaginar hacer esto bajo la hipótesis nula como Ellis sugiere y la obtención de los valores de p de esta manera. Como un ejemplo de la paramétrica de "bootstrapping" aquí (en la forma tradicional, es decir, no bajo la hipótesis nula), utilizando la misma diferencia-en-grupo-significa que el ejemplo que he utilizado en el bootstrap paramétrico párrafo, para ello nos gustaría remuestreo con reemplazo de las observaciones dentro de cada grupo, muchas veces , pero no la mezcla de observaciones entre los grupos (a diferencia de en la prueba de permutación), y construir la distribución de muestreo de grupo de la media de las diferencias que podemos obtener de esta manera.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X