6 votos

Que significa utilizar una muestra un t-test en los datos transformados en

Tengo un par de variables que son negativamente sesgada, por lo que me transformó por el cuadrado de ellos, que se normalizaron. Quería correr una prueba de t de las variables transformadas, pero estoy un poco confundido en cuanto a lo que significa para su uso. Aquí es lo que mis datos se parece a (tenga en cuenta que el U.S. Pop. mean proviene del manual para la puntuación de una encuesta, por lo que los datos para conseguir que significa que no está disponible, sólo la media, por lo tanto, una prueba de t de muestras en lugar de two sample t-test):

     U.S. Pop. mean   Our Sample Mean  Mean of variables squared  Sqr rt of mean
PF            81.18             73.61                    6215.28           78.83
RP            80.53             70.28                    5913.92           76.90

Entiendo por qué la raíz cuadrada de la media de las variables I cuadrado para la transformación es diferente de la no-el cuadrado de la media (debido a los cálculos subyacentes implicados), pero por el simple hecho de hacer una prueba t y la comparación de la población de Estados Unidos significa que la media de la muestra tenemos, ¿ puedo usar la raíz cuadrada de la media de los cuadrados de las variables y la comparamos con la Población de Estados Unidos significa, o no me la plaza de la Población de Estados Unidos, la media y la comparamos con la media de los cuadrados de las variables. Visualmente:

Either this:
Ho = 81.18^2  vs. 6215.28

Or:
Ho = 81.18  vs. 78.83

O algo más?

9voto

AdamSane Puntos 1825

No creo que el cuadrado necesariamente hacer lo que desee, incluso si hace las cosas parecen normales.

Si desea probar la igualdad de una media de población a una hipótesis significa entonces por la prueba de una variable transformada puede ser muy propensos a rechazar cuando el original de la media de población es el que se da en el valor null (es decir, usted va a ser propensos a rechazar los verdaderos valores nulos).

Considerar algunos variable aleatoria $X$ a que algunos de distribución con $\mu=\mu_0$ y la no-cero de la varianza.

Deje $Y=X^2$.

$E(Y)=E(X^2) = E(X)^2 +\text{Var}(X)=\mu_0^2+\sigma^2_X$

En consecuencia, una prueba de $H_0^*:\mu_Y=\mu_0^2$ debe rechazar (y en grandes muestras, será esencialmente cierto, a pesar de que la hipótesis original $H_0:\mu_X=\mu_0$ era cierto.

Cuidado con la mezcla de las pruebas de hipótesis y de las transformaciones a menos que usted realmente entender cómo se comportan!


Ilustración

Aquí una muestra de un poco a la izquierda-sesgar la distribución media de la población es 5:

sample from a left skewed distribution with mean 5

Por casualidad, la media de la muestra salieron muy cerca de la media de población:

> mean(y)
[2] 5.000247

Ahora nos cuadrado. ¿Cómo funciona la media compara con el 25?

> mean(y^2)
[1] 27.97773

Casi 28 (la varianza de la población de Y fue alrededor de 3, así que esto es lo esperado)

Así que si queremos probar si la media de la población es de $Y^2$ es de 25 ... estamos propensos a rechazar. (En este ejemplo concreto, el p-valor sólo sería de alrededor de 0.08)


Código fue solicitado; por desgracia yo no mantener el código que he usado para generar el ejemplo; este es vagamente similar a la del ejemplo en que se deja de sesgo con media 5 y desviación sustancial (aunque no tan grande como en el original):

n=100;x=ifelse(runif(n)<.5,pmax(runif(n),runif(n),runif(n))*5,runif(n,5,7.5))

He aquí los resultados de una muestra de 1000 en vez de 100 con el código:

> mean(x);var(x);mean(x^2)
[1] 4.985436
[1] 2.35402
[1] 27.20623

> mean(x)^2+var(x)*(1-1/length(x))  # adjust for Bessel's correction 
[1] 27.20623

(El ajuste para deshacer la corrección de Bessel en las muestras hace que funcione como el álgebra de la población)


[De lo relevante que sería un caso de dos muestras? Si las dos poblaciones de las que se tomaron las muestras no tienen la misma varianza, los medios de sus plazas serán diferentes. Esto es muy diferente de la habitual problema con diferentes varianza y la igualdad de la varianza de la prueba t -- la prueba en este caso es mucho más afectados.]


Entonces, ¿qué hacer? Tenemos que empezar con la precisión de la hipótesis de interés y encontrar una forma razonable (al menos para una buena aproximación) prueba de eso.

Parece que el null es, definitivamente, la igualdad de medios.

Hay varias opciones que yo veo:

  1. El uso de la prueba t-test como es; dependiendo de cómo sesgada y pesado de cola de la distribución, nivel de significación y potencia no puede ser tan gravemente afectados.

  2. Vienen con un adecuado modelo paramétrico de las variables en cuestión.

  3. Una prueba de permutación es posible, pero puede presentar dificultades; en virtud de la costumbre hipótesis sería necesario asumir la simetría bajo nulo (esto no implica que la muestra debe buscar simétrica, sólo que si la nula fuera cierto que se debe esperar a ser simétrica).

  4. Una forma de bootstrap prueba podría ser empleado; puede ser razonable si los tamaños de muestra fueron bastante grande para las dos variables.

4voto

Sean Hanley Puntos 2428

Como @user20637 puntos en el comentario de abajo, el resultado de una prueba t de su cuadrado de datos contra el cuadrado de la población de estados unidos significa que no necesariamente implica que los datos se desplazan en relación a la población de estados unidos. Usted no puede evaluar que de lo que se tiene. En su lugar, usted se acaba de probar si la media está por encima de un punto fijo. Más allá de eso, se acaba de hacer suposiciones.

Si usted tiene la cantidad suficiente de datos, y se puede suponer que la distribución de los datos es una buena representación de la distribución de la población de la cual fueron extraídas, se podría afirmar tu media para obtener un mejor examen.

Otra posibilidad sería realizar una serie de análisis de sensibilidad y el informe de la gama de resultados. Por ejemplo, ¿qué pasa si el valor reportado es la población media, pero la distribución de la población eran tan sesgada como la tuya? Otras posibilidades existen.

También podría ser por adelantado acerca de los supuestos que se están haciendo acerca de la población mediante el uso de un análisis Bayesiano.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X