1 votos

¿Cómo identificar si mi conjunto de datos está sesgado o no?

Creo que mis suposiciones son un poco ingenuas con respecto a este asunto. Tengo dos métricas sobre mi conjunto de datos: el número de elementos y la cardinalidad de los elementos. Una cardinalidad baja significa que hay muchos elementos repetidos y una cardinalidad alta significa que hay pocos elementos repetidos (tendiendo a una distribución uniforme). Basándome en esto, quiero identificar si mi conjunto de datos está sesgado.

{1,2,3,4,5,6,7,8,9,10} = high cardinality = 10 and 10 items totally different.
{1,1,1,1,2,2,2,2,3,3} = low cardinality = 3 and 10 items. a lot of repeated items.

+-----------------+-------------+--------------+-----------------+
| number of items | cardinality |     calc     |     skewed?     |
+-----------------+-------------+--------------+-----------------+
|              10 |          10 | 10/10 = 1    | totally uniform |
|              10 |           2 | 2/10 = 0.2   | skew            |
|              10 |           8 | 8/10 = 0.8   | uniform         |
|             100 |           8 | 8/100 = 0.08 | skew            |
|             100 |          50 | 50/100 = 0.5 | skew            |
|             100 |          80 | 80/100 = 0.8 | uniform         |
+-----------------+-------------+--------------+-----------------+

¿Es esta una forma razonable de comprobar si tengo un conjunto de datos sesgados? Establezco un umbral de 0,8 y si la cardinalidad/número de elementos es inferior a 0,8 significa que tengo datos sesgados en un conjunto de datos determinado.

2voto

Dave Puntos 76

En primer lugar, analicemos lo que significa sesgado frente a uniforme.

Aquí hay una distribución no sesgada que no es uniforme. Se trata de la curva de campana normal estándar.

enter image description here

plot(seq(-3,3,0.01),dnorm(seq(-3,3,0.01),0,1),type='l',xlab='',ylab='')

Se trata de una distribución sesgada ( $F_{5,5}$ ).

enter image description here

plot(seq(0,4,0.01),df(seq(0,4,0.01),5,5),type='l',xlab='',ylab='')

Sin embargo, ambas distribuciones tienen valores que prefieren. En la distribución normal, por ejemplo, se espera obtener muestras en torno a 0 más que valores en torno a 2. Por lo tanto, las distribuciones no son uniformes. Una distribución uniforme sería algo así como que un dado tiene una probabilidad de 1/6 de caer en cada número.

Considero que tu problema es similar a comprobar si un dado está sesgado hacia determinados números. En tu primer ejemplo, cada número entre el 1 y el 10 está igualmente representado. Usted tiene una distribución uniforme en $\{1,2,3,4,5,6,7,8,9,10\}$ .

$$P(X = 1) = P(X=2) = \cdots = P(X=9) = P(X=10) = \frac{1}{10}$$

En tu segundo ejemplo, tienes cierta preferencia por 1 y 2 en detrimento de 3.

$$P(X=1) = P(X=2) = \frac {4/10}, P(X=3) = \frac {2/10}

El número de elementos únicos no tiene nada que ver con la uniformidad.

Lo que creo que quieres hacer es probar si tu muestra indica una preferencia por determinados números. Si tiras un dado 12 veces y obtienes $\{3,2,6,5,4,1,2,1,3,4,5,4\}$ En el caso de los números de la muestra, se observa una ligera preferencia por el 4 en detrimento del 6. Sin embargo, es probable que se considere que se trata de una cuestión de suerte y que, si se vuelve a realizar el experimento, es igual de probable que se prefiera el 6 en detrimento de algún otro número. La falta de uniformidad se debe a la variabilidad del muestreo (azar o suerte del sorteo, pero nada que sugiera que el dado carece de equilibrio). Del mismo modo, si lanzas una moneda cuatro veces y obtienes HHTH, probablemente no pensarás que hay algo sospechoso. Eso parece perfectamente plausible para una moneda justa.

Sin embargo, ¿qué pasa si tiras el dado 12.000 o 12.000 millones de veces y sigues obteniendo una preferencia por el 4 en detrimento del 6, o si haces miles de millones de lanzamientos de monedas y descubres que se prefiere la cara el 75% de las veces? Entonces empezarías a pensar que hay una falta de equilibrio y que la falta de uniformidad en tus observaciones no se debe sólo al azar.

Existe una prueba de hipótesis estadística para cuantificar esto. Se llama prueba de chi-cuadrado de Pearson. El ejemplo en Wikipedia es bastante bueno. Lo resumiré aquí. Utiliza un dado.

$$H_0: P(X=1) = \cdots = P(X=6) = \frac{1}{6}$$

Esto significa que estamos asumiendo que las probabilidades de cada cara del dado son iguales e intentamos encontrar pruebas que sugieran que eso es falso. Esto se llama la hipótesis nula.

Nuestra hipótesis alternativa es que $H_0$ es falso, que alguna probabilidad no es $\frac{1}{6}$ y la falta de uniformidad en las observaciones no se debe únicamente al azar.

Realizamos un experimento de lanzar el dado 60 veces. "El número de veces que cae con 1, 2, 3, 4, 5 y 6 boca arriba es 5, 8, 9, 8, 10 y 20, respectivamente".

Para la cara 1, esperaríamos 10, pero obtuvimos 5. Esto es una diferencia de 5. Entonces elevamos al cuadrado la diferencia para obtener 25. Luego dividimos por el número esperado para obtener 2,5.

Para la cara 2, esperaríamos 10, pero obtuvimos 8. Esto es una diferencia de 2. Entonces elevamos al cuadrado la diferencia para obtener 4. Luego dividimos por el número esperado para obtener 0,4.

Haz lo mismo con el resto de caras para obtener 0,1, 0,4, 0 y 10.

Ahora suma todos los valores: $2.5 + 0.4 + 0.1 + 0.4 + 0 + 10 = 13.4$ . Esta es nuestra estadística de prueba. Probamos contra un $\chi^2$ con 5 grados de libertad. Obtenemos 5 porque hay 6 resultados, y restamos 1. Ahora podemos obtener nuestro valor p. El comando de R para hacerlo es "pchisq(13.4,5,lower.tail=F)" (no ponga las comillas en R). El resultado es de aproximadamente 0,02, lo que significa que sólo hay un 2% de posibilidades de obtener este nivel de no uniformidad (o más) debido únicamente al azar. Es habitual rechazar la hipótesis nula cuando el valor p es inferior a 0,05, por lo que en el nivel 0,05, podemos decir que rechazamos la hipótesis nula a favor de la alternativa. Sin embargo, si queremos hacer la prueba en el nivel 0,01, carecemos de pruebas suficientes para decir que el dado está sesgado.

Pruebe esto en un experimento en el que tira un dado 180 veces y obtiene 1, 2, 3, 4, 5 y 6 en las cantidades de 60, 15, 24, 24, 27 y 30, respectivamente. Cuando hago esto en R, obtengo un valor p de aproximadamente $1.36 \times 10^{-7}$ (1,36090775991073e-07 es la impresión).

Ahora el atajo en R. Pasa el ratón por encima del texto oculto cuando creas que has captado la idea de esta prueba y puedas hacerla a mano pero no quieras hacerlo.

V <- c(60, 15, 24, 24, 27, 30);chisq.test(V)

Esto crea un vector de las frecuencias (V) y luego prueba ese vector.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X