6 votos

Prueba de Chi Cuadrado para datos de encuestas

Estoy trabajando con un producto que convierte los datos de las encuestas en estadísticas útiles. La revisión de su código, me ha puesto algo nervioso, y no soy un estadístico, así que espero poder pedir claridad del siguiente problema:

De una encuesta S, para un producto P. Se preguntó a los encuestados si

  1. me gustó el producto
  2. eran indiferentes
  3. odiaba el producto

El grupo de encuestados se dividió en hombres y mujeres. El gráfico suministrado por el programa informático, al procesar algunos datos de la encuesta, dice que "Los hombres son significativamente más propensos a ser likers". O "Los hombres y las mujeres..." O "Las mujeres..."

Para mí esto ya plantea problemas:

  1. Los hombres son significativamente más propensos a ser likers que qué?
  2. Los hombres y las mujeres tienen más probabilidades de ser likers que qué?
  3. ¿Cómo se miden estas cosas?
  4. ¿Qué prueba se utiliza?... etc.

Cuando eché un vistazo al código, me di cuenta de que estaban utilizando una prueba de chi (¡!). Tuve que preguntar cuál era exactamente la hipótesis nula, porque esto tenía cada vez menos sentido. Al parecer, la hipótesis nula es que " la probabilidad de que los hombres y las mujeres sean likers es la misma " ...vale, bien. Pero espera.

Así, tenemos la siguiente tabla:

                Men       Women      Total
 likers         54        46         100

 indifferent    23        26         49

 non-likers     22        31         53

 Total          99        103        202

Podemos rellenar las distribuciones esperadas para las tres filas:

                Men          Women      Total
 likers         54-49        46-50      100

 indifferent    23-24        26-24      49

 non-likers     22-25        31-27      53

 Total          99           103        202

A continuación, el código rellena una matriz con valores de chi basados en lo anterior. El programador decidió que los grados de libertad al hacer estos cálculos eran (m-1)(n-1) = 2, lo que en este punto me hizo pensar que la hipótesis nula era más bien que si te gusta, te es indiferente o no te gusta, hay la misma probabilidad de que seas hombre o mujer .

Estamos utilizando un nivel de confianza del 90%, así que todo lo que imaginé que teníamos que hacer era sumar todos los 6 valores de chi, y comparar eso con un valor crítico dado por los grados de libertad y el intervalo de confianza. A partir de ahí, podríamos decir con un 90% de certeza que los hombres y las mujeres tienen la misma probabilidad de gustar, etc... o rechazar la H.N.

Esto es lo que hace el código en su lugar:

  1. Utiliza 1 grado de libertad en lugar de 2 (todavía al 90%), por lo que tenemos un nuevo valor crítico 2,706
  2. Para cada fila (liker, etc...) de la matriz de valores chi, si un elemento es mayor que el valor crítico rechaza la hipótesis nula, y añade el elemento a una lista de "significación".

Para ilustrar, busca [likers;men] > cv, es decir, chi_value[0][0] > cv, si eso es cierto, rechaza N.H., y añade 'men' a la lista.

En el gráfico este resultado se refleja como: los hombres son más propensos a gustar . Para mí esta evaluación única de hombres y mujeres para cada fila me parece errónea. No tiene sentido pronunciarse sobre dos variables cuando sólo se observa una...

No soy ni mucho menos tan inteligente como mi jefe, pero me parece que algo ha fallado aquí y agradecería que alguien me ayudara a aclararlo.

Por último, el cliente ha pedido conocer el % más de probabilidades de que los hombres sean likers que las mujeres -- Creo que es una petición errónea, ya que una prueba de chi cuadrado no aborda cuestiones de cuál es mayor o menor, sino que sólo sirve para confirmar que un conjunto de variables son independientes. ¿Estoy en lo cierto?

Sólo quiero añadir que he utilizado la siguiente afirmación para guiar mi pensamiento:

Nota de advertencia Es importante tener en cuenta que la prueba de chi-cuadrado sólo comprueba si dos variables son independientes. No puede abordar cuestiones como cuál es mayor o menor. Utilizando la prueba de chi-cuadrado, no podemos evaluar directamente la hipótesis de que los hombres gustan más que las chicas; más bien, la prueba (estrictamente hablando) sólo puede probar si las dos variables Gusto y Género, son independientes o no.

2voto

Zizzencs Puntos 1358

La parte que sigue a "esto es lo que hace el código en su lugar" parece fuera de lugar, aunque es difícil decirlo.

La petición del cliente es razonable. No tiene respuesta por chi-cuadrado, pero sigue siendo una petición razonable. La proporción de hombres a los que les ha gustado es de 54/99 = aproximadamente el 54%, la de mujeres es de 46/103 = aproximadamente el 46% (puede calcular los valores exactos), por lo que la diferencia es de aproximadamente el 8%.

El chi-cuadrado reportado aquí es sobre dos variables: Gusto y sexo. En concreto, se analiza si están asociadas. Dado que una de las variables es ordinal, hay pruebas más potentes que el chi-cuadrado normal.

0 votos

Hola, la estimación puntual de la que hablas no te da que "los hombres tienen un x% más de probabilidades de que les guste el producto P que las mujeres". Te da que "a los hombres les gusta este producto un 8% más que a las mujeres". Si existe una significación entre el género y el gusto, la prueba de chi sólo se referirá a esto, y sólo a esto, es decir, que las variables no son independientes. En cuanto a qué género es significativamente más probable que sea Liker, eso es algo que puede requerir otras pruebas. ¿Estoy en lo cierto?

0 votos

El lenguaje en torno a las diferencias de % se vuelve confuso.

2 votos

Aunque alguien está marcando repetidamente el comentario anterior En mi opinión, no veo nada en absoluto ofensivo o incorrecto y, por lo tanto, he descartado las banderas, cosa que seguiré haciendo si se repiten.

1voto

Underminer Puntos 1112

Parece que primero está haciendo una prueba ómnibus (prueba de Chi cuadrado para la independencia) con 2 df para determinar si el "estado similar" y el "género" son independientes o no. Y luego está haciendo pruebas post-hoc en las filas individuales (pruebas de bondad de ajuste de Chi cuadrado) para ver si los hombres/mujeres tienen la misma probabilidad en cada fila. Según Este enlace en la sección "Pruebas de seguimiento post hoc", estas pruebas post hoc están permitidas. Cada fila generaría una prueba de Chi cuadrado con 1 df. Se probaría, por ejemplo, "Ho: los hombres y las mujeres "son simpatizantes" en la misma proporción", para cada fila.

Sin embargo, me preocupa que no se haya hecho ningún ajuste para las comparaciones múltiples. Como parece que está haciendo tres de estas pruebas de 1 df, debería ajustar su $\alpha$ para corregir la tasa de error por familias (corrección de Bonferroni, por ejemplo).

Si su cliente quiere saber cuánto más probabilidades tienen los hombres de ser "simpatizantes", etc. podría (a), proporcionar una estimación puntual basada en sus datos como sugirió Peter Flom, o (b) podría construir un IC para la diferencia entre las dos proporciones si quiere una estimación de intervalo. Junto con la afirmación de que la diferencia es significativa (o no significativa), creo que una estimación puntual sería suficiente para sus clientes.

Aparte del problema de no controlar la tasa de error por familia, el análisis me parece adecuado. Espero que esto ayude.

0 votos

Así que hago una prueba ómnibus para comprobar que "like, ind', non-liker" son independientes con el género. Si no son independientes con el género, hago las pruebas de seguimiento post hoc para cada fila y utilizo la corrección de Bonferroni. ¿Esto me dirá qué exactamente? No lo he entendido bien. Pero esto es muy útil.

0 votos

Eso es correcto. Las pruebas post hoc comprobarán individualmente si "liker" se observa por igual en hombres y mujeres; lo mismo para "ind" y "nonliker". Básicamente, se trata de examinar los datos para averiguar qué filas muestran una diferencia significativa entre los géneros.

0 votos

Gracias por su ayuda. Así que hice el ómnibus como una prueba de independencia, las pruebas post hoc me permiten probar la bondad del ajuste para cada fila. Utilicé k = ¡r!/2!(r-1)! * y mi nueva alfa se convierte en a = a/k. Si rechazaba Ho, informaba de que el sexo influye en la respuesta, y daba una estimación puntual, pero no afirmaba que los hombres fueran más propensos que las mujeres (o viceversa). En el caso de aceptar la hipótesis nula, ¿debo inspeccionar el valor p, sólo para asegurarme de que la estadística de la prueba es aceptable para, por ejemplo, 0,05?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X