4 votos

La prueba se repite (dentro de los sujetos) observaciones de multinomial de datos categóricos?

En el transcurso de 30 días me han preguntado 47 personas (24 de grupo a y 23 del grupo B) que de las cuatro comidas que prefieren, haciendo un total de 1410 observaciones:

     choice
group apple orange pizza beer
    A   340     63   216  101
    B   424     65   125   76

Porque he preguntado a la misma persona varias veces, las observaciones (dentro de cada grupo) no son independientes y no se puede usar una prueba de chi-cuadrado para comparar las distribuciones.

Lo que quiero saber es: Que los alimentos son elegidos significativamente más a menudo por un grupo que en el otro? Mi hipótesis es que el grupo prefiere la pizza y la cerveza, mientras que el grupo B prefiere las frutas. Supongo que la preferencia no cambia a lo largo (corto) tiempo y no, no estoy interesado en la longitudinal aspecto de la encuesta.

Prueba de lo que puedo usar?


Intento de solución:

Básicamente, las medidas repetidas (de la misma persona) son algo así como repetidamente la medición de la longitud de un palo para obtener una medición más exacta y el promedio de los errores de medición. Por eso pensé que, para cada persona con la que me podría calcular el porcentaje de cada categoría de respuesta. Por lo tanto, el 100% de las respuestas de una persona, a continuación, se dividen en, por ejemplo, el 40% de apple respuestas, el 30% de naranja, el 20% de la pizza, y el 10% de la cerveza. Representado como probabilidades (que suma hasta 1 de cada persona), me permitiría tener datos como esto:

person group apple orange pizza beer
     1     A   0.4    0.3   0.2  0.1
     2     B   ...

De esta manera, me habría "eliminado" de la en-persona interdependencia y después de realizar una prueba t en la resultante de dos vectores numéricos.

Pero soy incapaz de juzgar si esto es un procedimiento válido para el tipo de datos que tengo. También, me gustaría usar una publicados y revisados de la prueba, en el caso de que exista.


Datos de ejemplo:

food <- c("apple", "orange", "pizza", "beer")
dat <- data.frame(
                  group  = rep(c("A", "B"), c(720, 690)),
                  choice = c(
                             rep(food, c(340, 63, 216, 101)),
                             rep(food, c(424, 65, 125, 76))
                            )
                 )
tab <- table(dat)

1voto

g3mini Puntos 101

Te sugiero que de Cochran-Mantel-Haenszel chi-cuadrado de la prueba (mantelhaen.test función de la base R).

En sus datos, usted tiene 30 estratos (uno para cada día) y CMH permite que usted para tomar en cuenta la posible variabilidad (entre estratos) de grupo-la elección de la relación.

Ver ejemplos en ?mantelhaen.test.

0voto

user8183921 Puntos 61

Esto es simplemente un comentario extendido a la respuesta por Łukasz Deryło.

En el R ayuda para ?mantelhaen.test, sugerido por Łukasz Deryło en su respuesta, una referencia es dada a Agresti, A. (2002). Análisis de Datos categóricos (2ª ed.). Hoboken: Wiley (link a PDF). Me fui a través de ese libro, y a partir de ella me llevó a la siguiente solución:

En primer lugar, debemos representar los datos de forma diferente. En lugar de 30 observaciones para 47 personas:

person day   food
     1   1   beer
     1   2 orange
     1   3   beer
   ...

podemos pensar en cada persona responder con un cierto patrón de respuesta hecha a partir de 30 elementos. Este patrón es la secuencia de los alimentos elegidos en los treinta días consecutivos. Para una persona, este patrón de respuesta se vería así:

                day
person group      1    2    3     4    5 ...    30
     1     A orange beer beer apple beer ... pizza

En un siguiente paso, tenemos una lista de todos los 4de los 30 posibles patrones de respuesta e indicar si o no un participante muestra que el patrón. En esta representación de los datos, cada participante tendrá twentynine "0" y un "1" en su fila. Por el bien de ahorro de espacio, me representan cada uno de los alimentos con su primera carta (la primera secuencia de primeras letras representa el patrón "'manzana' elegido en cada día", la segunda secuencia de primeras letras representa el patrón "'manzana' elegido en los primeros 29 días, 'naranja' elegido en el último día"):

             pattern
person group aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa aaaaaaaaaaaaaaaaaaaaaaaaaaaaao ...
     1     A                              1                              0
     2     B                              0                              0

Hay una trillones de posibles patrones (430 = 1152921504606846976), así que espero que me perdones, solo que se me muestran las dos primeras. Pero estoy seguro de que usted consigue la idea.

Por último, vamos a calcular la columna de sumas para cada grupo y obtener una nueva representación de los datos que se parece a esto:

             pattern
group aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa aaaaaaaaaaaaaaaaaaaaaaaaaaaaao ...
    A                              3                              0
    B                              1                              2

Esto significa que tres de los participantes del grupo a ha elegido apple en todos los treinta días, en comparación con sólo una persona del grupo B, que muestra que el patrón de respuesta. Nadie del grupo eligió a apple en el primer twentynine días y naranja en el último día, en comparación con el de dos personas del grupo B. Y así sucesivamente.

Dada esta representación de los datos, podemos ahora en forma de un simple modelo logit de la forma logit[P(Y = 1)] = α + β1g + β2p, donde g = {A, B} son los grupos a y p son las 4de 30 patrones de respuesta.

Entiendo que debo encuesta a más personas de las que hay en este planeta para que mediante el análisis de regresión resultan significativos los resultados, lo que hace que este procedimiento práctico en mi situación, pero sospecho que, teóricamente, esto podría ser una manera de conseguir alrededor de la repetición de las observaciones de los participantes. Agresti da ejemplos con tres medidas repetidas de una respuesta binaria, que se traducen en ocho patrones de respuesta, por ejemplo, (a partir de la página 487):

example from Agresti

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X