8 votos

¿Cuál es el análisis correcto para este tipo de preguntas? (¿Regresión logística condicional?)

Dado el siguiente experimento, ¿cuál es el método estadístico correcto para responder a la siguiente pregunta?

A un participante se le muestran imágenes consecutivas y se le pide que responda si vio un objeto o una cara después de cada imagen. En cada ensayo (presentación de imágenes) la imagen presentada (ya sea 1 de 210 caras individuales o 1 de 210 objetos individuales) se superpone con una cierta cantidad de ruido aleatorio (entre el 5% y el 98%). La imagen presentada en cada ensayo es bastante pequeña, por lo que cada ensayo tiene también un fondo. El fondo puede ser negro, un objeto grande o una cara grande. Las imágenes individuales se emparejan, lo que significa que cada imagen individual se presenta 3 veces en total, 1 vez con un fondo negro, 1 vez con un objeto grande como fondo y 1 vez con una cara grande como fondo. La cantidad de ruido aleatorio superpuesto en una imagen individual se mantiene constante en las 3 condiciones de fondo diferentes. El objeto en el fondo del objeto grande no cambia y no se incluye en una de las 210 imágenes de objetos individuales presentadas. Del mismo modo, la cara en el fondo grande de la cara no cambia y no se incluye en una de las 210 imágenes individuales de la cara presentadas. No se añade ruido a ninguno de los fondos.

La pregunta que me gustaría responder es si la percepción de las caras, de los objetos o de ambos difiere significativamente entre las 3 condiciones de fondo diferentes. Vea la pregunta 5 abajo para más detalles sobre la pregunta que me gustaría responder

Así que al final, tengo una tabla de datos, con este aspecto:

+-------------+-------------+-------------+-------------+-------------+-------------+
| Participant |  Category   |  Pic ID     | Noise level |  Background |  Response\*  |
+-------------+-------------+-------------+-------------+-------------+-------------+
|  1          |  0          |  1          |   5%        |  1          |  0          |
|  1          |  0          |  1          |   5%        |  2          |  0          |
|  1          |  0          |  1          |   5%        |  3          |  0          |
|             |             |             |             |             |             |
|  1          |  0          |  2          |  24%        |  1          |  0          |
|  1          |  0          |  2          |  24%        |  2          |  1          |
|  1          |  0          |  2          |  24%        |  3          |  0          |
|             |             |             |             |             |             |
|  1          |  0          |  3          |  80%        |  1          |  1          |
|  1          |  0          |  3          |  80%        |  2          |  0          |
|  1          |  0          |  3          |  80%        |  3          |  1          |
|             |             |             |             |             |             |
|  ..         |  ..         |  ..         |  ..         |  ..         |  ..         |
+-------------+-------------+-------------+-------------+-------------+-------------+
|  1          |  1          |  211        |  12%        |  1          |  1          |
|  1          |  1          |  211        |  12%        |  2          |  1          |
|  1          |  1          |  211        |  12%        |  3          |  1          |
|             |             |             |             |             |             |
|  1          |  1          |  212        |  20%        |  1          |  1          |
|  1          |  1          |  212        |  20%        |  2          |  0          |
|  1          |  1          |  212        |  20%        |  3          |  1          |
|             |             |             |             |             |             |
|  1          |  1          |  213        |  75%        |  1          |  0          |
|  1          |  1          |  213        |  75%        |  2          |  0          |
|  1          |  1          |  213        |  75%        |  3          |  1          |
|             |             |             |             |             |             |
|  ..         |  ..         |  ..         |  ..         |  ..         |  ..         |
+-------------+-------------+-------------+-------------+-------------+-------------+

donde Categoría es cara (0) u objeto (1) y Respuesta es también cara (0) u objeto (1). La respuesta del participante es la variable dependiente. Dicotómica con un continuo subyacente. Dado que cada participante se mide en las 3 condiciones de fondo, se trata de un diseño dependiente. Dado que, para una imagen individual, mantengo el ruido constante a lo largo de las 3 condiciones de fondo, es de alguna manera emparejado o emparejado.

Primero pensé en calcular las correlaciones biseriales y compararlas a partir del estadístico t, pero luego vi la regresión logística, que parecía ajustarse mejor a mi estructura de datos. Pero sigo pensando que las muestras emparejadas y el diseño dependiente deberían incorporarse al análisis de alguna manera. Así que cuando busqué eso, apareció la Regresión Logística Condicional.

El problema es que, en la Regresión Logística Condicional, el emparejamiento se realiza sobre la variable dependiente. Suelen emparejar un 1 en la variable dependiente con una o más muestras de 0. Yo no emparejé la variable dependiente, sino las variables independientes (las mismas imágenes con el mismo nivel de ruido en cada condición de fondo). Así que no creo que pueda usar la Regresión Logística Condicional para estos datos, pero no pude encontrar nada más que se ajuste.

Podría alguien con más experiencia en estadística explicarme cuál es la forma correcta para responder a la pregunta anterior de si la percepción de las caras, de los objetos o de ambos difiere significativamente entre las 3 condiciones de fondo diferentes.

Gracias por su ayuda.

[Procedimiento experimental]

El experimento tiene 1260 ensayos en total. Compuesto por 210 caras individuales y 210 objetos individuales presentados 3 veces cada uno (una vez con cada uno de los 3 fondos diferentes). El orden de los ensayos es aleatorio con la restricción de que en el primer, el segundo y el último bloque de 420 ensayos, cada fondo se presenta exactamente 140 veces y cada objeto individual y cada cara individual se presenta exactamente una vez. A la mayoría de las caras y objetos individuales, aunque no a todos, se les añade una cantidad diferente de ruido, pero el ruido de una cara u objeto individual se mantiene constante en las 3 condiciones de fondo diferentes que se presentan.

[Preguntas y respuestas]

1. ¿Cuántos participantes? Hay 5 participantes en total.

2. ¿Hay límites para el ruido? El ruido se discretiza en pasos de 0,5% y en el rango [5%, 98%]. El ruido se extrae aleatoriamente de un vector de ruido (sin reemplazo) y se asigna a una imagen. Este vector incluye una distribución de ruido (210 entradas para cada categoría) que hace no incluyen todos los valores posibles entre el 5% y el 98% en pasos de 0,5%, pero se saltan algunos de esos valores e incluyen otros hasta 3 veces ( respuesta a la pregunta 3 ). Esto garantiza que cada participante experimenta los mismos niveles de ruido (aunque no es probable que para las mismas imágenes, ya que los niveles de ruido se asignan aleatoriamente a las imágenes individuales al principio del experimento) y que hay una buena cobertura en toda la gama, pero la atención se centra en los niveles de ruido cerca del umbral en el que (para nuestra configuración) los participantes pueden reconocer la imagen en aproximadamente el 50% del tiempo. Este umbral se encontró en un estudio preliminar con otros participantes utilizando las mismas imágenes presentadas sobre un fondo negro. Por lo tanto, el fondo negro es el fondo por defecto en este experimento.

3. ¿Es posible que se presenten dos o más imágenes con el mismo nivel de ruido? Sí, esto sucederá varias veces e incluirá hasta 3 imágenes individuales para el mismo nivel de ruido, pero no más de 3.

4. ¿Puede confirmar que no está interesado en la asociación del ruido con la respuesta? Esta pregunta es difícil de responder para mí. Es de esperar que el efecto de los diferentes fondos sea (si es que existe) más prominente si las imágenes son más difíciles de ver, es decir, si hay más ruido. Así que quiero tener en cuenta el ruido en el análisis, pero no necesito que el análisis me diga nada sobre la asociación del ruido con la respuesta. Sólo me interesa detectar cualquier tipo de diferencia entre las condiciones de fondo con la mayor potencia posible. Al principio quería ajustar 2 curvas psicométricas para cada una de las 3 condiciones de fondo diferentes (probabilidad de responder con la categoría respectiva frente al nivel de ruido) y luego comparar los desplazamientos de los ajustes psicométricos para comprobar si hay diferencias en las condiciones de fondo. Sin embargo, un análisis de bootstrapping reveló que la varianza del procedimiento de ajuste es demasiado grande para poder detectar los desplazamientos en el rango que espero. Así que supongo que la información sobre la asociación del ruido con la respuesta podría disminuir la potencia de otros tipos de análisis también. Si este es el caso, no la necesito.

5. ¿Qué quiere decir con "percepción" y "ambos"? ¿Qué es lo que realmente quieres saber? Con "percepción de [categoría]" no me refiero a un porcentaje correcto, sino a "respuestas de [categoría]". La suposición que tengo (y que me gustaría probar) es que un cara -sus antecedentes influirían en que un participante respondiera con cara PERO un objeto -el fondo sería NO influir en un participante para que responda con objeto (esta suposición probablemente no tenga ningún sentido para ti como lector, pero es lo que tengo que probar). Lo que quiero decir con "ambos" es que si se diera el caso de que un fondo de cara influyera en un participante para responder con la cara Y un fondo de objeto influyera en un participante para responder con el objeto, mi suposición de que sólo el fondo de cara tiene un efecto en la percepción sería falsa. Los diferentes niveles de ruido se incluyeron porque las posibilidades de influir en la percepción hacia una de las categorías deberían ser mayores cuando las imágenes son más difíciles de ver/reconocer. Por lo tanto, si existe un efecto dependiente del fondo en la percepción de alguna de las categorías, es poco probable que se manifieste, por ejemplo, en el rango de ruido del 5% al 20%, sino más bien en el rango de ruido más alto.

Por favor, hágame saber si necesita más información.

4voto

Bruce ONeel Puntos 391

Primero:

"Recuerda que todos los modelos son erróneos; la cuestión práctica es cuán erróneos tienen que ser para no ser útiles".

Box, G. E. P.; Draper, N. R. (1987), Empirical Model-Building and Response Surfaces, John Wiley & Sons.

Por lo tanto, no hay una única forma correcta de modelar los datos.

La pregunta de investigación se refiere a la relación entre el tipo de antecedentes y la percepción de la categoría, pero hay dos preguntas distintas:

  1. ¿Se asocia el fondo=3(cara) con la respuesta=0 (cara) (hipótesis de investigación: Sí)
  2. ¿Se asocia el fondo=2(objeto) con la respuesta=1 (objeto) (hipótesis de investigación: No)

Su configuración es factorial. Usted está variando los niveles de los factores ( Category , Noise y Background ) y midiendo la respuesta para diferentes combinaciones de éstas. Su interés particular es la asociación de los antecedentes (un factor de 3 niveles) con la respuesta (una variable binaria), por lo que un análisis de regresión logística parecería responder a las preguntas.

  • La estimación para background=2 responde a la pregunta: ¿cuál es la diferencia en las probabilidades logarítmicas de responder con un objeto cuando el fondo es un objeto en comparación con cuando el fondo es negro? Esto responde a la pregunta de investigación 2. Para ser coherente con la hipótesis de la investigación, esta estimación debe ser pequeña y/o no ser estadísticamente significativa.
  • La estimación para background=3 responde a la pregunta: ¿cuál es la diferencia en las probabilidades logarítmicas de responder con un objeto cuando el fondo es una cara, en comparación con cuando el fondo es negro? El sitio web negativo de esta estimación es, por tanto, la diferencia en las probabilidades logarítmicas de responder con cara cuando el fondo es una cara, en comparación con cuando el fondo es negro. Esto responde a la pregunta de investigación 1. Para ser coherente con la hipótesis de la investigación, esta estimación debería ser pequeña y/o no ser estadísticamente significativa.

Sin embargo, este no es el final de la historia....

Obviamente, hay medidas repetidas en los participantes, y esto debe controlarse, ya que las respuestas de un participante se parecerán más a otras respuestas del mismo participante, que a las de otros participantes (es decir, es probable que haya correlación de medidas dentro de cada participante). Esto puede controlarse incluyendo intercepciones aleatorias para Participant o incluyendo Participant como efecto fijo. Muchos consideran que 5 es el número mínimo de niveles para que un factor se utilice como efecto aleatorio y, dado que usted pretende añadir más participantes al estudio, ésta sería mi recomendación. Cualquiera de los dos métodos controla las medidas repetidas, por lo que podría ejecutar ambos modelos y los presentaré a continuación.

También tiene medidas repetidas en cada imagen, donde cada imagen se mide 3 veces. Por lo tanto, también puede haber correlación dentro de cada imagen. Dado que tiene 420 imágenes diferentes, no sería una buena idea incluir la imagen como efecto fijo para controlar esto, por lo que un intercepto aleatorio es apropiado. Así pues, mi modelo inicial sería un modelo de efectos mixtos con intercepciones aleatorias para Picture_ID y Participant con efectos fijos para Category , Background y Noise (con el ruido codificado como numérico). Los participantes no están anidados dentro de las imágenes, y las imágenes no están anidadas dentro de los participantes, por lo que son efectos aleatorios cruzados.

En R utilizando el lme4 se especificaría como:

glmer(Response ~ Category + Background + Noise + (1|Participant) + (1|Picture_ID), data=dt, family=binomial(link=logit))

Debido al reducido número de participantes, un modelo alternativo es:

glmer(Response ~ Category + Background + Noise + Participant + (1|Picture_ID), data=dt, family=binomial(link=logit))

El análisis puede ampliarse para tener en cuenta:

  • interacciones entre los efectos fijos

  • asociación no lineal entre la respuesta y el Ruido (incluyendo términos cuadráticos y posiblemente de orden superior para el Ruido)

  • la asociación del Ruido para variar entre los participantes y/o la imagen (incluyendo coeficientes aleatorios para el Ruido)

Lo anterior se basa en los contrastes del fondo deseado con el fondo negro, es decir cara vs negro y objeto vs. negro . Si cara vs. objeto se puede hacer recodificando el factor o especificando directamente el nivel de referencia. Si cara a cara vs no cara ou objeto vs no objeto esto se puede lograr fácilmente mediante la creación de variables ficticias.

1voto

Dick Brouwer Puntos 126

Creo que la regresión logística condicional le dará los resultados deseados.

Identifica correctamente la necesidad de utilizar una convención de medidas repetidas al analizar estos datos. Tiene 5 encuestados evaluados para el resultado binario de reconocimiento correcto/incorrecto de caras/objetos en múltiples condiciones. Las numerosas respuestas de una persona generan la necesidad de un enfoque de medidas repetidas.

Si su intención es realmente mejor, es decir, si el encuestado elige cara u objeto, podría utilizar el mismo enfoque analítico, pero tenga en cuenta que estaría interpretando la elección del encuestado, no la clasificación correcta/incorrecta. Para una tercera categoría de "ambos" necesitaría una regresión logística multinomial. Asumiré que está interesado en la clasificación correcta/incorrecta en lo que sigue.

Usted afirma: "Dado que cada participante se mide en las 3 condiciones de fondo, se trata de un diseño dependiente. Dado que, para una imagen individual, mantengo el ruido constante en las 3 condiciones de fondo, de alguna manera está emparejado o igualado." Las condiciones evaluadas, aunque limitadas en su valor o calidad, no están "condicionando" su análisis. El uso de fondo gris, imagen de cara con 45% de ruido es sólo un vector de covariables que se presentan cuando se registra una respuesta. Fondo gris, objeto, 45% de ruido es otro vector, mientras que blanco, cara, 10% de ruido es otro. La regresión le sugerirá si el fondo (codificado de forma ficticia), el ruido o las variables adicionales están asociadas a la respuesta correcta. La asociación entre la identificación correcta y el cambio de un valor cualquiera, manteniendo todos los demás valores constantes, es la interpretación de la regresión multivariable. Así, obtendrá una idea de la asociación entre el fondo O una diferencia de una unidad en el ruido O si se mostró una cara/objeto utilizando la regresión logística condicional.

Su modelo en R sería algo así como

install.packages("survival")
require("survival")
clogit(correct ~ background + noise + pic_type + strata(person), data)

Se podría considerar un modelo más complicado para cada cara u objeto específico entre las imágenes, pero se diluirá la capacidad de detectar el efecto deseado del fondo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X