5 votos

¿Cómo analizar estos datos?

Estoy llevando a cabo un experimento que investiga la precisión de las alineaciones y la confianza de los testigos.

Resumiendo: queremos saber cuál es el patrón de falsos positivos, aciertos y fallos en una tarea de alineación bajo diferentes condiciones de alineación y cómo puede variar la confianza con/independientemente de la precisión. Lógicamente, la confianza de los testigos también puede verse afectada por las diferentes condiciones, y también nos gustaría saberlo.

Las variables entre sujetos son: Género (hombre, mujer), etnia (asiática, caucásica), y tipo de rueda de reconocimiento (secuencial- donde las personas ven a cada miembro de la rueda de reconocimiento uno a la vez y toman una decisión sobre cada uno, y simultánea- donde las personas ven a todos los miembros de la rueda de reconocimiento y toman una decisión sobre si ven al agresor o no).

Las variables intra-sujetos son: Tipo de foto (la misma foto frente a otra diferente de la persona), etnia de la alineación (alineaciones asiáticas frente a caucásicas), confianza (5 niveles de una escala de Likert desde 1 "nada de confianza" hasta 5 "extremadamente de confianza")

La variable dependiente es la precisión en términos de aciertos, fallos y falsos positivos (estos podrían codificarse como 0 o 1 ) y el reconocimiento correcto (aciertos-falsos positivos)

Uno de los problemas es que queremos conocer la relación entre la confianza y la precisión, lo que requeriría que la confianza sea una variable independiente, sin embargo, también queremos saber si las otras variables podrían afectar a la confianza (como la etnia o el tipo de alineación), así que estoy teniendo problemas para averiguar la mejor manera de analizar estos datos.

¿Alguien tiene alguna respuesta para mí? Alguien sugirió tal vez una regresión logística, pero no estaba muy seguro. No estoy acostumbrado a tratar con datos categóricos, así que necesito ayuda.

0 votos

¿podría ser explícito sobre la distinción entre "fallo" y "falso positivo"?

1voto

doug r Puntos 11

Si sólo tiene dos resultados posibles, debe utilizar una regresión logística. De su pregunta deduzco que tiene más de 2 resultados posibles, por lo que debería utilizar un modelo logit multinomial. Es básicamente lo mismo que un logístico (binomial) pero con más resultados. Todos estos son ejemplos de modelos lineales generalizados este libro tiene una cobertura práctica de los GLMs así como de los árboles de clasificación/regresión. Hice un ejemplo de ajuste de una regresión logística en una respuesta a esta pregunta , es posible que quieras comprobarlo.

Un árbol de clasificación también tiene sentido en este caso si no se cree que la interacción entre los factores es demasiado compleja y significativa.

Aquí hay un código de ejemplo de cómo se ajustaría una multinomial en R (en este código ninguno de los factores será relevante porque los asigné al azar pero con sus datos reales podrían serlo):

gender= c("male", "female")
ethnicity= c("asian", "caucasian")
lineupType = c("A","B")
outcomes = c("FALSE POS","TRUE POS","MISS")
genderObs = sample(gender,400,replace=T)
ethnicityObs = sample(ethnicity,400,replace=T)
lineupTypeObs = sample(lineupType,400,replace=T)
outcomesObs = sample(outcomes,400,replace=T)
library(nnet)
mmodF = multinom(outcomesObs ~ (genderObs + ethnicityObs + lineupTypeObs)^2) # full model with inter
mmod = multinom(outcomesObs ~ genderObs + ethnicityObs + lineupTypeObs)  # only the factors no interaction
mmodW = step(mmodF) # remove noise factors (here it will just be a fixed probability)
predict(mmod,data.frame(genderObs = "female", ethnicityObs = "asian", lineupTypeObs = "B"))
predict(mmod,data.frame(genderObs = "male", ethnicityObs = "asian", lineupTypeObs = "B"))
predict(mmod,data.frame(genderObs = "male", ethnicityObs = "caucasian", lineupTypeObs = "A"))
predict(mmodF,data.frame(genderObs = "female", ethnicityObs = "asian", lineupTypeObs = "B"))
predict(mmodW,data.frame(genderObs = "female", ethnicityObs = "asian", lineupTypeObs = "B"))

Aquí hay un árbol de clasificación en R (sobre los mismos datos):

library(rpart)
ct = rpart(outcomesObs ~ genderObs + ethnicityObs + lineupTypeObs)
pct = prune(ct, cp=0.05) # pruned tree
predict(ct,data.frame(genderObs = "female", ethnicityObs = "asian", lineupTypeObs = "B"))
predict(pct,data.frame(genderObs = "female", ethnicityObs = "asian", lineupTypeObs = "B"))

1voto

AdamSane Puntos 1825

La relación entre la confianza y la precisión podría investigarse potencialmente considerándolas como una respuesta multivariante; es decir, se podría analizar la correlación condicional entre ambas, condicionada a algún conjunto de predictores.

La dificultad estriba en que la precisión es una proporción, mientras que la confianza es un elemento de la escala Likert, lo que dificulta el análisis multivariante habitual. Podría ser posible tratar el ítem Likert como un logit multinomial y tratar con alguna binomial multivariante relacionando aquellos con la variable de precisión.

Otra posibilidad podría ser buscar modelos del tipo de mínimos cuadrados parciales (pero de nuevo, aunque se trate el ítem Likert como intervalo, existe el problema de la precisión binomial); otra posibilidad es algún modelo gráfico bayesiano.

0voto

Denis R. Puntos 511

Sí, la regresión logística funcionaría, pero también los árboles de clasificación. No creo que haya que preocuparse por los falsos positivos. Parece que la "matriz de confusión" que produce el modelo le dirá lo que está buscando en términos de falsos positivos y falsos negativos

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X