Un artículo plantea cuatro preguntas de investigación que tratan de la medición del rasgo latente x una variable continua que se adquiere mediante el aprendizaje o la práctica, y la rapidez con la que se puede acceder al conocimiento o habilidad y utilizarlo en un grupo amplio de participantes ( $n=500$ ). Las dos primeras preguntas de investigación son:
- ¿Existe alguna diferencia en los tiempos de respuesta entre grupos con diferentes rasgo x ?
- ¿Cuál es la correlación entre los tiempos de respuesta y rasgo x ?
Los sujetos se asignan a los grupos mencionados en RQ1 post hoc en función de su rendimiento en la rasgo x prueba. Me parece que si existe una correlación entre tiempos de respuesta y rasgo x entonces se podría siempre encontrar una agrupación tal que haya una diferencia estadísticamente significativa entre los grupos.
Así que mis preguntas son:
- ¿Puede alguien explicarme por qué es necesario formular ambas preguntas?
- ¿Se trata de una falacia estadística fundamental o estoy siendo demasiado simplista?
editar
El rasgo podría ser cualquier rasgo latente medido psicométricamente, pero a menudo he visto que estas dos preguntas aparecen simultáneamente en diversos trabajos en los que se ha adquirido algo mediante el aprendizaje o la práctica, como en educación o lingüística aplicada. En este ejemplo, podría tratarse de algo trivial, como la capacidad de elegir correctamente el nombre de un personaje famoso en una fotografía a partir de una lista de nombres posibles.
Según tengo entendido, uno de los principales problemas de la primera pregunta es la discretización arbitraria de una variable continua (rasgo x ), lo que da lugar a una pérdida de información y a un posible sesgo debido a los límites/umbrales arbitrarios que se crean. ¿Es esto correcto? ¿Hay otros problemas?
ejemplo de la vida real
He dudado en dar un actual ejemplo porque entonces las respuestas suelen centrarse en lo concreto mientras que yo trataba de generalizar, pero aquí hay uno . Hay dos preguntas de investigación:
-
¿Cuál es el vocabulario de los jóvenes universitarios y cuál es su nivel de comprensión lectora?
-
¿Influyen los conocimientos de vocabulario y de contenidos de los estudiantes universitarios en su comprensión lectora?
El investigador administra pruebas de comprensión lectora, amplitud de vocabulario y conocimiento de contenidos. Ignorando el RQ1 de doble barril, hasta aquí todo bien. Pero aquí está la parte que no puedo entender (que es similar a mi pregunta más abstracta anterior): El análisis incluye:
un análisis de correlación
Variables Vocabulary knowledge Content knowledge
--------------------- -------------------- -----------------
Reading comprehension .70** .41**
Vocabulary knowledge .22**
**p < .01 (two-tailed)
una comparación de grupos basada en los resultados de la prueba de tamaño de vocabulario
Reading comprehension Content knowledge
Mean SD t df Mean SD t df
----------------- ------------------------- ----------------------
Above (n = 83) 20.34 6.18 12.25** 244 30.10 4.31 2.06 192
Below (n = 163) 11.23 5.15 28.82 5.12
**p .01
y una regresión múltiple
Model Sum of squares df Mean square F
---------- -------------- ---- ----------- --------
Regression 6719.39 2 154.91 154.91**
Residual 5270.35 243 21.67
Total 11989.74 245
Note. R2 = .56
**p < .01
Simplemente no puedo entender cómo la segunda prueba (a t ) está incluso justificado porque los grupos se crean a partir de una variable que ya se ha demostrado que está correlacionada con las VD en el t pruebas. ¿No es una conclusión inevitable?
nota: Soy consciente de que el estudio no es especialmente bueno y que dada una regresión múltiple, tanto el t prueba y la correlación ni siquiera son relevantes aquí, sino que se trata simplemente de una ejemplo del fenómeno por el que pregunto en la pregunta. Es decir, si ya se ha establecido una correlación entre dos variables, ¿tiene sentido dividir arbitrariamente una de las variables en grupos y comprobar si hay diferencias entre los grupos? Veo variaciones sobre este tema con bastante frecuencia y no consigo entender por qué está justificado.