4 votos

¿Por qué comprobar tanto la correlación como las diferencias entre grupos utilizando la misma variable?

Un artículo plantea cuatro preguntas de investigación que tratan de la medición del rasgo latente x una variable continua que se adquiere mediante el aprendizaje o la práctica, y la rapidez con la que se puede acceder al conocimiento o habilidad y utilizarlo en un grupo amplio de participantes ( $n=500$ ). Las dos primeras preguntas de investigación son:

  1. ¿Existe alguna diferencia en los tiempos de respuesta entre grupos con diferentes rasgo x ?
  2. ¿Cuál es la correlación entre los tiempos de respuesta y rasgo x ?

Los sujetos se asignan a los grupos mencionados en RQ1 post hoc en función de su rendimiento en la rasgo x prueba. Me parece que si existe una correlación entre tiempos de respuesta y rasgo x entonces se podría siempre encontrar una agrupación tal que haya una diferencia estadísticamente significativa entre los grupos.

Así que mis preguntas son:

  1. ¿Puede alguien explicarme por qué es necesario formular ambas preguntas?
  2. ¿Se trata de una falacia estadística fundamental o estoy siendo demasiado simplista?

editar

El rasgo podría ser cualquier rasgo latente medido psicométricamente, pero a menudo he visto que estas dos preguntas aparecen simultáneamente en diversos trabajos en los que se ha adquirido algo mediante el aprendizaje o la práctica, como en educación o lingüística aplicada. En este ejemplo, podría tratarse de algo trivial, como la capacidad de elegir correctamente el nombre de un personaje famoso en una fotografía a partir de una lista de nombres posibles.

Según tengo entendido, uno de los principales problemas de la primera pregunta es la discretización arbitraria de una variable continua (rasgo x ), lo que da lugar a una pérdida de información y a un posible sesgo debido a los límites/umbrales arbitrarios que se crean. ¿Es esto correcto? ¿Hay otros problemas?

ejemplo de la vida real

He dudado en dar un actual ejemplo porque entonces las respuestas suelen centrarse en lo concreto mientras que yo trataba de generalizar, pero aquí hay uno . Hay dos preguntas de investigación:

  1. ¿Cuál es el vocabulario de los jóvenes universitarios y cuál es su nivel de comprensión lectora?

  2. ¿Influyen los conocimientos de vocabulario y de contenidos de los estudiantes universitarios en su comprensión lectora?

El investigador administra pruebas de comprensión lectora, amplitud de vocabulario y conocimiento de contenidos. Ignorando el RQ1 de doble barril, hasta aquí todo bien. Pero aquí está la parte que no puedo entender (que es similar a mi pregunta más abstracta anterior): El análisis incluye:

un análisis de correlación

Variables               Vocabulary knowledge Content knowledge    
---------------------   -------------------- -----------------
Reading comprehension   .70**                .41**                
Vocabulary knowledge                         .22**                

**p < .01 (two-tailed)  

una comparación de grupos basada en los resultados de la prueba de tamaño de vocabulario

                   Reading comprehension      Content knowledge
                   Mean   SD    t        df   Mean   SD    t     df
-----------------  -------------------------  ----------------------
Above (n = 83)     20.34  6.18  12.25**  244  30.10  4.31  2.06  192
Below (n = 163)    11.23  5.15                28.82  5.12

**p  .01                            

y una regresión múltiple

Model        Sum of squares  df    Mean square  F       
----------   --------------  ----  -----------  --------
Regression   6719.39         2     154.91       154.91**
Residual     5270.35         243   21.67        
Total        11989.74        245 

Note. R2 = .56
**p < .01    

Simplemente no puedo entender cómo la segunda prueba (a t ) está incluso justificado porque los grupos se crean a partir de una variable que ya se ha demostrado que está correlacionada con las VD en el t pruebas. ¿No es una conclusión inevitable?

nota: Soy consciente de que el estudio no es especialmente bueno y que dada una regresión múltiple, tanto el t prueba y la correlación ni siquiera son relevantes aquí, sino que se trata simplemente de una ejemplo del fenómeno por el que pregunto en la pregunta. Es decir, si ya se ha establecido una correlación entre dos variables, ¿tiene sentido dividir arbitrariamente una de las variables en grupos y comprobar si hay diferencias entre los grupos? Veo variaciones sobre este tema con bastante frecuencia y no consigo entender por qué está justificado.

3voto

Zizzencs Puntos 1358

Si los grupos son realmente post-hoc y se basan en el nivel de x, entonces la primera prueba parece innecesaria y también parece violar los supuestos.

Pero la segunda prueba parece bien; he visto hacer este tipo de cosas muchas veces y parece intrínsecamente razonable

Sería útil que aportaras contexto: ¿Qué es x?

0voto

Eero Puntos 1612

La suya es una buena pregunta sobre la que conviene reflexionar. De entrada, no creo que sea necesario plantearse ambas preguntas, pero para ayudar a transmitir los resultados, ambas pueden ser útiles. Creo que una de las razones por las que se plantean ambas es la dificultad que tienen algunas personas (muchas o todas) para entender ciertos conceptos. Por ejemplo, en su ejemplo muestra una correlación de 0,22, que es estadísticamente significativa, pero ¿qué significa eso para una persona normal? y ¿en qué medida se vería influida por un único valor atípico? La tabla de comparación de medias me parece mucho más significativa. La diferencia en comprensión lectora es de unos 9 puntos cuando los individuos varían de las medias en unos 6 puntos de media (una interpretación muy laica de la desviación estándar), así que es una diferencia significativa. Por otro lado, sólo hay una diferencia de 1,3 puntos en el conocimiento de los contenidos cuando los individuos varían en más de 4 puntos debido al azar, lo que me indica que incluso si esa diferencia fuera estadísticamente significativa, no es una diferencia de importancia práctica. Creo que eso es mucho más fácil de interpretar para muchos (incluido yo) que el coeficiente de correlación. Otra cosa es si se debe indicar la significación, puesto que ya hemos indicado la significación de las correlaciones. Preferiría ver un intervalo de confianza sobre las diferencias junto con alguna medida o gráfico que muestre la variación de los datos brutos. En la otra dirección también podría encontrar ejemplos de correlaciones muy fuertes que representan una magnitud de cambio en la variable de interés tan pequeña que la mayoría de la gente no encontraría interesante.

También tienes razón en que si puedes elegir el punto de corte, entonces puedes influir en el tamaño de la diferencia, pero si un punto de corte a priori (incluso una media o mediana) puede mantener esto razonablemente objetivo para transmitir información.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X