13 votos

¿Es un predictor con mayor varianza "mejor"?

Tengo una "estadística básica" concepto en cuestión. Como estudiante me gustaría saber si estoy pensando sobre esta totalmente equivocado y por qué, si es así:

Digamos que yo soy, hipotéticamente, tratando de ver la relación entre el "manejo de la ira" temas y dicen divorcio (sí/no) en una regresión logística y tengo la opción de usar dos diferentes de manejo de la ira puntuaciones, tanto de 100.
Puntuación 1 proviene del cuestionario de calificación del instrumento 1 y mi otra opción; puntuación de 2 viene de otro cuestionario. Hipotéticamente, tenemos razón para creer que a partir de un trabajo anterior que la ira de gestión de cuestiones dan lugar al divorcio.
Si, en mi muestra de 500 personas, la varianza de la puntuación 1 es mucho mayor que el de la puntuación de 2, ¿hay alguna razón para creer que la puntuación de 1 sería una mejor puntuación a utilizar como un predictor de divorcio basado en su variación?

Para mí, este instinto le parece derecho, pero es así?

11voto

Eric Davis Puntos 1542

Unos pocos puntos:

  • La varianza puede ser arbitrariamente aumentado o disminuido por la adopción de una escala diferente para la variable. La multiplicación de un escalar por una constante mayor que el que se podría aumentar la varianza, pero no cambio el poder predictivo de la variable.
  • Puede ser confuso varianza con fiabilidad. Todo lo demás siendo igual (y suponiendo que no hay, al menos, de la verdadera puntuación de predicción), el aumento de la fiabilidad con la que medir un constructo debe aumentar su poder predictivo. Echa un vistazo a este debate de la corrección de atenuación.
  • Suponiendo que ambas escalas se compone de veinte 5-punto de artículos, y por lo tanto tenía total de puntuaciones que van de 20 a 100, a continuación, la versión con la mayor variación también sería más fiable (al menos en términos de consistencia interna).
  • La consistencia interna fiabilidad no es la única norma para juzgar un test psicológico, y no es el único factor que distingue el poder predictivo de una escala en comparación con otro, para un determinado constructo.

9voto

jldugger Puntos 7490

Un ejemplo simple que nos ayuda a identificar lo que es esencial.

Vamos $$Y = C + \gamma X_1 + \varepsilon$$

donde $C$ $\gamma$ son parámetros, $X_1$ es la puntuación en el primer instrumento (o la variable independiente), y $\varepsilon$ representa imparcial iid error. Dejar el marcador en el segundo instrumento de estar relacionado con el primero a través de

$$X_1 = \alpha X_2 + \beta.$$

Por ejemplo, las puntuaciones en el segundo instrumento podría rango de 25 a 75 y las puntuaciones en la primera de 0 a 100, con $X_1 = 2 X_2 - 50$. La varianza de $X_1$ $\alpha^2$ veces la varianza de $X_2$. Sin embargo, podemos reescribir

$$Y = C + \gamma(\alpha X_2 + \beta) = (C + \beta \gamma) + (\gamma \alpha) X_2 + \varepsilon = C' + \gamma' X_2 + \varepsilon.$$

El cambio de parámetros, y la varianza de la variable independiente cambia, sin embargo, la capacidad de predicción del modelo se mantiene sin cambios.

En general, la relación entre el $X_1$ $X_2$ puede ser no lineal. Que es un mejor predictor de $Y$ dependerá de que tiene una estrecha relación lineal a $Y$. Por lo tanto el problema no es el de la escala (como se refleja en la variación de la $X_i$) pero tiene que ser decidido por las relaciones entre los instrumentos y lo que ellos están siendo usados para predecir. Esta idea está estrechamente relacionada con una explorado en una reciente pregunta acerca de la selección de las variables independientes de la regresión.

Puede haber factores atenuantes. Por ejemplo, si $X_1$ $X_2$ son variables discretas y ambos están igualmente relacionados con la $Y$, a continuación el de mayor varianza posible (si es suficientemente uniforme extendida) le permitirá un mejor distinciones entre sus valores y por lo tanto pagar más de precisión. E. g., si ambos instrumentos son los cuestionarios en una escala de Likert de 1-5, ambos son igualmente se correlacionan bien con $Y$, y las respuestas a las $X_1$ son todos de 2 y 3 y las respuestas a las $X_2$ se distribuye entre 1 a 5 $X_2$ podría ser favorecido en esta base.

1voto

Malachi Puntos 300

Siempre verifique los supuestos de la estadística de prueba que usted está usando!

Uno de los supuestos de la regresión logística es la independencia de los errores que significa que los casos de datos no deben estar relacionados. Por ejemplo. usted no puede medir las mismas personas en diferentes puntos en el tiempo, que me temo que has hecho con tu manejo de la ira en las encuestas.

Yo también estaría preocupado de que con 2 manejo de la ira encuestas, básicamente, la medición de la misma cosa y su análisis podría sufrir de multicolinealidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X