9 votos

Correlación entre el continuo de datos y los datos del conteo

Supongamos que estamos tratando con este conjunto de datos $(X_i, N_i)$ donde $X_i$ es variable continua (por ejemplo Exponencial) y $N_i$ distribución discreta (por ejemplo Poisson) por $i=1,...,n$. Digamos que $\rho$ es la correlación entre el$X$$N$. Cómo puede alguien definir $\rho$?

14voto

Eric Czech Puntos 379

Yo diría que hay al menos 3 opciones decentes que tendría sentido para usted:

  1. Polyserial Correlación - Esta sería la más exótica de las 3 opciones y consiste en una aproximación de un latente, continua variable que se utiliza para construir la variable discreta ($N_i$ en su caso), así como una estimación de máxima verosimilitud procedimiento para la más probable es $\rho$ que podría resultar entre los que latente variable continua y el real, $X_i$, cuando se trata como bivariante muestras normales (ejemplo de implementación en R: polycor). Hay varias referencias a esta idea, pero este es el original de la publicación sobre el tema a partir de 1974: la Estimación de la Correlación Entre un Continuo y una Variable Discreta.
  2. No paramétrica de Correlación de - Coeficiente de Spearman es probable que una buena opción en este caso. El cálculo de la Rho de Spearman obras basadas en los rangos de los valores de cada variable, en lugar de los valores en sí, que hace que sea más ampliamente aplicable en la presencia de relaciones no lineales o mixtas de los tipos de datos.
  3. Modelado - yo sé que usted ha mencionado en los comentarios de que usted no está tratando de hacer cualquier tipo de modelado, pero todavía pienso que una estimación del parámetro o dos de un bien accesorio, de la relación funcional entre las dos variables es mucho más informativo que cualquier coeficiente de correlación vas a encontrar (a menos que la variable discreta fue realmente creado a partir de una media de una distribución normal bivariante de los valores, que yo había dudas).

Para responder a su pregunta de manera más directa, el cálculo de $\rho$, como de costumbre (suponiendo que significa que el coeficiente de correlación producto momento por que) probablemente tienen las propiedades que usted esperaría, o al menos lo haría grande como la dependencia lineal entre las variables crece. Sin embargo, un estadístico de prueba de significación de la correlación podría no ser válido como uno de los supuestos requeridos para este tipo de prueba es bivariante de la normalidad y que claramente no es verdadero si una de las variables discretas.

Pruebas de significación con un coeficiente de correlación no paramétrica (por ejemplo, Spearman) sería posible, aunque sería fácil encontrar bien documentado implementaciones de que en cualquier idioma.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X