7 votos

Las Variables de la falta de correlación, pero han patrón

A continuación la gráfica de dos variables, X e y, cada uno en representación de los datos de recuento. N=348. Nota: las escalas de los ejes:
http://i.imgur.com/tNGyTX5.jpg

Y es muy aproximadamente logarítmica normal, pero X no tiene buenas ajuste (incluyendo la de Poisson, binomial negativa, logarítmico-normal y gamma de la sesión de transformación).
Coeficiente de Spearman entre X y y es cercano a 0, y p-valor para rechazar ninguna correlación es muy alta.

De la trama, parece ser que no hay combinaciones de los valores extremos de x e y.

Al iniciar la transformación de X y de y, el siguiente gráco resultados:
enter image description here
Claramente la aparición de cualquier patrón ha desaparecido.

Mis preguntas son:

  • ¿Por qué hay una falta de combinaciones de "extrema" de los valores en la escala lineal, pero no en la escala logarítmica?
  • ¿Hay algún significado a la falta de combinación de los valores extremos en la escala lineal, y es de todos modos hay que investigar más?

El propósito de este estudio es exploratorio.

2voto

AdamSane Puntos 1825

Considere la posibilidad de voltear a sus preguntas alrededor.

Comenzar con la no correlación de datos generadas por este tipo de datos al azar, por lo que estas variables son independientes; mi y es normal y mi x es log(1+X1) donde X1 es una mezcla de varias distribuciones geométricas elegido para dar una más o menos similar en apariencia a su parcela:

enter image description here

El eje de la variable es simétrica y la x de la variable es ligeramente sesgado, pero fundamentalmente, ninguna de estas variables es muy larga cola.

Usted, a continuación, obtener muchos casos relativamente grandes valores de X y y juntos, porque la probabilidad de que, o bien está por encima de su rango medio (el centro de la trama) es alta, por lo que la probabilidad de que ambos serán también es razonablemente alto (por ejemplo, en algún lugar alrededor de 0.15-0.25), el producto en este caso de 0,5 para el eje de la variable y algo un poco menos de 0,5 para el x-variable.

¿Qué sucede si usted exponentiate dos variables, que son simplemente independiente, bajito-cola variables:

enter image description here

Se puede conseguir algo muy similar a su primera parcela. Esto hace que ambas variables - aunque todavía independientes - fuertemente derecho skew (larga cola a la derecha), ... y que es donde la apariencia viene.

¿Por qué aspecto tiene forma de "L"? Simplemente debido a que los altos valores de las variables X e y son relativamente raras, y la combinación de los dos (debido a su independencia) aún más raros. Porque para cada variable, casi todos los demás de la variable valores están muy por debajo de sus medios, a un extremo de X o Y es probable que esté asociado con los valores de la otra variable de abajo/izquierda de la media de la parcela.

por ejemplo, si el 5% de cada distribución está por encima de la gama media, luego de alrededor de 0,25% de los valores (es decir, no se muy bien 1 en promedio) estará en el cuadrante superior derecho.

Que ver casi el mismo fenómeno con cualquiera de los dos lo suficientemente derecho desfase variables que son independientes, y en muchos de los que están cerca de independiente. Aquí son dos variables aleatorias independientes (los valores absolutos de t-distribuido variables aleatorias con 1.5 d.f. y escalas diferentes):

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X