11 votos

¿Cómo discutir un gráfico de dispersión con múltiples líneas emergentes?

Hemos medido dos variables y el gráfico de dispersión parece sugerir la existencia de múltiples modelos "lineales". ¿Hay alguna forma de intentar destilar esos modelos? Identificar otras variables independientes ha resultado difícil.

Scatterplot of the two variables

Ambas variables están fuertemente sesgadas a la izquierda (hacia los números pequeños), esto es una distribución esperada en nuestro dominio. La intensidad del punto representa la cantidad de puntos de datos (en un $\log_{10}$ escala) en este $<x,y>$ .

Alternativamente, ¿hay alguna forma de agrupar los puntos?

En nuestro ámbito, se afirma que estas dos variables se correlacionan linealmente. Intentamos entender/explicar por qué no es así en nuestros datos.

(nota, tenemos 17M de puntos de datos)

actualizar: gracias por todas las respuestas, aquí hay algunas aclaraciones solicitadas:

  • Ambas variables son sólo enteras, lo que explica algunos de los patrones en el gráfico de dispersión del logaritmo.
  • Por suerte, por definición el valor mínimo de ambas variables es 1.
  • 7M puntos están en $<3,1>$ ("explicado" por la asimetría izquierda de los datos)

Aquí están las parcelas solicitadas:

gráfico de dispersión log-log: Scatterplot in log log

(los espacios en blanco son causados por los valores enteros)

log-log polar: polar coordinates $\theta = y$

Histograma de la proporción: Histogram of ratio

La frecuencia está en una escala logarítmica, ya que la $1/3$ barra es de 7M puntos, y ocultaría las otras barras.

2 votos

¿Cómo se ve esta trama en coordenadas polares $(r,\theta)$ ? (Podría ser aconsejable tomar primero los logaritmos de $X$ y $Y$ (más, si es necesario, un pequeño desplazamiento inicial para evitar los ceros). Dado que todas las líneas parecen irradiar desde el origen, entonces es concebible -especialmente si el $\theta$ la variación alrededor de las líneas parece homocedástica, entonces todo lo que hay que hacer es agrupar los puntos en el $\theta$ dimensión.

0 votos

¿Existen ratios para obtener Y y X? ¿Están implicadas las variables que sólo toman valores discretos? ¿Qué aspecto tiene el gráfico log-log?

1 votos

@whuber & Glen_b He añadido parcelas con esas transformaciones.

7voto

Nick Cox Puntos 22819

Puede tener artefactos derivados de las restricciones de lo que es posible físicamente o de lo que se registra (en el más simple, sólo números enteros). Completamente anónimo $Y$ y $X$ no sugieren ninguna conjetura segura sobre cómo surge eso, pero parece que algunos $Y/X$ se ven favorecidos y, desde luego, yo miraría la distribución de esa proporción. Además, según mi experiencia, no es útil buscar modelos separados a menos que realmente se mezclen situaciones muy diferentes. (Para "físicamente" léase "biológicamente" o cualquier otro adverbio que tenga sentido).

Cuanto más miro esto, más supongo que líneas como $X/k$ o $kX$ son evidentes para los enteros $k$ porque los propios valores son enteros.

Un punto diferente, pero posiblemente relacionado, es que para mí estos datos piden a gritos transformaciones. Si todos son positivos, los logaritmos están indicados. Me temo que tienen ceros, en cuyo caso lo que hay que hacer está abierto a discusión. Por ejemplo, una línea en $Y = 0$ puede adivinarse a partir de su gráfico. Si hay ceros, algunos juran que $\log(Y + \text{constant})$ o raíz cúbica debería ayudar. Cualquier cosa que te ayude a ver los patrones más claramente es defendible.

Un punto de terminología: la asimetría en estadística se describe con referencia a la cola que está más estirada. Es libre de considerar esta terminología como retrógrada. En este caso, ambas variables están sesgadas hacia valores altos o positivamente o sesgadas hacia la derecha.

ACTUALIZACIÓN: Gracias por los gráficos adicionales, que son muy útiles. Casi todas las conjeturas parecen confirmadas. (El resultado final, por así decirlo, es $Y = 1$ no $Y = 0$ .) Las rayas son artefactos o efectos secundarios de utilizar números enteros, que bien pueden ser la única forma, o al menos la más práctica, de medir lo que se está midiendo (sobre lo que la pregunta sigue siendo discreta). Los gráficos log-log y otros exponen la discreción. Así que, a pesar de la discreción, la discreción se confirma. Hay modos pronunciados (picos en la distribución) para las relaciones 1/4, 1/2, 1/1 y 2/1.

Al igual que antes, no aconsejaría modelar las diferentes franjas de forma diferente sin una razón científica para distinguirlas o tratarlas por separado. Sólo hay que promediar lo que se tiene. (Puede haber métodos conocidos con este tipo de datos para suprimir la discreción. Si la gente en su campo mide rutinariamente millones de puntos para cada parcela, es difícil creer que esto no se haya visto antes).

La correlación debería ser ciertamente positiva. Aparte de una prueba de significación formal, que en este caso sería totalmente inútil, ya que las correlaciones mínimas se considerarán significativas con este tamaño de muestra, el hecho de que se declare fuerte es una cuestión de las expectativas y los estándares de su campo. Comparar su correlación cuantitativamente con los resultados de otros es una forma de hacerlo.

Detalle: La asimetría sigue describiéndose al revés, según la convención estadística. Estas variables están sesgadas a la derecha; esa jerga encaja al observar un histograma con eje de magnitudes horizontales y observar que la asimetría se denomina así por la cola más larga, no por la concentración con más valores.

0 votos

He añadido un gráfico log-log, y he intentado ser más preciso sobre la asimetría.

4voto

Bill Puntos 3605

La herramienta que quieres, creo, se llama regresión de conmutación. La idea es que hay varias líneas de regresión, y cada punto de datos se asigna a una de ellas. Por ejemplo, la ecuación de la primera línea de regresión sería: \begin{align} Y_i &= \alpha_1 + \beta_1X_i + \epsilon_i \end{align} La ecuación del $m^{th}$ la línea de regresión sería: \begin{align} Y_i &= \alpha_m + \beta_mX_i + \epsilon_i \end{align} En total, hay $M$ diferentes líneas de regresión, por ejemplo. Para cualquier punto de datos, sólo podemos ver una de las líneas de regresión. Por lo tanto, tiene que haber algún mecanismo para decidir qué línea de regresión vemos para cada punto. El mecanismo más sencillo es simplemente la distribución multinomial. Es decir, vemos la $m^{th}$ línea de regresión con probabilidad $p_m$ , donde $\sum_m p_m =1$ .

El modelo suele estimarse por máxima verosimilitud. Suponiendo que el $\epsilon$ se distribuyen $N(0,\sigma^2)$ la función de probabilidad que se maximizaría sería: \begin{align} L(\alpha,\beta,\sigma) = \sum_{m=1}^M p_m\frac{1}{\sigma}\phi\left(\frac{Y_i-\alpha_1-\beta_1X_i}{\sigma}\right) \end{align} La función $\phi$ es la densidad normal estándar. Esto se maximiza en el $3M+1$ con sujeción a las restricciones $\sum_m p_m=1,\; p_m\ge0$ . Este suele ser un problema de maximización un tanto molesto si se van a utilizar métodos cuasi-Newton para resolverlo. No se puede empezar todo el $\alpha$ y $\beta$ a cero y el $p_m$ en $\frac{1}{M}$ por ejemplo. Hay que dar valores iniciales distintos a los $\alpha$ y $\beta$ para que el algoritmo pueda "distinguirlos".

Hay varias maneras de hacer que esto sea más complicado si lo deseas. Tal vez usted tiene una variable $Z_i$ que cree que influye en $p_m$ es decir, lo que influye en la elección de la regresión. Pues bien, se puede utilizar una función logit multinomial para hacer $p_m$ sea una función de $Z_i$ : \begin{align} L(\alpha,\beta,\sigma) = \sum_{m=1}^M \left(\frac{exp(\delta_m+\gamma_mZ_i)}{\sum_{m'} exp(\delta_{m'}+\gamma_{m'}Z_i)}\right)\frac{1}{\sigma}\phi\left(\frac{Y_i-\alpha_1-\beta_1X_i}{\sigma}\right) \end{align}

Ahora hay $5M+1$ parámetros. En realidad, hay $5M-1$ porque se requiere una normalización en el $\delta, \gamma$ --- leer sobre el logit multinomial para una explicación.

Otra forma de hacerla más complicada es utilizar algún método para elegir $M$ el número de líneas de regresión. Soy bastante casual en este tipo de elección en mi propio trabajo, así que tal vez alguien más puede señalar la mejor manera de elegir.

2 votos

Este puede ser un modelo natural cuando hay unos cuantos regímenes diferentes y alguna justificación independiente de por qué existen. Aquí hay tantas franjas diagonales -y cabe suponer que serían más evidentes a escala logarítmica- que el problema de elegir $M$ es primordial para este enfoque, no incidental, como parece que se da a entender aquí.

2voto

He observado un comportamiento similar en algunos de mis conjuntos de datos. En mi caso, las líneas con múltiples diferencias se debían a un error de cuantificación en uno de mis algoritmos de procesamiento.

Es decir, miramos los gráficos de dispersión de los datos procesados, y el algoritmo de procesamiento tuvo algunos efectos de cuantificación, que causaron dependencias en los datos que se veían exactamente como usted tiene arriba.

La corrección de los efectos de cuantificación hizo que nuestro resultado se viera mucho más suave y menos aglomerado.

En cuanto a tu comentario de "correlación lineal". Lo que has presentado es insuficiente para determinar si estos datos están correlacionados linealmente o no. Es decir, en algunos campos, un coeficiente de correlación de > 0,7 se considera una fuerte correlación lineal. Dado que la mayoría de tus datos están cerca del origen, es bastante concebible que tus datos estén correlacionados linealmente en relación con lo que diría la "sabiduría convencional". La correlación dice muy poco sobre un conjunto de datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X