Puede tener artefactos derivados de las restricciones de lo que es posible físicamente o de lo que se registra (en el más simple, sólo números enteros). Completamente anónimo $Y$ y $X$ no sugieren ninguna conjetura segura sobre cómo surge eso, pero parece que algunos $Y/X$ se ven favorecidos y, desde luego, yo miraría la distribución de esa proporción. Además, según mi experiencia, no es útil buscar modelos separados a menos que realmente se mezclen situaciones muy diferentes. (Para "físicamente" léase "biológicamente" o cualquier otro adverbio que tenga sentido).
Cuanto más miro esto, más supongo que líneas como $X/k$ o $kX$ son evidentes para los enteros $k$ porque los propios valores son enteros.
Un punto diferente, pero posiblemente relacionado, es que para mí estos datos piden a gritos transformaciones. Si todos son positivos, los logaritmos están indicados. Me temo que tienen ceros, en cuyo caso lo que hay que hacer está abierto a discusión. Por ejemplo, una línea en $Y = 0$ puede adivinarse a partir de su gráfico. Si hay ceros, algunos juran que $\log(Y + \text{constant})$ o raíz cúbica debería ayudar. Cualquier cosa que te ayude a ver los patrones más claramente es defendible.
Un punto de terminología: la asimetría en estadística se describe con referencia a la cola que está más estirada. Es libre de considerar esta terminología como retrógrada. En este caso, ambas variables están sesgadas hacia valores altos o positivamente o sesgadas hacia la derecha.
ACTUALIZACIÓN: Gracias por los gráficos adicionales, que son muy útiles. Casi todas las conjeturas parecen confirmadas. (El resultado final, por así decirlo, es $Y = 1$ no $Y = 0$ .) Las rayas son artefactos o efectos secundarios de utilizar números enteros, que bien pueden ser la única forma, o al menos la más práctica, de medir lo que se está midiendo (sobre lo que la pregunta sigue siendo discreta). Los gráficos log-log y otros exponen la discreción. Así que, a pesar de la discreción, la discreción se confirma. Hay modos pronunciados (picos en la distribución) para las relaciones 1/4, 1/2, 1/1 y 2/1.
Al igual que antes, no aconsejaría modelar las diferentes franjas de forma diferente sin una razón científica para distinguirlas o tratarlas por separado. Sólo hay que promediar lo que se tiene. (Puede haber métodos conocidos con este tipo de datos para suprimir la discreción. Si la gente en su campo mide rutinariamente millones de puntos para cada parcela, es difícil creer que esto no se haya visto antes).
La correlación debería ser ciertamente positiva. Aparte de una prueba de significación formal, que en este caso sería totalmente inútil, ya que las correlaciones mínimas se considerarán significativas con este tamaño de muestra, el hecho de que se declare fuerte es una cuestión de las expectativas y los estándares de su campo. Comparar su correlación cuantitativamente con los resultados de otros es una forma de hacerlo.
Detalle: La asimetría sigue describiéndose al revés, según la convención estadística. Estas variables están sesgadas a la derecha; esa jerga encaja al observar un histograma con eje de magnitudes horizontales y observar que la asimetría se denomina así por la cola más larga, no por la concentración con más valores.
2 votos
¿Cómo se ve esta trama en coordenadas polares $(r,\theta)$ ? (Podría ser aconsejable tomar primero los logaritmos de $X$ y $Y$ (más, si es necesario, un pequeño desplazamiento inicial para evitar los ceros). Dado que todas las líneas parecen irradiar desde el origen, entonces es concebible -especialmente si el $\theta$ la variación alrededor de las líneas parece homocedástica, entonces todo lo que hay que hacer es agrupar los puntos en el $\theta$ dimensión.
0 votos
¿Existen ratios para obtener Y y X? ¿Están implicadas las variables que sólo toman valores discretos? ¿Qué aspecto tiene el gráfico log-log?
1 votos
@whuber & Glen_b He añadido parcelas con esas transformaciones.
0 votos
Gracias, Davy. Debería haber sido más claro sobre el punto de usar coordenadas polares: al trazar $r$ en un horizontal eje y $\theta$ en un vertical cualquier línea radial en el gráfico original aparecerá como líneas perfectamente horizontales. No sólo pueden detectarse fácilmente de forma visual (nuestros ojos tienen un procesamiento incorporado para reconocer los rasgos lineales horizontales), sino que, una vez detectadas, pueden procesarse con un análisis de conglomerados basado únicamente en $\theta$ . Su gráfico "log-log polar", al aplicar transformaciones no lineales a las coordenadas (especialmente $\theta$ ), destruye estas bonitas propiedades.
0 votos
@whuber He actualizado el gráfico, poner el theta en la y, es esto las líneas que usted quiere decir?
0 votos
Me temo que no. Para cada $(x,y)$ en su conjunto de datos, calcule $r=\sqrt{x^2+y^2}$ y $\theta=\arctan(y/x)$ (estas son las coordenadas polares), luego haga un gráfico de dispersión de la $(r,\theta)$ pares. Busque horizontal líneas en ese gráfico de dispersión y estudiar el vertical variación a su alrededor. Puede ayudar a trazar $r$ en una escala logarítmica, pero los logaritmos de $\theta$ no tendría sentido. Sin embargo, $\tan(\theta)$ (las pendientes originales $y/x$ ) podría valer la pena trazar en lugar de $\theta$ o incluso $\log\tan(\theta)=\log(y/x)=\log(y)-\log(x)$ .
0 votos
Por si sirve de algo: Me imagino que el pico de 0,3 está realmente en 1/3 y todos los picos relativos están en tales proporciones: 1/1, 1/2, 2/1, 1/3, 2/3, 3/2, ...