Processing math: 100%

4 votos

¿Cuál es la forma más fácil de separar dos poblaciones en un diagrama de dispersión?

Tengo que separar dos poblaciones por una línea en un diagrama de dispersión:

Dot plot

Me gustaría encontrar un umbral que separa las dos poblaciones. En @Waynes palabras, me gustaría agrupar los puntos en dos categorías, a continuación, calcular la línea que mejor se separa de ellos. ¿Cuál es la forma más sencilla de lograr esto en R? He probado el algoritmo de Otsu en los datos brutos, pero no sé si este es lo suficientemente robusta como para otros conjuntos de datos.

Edit: no sé cuál es el punto pertenece a la población. Los datos no multivariante, solo tengo un X y un valor de Y, como se ve en el dotplot.

1voto

user41474 Puntos 11

Estoy seguro de que hay una solución mucho más simple para este problema, pero algo que funcionará es usar primero K-means con dos grupos. Una vez que sepa la membresía de clase de cada punto, ajuste un SVM.

1voto

p1100i Puntos 130

Estoy de acuerdo con la respuesta anterior, K-means es fácil y eficaz. Sin embargo, el algoritmo K-means simplemente le permite encontrar la estructura en los datos. No usaría los resultados como etiquetas para entrenar un algoritmo de aprendizaje supervisado, como un SVM. Las etiquetas como las que se usan para la capacitación implican una afirmación más fuerte del conocimiento categórico que los patrones estructurales simples.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X