4 votos

¿Qué son las medidas de similitud entre una línea y un conjunto de puntos?

Un colega habló de un concepto de similitud entre dos entidades diferentes línea y un conjunto de puntos . Mi primera conjetura para la solución fue considerar las distancias al cuadrado ( $d^2$ ) como en LS. Así, para la siguiente demostración en la que la línea negra se ajusta mediante el método de mínimos cuadrados es más parecida a los puntos (y viceversa) en comparación con la línea naranja.

  • ¿Qué opina de este método?
  • ¿Alguna respuesta más rígida y estadísticamente madura para la pregunta?

enter image description here

4voto

UK Visa Works Puntos 29

Gran pregunta. Tu intuición era buena. Efectivamente, existe una fuerte relación entre los métodos de regresión lineal y las métricas para medir la similitud entre una línea y un conjunto de puntos.

La correspondencia entre la regresión lineal y las métricas de similitud. Esta es la relación. Dejemos que $d(\ell,S)$ sea una métrica de similitud que mida la similitud entre una línea $\ell$ y un conjunto $S$ de puntos. Entonces, la regresión lineal es básicamente el siguiente problema: dado un conjunto $S$ de puntos, encontrar la línea $\ell$ que minimiza $d(\ell,S)$ . En consecuencia, cada métrica de similitud diferente da lugar a un tipo diferente de regresión lineal. Y, a su vez, de cualquier tipo de regresión lineal, se puede extraer una métrica de similitud correspondiente que el método de regresión está minimizando.

Notación: si $\ell$ es una línea, escribiré $\ell(x)$ para el $y$ -en el lineal correspondiente a $x$ . En otras palabras, trataré $\ell$ en función de $x$ .

Ejemplo 1. La regresión por mínimos cuadrados ordinarios corresponde a la medida de distancia que mencionas: a saber, $d(\ell,S) = \sum_{(x,y) \in S} (\ell(x) - y)^2$ . Así, para cada punto de $S$ consideramos la distancia vertical del punto a la línea $\ell$ y la suma de estos residuos al cuadrado. Pictóricamente, estamos sumando los cuadrados de las longitudes de las líneas naranjas en esta imagen:

OLS

Ejemplo 2. Si se hiciera una regresión por mínimos cuadrados ordinarios, pero con el papel de $x$ y $y$ intercambiados, entonces eso correspondería a una métrica de similitud ligeramente diferente: a saber, $d(\ell,S) = \sum_{(x,y) \in S} (\ell^{-1}(y) - x)^2$ . Esto corresponde a tomar la distancia horizontal de cada punto a la línea $\ell$ y sumando estas distancias al cuadrado. Estamos sumando las longitudes al cuadrado las líneas naranjas en esta imagen:

OLS, with coordinates swapped

Ejemplo 3. Si se hiciera un análisis de componentes principales (PCA) (también conocido como regresión ortogonal o mínimos cuadrados totales (TLS)), eso correspondería a una medida de distancia ligeramente diferente, a saber, la distancia ortogonal de cada punto a la línea $\ell$ al cuadrado y sumado. Ahora estamos sumando las longitudes al cuadrado de las líneas orangulares de esta imagen:

PCA

Resumen hasta ahora. Hay muchas métricas de similitud posibles. La que elijas dependerá de la naturaleza de tu aplicación y de tu modelo de datos.

Cómo elegir una métrica de similitud. De acuerdo, hay muchas métricas de similitud posibles. ¿Cómo elegir cuál utilizar? Como ya se ha sugerido, para responder a esta pregunta, tendrá que tener algún modelo o hipótesis sobre cómo se generaron sus datos.

Los mínimos cuadrados ordinarios parten del siguiente modelo: suponen que, para cada punto $(x_i,y_i)$ , $y_i$ se generó como una función probabilística (estocástica) de $x_i$ . Supone que el proceso fue algo así: hay alguna línea $\ell$ (que no conocemos a priori), y dada la entrada $x_i$ primero calculamos $\ell(x_i)$ (el $y$ -en la línea correspondiente a $x_i$ ), entonces generamos aleatoriamente algún valor de ruido/error $e_i$ de una distribución normal con media 0 y desviación estándar $\sigma$ (donde $\sigma$ no se conoce a priori), y luego fijamos $y_i = \ell(x_i) + e_i$ . Dado que cada $e_i$ se supone que es gaussiana iid, una medida razonable de la cercanía de una línea hipotética $\ell'$ se ajusta a este modelo es tomar la suma de los cuadrados de las $e_i$ valores. Para la línea correcta $\ell$ Tendremos $d(\ell, S) = \sum_i e_i^2$ que tiene la expectativa $n \sigma^2$ . Para una línea incorrecta $\ell'$ Tendremos $d(\ell', S) = \sum_i (e_i \pm \ell'(x_i)-\ell(x_i))^2$ que tiene expectativa $n \sigma^2 + \sum_i (\ell'(x_i)-\ell(x_i))^2$ que se puede notar que es más grande que la expectativa para $d(\ell, S)$ . En otras palabras, partiendo de un modelo estocástico concreto sobre cómo se generaron los datos, OLS utiliza una medida de distancia concreta que se adapta bien a la comprobación del grado de ajuste de los datos observados al modelo supuesto.

Por supuesto, este no es el único modelo plausible de cómo sus puntos podrían haberse generado aleatoriamente (en función de la línea $\ell$ ). Dado un proceso diferente, podríamos acabar con una métrica de similitud diferente.

Pruebas de hipótesis. Por último, permíteme mencionar un tema más que no has sacado a colación, pero que podrías haberlo hecho. Digamos que tienes un modelo estocástico de cómo se generaron aleatoriamente tus puntos. Digamos que la línea $\ell$ es el parámetro de este proceso aleatorio. Entonces otra pregunta interesante que podríamos hacer es: dado el conjunto de puntos observados $S$ , probar la hipótesis de que los puntos $S$ provienen del mencionado proceso aleatorio, utilizando la línea $\ell$ como parámetro. Se podría elaborar una forma de calcular un $p$ -valor de la probabilidad de que $S$ se generaron de acuerdo con esa distribución. Si el $p$ -es muy pequeño, se podría rechazar la hipótesis de que los puntos se generaron a partir de este proceso aleatorio particular con parámetro $\ell$ (a grandes rasgos, esto equivaldría a decir que los puntos $S$ no parecen corresponder a la línea $\ell$ ). Si el $p$ -no es demasiado pequeño, se puede proceder como si la hipótesis fuera potencialmente verdadera (a grandes rasgos, esto equivaldría a decir que los puntos $S$ son consistentes con la hipótesis de que provienen de su modelo aleatorio con línea $\ell$ ). Así pues, las pruebas de hipótesis podrían ser otra forma de, a grandes rasgos, medir si los puntos parecen ser consistentes con alguna línea en particular.

Créditos. Agradezco a @JD Long por estas excelentes fotos. Ver también su respuesta explicando las diferentes formas de regresión para obtener más información.

1voto

philrabin Puntos 384

Primero hay que determinar la similitud exacta por sí o por no. Una recta es un conjunto de puntos, este conjunto de puntos en una recta es un conjunto infinito. Habría un conjunto nulo de puntos que sería similar a toda línea factible. También habría un conjunto de puntos que sólo tiene un punto, y sería similar a un conjunto infinito de líneas que pasan por él, todas con pendientes variadas. Una vez que el conjunto de puntos contiene dos puntos, ahora está limitado a una línea específica, ya que dos puntos cualesquiera forman una línea, y serán exactamente similares sólo a esta línea. Si hay más puntos que dos, el caso es que los puntos son similares a una línea específica. Esto indicaría que los puntos están todos contenidos en la línea o no. Una vez que se haya aclarado que el conjunto es o no es exactamente similar a una línea o líneas, se podría determinar la disimilitud del conjunto de puntos con una línea. Sin embargo, de qué línea estarías hablando. Tu método de mínimos cuadrados determinaría la línea de la que es más similar, pero este conjunto seguiría teniendo una similitud o disimilitud con todas las demás líneas. También habría un número infinito de conjuntos distintos de puntos que serían igual de similares a esa misma línea. Dado un marco como éste, se podría utilizar para determinar la similitud de un conjunto de puntos con una recta utilizando la suya o cualquier otra distancia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X