5 votos

¿Cuál es la mejor forma estadística de identificar el hueco de una parcela?

Por ejemplo, tengo el siguiente gráfico, en el que el eje Y son los valores y el eje X es el índice del punto de datos.

enter image description here

Hay claramente dos lagunas en esta trama, y me pregunto cuál es la mejor manera de identificar estas dos lagunas.

Espero que el método pueda basarse en la estadística sin métodos de aprendizaje automático con regularizadores, porque no tendré un conjunto de datos de desarrollo para ajustar el peso de un regularizador.

La única manera que encontré puede funcionar es calcular la media y la varianza de los primeros cincuenta valores (supongamos que hay al menos la mitad de los valores están en la primera familia), y probar si los siguientes puntos son cinco desviaciones estándar de esta media. Este método funciona muy bien para identificar la segunda familia, pero el problema es que, como no sé cuántos miembros habrá aproximadamente en la segunda familia, es difícil calcular la media y la varianza de la segunda familia. Además, el número cinco parece ser muy arbitrario. (Una elección no arbitraria podría ser 1,96, que corresponde al 5% de la masa gaussiana y el 5% es más o menos una elección estándar de las pruebas de hipótesis, pero 1,96 no funciona).

¿Hay alguna sugerencia sobre los métodos para identificar dicha brecha?

0voto

Ruvi Lecamwasam Puntos 235

Como ya estás en una solución después del comentario de @usεr11852 me limitaré a esbozar mi sugerencia en lugar de explicar una solución completa.

Esto es similar a su idea de comprobar si el siguiente punto del gráfico se encuentra dentro de 1,96 desviaciones estándar.

  • Comience por tomar los 3 primeros puntos de su gráfico y haga una regresión lineal para ellos
  • Calcule un intervalo de predicción del 95% para el valor de y dado el siguiente valor de x en el gráfico. Un intervalo de predicción del 95% para un x le indica el rango de valores en el que se esperan futuras observaciones (es decir, los puntos no utilizados en la regresión) Página 11 de estas diapositivas muestran la fórmula de un intervalo de predicción.
  • Si el siguiente punto está fuera del intervalo de predicción, probablemente no forme parte de la línea, si está dentro del intervalo de predicción, repita la regresión con este punto incluido y haga el intervalo de predicción para el siguiente punto
  • Una vez que se encuentra un punto que no está en el intervalo de predicción, entonces es donde comienza la brecha

Un punto sutil es que esta prueba repetida con el intervalo de predicción no le está dando realmente un 95% de certeza para el punto donde comienza la brecha. Dado que está probando repetidamente con un intervalo del 95%, debería finalmente encontrar que un punto es estadísticamente significativo aunque sea una casualidad.

Para superar esto, debe ajustar la significación en función del número de puntos que ya ha probado. Si ya ha comparado el intervalo de predicción con n puntos y quiere una significación del 5%, entonces utilice una significación ajustada de 1(10.05)11+n . Esto viene de la Corrección de Sidak

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X