14 votos

Buscando un pico estadísticamente significativo

Tengo un conjunto de datos, $y$ y $x$. Me gustaría probar la siguiente hipótesis: Hay un pico en $y$; es decir, a medida que $x$ aumenta, $y$ primero aumenta y luego disminuye.

Mi primera idea fue ajustar $x$ y $x^2$ en un SLR. Es decir, si encuentro que el coeficiente antes de $x$ es significativamente positivo y el coeficiente antes de $x^2$ es significativamente negativo, entonces tengo apoyo para la hipótesis. Sin embargo, esto solo verifica un tipo de relación (cuadrática) y puede que no capture necesariamente la existencia del pico.

Entonces pensé en encontrar $b$, tal región de (valores ordenados de) $x$, que $b$ esté entre $a$ y $c$, otras dos regiones de $x$ que contengan al menos tantos puntos como $b$, y que $\bar{y_b}>\bar{y_a}$ y $\bar{y_b}>\bar{y_c}$ significativamente. Si la hipótesis es verdadera, deberíamos esperar muchas regiones $b. Por lo tanto, si el número de $b$ es lo suficientemente grande, debería haber apoyo para la hipótesis.

¿Crees que estoy en el camino correcto para encontrar una prueba adecuada para mi hipótesis? ¿O estoy inventando la rueda y hay un método establecido para este problema? Apreciaré mucho tu opinión.

ACTUALIZACIÓN. Mi variable dependiente $y$ es un conteo (entero no negativo).

6voto

mat_geek Puntos 1367

Estaba pensando en la idea de suavizado también. Pero hay toda un área llamada metodología de superficie de respuesta que busca picos en datos ruidosos (principalmente involucra el uso de ajustes cuadráticos locales a los datos) y hubo un famoso artículo que recuerdo con "Búsqueda de picos" en el título. Aquí hay algunos enlaces a libros sobre la metodología de superficie de respuesta. Los libros de Ray Myer están particularmente bien escritos. Intentaré encontrar el artículo de búsqueda de picos.

Metodología de Superficie de Respuesta: Optimización de Procesos y Productos Utilizando Experimentos Diseñados

Metodología de Superficie de Respuesta y Temas Relacionados

Metodología de superficie de respuesta

Construcción de Modelos Empíricos y Superficies de Respuesta

Aunque no es el artículo que estaba buscando, aquí hay un artículo muy relevante de Jerry Friedman y Nick Fisher que trata sobre estas ideas aplicadas a datos de alta dimensionalidad.

Aquí hay un artículo con algunos comentarios en línea.

Así que espero que al menos aprecies mi respuesta. Creo que tus ideas son buenas y van por el camino correcto pero sí creo que podrías estar reinventando la rueda y espero que tú y otros revisen estas excelentes referencias.

3voto

mat_geek Puntos 1367

Aunque no has respondido a mi pregunta, si mi suposición es correcta, estás buscando una prueba de ruido blanco que, en el dominio de la frecuencia, muestre un espectro plano. Por lo tanto, se podría utilizar la prueba del periodograma de Fisher, que en esta referencia se llama kappa de Fisher. Ver enlace.

http://www4.stat.ncsu.edu/~dickey/Spain/pdf_Notes/Spectral2.pdf

También se menciona la prueba de Bartlett en la referencia. Ahora, rechazar la hipótesis nula significa encontrar un pico significativo en el periodograma. Esto significaría que existe un componente periódico en la serie temporal.

Debido a que la prueba está en el dominio de la frecuencia e implica ordenadas del periodograma, las ordenadas tienen una distribución chi cuadrado 2 bajo la hipótesis nula y son independientes. Esta distribución especial se da solo por la transformación al dominio de la frecuencia. Si x fuera tiempo, esto no funcionaría en el dominio del tiempo o, en general, la distribución de los ys no sería independiente chi cuadrado.

Pero toma el modelo y=constante independiente de x. Usa y$_m$, la media de los ys como la estimación de la constante. Entonces, probar la existencia de un pico significaría rechazar que los residuos formen una secuencia de ruido blanco.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X