5 votos

¿utilizar la desviación estándar como predictor?

Mi pregunta es simple: ¿es estadísticamente válido usar la desviación estándar de un grupo de puntos de datos (X) como un predictor de Y?

Estoy tratando con los datos que se parece a esto:

enter image description here

Bueno, en algún momento en los valores de X, la respuesta sólo alcanza un asintótica en la media, pero la varianza de los valores de medición se mantiene en aumento. Para cada valor de Y, tengo varios experimentos darme una docena de puntos.

Así, la idea de incluir en el modelo de la desviación estándar como variable explicativa:

y ~ X + sd(X)

Yo incluso obtener un mejor modelo con una sola variable se calcula como el producto del valor de X por la desviación estándar de la pertenencia de grupo de puntos.

Es correcto esto? Puedo llamar a este un modelo lineal? Qué hipótesis debería comprobar ahora? Gracias

EDIT: (después de hablar con Mateo) puedo añadir una precisión para mi estudio: Cuando me toman una serie de medidas, no sé de antemano lo que el Y sería. Sin embargo, sé que por diseño, que se supone tienen el mismo valor de Y, porque vienen de la misma "hornada"

4voto

eldering Puntos 3814

Va por su imagen, esto se parece a lo que usted propone es para estratificar los datos en capas, dependiendo del valor de $Y$, calcule la desviación estándar de $X$ en cada capa, a continuación, utilizar ese calculada de grupo desviación estándar como un predictor.

Esto filtra el verdadero valor de $Y$ en sus predictores. Por supuesto, su modelo es más preciso, has esencialmente permite a memorizar el valor de $Y$ dándole un diccionario cuyas "palabras" $\sigma(X)$ y cuya "definiciones" se $Y$.

Considere lo que sucede si se le da un nuevo conjunto de datos con los valores de $X$, y de la que desea hacer una predicción de la $Y$. ¿Cómo vas a usar tu nuevo $\sigma(X)$ predictor en esta situación? Usted necesita saber $Y$ a estratificar $X$ y calcular el $\sigma(X)$ para cada grupo!

Ahora, si usted puede definir los grupos sin referencia a $Y$, eso es una cosa diferente.

ok, lo que no entiendo todavía es la "fuga de el valor de Y en su predictores" porque al final cada modelo utiliza los valores de Y para calcular sus coeficientes, así que ¿cuál es la diferencia?

Usted está completamente correcta, todas las regresiones de uso de los valores de $Y$, para calcular sus coeficientes. La escritura de las dependencias en detalle, esto se parece a

$$ Y = \beta_0(X, Y) + \beta_1(X, Y) X_1 + \cdots + \beta_n(X, Y) X_N $$

cada coeficiente es función de la $Y$ (más precisamente, los valores de $Y$ en los datos de entrenamiento), pero cada predictor no es. En su caso, se crea un predictor que es una función de ambos $X$ $Y$ . Esto es lo que quiero decir por "filtraciones" el verdadero valor de Y en su predictores".

Pero vamos a suponer que mi método no es válido. Sin embargo me da los errores más pequeños en una cruz procedimiento de validación para la predicción.

Sí, no es de extrañar que su validación cruzada de error es menor. Por desgracia, la aplicación de la validación cruzada es incorrecta. El procedimiento correcto sería este

  • Dividen los datos en en el pliegue y fuera del pliegue de pares.
  • Para cada par, calcular sus características utilizando únicamente el pliegue de datos.
  • Hacer predicciones sobre el pliegue de datos utilizando sólo los valores de $X$o características que son funciones de $X$.
  • Promedio de la salida de las veces las tasas de error de estas predicciones.

El procedimiento viola la segunda y tercera viñeta puntos. Yo recomiendo echar un vistazo a la sección del Capítulo 7 en Los Elementos de Aprendizaje Estadístico titulado El Mal y la Manera Correcta de Hacer la validación Cruzada.

mi stat profesor nos decía que "si se puede crear un predictor de lo que es mejor, no es necesario para explicar a la gente cómo se creó"

No quiero contradecir a su maestro sin contexto completo, pero como se ha dicho, que es dudosa asesoramiento.

3voto

Nulled Puntos 101

Entendí agenis decir que, en la creación de la std dev, él quería que la base de bucketed los valores de X, no Y valores. Si se estaban preguntando acerca de la creación de depósitos de los valores de Y, a continuación, Mateo Drury sería correcto que esta sería "la fuga" Y en los predictores. Además, agenis no ha dicho si existe o no una dimensión temporal a la información. Todos estamos suponiendo que no hay. Si la hay, entonces teniendo rezagos de Y sería adecuado y un control adecuado para el problema de la "fuga" en los predictores. Además, cualquier relación temporal abriría nuevas clases de modelado de opciones de difusión no lineal de los modelos a los muchos sabores de "Box-Jenkins" tipo de métodos.

Todavía hay un montón de espacio para jugar aquí.

Simplemente o los valores de X, por ejemplo, la creación de 10 mutuamente excluyentes agrupaciones en X, viene a ser una especie de pobre enfoque de densidad de kernel de análisis. Basado en la gráfica y da el convexa de la pendiente de la curva, se puede ver que estas nuevas agrupaciones rápido declive en su poder predictivo en todo el rango de X wrt Y. Dado que, es muy posible que el ajuste de 2 o 3 splines proporcionaría un mejor ajuste que los efectos principales del modelo propuesto.

Si uno elige cubo de X, una consideración que vale la pena explorar es el uso de la dentro de la cubeta del coeficiente de variación, en lugar de la std dev. El CV es el coeficiente de la std dev a la media (100 veces) y resultaría en una métrica que es invariante y comparable a través de los niveles de X. ¿por Qué importa esto? Tomar dos precios de las acciones como un ejemplo. Stock 1 tiene un precio promedio de 500 y una std dev de 100, mientras que el stock 2 tiene un precio promedio de 50 y un std dev de 20. Que stock es más volátil? No se puede mirar en la ets devs en y de sí mismos para responder a esta pregunta, ya que son dependiente de la escala. El CV para el caldo 1 es 20 (100/500*100=20) y para el caldo 2 es 40. Por lo tanto, y a pesar de una menor std dev, stock 2 tiene más volatilidad inherente de existencias 1. Para mí, las ventajas de una métrica de esta manera en una escala dependiente std dev son claras.

Otra posibilidad sería no balde X y conservar su distribución continua de la naturaleza con una transformación. Por ejemplo, podría ser que, de nuevo basado en el gráfico, la relación entre X y y es exponencial. Dependiendo de la magnitud o escala de X, exponenciación puede resultar rápidamente en bytes de desbordamiento (valores tan grandes que no caben en el formato numérico). Dado que el riesgo, la transformación de X en primer lugar con, por ejemplo, un logaritmo natural de la función y, a continuación, tomar el exponente sería una solución. Otras transformaciones de X que conservan su naturaleza continua y comprimir su PDF (función de densidad de probabilidad, es decir, su cola) son también posibles. Hay literalmente docenas, si no más, de las transformaciones disponibles en la literatura. Hay un libro dedicado a la catalogación de las transformaciones matemáticas, aunque no recuerdo el título.

Todas las sugerencias hechas hasta ahora implican funciones lineales y modelos basados en X. Modelos no lineales en los parámetros también son posibles, pero podría ser peludo, tanto en términos de la especificación y de la interpretación.

Al final del día, la pregunta se convierte en uno de la importancia relativa de la predicción vs sustantivo de la interpretación de los resultados del modelo. Si la atención se centra simplemente en la predicción, entonces, una "caja negra", modelo que se ajusta a los datos, pero es opaco en su significado está permitido. Si la visión estratégica de la relación entre X y y es la meta, entonces las cosas se mantengan en el nivel, no sólo por parte del analista, pero el analista de la audiencia, es imperativo. En este último caso, altamente soluciones técnicas que se deben evitar, ya que es casi seguro que el caso de que la audiencia estará compuesta de la técnica semi-alfabetizados, en el mejor, con un fuerte sesgo a la técnica de analfabetismo. Cada analista de la peor pesadilla de estar explicando algo a un innumerate audiencia donde se es la única persona en la sala que entiende de qué están hablando.

Por supuesto, dividiendo los datos en una prueba independiente y de exclusión de las muestras (o k-pliegues) para evaluar el ajuste del modelo de "fuera de muestra" y de control para el sobreajuste es obligatoria.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X