6 votos

¿Podría utilizarse la regresión logística para detectar grandes errores en la regresión por mínimos cuadrados?

Tengo el siguiente modelo lineal:

$$w^*=\text{arg min}_w\sum_{i=1}^N \bigg(Y_i-\sum_{j=1}^M X_{i,j}\times w_j\bigg)^2$$

Sea $T \in N^*$ y $e_i=|Y_i-\sum_{j=1}^M X_{i,j}\times w_j|$ .

Es posible utilizar la regresión logística para predecir qué errores serán menores que $T$ (es decir, $e_i<T$ ) y mayor o igual que $T$ (es decir, $e_i \ge T$ )?

Aquí tiene más información para aclarar la pregunta:

$N$ representan el número de observaciones. Mis datos tienen la siguiente propiedad: el histograma de errores utilizando la regresión lineal múltiple tiene una distribución de Laplace. Mis datos proceden de imágenes digitales representadas en 8 bits. La dirección $Y_i$ son los píxeles actuales y $X_{ij}$ son píxeles de vecindario. Quiero predecir qué píxeles producen errores menores que $T$ . Quiero saber qué funciones de R puedo utilizar para hacer una prueba. $T$ no es muy grande, tiene los valores entre 1 y 15 en general.

0 votos

¿Qué quiere decir con " $N^*$ "? ¿Qué tipo de valores pueden $Y_i$ ¿Tener? ¿A qué datos, precisamente, propone aplicar la regresión logística?

0 votos

Sería más habitual definir $e_i$ sin el $|.|$ y luego comparar $|e_i|$ con $T$ . ¿Qué es $N^*$ ?

4voto

Sean Hanley Puntos 2428

Creo que esto sólo funcionaría si el modelo de regresión logística tuviera acceso a las covariables relevantes que faltan en el modelo OLS. En tal situación (es decir, una mala especificación del modelo), podría haber regiones en las que los valores de respuesta observados divergieran mucho de los valores predichos, y el modelo de regresión logística tendría la información necesaria para detectarlas.

1 votos

Un enfoque de este tipo podría estar recogiendo desviación error de especificación, quizás la varianza cambia según algunas covariables que están en el modelo OLS para la media.

4voto

rkthkr Puntos 6651

Está intentando utilizar la regresión logística para encontrar una posible estructura de sus residuos. Los residuos no deberían tener estructura. Si la regresión logística detecta algo, el modelo está mal especificado. Estupendo.

Importante: la regresión logística busca una estructura muy específica. Su método sólo funciona si los residuos se rompen de una manera muy específica.

Para este tipo de detección se utilizan regresiones no lineales. La regresión kernel o aditiva sobre los residuos al cuadrado o logarítmicos es mucho más útil.
Aún mejor: te permitirán modelar toda la varianza. Esto responde a tu pregunta de dónde están realmente los grandes errores.

0 votos

¿Qué significa que "los residuos no deben estar estructurados"?

1 votos

+1, creo que lo que quiere decir es que la regresión estándar asume que los residuos son independientes e idénticamente distribuidos como una gaussiana con varianza constante. Si esto es cierto, entonces por definición la regresión logística no será capaz de encontrar una relación b/t $P(e_i\geq T)$ y sus covariables. Esto es lo que yo estaba tratando de llegar, aunque CarrKnight ha dado una versión más clara y más completa.

3voto

bheklilr Puntos 113

Sería posible en el caso de que el modelo original fuera heteroscedástico y la heteroscedasticidad estuviera relacionada con las covariables. Por ejemplo,

$y_i \sim \text{N}(x_i^T\beta, \sigma^2x_{i,1}^2)$

donde la varianza del $i^{th}$ es proporcional al cuadrado de la primera covariable.

Se pueden imaginar, en situaciones de regresión no normal, estructuras similares que no requieran heteroscedasticidad per se. Sin embargo, los supuestos por defecto de los modelos de regresión en general implican que los errores son independientes de los regresores y que la varianza de los errores es constante.

Por otro lado, si se hace, por ejemplo, una regresión de Poisson, se sale del mundo de los modelos lineales, pero como la varianza del "error" es proporcional a la media, se deduce que está relacionada con las covariables, y una regresión logística de este tipo funcionaría -aunque no transmitiría ninguna información que no esté ya transmitida por los resultados de la regresión de Poisson, que especifican completamente las distribuciones condicionales de las $y_i | x_i$ . En el marco del modelo lineal generalizado/aditivo, en el que la probabilidad está totalmente especificada, la única forma de añadir información a la regresión inicial utilizando la regresión logística que sugiere es si la regresión inicial ha especificado mal (normalmente ignorando) la estructura de los residuos, por ejemplo, ignorando la heteroscedasticidad en el modelo lineal presentado anteriormente.

No obstante, su sugerencia podría revelar algo sobre la estructura de los residuos en un análisis exploratorio. Sospecho, sin embargo, que la discretización efectiva de los residuos por $< T$ o $\ge T$ normalmente disminuiría el contenido informativo de los mismos más de lo que ayudaría a clarificar el análisis - a menos que se tratara de un análisis de valores atípicos, quizás.

0 votos

+1 por heteroscedasticidad, que debería haber pensado yo mismo.

2voto

AdamSane Puntos 1825

Hay circunstancias en las que tal cosa podría funcionar, suponiendo que se puedan suministrar predictores adecuados a la regresión logística, pero

(i) dicotomizar la dispersión puede ser menos útil que dejarla continua

(ii) Creo que las pruebas formales de hipótesis son una mala idea para evaluar los supuestos del modelo, ya que no responden a una pregunta útil (imagínese, en muestras grandes, una tendencia muy pequeña en la dispersión - podría ser muy significativa, pero realmente muy poco importante en términos de su impacto en la inferencia en el modelo original). Es más importante pensar en el tamaño del efecto ( ¿qué impacto tiene en nuestra inferencia? ) en lugar de la importancia ( ¿es nuestra muestra lo suficientemente grande para detectarlo? ). Casi nunca cumplimos los supuestos exactamente Y no ganamos nada probando lo que ya sabemos: o rechazamos, lo que no nos dice nada más de lo que sabíamos antes, o no rechazamos, lo que sólo nos dice que el tamaño de nuestra muestra era demasiado pequeño para detectar lo que ya sabemos que es el caso. Ninguno de los dos nos dice lo malo que podría ser para nosotros el fracaso de las hipótesis.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X