Sé el significado de la pendiente de un LMS de regresión lineal se puede calcular mediante la r2 coeficiente de determinación y buscando el valor apropiado en una F de la tabla. Sin embargo, yo estaba pensando que tal vez haciendo esto "más robusto" mediante la sustitución de los LMS de regresión lineal con la repetición de una mediana de línea recta de ajuste, y tal vez, incluso, sustituir el valor medio que se utiliza para calcular r2 con el valor de la mediana de los datos. ¿Hay alguna razón por la que esto NO sería un enfoque válido? Tal vez los valores de F de la tabla se basan en el uso de LMS y los promedios, por ejemplo?
Respuestas
¿Demasiados anuncios? No, las pruebas de F se basan en el supuesto de que la suma más baja de cuadrados residuales es óptima. No se cumple en caso de regresión robusta, donde el criterio es diferente.
Por ejemplo, efectivamente, uno puede considerar la regresión robusta como mínimos cuadrados en los datos eliminados de los valores atípicos; el uso de$r^2$ en todos los datos en este caso agrega una penalización no culpable por los altos residuos de valores atípicos.
No hay necesidad de reinventar la rueda. Hay una alternativa, robusto, R^2, medida con muy buenas propiedades estadísticas:
Un robusto coeficiente de determinación de la regresión, O Renauda
Editar: *¿Hay alguna razón por la que esto NO sería un enfoque válido? * Para esto no hace que el método más robusto. Existe una amplia literatura sobre este tema, y afortunadamente, las buenas herramientas han sido diseñadas para la dirección de estos puntos.
Yo simplemente uso el estándar de resultados de regresión para evaluar la importancia del coeficiente de la pendiente. Me refiero a por que mirando el coeficiente de sí mismo, su error estándar, t stat (# de errores estándar = Coeficiente/error Estándar), el valor de p, y el intervalo de confianza. El valor de p se dirige directamente a la significación estadística de la pendiente o coeficiente que tiene en mente.
R Cuadrado del modelo indica qué tan bien el modelo explica la variable dependiente, o lo bien que el modelo se ajusta a la variable dependiente.
El valor de p de cada coeficiente indica cómo estadísticamente significativos los coeficientes son.
Muy a menudo, usted puede tener un modelo con una R alta de la Plaza, pero que incluye una variable con un coeficiente no es estadísticamente significativa (p valor es demasiado alto). En tal caso, se sugiere el modelo sería tan bueno si usted tomó esa variable. Por el camino, que realmente debería centrarse en el R Cuadrado Ajustado en lugar de R Cuadrado. El R Cuadrado Ajustado correctamente penaliza el modelo para tener más variable y, potencialmente, sobre-ajuste de los datos con las variables independientes que no son tan relevantes.
Debe ser posible el uso de una prueba de permutación para probar la significación de la pendiente.
En la anulación, la pendiente es cero.
Bajo los supuestos del modelo y la nula juntos, no hay por lo tanto no hay asociación entre y y x.
Por lo tanto, el y's pueden ser mezcladas en relación a la x para obtener la permutación de la distribución de la estadística de prueba.
El p-valor puede ser determinado por la financiación de la proporción de los valores de al menos tan extremo como el observado de la estadística en la nula distribución.