1 votos

¿Por qué son negativas mis medidas red elástica y lazo r-cuadrado?

Estoy usando sklearn.linear_model.Lasso y sklearn.linear_model.ElasticNet en un modelo que incluye una constante.

No espero que un modelo con una constante funcione peor que la media de los datos, es decir, una r-cuadrado de 0 .

Tengo p > n, pero he regresionado sobre unos cuantos modelos de subconjuntos y es trivial encontrar un subconjunto OLS con r-cuadrado > .5.

A continuación figuran algunas de las métricas del modelo. Me desconcierta que la r-cuadrado sea negativa, y me desconcierta aún más que la r-cuadrado sea inferior a -1.

Lasso(alpha=0.1)
r^2 on test data : -1.609104
ElasticNet(alpha=0.1, l1_ratio=0.7)
r^2 on test data : -1.745874

Código relacionado es de código abierto aquí .

Probé con otras alfas pero no conseguí una r-cuadrado no negativa. Conseguí una r-cuadrado cercana a -0,003 con un alfa de 10.

¿Podría alguien proporcionar información sobre cómo se observan estas métricas?


Actualización, 20/21/10 - muestra comparativa de dispersión a continuación

plt.scatter(y_train, y_train_pred_lasso, color='red')
plt.scatter(y_test, y_test_pred_lasso, color='blue')
plt.show()

enter image description here

3voto

Dave Puntos 76

PRESS es una medida fuera de muestra. Incluso cuando se tiene un intercepto, fuera de la muestra $R^2<0$ es posible. Significa que habría sido mejor predecir la media de $y$ cada vez, independientemente de sus predictores/características. En otras palabras, tienes un modelo pobre que es superado por un modelo ingenuo.

Dices que se trata de un rendimiento inesperado. Estás haciendo aprendizaje automático, así que prepárate para sorprenderte y decepcionarte con el rendimiento del modelo.

3voto

EdM Puntos 5716

Dave ha respondido a tu pregunta concreta y te sugiero que aceptes esa respuesta. El punto sobre el "rendimiento inesperado" en el aprendizaje automático da en el clavo.

Lo que sigue a continuación es más bien para que te orientes hacia mejores formas de manejar tu conjunto de datos en particular.

Primero, no hagas un reparto prueba/entrenamiento con tan pocos casos. Construye tu modelo en todo el conjunto de datos, luego valida el proceso de creación de modelos por remuestreo. Un método aceptado consiste en repetir la modelización en múltiples remuestreos bootstrap de los datos y, a continuación, probar el rendimiento de los modelos resultantes en el conjunto completo de datos originales.

En segundo lugar, LASSO o la red elástica podrían no ser una buena opción en este caso. Parece que tiene muchos predictores categóricos multinivel y al menos una interacción. LASSO y la red elástica no mantendrán necesariamente todos los niveles de un predictor categórico en el modelo, y podrían mantener un término de interacción omitiendo los contribuyentes individuales a la interacción. Esto no suele ser una buena idea; véase este hilo . Existe un grupo LASSO, explicado en Aprendizaje estadístico con dispersión que puede mantener juntos los predictores especificados, pero supongo que su conjunto de datos será demasiado pequeño para que funcione adecuadamente.

En tercer lugar, sus numerosos predictores categóricos, algunos de ellos multinivel, plantean un problema particular para los enfoques penalizados como LASSO o la red elástica. En estos modelos, los predictores continuos suelen normalizarse a media cero y desviación típica unitaria, de modo que todos parten de escalas similares. En no siempre tiene sentido con predictores categóricos con un predictor multinivel, los resultados pueden variar en función del nivel de referencia elegido. Véase este hilo . Lanzarse a la penalización sin pensar detenidamente en los predictores categóricos es una forma demasiado fácil de meterse en un buen lío.

Antes de seguir adelante con la mecánica de la modelización, compruebe si puede utilizar sus conocimientos sobre el tema para reducir el número de predictores o combinar varios predictores en uno solo sin examinar primero sus asociaciones con el resultado. Frank Harrell notas del curso proporcionan mucha orientación útil para dicha simplificación de los predictores y otros aspectos de la modelización multivariable en el capítulo 4.

Sospecho que obtendrá los resultados más fiables empezando con esas combinaciones de predictores y penalizando de forma que se mantengan todos esos predictores (combinados) en el modelo y se evite la inestable selección de predictores que se obtiene con LASSO. La regresión Ridge es una opción, pero una estimación penalizada más general, ajustando la penalización relativa entre los predictores basándose en el conocimiento previo de la materia y manejando los predictores categóricos de forma inteligente, probablemente funcionará mejor.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X