1 votos

¿Es aconsejable eliminar determinados niveles de una variable categórica?

Supongamos que tengo una variable categórica con seis niveles y creo cinco variables indicadoras para representar los seis niveles. Si dos de las cinco variables no son significativas, ¿las elimino? Supongo que no, pero no estaba seguro. Estaba pensando que podría ser mejor probar el modelo completo (las cinco variables) frente al reducido (sólo las tres variables significativas) y, si no era significativo, dejar las cinco variables. No estaba seguro de qué hacer. Ah, y me refería a esto en el contexto del ajuste de un modelo de regresión logística.

6voto

user2735206 Puntos 51

El último enfoque (comparar dos modelos con y sin las cinco variables y decidir si debe mantenerlos como un conjunto) es mejor.

El problema de eliminar el indicador es que también cambiarán los valores p de los niveles restantes, ya que se desplaza el intercepto (es decir, el grupo de referencia):

$y = b_0 + b_1 Lv2 + b_2 Lv3 + b_3 Lv4 + b_4 Lv5 + b_5 Lv6 + \epsilon$

El intercepto representa la media de $y$ para el grupo $Lv1$ . Ahora, si dejamos, digamos, los dos últimos términos:

$y = b_0 + b_1 Lv2 + b_2 Lv3 + b_3 Lv4 + \epsilon$

Dado que sólo abandona la variable y no los casos, los sujetos de los niveles 5 y 6 necesitan un lugar al que ir: observe que su intercepto ahora elige los grupos $Lv5$ y $Lv6$ que representa la media $y$ para los niveles 1, 5 y 6.

Así que, dos puntos principales: 1: tu grupo de referencia puede cambiar y ese cambio no siempre es sensato. 2: puede que se sorprenda al ver que los resultados significativos que desea conservar han desaparecido, debido a que la media del grupo de referencia también ha cambiado.

5voto

user60642 Puntos 6

Debe dejar las cinco variables indicadoras. Si se eliminan los predictores porque no son significativos, se obtienen estimaciones sesgadas de los coeficientes de regresión y se inflan los resultados. p -valores.

Una buena referencia que trata este tema en profundidad es el libro de Frank Harrell Estrategias de modelización de la regresión . En la sección 4.3 encontrará un resumen de los problemas que plantea la eliminación de elementos insignificantes.

3voto

AusTravel Puntos 6

He aquí mis dos centavos. No puedo decirlo con total certeza, pero, supongo, depende mucho de un modelo y de los datos. Si entiendo esta respuesta correctamente, @gung aconseja probar tu(s) modelo(s) después de bajar todos y algunos niveles. Sin embargo, los detalles sobre cómo realizar exactamente las pruebas son bastante confusos (al menos, para mí). Tal vez tenga la amabilidad de ampliar la información para los principiantes como yo.

También puede resultarle útil este documento de notas del curso en regresión logística (en R ) por el profesor Christopher Manning (Universidad de Stanford). Entre otras cosas, describe la supresión de variables categóricas enteras (factores en R terminología) y manipulaciones con niveles de variables categóricas, como el colapso de varios niveles en uno solo y otras manipulaciones, así como el impacto de esas acciones en la calidad de los modelos de regresión y las interpretaciones de los resultados de los análisis.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X