2 votos

Normalización de los datos de regresión ponderada

Estoy realizando una regresión por mínimos cuadrados ponderados sobre los datos de la encuesta.

Los datos de la encuesta proceden de la UE y cada observación tiene un peso (.4 para un encuestado, 1.5 para otro).

Este peso se describe como:

"El peso europeo, variable 6, produce una muestra representativa de la Comunidad Europea en su conjunto cuando se utiliza en el análisis. Esta variable ajusta el tamaño de cada muestra nacional en función de la contribución de cada país a la población de la Comunidad Europea". nación a la población de la Comunidad Europea".

Me gustaría normalizar mis datos. Para un conjunto de datos no ponderados haría lo siguiente:

df_norm = (df - df.mean()) / (df.max() - df.min())

Sin embargo, no estoy seguro del impacto que tendría en mis pesas. ¿Debería poner las ponderaciones en otro marco de datos, normalizar los datos y luego volver a añadir las ponderaciones? ¿Es seguro normalizar el marco de datos con las ponderaciones adjuntas?

Gracias por cualquier sabiduría que tengas para compartir.

0voto

Guest Puntos 1

Las ponderaciones son equivalentes si sólo difieren en un factor escalar. Por ejemplo, si se multiplican todas las ponderaciones por 2 se mantiene intacta la importancia relativa de los temas.

Teniendo esto en cuenta:

  • está bien multiplicar o dividir los pesos por un escalar, por ejemplo weights - (weights.max() - weights.min()) . Otro ejemplo es más común y normaliza los pesos para que sumen 1: weights / weights.sum()

  • no está bien sumar o restar un escalar, por ejemplo weights - weights.mean()

Por lo tanto, en su caso es aconsejable separar la información (las respuestas) de la metainformación (las ponderaciones).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X