5 votos

Se debe utilizar una opinión variables basados en el modelado? (Si se predice bien)

Estoy usando regresión paso a paso para predecir si un cliente iba a dar una donación.

He utilizado muchas variables en el modelado y una variable llamada perception_rating está saliendo muy importante. Ahora esta variable es subjetiva y es una clasificación dada por el procurador, basado en su idea de la cantidad de un donante es la pena (por ejemplo coche caro, casa grande, la puntuación más alta). No hay ningún científico o razonamiento detrás de él, sólo de su percepción y muy subjetiva, Aunque pienso que no debería ser uso de ella, pero parece ser un buen predictor. Debo usar esta variable o no?

8voto

chriv Puntos 16

Estoy de acuerdo con Noé; en realidad no es una técnica estadística de la pregunta en sí. Hay varias preguntas que usted necesita para tener una respuesta clara.

¿Tiene usted un "coherente" percepción subjetiva? Vamos a decir que su formación los datos provienen de una opinión de un empleado existente, la evaluación de un nuevo empleado va a tener la misma opinión? Es realmente problemático, si no son contrarias opiniones y calificaciones después de la fase de implementación de su modelo y si es así, no se puede inferir el desempeño de la función más. Creo que este es probablemente el más problemático suposición, si usted decidió que la utilice.

¿Qué es el modelado objetivo? Si el objetivo es maximizar la capacidad de predicción del modelo único, usted tiene una razón legítima para usar.

Es allí cualquier otro negocio restricción? A veces, incluso si usted tiene un predictor significativo, no se puede usar debido a que algunos de negocio y restricciones legales. Por ejemplo, si se va a construir un modelo de crédito para predecir el valor predeterminado de los préstamos en el sector financiero, no se puede utilizar la edad y el sexo (en los EE.UU.), etc...

Es ético para incluir la variable? Esta pregunta probablemente pone a su modelado estándar más alto; depende del contexto de su dominio de la empresa.

Posible solución: Es posible obtener una estimación a partir de otra variable? Por ejemplo, ¿tienes la dirección de los donantes? Si es así, utilice las direcciones como una variable intermedia y obtener una estimación del valor neto de los donantes (por Zillow Zestimate) puede ser una buena idea.

P. S. No es un tema de regresión paso a paso; usted debe comprobar fuera de la post aquí

2voto

Noah Puntos 85

Si usted utiliza regresión paso a paso, es posible que usted está haciendo un error de tipo I y aprovechando la oportunidad, así que tenga cuidado acerca de la interpretación de los resultados a partir de ella sin una validación cruzada de la muestra. Además, si esta variable está muy relacionada con otra variable en la muestra (por ejemplo, la riqueza), el hecho de que surgió como importante y no la otra variable podría deberse a la casualidad.

Dicho esto, si se incluye esta variable en un modelo depende de lo que el modelo está tratando de hacer. Si se va a utilizar, de manera óptima, predecir el resultado en un nuevo conjunto de datos, a continuación, seguro, use todas las variables que se tienen que es útil para hacerlo. El significado de la variable es irrelevante.

Si usted está tratando de hacer una inferencia acerca de la relación entre los predictores y el resultado en la población, esta variable no hace mucho que explicar nada acerca de las características propias del individuo y su decisión de donar. Por el contrario, debe sugerencia que usted necesita para recoger datos adicionales acerca de las causas comunes de la percepción y la propensión a donar. Por ejemplo, tal vez alguien del trabajo influye tanto en la percepción de su riqueza a través de un espectador y su decisión de donar, con independencia de su real de la riqueza. Incluyendo esto como un predictor sería crear un modelo con mayor poder explicativo.

En general, este es un sustantivo en lugar de un estadístico de la pregunta y depende del tipo de inferencia que usted quiere hacer. Es el modelo destinado a ser óptimamente predictivo en una externa de la muestra? Es el propósito de explicar la varianza en los resultados? Sirve para representar relaciones causales entre los predictores de los resultados? Como modelo y qué variables se deben incluir en el modelo son determinados por las respuestas a estas preguntas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X