8 votos

Preparación de los datos para la regresión

Estoy tratando de predecir las ventas de bienes raíces los precios.

  • En mis datos no son variables independientes que son tanto nominal y numérica (metros cuadrados, precios, etc.)
  • Antes de alimentar a los datos a cualquier algoritmo de regresión me gustaría procesarlos correctamente (agrupamiento, de la normalización de la media / desviación std, discretización, etc.)
  • Estoy abrumado por los muchos métodos que aparecen en varios libros de texto y tratar de averiguar lo que funciona bien en la práctica

Aunque la respuesta más razonable a esta pregunta es, probablemente, 'depende', podría tal vez me dan algunas reglas de oro / historias de la guerra / consejo general?

  • ¿Cómo se suele preprocesar los datos para la regresión?
  • ¿Qué métodos se aplican habitualmente?
  • Que algoritmos de regresión, que necesitan un tratamiento especial?

Como mis herramientas que estoy utilizando weka y R.

Muchas Gracias!

7voto

Mike Moore Puntos 641

(Usted puede comenzar a partir de la después de la línea de sección, para una respuesta más breve) Para empezar, tienes toda la razón diciendo que es en primer lugar depende de los fines de su análisis: la previsión de precio medio (a nivel macro) o un determinado precio (a nivel micro), el análisis causal de las preferencias de los consumidores (distrito, tamaño, edad, número de dormitorios, gas, viajar al trabajo, nivel de ruido, etc.). Este verbales especialización en segundo lugar le guiará a una elección adecuada de un modelo y, finalmente, los requisitos para sus datos.

A partir de lo que ha escrito, supongo, de que tratar con el real estate modelos de fijación de precios. Después de la rápida búsqueda en google mostró hay muchas maneras de especificar un modelo. Muy buen punto de referencia podría ser Simon P. Leblond del artículo Comparando la precisión predictiva de bienes raíces modelos de fijación de precios: un estudio aplicado en la ciudad de Montreal. Desde el punto de vista práctico, usted tiene que elegir entre el aditivo o multiplicativo de los modelos de regresión. El último tiene varias ventajas frente a los modelos aditivos:

  • las estimaciones de los parámetros (pero interceptar plazo, chatarra de regresión parámetro de todos modos) no son afectados por los cambios en la escala
  • los parámetros para el registro-variables transformadas tener una buena elasticidad de la interpretación, que ...
  • naturalmente, permite la disminución de los rendimientos a escala de las restricciones (en inmuebles de este tipo podría ser crucial restricciones)
  • si uno de los estudios de los precios promedio, más robusto promedio es la media geométrica ponderada de la media (esto no será relevante demasiado a nivel micro)
  • usted puede ajustar el precio a cero, si, por ejemplo, el apartamento no tiene dormitorios (es difícil hacerlo con los modelos aditivos)

Una cosa más importante antes de continuar es pensar que cada uno de su observación como un único punto de datos que fue establecido conjuntamente en el mercado por un tomador de decisiones sobre la base de la maximización de la utilidad de comportamiento. Conjuntamente significa aquí que no se puede separar las variables de cada uno de los otros (por ejemplo, el valor de los apartamentos sin un dormitorio es cero para la mayoría de los consumidores), pero un consumidor puede o puede no gustar a todo el paquete de los atributos juntos, después de que su presupuesto (dinero en el bolsillo) es todo lo que importa. Por lo tanto, la estandarización es útil para el análisis de la importancia relativa de las variables explicativas, pero tenga cuidado de juzgar lo que las variables no son significativas (todos los factores que pueden ser importantes). La heterogeneidad de las preferencias y presupuestos (los compradores son diferentes de los hogares), en cada caso, de su observación de la muestra por qué de regresión a nivel micro (no promedio o así) también podría ser engañosa. Por último, usted tiene la sección transversal (estática) de datos. Tratando de predecir los precios de los diferentes años (que en el año de sus observaciones), imágenes estáticas trabajo mal para diferentes periodos de tiempo (por ejemplo, se crea un modelo basado en 2009 datos del año, no será muy útil a posteriori la predicción de los precios de decir de 2007, o para 2011). Al menos intentar corregir los resultados sobre la base de un cambio en el precio promedio para un año determinado, en este caso.


Respecto a su pregunta en particular (lo que yo personalmente hago para mis proyectos, o al menos fingir que hacer):

  1. Lista de todas las variables que tienen y sus unidades de medida
  2. Comprobar y volver a comprobar los datos de imputación errores
  3. Hacer más de imputación de los puntos con valores perdidos (también se puede simplemente excluir las observaciones si tiene un gran conjunto de datos con no tantos valores que faltan)
  4. Hacer que todas las unidades de medida de la misma a través de similar variables (sq. metros, unidades de moneda, etc.)
  5. Pensar en un simple marco de datos de la estructura a la vez (lo que necesita para comunicarse con $R$ muy bien)
  6. Traer sólo los datos en bruto para $R$, hacen que todos los registros, las diferencias, las fracciones transformaciones en $R$ directamente (logaritmos son importantes para multiplicativo de modelos, algunas de las ventajas de uno están en la antesala de la anterior; las fracciones son también muy agradable para el que desea eliminar de la escala (tamaño) efecto a la vez, y poner de relieve las diferencias causadas por otros factores)
  7. Dejar maniquíes como están, pero siempre dejan un nivel cualitativo de atributo para el término de intersección (si no esto sería una fuente de puro problema de la multicolinealidad en el modelo)
  8. Para sus fines puede aplicar mínimos cuadrados ordinarios (MCO), aunque en los modelos de fijación de precios también me gustaría considerar la posibilidad de tobit o Heckman modelos, que necesitan un tratamiento especial (uno de mis primeros pueden-ser-no-tan-éxito del post sobre los precios fue acerca de esto)
  9. La OPERACIÓN es sencilla y habitual de análisis de los residuos (que se encuentra en los libros de texto de econometría) está hecho. Violación de algunos de los supuestos que usted puede ir para generalizada de los métodos, variables instrumentales, armadura de regresión, cura para el proceso autorregresivo de los residuos, pero... Lo que usted realmente necesita saber: son las estimaciones de los parámetros teóricamente razonable (valores, signos, etc.)?
  10. Sólo un buen número de... cualquier ganancia de la comunidad son bienvenidos.

1voto

Valentin Rocher Puntos 121

El agrupamiento de sus datos es generalmente una mala idea, ya que hará que se pierda la información, que probablemente resulte en la pérdida de poder. También, me gustaría que rara vez estandarizar las variables antes de realizar la regresión, aunque a algunas personas les puede gustar.

Un muy buen libro para leer, si usted puede conseguir, es "modelos de Regresión de las Estrategias" de Frank Harrell.

1voto

Owen Fraser-Green Puntos 642

Los precios de bienes raíces que usted está atando para predecir , son consecutivos/cronológico, es decir, los valores de datos de series de tiempo o son los precios para las diferentes clases, por ejemplo, este año los precios para clases diferentes para el mismo período de tiempo. Es posible que desee leer algo que escribí en estos dos tipos de problemas, como se advierte de que, si se trata de datos longitudinales ( series de tiempo), a continuación, las herramientas de ordinario de la sección transversal de regresión normalmente no se aplican. Se titula "Regresión vs Box-Jenkins" http://www.autobox.com/pdfs/regvsbox.pdf .

1voto

Steve Scheffler Puntos 1166

Para el preprocesamiento siempre me gusta incluir la detección de valores atípicos, y la eliminación de datos erróneos. Si los datos son de diferentes escalas, la normalización de los datos es una buena idea (normalización). Tan lejos como técnica va, siempre vale la pena gráfico y la trama de las variables con cada uno de los otros, así como con la predicción de la variable. Que le dirá mucho acerca de que los supuestos que usted puede hacer sobre los datos, tales como la linealidad, la igualdad de varianzas, la normalidad y mejor puede ayudarte a elegir una técnica.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X