(Usted puede comenzar a partir de la después de la línea de sección, para una respuesta más breve) Para empezar, tienes toda la razón diciendo que es en primer lugar depende de los fines de su análisis: la previsión de precio medio (a nivel macro) o un determinado precio (a nivel micro), el análisis causal de las preferencias de los consumidores (distrito, tamaño, edad, número de dormitorios, gas, viajar al trabajo, nivel de ruido, etc.). Este verbales especialización en segundo lugar le guiará a una elección adecuada de un modelo y, finalmente, los requisitos para sus datos.
A partir de lo que ha escrito, supongo, de que tratar con el real estate modelos de fijación de precios. Después de la rápida búsqueda en google mostró hay muchas maneras de especificar un modelo. Muy buen punto de referencia podría ser Simon P. Leblond del artículo Comparando la precisión predictiva de bienes raíces modelos de fijación de precios: un estudio aplicado en la ciudad de Montreal. Desde el punto de vista práctico, usted tiene que elegir entre el aditivo o multiplicativo de los modelos de regresión. El último tiene varias ventajas frente a los modelos aditivos:
- las estimaciones de los parámetros (pero interceptar plazo, chatarra de regresión parámetro de todos modos) no son afectados por los cambios en la escala
- los parámetros para el registro-variables transformadas tener una buena elasticidad de la interpretación, que ...
- naturalmente, permite la disminución de los rendimientos a escala de las restricciones (en inmuebles de este tipo podría ser crucial restricciones)
- si uno de los estudios de los precios promedio, más robusto promedio es la media geométrica ponderada de la media (esto no será relevante demasiado a nivel micro)
- usted puede ajustar el precio a cero, si, por ejemplo, el apartamento no tiene dormitorios (es difícil hacerlo con los modelos aditivos)
Una cosa más importante antes de continuar es pensar que cada uno de su observación como un único punto de datos que fue establecido conjuntamente en el mercado por un tomador de decisiones sobre la base de la maximización de la utilidad de comportamiento. Conjuntamente significa aquí que no se puede separar las variables de cada uno de los otros (por ejemplo, el valor de los apartamentos sin un dormitorio es cero para la mayoría de los consumidores), pero un consumidor puede o puede no gustar a todo el paquete de los atributos juntos, después de que su presupuesto (dinero en el bolsillo) es todo lo que importa. Por lo tanto, la estandarización es útil para el análisis de la importancia relativa de las variables explicativas, pero tenga cuidado de juzgar lo que las variables no son significativas (todos los factores que pueden ser importantes). La heterogeneidad de las preferencias y presupuestos (los compradores son diferentes de los hogares), en cada caso, de su observación de la muestra por qué de regresión a nivel micro (no promedio o así) también podría ser engañosa. Por último, usted tiene la sección transversal (estática) de datos. Tratando de predecir los precios de los diferentes años (que en el año de sus observaciones), imágenes estáticas trabajo mal para diferentes periodos de tiempo (por ejemplo, se crea un modelo basado en 2009 datos del año, no será muy útil a posteriori la predicción de los precios de decir de 2007, o para 2011). Al menos intentar corregir los resultados sobre la base de un cambio en el precio promedio para un año determinado, en este caso.
Respecto a su pregunta en particular (lo que yo personalmente hago para mis proyectos, o al menos fingir que hacer):
- Lista de todas las variables que tienen y sus unidades de medida
- Comprobar y volver a comprobar los datos de imputación errores
- Hacer más de imputación de los puntos con valores perdidos (también se puede simplemente excluir las observaciones si tiene un gran conjunto de datos con no tantos valores que faltan)
- Hacer que todas las unidades de medida de la misma a través de similar variables (sq. metros, unidades de moneda, etc.)
- Pensar en un simple marco de datos de la estructura a la vez (lo que necesita para comunicarse con $R$ muy bien)
- Traer sólo los datos en bruto para $R$, hacen que todos los registros, las diferencias, las fracciones transformaciones en $R$ directamente (logaritmos son importantes para multiplicativo de modelos, algunas de las ventajas de uno están en la antesala de la anterior; las fracciones son también muy agradable para el que desea eliminar de la escala (tamaño) efecto a la vez, y poner de relieve las diferencias causadas por otros factores)
- Dejar maniquíes como están, pero siempre dejan un nivel cualitativo de atributo para el término de intersección (si no esto sería una fuente de puro problema de la multicolinealidad en el modelo)
- Para sus fines puede aplicar mínimos cuadrados ordinarios (MCO), aunque en los modelos de fijación de precios también me gustaría considerar la posibilidad de tobit o Heckman modelos, que necesitan un tratamiento especial (uno de mis primeros pueden-ser-no-tan-éxito del post sobre los precios fue acerca de esto)
- La OPERACIÓN es sencilla y habitual de análisis de los residuos (que se encuentra en los libros de texto de econometría) está hecho. Violación de algunos de los supuestos que usted puede ir para generalizada de los métodos, variables instrumentales, armadura de regresión, cura para el proceso autorregresivo de los residuos, pero... Lo que usted realmente necesita saber: son las estimaciones de los parámetros teóricamente razonable (valores, signos, etc.)?
- Sólo un buen número de... cualquier ganancia de la comunidad son bienvenidos.