Estaba leyendo Lejana del libro de texto de modelos lineales con R (1ª edición) el pasado fin de semana. Lejana había un capítulo llamado "Estadístico de la Estrategia y el Modelo de la Incertidumbre". Él describe (página 158) que se genera artificialmente algunos datos a través de una muy complicados modelo, entonces él le preguntó a sus alumnos a un modelo de los datos y comparar con los estudiantes los resultados predichos vs lea los resultados. Desafortunadamente, la mayoría de los estudiantes más ajustado los datos de prueba y dio a los valores predichos totalmente fuera de la marca. Para explicar este fenómeno, escribió algo muy impresionante para mí:
" La razón de que los modelos eran tan diferentes que los estudiantes aplican los diferentes métodos de en los diferentes órdenes. Algunos lo hicieron de selección de variables antes de la transformación y de los otros, la a la inversa. Algunos repiten un método después de que el modelo ha cambiado y otras no. Me fui sobre las estrategias que varios de los estudiantes se utiliza y no podía encontrar nada con claridad mal con lo que habían hecho. Un estudiante cometió un error en la computación de su los valores de la predicción, pero no había nada, obviamente, mal en el resto. El el rendimiento en esta tarea no mostró ninguna relación con que en los exámenes. "
He sido educado que el modelo de la precisión de la predicción es la 'regla de oro criterio" para nosotros, para seleccionar el mejor modelo de rendimiento. Si no me equivoco, este es también el popular método utilizado en Kaggle competiciones. Pero aquí Lejano observado algo de una naturaleza diferente, que el modelo de predicción de rendimiento podría no tienen nada que ver con la capacidad de la estadstica involucrados. En otras palabras, si podemos construir el mejor modelo en términos de su poder predictivo no es realmente determina por la experiencia que estamos. En su lugar está determinado por un gran modelo de 'incertidumbre' (suerte ciega?). Mi pregunta es: es esto cierto en la vida real el análisis de los datos así? O estaba confundido con algo muy básico? Porque si esto es cierto, entonces la implicación real de análisis de datos es inmensa: sin conocer el "modelo real" detrás de los datos, no hay una diferencia esencial entre el trabajo realizado por la experiencia o sin experiencia statisticans: ambos son sólo suposiciones salvajes en frente de los datos de entrenamiento disponibles.