13 votos

¿Es una predicción del ' criterio oro ' para juzgar la capacidad de statisticans?

Estaba leyendo Lejana del libro de texto de modelos lineales con R (1ª edición) el pasado fin de semana. Lejana había un capítulo llamado "Estadístico de la Estrategia y el Modelo de la Incertidumbre". Él describe (página 158) que se genera artificialmente algunos datos a través de una muy complicados modelo, entonces él le preguntó a sus alumnos a un modelo de los datos y comparar con los estudiantes los resultados predichos vs lea los resultados. Desafortunadamente, la mayoría de los estudiantes más ajustado los datos de prueba y dio a los valores predichos totalmente fuera de la marca. Para explicar este fenómeno, escribió algo muy impresionante para mí:

" La razón de que los modelos eran tan diferentes que los estudiantes aplican los diferentes métodos de en los diferentes órdenes. Algunos lo hicieron de selección de variables antes de la transformación y de los otros, la a la inversa. Algunos repiten un método después de que el modelo ha cambiado y otras no. Me fui sobre las estrategias que varios de los estudiantes se utiliza y no podía encontrar nada con claridad mal con lo que habían hecho. Un estudiante cometió un error en la computación de su los valores de la predicción, pero no había nada, obviamente, mal en el resto. El el rendimiento en esta tarea no mostró ninguna relación con que en los exámenes. "

He sido educado que el modelo de la precisión de la predicción es la 'regla de oro criterio" para nosotros, para seleccionar el mejor modelo de rendimiento. Si no me equivoco, este es también el popular método utilizado en Kaggle competiciones. Pero aquí Lejano observado algo de una naturaleza diferente, que el modelo de predicción de rendimiento podría no tienen nada que ver con la capacidad de la estadstica involucrados. En otras palabras, si podemos construir el mejor modelo en términos de su poder predictivo no es realmente determina por la experiencia que estamos. En su lugar está determinado por un gran modelo de 'incertidumbre' (suerte ciega?). Mi pregunta es: es esto cierto en la vida real el análisis de los datos así? O estaba confundido con algo muy básico? Porque si esto es cierto, entonces la implicación real de análisis de datos es inmensa: sin conocer el "modelo real" detrás de los datos, no hay una diferencia esencial entre el trabajo realizado por la experiencia o sin experiencia statisticans: ambos son sólo suposiciones salvajes en frente de los datos de entrenamiento disponibles.

1voto

Bombyx mori Puntos 345

Le pregunté al profesor en mi departamento en este. Él dijo, francamente, no le sorprendió en absoluto. Él propuso la siguiente manera de ver esto: ¿qué Lejanos hizo fue sólo una sola vez el experimento, y no es de extrañar que los resultados parecían no tener correlación con las calificaciones finales. Pero si Lejanas de repetir su 'experimento' 100 veces con el mismo grupo de estudiantes, que está seguro de que los estudiantes aprendieron estadísticas mejor sería realizar bien, de manera similar como el intervalo de confianza. Así que, en su opinión, la experiencia no importa, es sólo un tiempo de experimento social no se puede mostrar debido a la incertidumbre del modelo.

1voto

archGL Puntos 47

Modelos de los estudiantes eran casi todos overfit. Con puntos de datos n, uno siempre puede caber un polinomio perfecto del orden n-1. Tal modelo es atrasado nada dejando al error aleatorio. Parece que los estudiantes han hecho errores overfittng similares, pero probablemente con diferentes funciones.

Sobreajuste es un error que sólo debe hacerse por los estudiantes. Y esto sugiere la experiencia y la educación son condiciones necesarias para el modelado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X