9 votos

¿Es obligatorio el subconjunto sus datos para validar un modelo?

Estoy teniendo un tiempo difícil conseguir en la misma página como mi supervisor cuando se trata de validar mi modelo. He analizado los residuos contra los valores ajustados y he usado esto como un argumento para discutir los resultados obtenidos por el modelo, sin embargo, mi supervisor insiste en que la única forma de validar un modelo para hacer un subconjunto aleatorio de mis datos, generar el modelo con el 70% de la misma y, a continuación, aplicar el modelo en el 30% restante.

La cosa es que mi variable de respuesta es cero inflado y prefiero no crear un subconjunto como ya es muy difícil ofrecer un resultado.

Entonces, mi pregunta es: ¿cuáles son los posibles (y científicamente aceptable) formas de validar un modelo? Es subconjunto de los datos de la única manera? Si es posible, hacer referencia a sus preguntas con artículos/libros para que yo pueda usar como un argumento a la hora de presentar mis alternativas.

10voto

dan90266 Puntos 609

Los datos que se divide, en general, un muy no-competitivos manera de hacer la validación interna. Eso es debido a la grave volatilidad diferentes 'final' de la modelo y diferentes "validación" en la re-escisión, y debido a que el error cuadrático medio de la estimación (de las cosas que como media absoluta del error de predicción y $R^2$) es superior a la de un buen procedimiento de remuestreo como el bootstrap. Puedo entrar en detalle en mis modelos de Regresión de Estrategias libro y las notas del curso. Remuestreo tiene otra gran ventaja: la exposición de la volatilidad en la selección de características.

7voto

Carl Raymond Puntos 2797

Para empezar, yo diría que es generalmente bueno para ser cuidado con las declaraciones que hay sólo una manera de hacer algo. La división de un obtenidas con la muestra de un "entrenamiento" y una "prueba" conjunto de datos es un enfoque común en muchos de aprendizaje de la máquina/de los datos de las aplicaciones de las ciencias. A menudo, estos enfoques de modelado están menos interesados en la prueba de hipótesis sobre la base de los datos de proceso de generación, es decir, que tienden a ser un poco atheoretical. De hecho, la mayoría de estos tipos de entrenamiento/prueba se divide sólo quiero ver si el modelo es adecuado en términos de predicción de rendimiento. Por supuesto, también es posible utilizar un entrenamiento/acercamiento de la prueba para ver si un determinado modelo de replica en términos de los parámetros que son "importantes", o para ver si las estimaciones de los parámetros caen dentro de los rangos esperados en ambas instancias.

En teoría, validar o invalidar los modelos es lo que la ciencia, en forma escrita, se supone debe hacer. Investigadores independientes por separado el examen, la generación y comprobación de hipótesis que apoyar o refutar los argumentos acerca de una teoría de por qué o bajo qué circunstancias un fenómeno observable se produce - que es la empresa científica en una cáscara de nuez (o al menos en uno demasiado largo sentencia). Así que para responder a tu pregunta, para mí, incluso el entrenamiento/prueba de divisiones no son "validar" un modelo. Que es algo que lleva el peso de años de pruebas acumulado de múltiples independiente de los investigadores que estudian el mismo conjunto de fenómenos. Aunque, he de conceder que esto puede ser algo de una diferencia en la semántica acerca de lo que puedo ver a la validación del modelo a decir frente a lo que el plazo de validación como vienen a significar en la configuración que se aplica... pero para volver a la raíz de tu pregunta más directa.

Dependiendo de los datos y el enfoque de modelado, no siempre puede ser apropiado desde un punto de vista estadístico para dividir la muestra en conjuntos de prueba y entrenamiento. Por ejemplo, muestras pequeñas puede ser particularmente difícil de aplicar este enfoque. Además, algunas distribuciones pueden tener ciertas propiedades, haciendo difícil la modelo, incluso con relativamente grandes muestras. Su cero-inflado caso es probable que se ajusta a esta descripción. Si el objetivo es llegar a una aproximación de la "verdad" acerca de un conjunto de relaciones o subyacentes a los procesos de pensamiento para dar cuenta de un fenómeno, que no será bien servido a sabiendas de tomar una poca potencia enfoque de las pruebas de una determinada hipótesis. Así que tal vez el primer paso es realizar un análisis para ver si usted podría incluso ser probable para replicar el hallazgo de interés en su crea un subconjunto de datos. Si no es adecuadamente alimentado, que podría ser un argumento en contra de la prueba/entrenamiento de split.

Otra opción es especificar varios modelos para ver si "mejor" explicar los datos observados. Aquí, el objetivo sería identificar el mejor modelo entre un conjunto de alternativas razonables. Este es relativa, no absoluta, argumento que estaría haciendo acerca de su modelo en el que usted está admitiendo que puede haber otros modelos que podrían ser postulado para explicar sus datos, pero su modelo es el mejor de la prueba del conjunto de alternativas (al menos espero). Todos los modelos de la serie, incluyendo su hipótesis del modelo, deben estar fundados en la teoría; de lo contrario, se corre el riesgo de establecimiento de un grupo de estadísticos hombres de paja.

También hay Factores de Bayes en la que se puede calcular el peso de la evidencia de su modelo proporciona, de acuerdo con sus datos, para una hipótesis específica relativa a escenarios alternativos.

Esto está lejos de ser una lista exhaustiva de las opciones, pero espero te sirva de ayuda. Me bajaré de la tribuna ahora. Recuerde que cada modelo en cada estudio publicado sobre el comportamiento humano es incorrecta. Casi siempre hay pertinentes variables omitidas, unmodeled interacciones, de manera imperfecta las poblaciones muestreadas, y simplemente el viejo error de muestreo en el juego ofuscación de la verdad subyacente.

6voto

chahedous Puntos 43

Creo que las respuestas aquí divergen, porque la pregunta es poco clara, sobre todo: ¿qué entiende usted por "validación"?

Un 70/30 split (o una validación cruzada para que la materia) se realiza generalmente para evaluar la capacidad de predicción de rendimiento de un modelo o un completo análisis de la cadena (posiblemente incluyendo la selección de modelo). Dicha validación es especialmente importante si usted está comparando las diferentes opciones de modelado en términos de predicción de rendimiento.

Es otro caso totalmente si usted no desea seleccionar modelos, y también no están interesados en el rendimiento predictivo como tal, pero usted está interesado en la inferencia (regresión estimados / p-valores), y quiero validar si el modelo de su / error de los supuestos de los GLMM son adecuados. En este caso, sería posible predecir a la bodega y comparar las predicciones con los datos observados, pero por lejos el más habitual es hacer un análisis de los residuos. Si usted necesita para probarlo a su supervisor: esto es básicamente lo que todas las estadísticas de los libros de texto enseña a hacer a la derecha después de que el revestimiento de regresión.

Vea aquí cómo ejecutar un análisis de los residuos para GLMMs (incluyendo el cero-inflado con glmmTMB, que yo preferiría más de glmmadmb) con el DHARMa paquete (descargo de responsabilidad: yo soy el mantenedor).

2voto

Chris Puntos 170

La respuesta corta es sí, usted necesita para evaluar su modelo de rendimiento en los datos no utilizados en el entrenamiento.

Modelo moderno de las técnicas de construcción son muy buenos en la conexión de datos de forma arbitraria bien y se puede encontrar fácilmente la señal de ruido. Por lo tanto un modelo de rendimiento en los datos de entrenamiento es casi siempre parcial.

Vale la pena su tiempo para explorar el tema de la validación cruzada (incluso si usted no está de optimización hyperparameters) para obtener una mejor comprensión de por qué tenemos los datos, cuando funciona, qué supuestos están involucrados, etc. Uno de mis favoritos de los documentos es:

No imparcial estimador de la varianza de k-fold cross-validation

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X