7 votos

División de tren / prueba que se asemeja al conjunto de datos original y entre sí

Estoy en la modelización de una variable continua (es decir, la cantidad media de algo por cliente). La variable tiene algunos distribución asimétrica: por ejemplo Gamma/Tweedie/ etc.

Supongamos que yo no soy capaz de hacerlo validación cruzada después de la construcción de un modelo: Todo lo que puedo hacer es seleccionar tren/prueba de subconjuntos de una vez (80%/20%) del conjunto de datos inicial y, a continuación, modelo de tren de usar tren.

El problema es que a la hora de generar el 80% el uso de pseudo variable aleatoria puede ocurrir que mi tren de prueba correctamente no parecerse a los del conjunto de datos original. También el problema es que el tren y prueba de conjunto no podría parecerse el uno al otro.

¿Alguien sabe la forma correcta de dividir los datos en tren/de la prueba de modo que cada parte del tren/de prueba que se asemejan unos a otros y la distribución inicial?

Entiendo que por lo general, debe usar la validación cruzada, mientras que la selección de los parámetros del modelo para superar este tipo de problemas, pero hay algo que uno podría hacer sin él? He encontrado algo de información acerca de KLIEP algoritmo, pero no estoy seguro de que es aplicable para el caso de los mencionados anteriormente.

Agradecería cualquier comentario/enlaces para leer.

5voto

usεr11852 Puntos 5514

Siempre podemos estratificar la muestra de manera que la distribución de las variables subyacentes es similar entre los dos grupos; el muestreo estratificado es bastante enfoque estándar para asegurarse de azar subgrupos tienen similares propiedades estadísticas. Si estamos usando R son múltiples los paquetes que ofrecen muestreo estratificado; por ejemplo, los paquetes splitstackshape y stratification tiene un montón de fácilmente disponibles funcionalidad. La mayoría de muestreo estratificado metodología se origina a partir de la encuesta de estadísticas y ecología, así que uno podría querer ver a un papel como Shao (2003) "el Impacto de la Bootstrap en las Encuestas de la Muestra", para tener una mejor idea acerca de las posibles implicaciones de arranque de un (encuesta) de la muestra. También he encontrado la ONU, la FAO (Organización de Alimentos y Agricultura de las Naciones Unidas) Documento Técnico de Pesca 434 métodos de Muestreo aplicados a la ciencia de la pesca: un manual muy readible y para el punto (véase en particular la sección 4 "muestreo aleatorio Estratificado")

Hay técnicas que permite una precisa covariable equilibrio entre el control y los grupos de tratamiento que también podría ser aplicable, pero son casi ciertamente una sobre-matar a utilizar para la selección de un conjunto. Ellos podrían ser útiles como herramientas de diagnóstico, sin embargo.

2voto

cbeleites Puntos 12461

En adición a @user11852 la respuesta:

  • si usted puede hacer en tren/prueba de divisiones que son al azar, pero tiene la distribución deseada propiedades coincidentes, puede repetir/recorrer en esto: esta es una técnica de remuestreo llama el conjunto de validación y en esto es similar a la validación cruzada y fuera-de-arranque de validación.

  • Para un solo continuo de la variable de interés, hay no aleatoria de la cruz de validación de esquemas como las persianas venecianas división donde ordenar las muestras de acuerdo a la variable continua y, a continuación, asigne los grupos de iguales de la muestra. modulo $k$. Que deja una ligera diferencia sistemática entre los grupos.

  • Para múltiples covariables, los métodos de agrupamiento como k-means (el uso de lo que la mayoría considera una debilidad: que k tiende a producir un tamaño similar esférica clusters) o mapas de Kohonen se han utilizado para la estratificación.

  • El Dúplex algoritmo (Snee: Validación de Modelos de Regresión: Métodos y Ejemplos, Technometrics 1977 (una variante de la Kennard-Piedra algoritmo) da una sola dividida en tren y conjuntos de la prueba.
    Este algoritmo es particularmente interesante si usted necesita para seleccionar un subconjunto de un mayor número de puntos de datos de entrenamiento y de prueba (por ejemplo, muchas de las mediciones disponibles, pero los valores de referencia son caros).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X