1 votos

¿Cómo puedo ajustar en R una distribución multivariante a los datos y tomar muestras de ella?

He recogido datos sobre la entrega de postparcelas, cada objeto es una combinación de 3 variables:

  1. Peso (continuo >0)
  2. Ciudad de destino (categorial - factor de centenas)
  3. Tipo de entrega (categorial - factor de 3)

Quiero ajustar una distribución multivariable a mis datos. Más tarde necesito muestrear datos de ella con fines de simulación. Utilizo R.

Si lo he entendido bien, en el caso continuo total se podría intentar una mezcla gaussiana o un enfoque de cópula (utilizando mixtools o cópula R paquetes)

Pero mi única variable continua Peso NO tiene una distribución normal y otros dos son categoriales.

¿Cómo afrontar este tipo de problema?

Agradeceré cualquier ayuda: orientaciones generales en teoría estadística o paquetes R.

ACTUALIZACIÓN Tengo aproximadamente 1 millón de filas de datos de cada tipo de entrega. También se realizó una estimación de la densidad del núcleo de la distribución del peso para los dos tipos principales. Por lo tanto, la forma de la distribución es de cola pesada y depende ligeramente del tipo, por ejemplo, el gráfico superior para el tipo 1 es un poco más pronunciado: Kernel density estimation plot

ACTUALIZACIÓN 2 He encontrado el paquete R np muy útil para la estimación no paramétrica de distribuciones condicionales/conjuntas.

1voto

JoanComasFdz Puntos 131

Creo que depende de la cantidad de datos que tengas. Para simplificar llamemos peso, ciudad y tipo $W, C$ y $T$ respectivamente. Si se dispone de una buena cantidad de datos, se podría estimar completamente la estructura de dependencia entre estas tres variables estimando primero la función de masa de probabilidad conjunta de $C$ y $T$ (es decir, $P(T = t, C = c)$ para cada combinación de $t$ y $c$ ) y, a continuación, la distribución condicional de $W$ para cada valor posible de $C$ y $T$ . Esto podría ser problemático ya que $C$ puede adoptar cientos de valores y el número de parámetros que habría que estimar es proporcional al número de ciudades.

El otro extremo sería el enfoque ingenuo de suponer que $W, C$ y $T$ son independientes, en cuyo caso se estimarían todas las distribuciones marginales por separado y al hacer la simulación simplemente se extrae de cada uno de estos marginales individualmente y se combinan los resultados.

Mi sugerencia se situaría en algún punto intermedio y dependería, una vez más, de la cantidad de datos de que disponga, así como de las variables de las que pueda esperar razonablemente que influyan en las demás. Sospecho que $W$ depende más de $T$ que en $C$ así que intenta tratar $W$ y $C$ independientes pero modelan la distribución de $W$ condicional de los tres valores de $T$ . Usted puede ser capaz de salirse con el tratamiento $T$ y $C$ como independientes para simplificar. Para la distribución de $W$ algunos enfoques no paramétricos serían utilizar la función de distribución empírica (cuando se muestrea sólo se extrae de la distribución original con reemplazo) o una estimación de la densidad del núcleo. Se trata de enfoques agradables y bastante flexibles, pero requieren que "recuerde" los datos originales. Para reducir la complejidad del modelo, existe un número ilimitado de métodos paramétricos de estimación de la densidad. Dado que $W$ no es negativo, puede considerar tratarlo como exponencial, logarítmico normal, Pareto, etcétera. Depende de cómo estén estructurados los datos. Además, ¿la forma de la distribución depende de $T$ ? Estas son sólo algunas ideas y es difícil decir más sin ver los datos reales.

En cuanto a tu pregunta sobre cómo comprobar la dependencia entre una variable categórica y una continua, podría hacerse mediante un análisis de la varianza, pero por desgracia es poco probable que la prueba ANOVA te diga mucho sobre lo que está pasando, excepto en el raro caso de que no consigas rechazar la nula. También se podrían utilizar pruebas de bondad de ajuste para comprobar la igualdad de las distribuciones, pero éstas adolecerían de los mismos defectos que la prueba ANOVA, a saber, que la nula es generalmente falsa de todos modos (pero no necesariamente de forma importante). Siempre es una buena idea observar los datos, así que considere algunos gráficos de caja paralelos para intentar visualizar cómo $W$ puede depender de $T$ o, de nuevo, comprueba algunas estimaciones de la densidad del núcleo (que, por lo que veo en tu actualización, ya has hecho).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X