5 votos

Determinación de la distribución de probabilidad para conjuntos de datos con valores perdidos

Como parte de mi análisis exploratorio de datos (EDA) antes de su posterior análisis, estoy tratando de determinar la distribución de probabilidad de mis piloto conjunto de datos de variables. Una característica particular de este conjunto de datos es una parte importante de los valores perdidos. Me parcialmente este problema mediante la realización de imputación múltiple (IM), el uso de Amelia R paquete. El MI proceso resultó en una reducción de los valores perdidos de 98% a 31%. Si es importante, además de análisis incluye la EPT, CFA y SEM-PLS modelado.

Tengo varias preguntas en este sentido. En primer lugar, y, probablemente, la principal pregunta es: ¿Cuál es la correcta (o la óptima) enfoque para el ajuste de la distribución en términos de la utilización paramétrico frente a los métodos no paramétricos? Otra pregunta es: ¿tiene sentido combinar ambos enfoques para la validación? La pregunta final es: ¿Cómo la presencia de datos faltantes influye en los enfoques para el ajuste de la distribución?

Los siguientes son algunos de mis pensamientos, basado en la lectura de las discusiones relevantes en CrossValidated. Pido disculpas de antemano, si ellos (los pensamientos) no mostrar el alto nivel de rigurosidad estadística, como no soy un especialista en estadística, pero el desarrollador de software volvió ciencias sociales investigador y los aspirantes a los datos científicos.

En su respuesta a esta pregunta, @Glen_b sugiere que, dado muestra de gran tamaño, enfoque no paramétrico es más fácil y mejor, o, al menos, no peor. Sin embargo, no me queda claro si esta regla general tiene algún "contraindicaciones", por así decirlo. Tampoco está claro lo que es el consenso, si alguna, en lo que respecta a la utilidad de la realización automática o semi-automática del proceso de ajuste de la distribución.

En este gran debate, @Glen_b demuestra la investigación de real de la distribución de datos a través de la aplicación de algunas transformaciones. En este sentido, si la distribución no es multimodal, pero sólo muy sesgado, no está claro si esto tiene sentido para determinar la distribución de los datos frente a la transformación de datos para cumplir distribución normal, el uso de Box-Cox de transformación.

En esta discusión, @jpillow recomienda, junto con el uso de Q-Q parcelas, la prueba de Kolmogorov-Smirnov y la prueba estadística. Sin embargo, en su papel de "Ajuste de distribuciones con R", Vito Ricci estados (p. 19): "la prueba de Kolmogorov-Smirnov es más potente que la prueba de chi-cuadrado cuando el tamaño de la muestra no es demasiado grande. De gran tamaño de la muestra, tanto las pruebas tienen el mismo poder. La limitación más grave de la prueba de Kolmogorov-Smirnov y la prueba es que la distribución debe estar completamente especificada, es decir, ubicación, escala, y los parámetros de forma no puede ser estimado a partir de los datos de la muestra. Debido a esta limitación, muchos analistas prefieren utilizar la de Anderson-Darling de bondad de ajuste de la prueba. Sin embargo, Anderson-Darling de prueba sólo está disponible para algunas distribuciones específicas." Entonces, hay Shapiro-Wilk y Lilliefors pruebas. Entonces no es el mencionado de la chi-cuadrado de la prueba, que puede ser aplicada no continuas distribuciones. De nuevo, estoy bastante confundida en términos de proceso de toma de decisiones para la selección de las pruebas que debo utilizar.

En términos de ajuste de la distribución (DF), he descubierto varias R paquetes, además de los mencionados en el documento de Ricci y en otros lugares, tales como 'fitdistrplus' (http://cran.r-project.org/web/packages/fitdistrplus) para los no - paramétricos y DF y 'kerdiest' (http://cran.r-project.org/web/packages/kerdiest) para no paramétricas en el DF. Este es un FYI, para las personas que no han oído hablar de ellos y son curiosos. Perdón por la larga pregunta y gracias de antemano por su atención!

4voto

AdamSane Puntos 1825

¿Cuál es la correcta (o la óptima) enfoque para el ajuste de la distribución en términos de la utilización paramétrico frente a los métodos no paramétricos?

No habrá un enfoque correcto, y lo que podría ser adecuado depende de lo que usted desea para "optimizar" y lo que estamos tratando de lograr con su análisis.

Cuando hay pocos datos, no tienen mucha capacidad de estimación de distribuciones.

Hay una interesante posibilidad de que el tipo de se encuentra entre los dos. Es paramétrico (al menos al fijar la dimensión del vector de parámetros), pero en un sentido el enfoque abarca el espacio entre un simple modelo paramétrico y un modelo con arbitrariamente muchos parámetros.

Que es tomar algo de la base de la distribución de la modelo y construir una familia de distribuciones basadas en polinomios ortogonales con respecto a la base de la distribución como función peso. Este enfoque ha sido investigado por Rayner y Mejor - y un número de otros autores - en un número de contextos, y para una variedad de la distribución de base. Esto incluye "suave" de la bondad de ajuste de las pruebas, pero también enfoques similares para el análisis de datos de recuento (que permiten la descomposición en "lineal", "cuadrática", etc componentes que se desvían de algún modelo nulo), y un número de otras ideas.

Así, por ejemplo, uno podría llevar a la familia de distribuciones basadas en torno a la distribución normal y los polinomios de Hermite, o los uniformes y los polinomios de Legendre, y así sucesivamente.

Esto es especialmente útil cuando un modelo en particular se espera que cerca adecuado, pero que la actual distribución tenderá a la desviación "suavemente" desde el modelo base.

En la normal y uniforme de los casos, los métodos son muy simples, a menudo más fáciles de interpretar que otros métodos flexibles, y a menudo bastante potente.

No tiene sentido combinar ambos enfoques para la validación?

Sería a menudo sentido utilizar un enfoque no paramétrico de comprobar paramétrico uno.

De la otra manera puede tener sentido en algunas circunstancias particulares.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X