Como parte de mi análisis exploratorio de datos (EDA) antes de su posterior análisis, estoy tratando de determinar la distribución de probabilidad de mis piloto conjunto de datos de variables. Una característica particular de este conjunto de datos es una parte importante de los valores perdidos. Me parcialmente este problema mediante la realización de imputación múltiple (IM), el uso de Amelia
R paquete. El MI proceso resultó en una reducción de los valores perdidos de 98% a 31%. Si es importante, además de análisis incluye la EPT, CFA y SEM-PLS modelado.
Tengo varias preguntas en este sentido. En primer lugar, y, probablemente, la principal pregunta es: ¿Cuál es la correcta (o la óptima) enfoque para el ajuste de la distribución en términos de la utilización paramétrico frente a los métodos no paramétricos? Otra pregunta es: ¿tiene sentido combinar ambos enfoques para la validación? La pregunta final es: ¿Cómo la presencia de datos faltantes influye en los enfoques para el ajuste de la distribución?
Los siguientes son algunos de mis pensamientos, basado en la lectura de las discusiones relevantes en CrossValidated. Pido disculpas de antemano, si ellos (los pensamientos) no mostrar el alto nivel de rigurosidad estadística, como no soy un especialista en estadística, pero el desarrollador de software volvió ciencias sociales investigador y los aspirantes a los datos científicos.
En su respuesta a esta pregunta, @Glen_b sugiere que, dado muestra de gran tamaño, enfoque no paramétrico es más fácil y mejor, o, al menos, no peor. Sin embargo, no me queda claro si esta regla general tiene algún "contraindicaciones", por así decirlo. Tampoco está claro lo que es el consenso, si alguna, en lo que respecta a la utilidad de la realización automática o semi-automática del proceso de ajuste de la distribución.
En este gran debate, @Glen_b demuestra la investigación de real de la distribución de datos a través de la aplicación de algunas transformaciones. En este sentido, si la distribución no es multimodal, pero sólo muy sesgado, no está claro si esto tiene sentido para determinar la distribución de los datos frente a la transformación de datos para cumplir distribución normal, el uso de Box-Cox de transformación.
En esta discusión, @jpillow recomienda, junto con el uso de Q-Q parcelas, la prueba de Kolmogorov-Smirnov y la prueba estadística. Sin embargo, en su papel de "Ajuste de distribuciones con R", Vito Ricci estados (p. 19): "la prueba de Kolmogorov-Smirnov es más potente que la prueba de chi-cuadrado cuando el tamaño de la muestra no es demasiado grande. De gran tamaño de la muestra, tanto las pruebas tienen el mismo poder. La limitación más grave de la prueba de Kolmogorov-Smirnov y la prueba es que la distribución debe estar completamente especificada, es decir, ubicación, escala, y los parámetros de forma no puede ser estimado a partir de los datos de la muestra. Debido a esta limitación, muchos analistas prefieren utilizar la de Anderson-Darling de bondad de ajuste de la prueba. Sin embargo, Anderson-Darling de prueba sólo está disponible para algunas distribuciones específicas." Entonces, hay Shapiro-Wilk y Lilliefors pruebas. Entonces no es el mencionado de la chi-cuadrado de la prueba, que puede ser aplicada no continuas distribuciones. De nuevo, estoy bastante confundida en términos de proceso de toma de decisiones para la selección de las pruebas que debo utilizar.
En términos de ajuste de la distribución (DF), he descubierto varias R paquetes, además de los mencionados en el documento de Ricci y en otros lugares, tales como 'fitdistrplus' (http://cran.r-project.org/web/packages/fitdistrplus) para los no - paramétricos y DF y 'kerdiest' (http://cran.r-project.org/web/packages/kerdiest) para no paramétricas en el DF. Este es un FYI, para las personas que no han oído hablar de ellos y son curiosos. Perdón por la larga pregunta y gracias de antemano por su atención!