6 votos

Cómo determinar la distribución muestral basado en una encuesta realizada entre las seis variables?

Esta pregunta podría ser demasiado ingenuo, pero necesito entender este punto. Supongamos que me encontré con una encuesta para un producto para 1000 personas y de la recogida de datos para los diversos aspectos de la misma. Digamos que las categorías son X1, X2, X3, X4, X5 y X6.

Por lo tanto, ahora tengo 6 variables. Quiero saber el tipo de la distribución de la muestra.

Mi pregunta es como saber la distribución de esta muestra.

4voto

StasK Puntos 19497

Yo personalmente creo que esto es una mala idea. Si usted sabe que sus datos proceden de una cierta distribución, probablemente se puede decir algo con sentido. Usted puede tener 0/1 respuestas, por lo que la distribución binomial, puede estar condicionado a algunas otras covariables, esa es una de regresión logística. Usted puede tener cuenta, por lo que la distribución de Poisson, puede estar condicionado a algunas otras covariables -- que es de Poisson o cero inflado de Poisson o binomial negativa de regresión. Sin embargo, en general, mirando a hurtadillas y los datos y tratando de determinar la distribución rara vez conduce a buenos resultados.

Nos dice lo que su objetivo final de análisis puede ayudar a sugerir algunos de los mejores itinerarios. ¿Quieres simular nuevos datos a partir de una distribución similar? ¿Desea proporcionar un resumen analítico que es fácil de calcular para ciertas distribuciones? (He visto gente ajuste logarítmico-normal de la curva a los datos de ingresos, así como para informar sobre el coeficiente de Gini.) ¿Quieres comparar sus resultados con los de otra persona?

También, tenga en cuenta que una pequeña muestra (es decir por debajo de 100) será compatible con muchos posibles distribuciones. Una distribución con valores positivos sólo puede ser representada por una gamma, o un lognormal, o de una versión beta, o por Pearson de la familia, y simplemente no hay manera de distinguir entre ellos sobre la base de los datos solamente. Por otro lado, muestras grandes (digamos más de 10000) no es compatible con nada, ya que la vida real es más rica que la hipótesis que nos hacen sobre ella.

2voto

Alex Puntos 844

No hay una sola respuesta para su pregunta, pero se puede aproximar las seis distribuciones a los distintos grados de precisión. La primera cosa que usted debe hacer es trazar utilizando el histograma (hist() en R) o un kernel de la estimación de la densidad (densidad()). Esto debe darle una idea en cuanto a lo que paramétrico de la familia (exponencial, normal, log-normal...) podría proporcionar un ajuste razonable. Si es que la hay, se puede proceder con la estimación de los parámetros.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X