19 votos

¿Cómo calcular la longitud promedio de adhesión al vegetarianismo cuando sólo tenemos datos de la encuesta sobre los vegetarianos actuales?

Al azar de la población de la muestra fue examinada. Se les preguntó si ellos comen una dieta vegetariana. Si respondió que sí, también se les preguntó a especificar el tiempo que he estado comiendo dieta vegetariana sin interrupción. Quiero utilizar estos datos para calcular el promedio de la longitud de adherencia al vegetarianismo. En otras palabras, cuando alguien se convierte en vegetariano, quiero saber cuánto tiempo en promedio se quedan vegetariana. Vamos a suponer que:

  • Todos los participantes dieron una correcta y precisa de las respuestas
  • El mundo es estable: la popularidad de que el vegetarianismo no es cambiar, el promedio de la longitud de adherencia no está cambiando.

Mi razonamiento tan lejos

He encontrado que es útil para analizar un juguete modelo del mundo, donde al comienzo de cada año, dos personas se convierten en vegetarianos. Cada vez, uno de ellos permanece vegetariana durante 1 año y otro de 3 años. Obviamente, la duración media de la adherencia en este mundo es (1 + 3) / 2 = 2 años. Esta es una gráfica que ilustra el ejemplo. Cada rectángulo representa un período de vegetarianismo:

an illustration

Digamos que tomamos una encuesta en la mitad del año 4 (línea roja). Obtenemos los siguientes datos:

a table

Nos gustaría obtener los mismos datos, si tomamos la encuesta en cualquier año, a partir del año 3. Si nosotros simplemente el promedio de las respuestas que obtenemos:

(2* 0.5 + 1.5 + 2.5)/4 = 1.25

Nos subestiman porque se supone que todo el mundo dejó de ser vegetarianos a la derecha después de la encuesta, que es obviamente incorrecto. Para obtener una estimación más cercana a la real promedio de veces que estos participantes seguiría siendo vegetariana, podemos asumir que, en promedio, se informó de una hora aproximadamente en la mitad de su período de vegetarianismo y multiplicar informó duraciones por 2. En una gran encuesta de dibujo al azar de la población (como el que yo estoy analizando), creo que esta es una hipótesis realista. Al menos le daría un correcto valor esperado. Sin embargo, si la duplicación es la única cosa que hacemos, obtenemos promedio de 2.5, que es una sobreestimación. Esto es debido a que cuanto más tiempo la persona está vegetariana, la más probable (s)de él es estar en la muestra de la corriente de los vegetarianos.

Pensé entonces que la probabilidad de que alguien está en la muestra de la corriente de los vegetarianos es proporcional a su longitud de vegetarianismo. A cuenta de esta tendencia, traté de dividir el número de vegetarianos por su longitud prevista de la adhesión:

yet another table

Sin embargo, esto da una incorrecta promedio así:

(2*1 + ½ * 3 + ⅕ * 5)/(2 + ½ + ⅕) = 4 / 2.533333 = 1.579 años

Me gustaría dar la correcta estimación de si el número de vegetarianos fueron divididos por su correcta longitudes de adherencia:

(1 + ⅓ * (1 + 3 + 5))/(1 + ⅓ * 3) = 2 años

Pero no funciona si uso predijo longitudes de adherencia y son todos los que tengo en realidad. No sé qué más probar. He leído un poco sobre el análisis de supervivencia, pero no estoy seguro de cómo se aplica en este caso. Idealmente, también me gustaría ser capaz de calcular un 90% de intervalo de confianza. Cualquier consejo sería muy apreciada.

EDITAR: Es posible que esta pregunta no tiene respuesta. Pero hubo también otro estudio que se preguntó a una muestra aleatoria de la gente si son/eran vegetarianos y cuántas veces lo he sido vegetariano en el pasado. También sé de edad de todo el mundo, tanto en los estudios y algunas otras cosas. Tal vez esta información puede ser usada en conjunto con la encuesta de la actual vegetarianos para obtener la media de alguna manera. En realidad, el estudio que he hablado es sólo una pieza del rompecabezas, pero uno muy importante y quiero sacar más provecho de ella.

13voto

Ayman Puntos 3980

Deje $f_X(x)$ denotar el pdf de la adhesión de la longitud de $X$ del vegetarianismo en la población. Nuestro objetivo es estimar el $EX=\int_0^\infty xf_X(x)dx$.

Asumiendo que la probabilidad de ser incluidos en la encuesta (en el caso de $S$) es proporcional a la $X$, el pdf de la adhesión de la longitud de $X$ entre los incluidos en la encuesta es $$ f_{X|S}(x) = \frac{xf_X(x)}{\int x f_X(x) dx}=\frac{xf_X(x)}{EX}. $$ En el momento de ser incluidos en la encuesta, sólo un momento $Z$ ha pasado. Condicional en $X$ (e $S$), informó a tiempo de ser vegetariano es uniforme con pdf $$ f_{Z|X=x}(z) = \frac1x, 0<z<x. $$ Por lo tanto, utilizando la ley de total probabilidad, la distribución general del tiempo de $Z$ pasa como vegetariano entre los incluidos en la encuesta se convierte en \begin{align} f_Z(z) &= \int_z^\infty f_{Z|X=x}(z)f_{X|S}(x)dx \\&= \int_z^\infty \frac1x \frac{xf_X(x)}{EX}dx \\&= \frac{1-F_X(z)}{EX}, \end{align} donde $F_X(z)$ es la cdf de $X$. Desde $X$ es un resultado positivo de la variable $F_X(0)=P(X\le 0)=0$$f_Z(0)=1/EX$.

Esto sugiere la estimación de $EX$ por primera estimación de $f_Z(z)$ no paramétrica de los datos observados $z_1,z_2,\dots,z_n$. Una opción es la estimación de densidad de kernel, usando Silverman del método de reflexión en torno a $z=0$ desde el dominio de $f_Z(z)$ tiene un límite inferior en $z=0$. Este método aplicado a la simulación de los datos se muestra como la curva de color rojo en la figura de abajo. Después de obtener una estimación de $\hat f_Z(0)$$f_Z(z)$$z=0$, una estimación de $EX$ es el dado por $\widehat{EX}=1/\hat f_Z(0)$.

enter image description here

Este no-paramétrica del método no es ideal, sin embargo, ya que no explotan el hecho de que $f_Z(z)$ no es una función creciente. También, si $f_X(0)=F_X'(0)>0$, $f_Z(0)$ pueden resultar gravemente subestimado y $EX$ sobreestimado. Encontrar una estimación de $EX$, en tales situaciones, sin hacer más suposiciones parece difícil, básicamente porque corta la adhesión de los tiempos presentes en esta situación difícilmente se muestran en los datos observados como resultado de un muestreo sesgado.

Alternativamente, uno podría hacer algunas suposiciones acerca de la distribución de la $f_X(x)$ y el ajuste de un modelo paramétrico mediante la maximización de la probabilidad $$ L(\theta)=\prod_{i=1}^n \frac{1-F_X(z_i;\theta)}{EX(\theta)} $$ numéricamente (curva azul en la figura de arriba).

R código de la simulación de los datos y de la aplicación de ambos métodos:

# Simulate lognormal duration length in population
set.seed(1)
n <- 1e+4
x <- rlnorm(n,mean=2,sd=.2)
# Biased sampling
x.given.S <- sample(x, size=n/10, prob=x, replace=TRUE)
# Duration at time of sampling
z <- runif(length(x.given.S),min=0, max=x.given.S)
hist(z,prob=TRUE,main="")

# Compute kernel density estimate with reflection around z=0
to <- max(x) + 3
fhat <- density(z,from = -to, to=to)
m <- length(fhat$y)
fhat$y <- fhat$y[(m/2+1):m] + fhat$y[(m/2):1]
fhat$x <- fhat$x[(m/2+1):m]
lines(fhat,col="red")
# Estimate of EX
1/fhat$y[1]
# True value (mean of above lognormal)
exp(2+.2^2/2)

# Maximum likelihood
nll <- function(theta, z) {
  - sum(plnorm(z, theta[1], theta[2], log.p=TRUE, lower.tail = FALSE)) + length(z)*(theta[1] + theta[2]^2/2)
}
fit <- optim(c(0,1),nll,z=z)
fit$par
EXhat <- exp(fit$par[1]+fit$par[2]^2/2) # MLE of EX
EXhat
curve(plnorm(z, fit$par[1], fit$par[2], lower.tail=FALSE)/EXhat, xname="z", col="blue",add=TRUE)

0voto

Assembler Puntos 545

(He interpolado través de la adición de este, tal y como aparece @JarleTufto ya ha dado un buen enfoque matemático; sin Embargo, yo no soy lo suficientemente inteligente como para entender su respuesta, y ahora tengo la curiosidad de si es exactamente el mismo enfoque, o si el enfoque que se describe a continuación cada vez tiene sus usos.)

Lo que me gustaría hacer es adivinar un promedio de longitud, y supongo que un par de distribuciones a su alrededor, y luego, para cada uno, hacer una simulación de mi población, y muestra de forma regular.

Usted le dijo a asumir el total de la población de los vegetarianos no está cambiando, por lo que cada vez que mi modelo tiene alguien de parada, un nuevo vegetariano es creado. Necesitamos para ejecutar el modelo para un número de años simulados para asegurarse de que se ha establecido, antes de que podamos empezar a muestra. Después de eso creo que se puede tomar muestras cada simulado mes (*) hasta que haya suficiente para formar el 90% de intervalo de confianza.

*: o sea cual sea la resolución de las obras con sus datos. Si la gente dio su respuesta a la más cercana de año, toma de muestras cada 6 meses es suficiente.

De todas las opciones, elige la media y la distribución (media de todas las muestras se tomaron) da el resultado más cercano a lo que tu en la vida real de la encuesta dio.

Me gustaría recorrer mi adivina un par de veces, para estrechar la búsqueda de la mejor coincidencia.

La mejor distribución no puede ser de un solo pico. El ex-vegetarianos personalmente puedo pensar detuvo debido a los grandes cambios de estilo de vida (normalmente de casarse/sala de estar con un no vegetariano, o la mudanza de país, o de caer gravemente enfermo y un médico lo que sugiere que podría ser la dieta); por otro lado, está el poder de la costumbre: el más largo que he sido vegetariano tendrá más probabilidades de seguir siendo uno. Si los datos le había preguntado la edad y el estado de la relación, podríamos tirar que en la anterior simulación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X