8 votos

Si el coeficiente de variación es incorrecta (para un parámetro de regresión), ¿eso significa que el modelo log-verosimilitud es incorrecta?

Estoy usando la regresión logística para estimar ~probabilidad de que una unidad de la muestra a ser utilizada por un animal.

Debido a mi diseño de muestreo es inevitable que existe una superposición entre "usado" las unidades de la muestra y 'disponible' unidades de la muestra. (Superposición se refiere a la situación donde "usado" unidades de producirse también en la muestra de 'disponible' unidades. Es decir, unidades de muestreo con características idénticas son codificados como '0' y '1' en los datos. Por lo que la situación no es análogo a un caso de control de la aplicación de la regresión logística.)

Según Johnson et al 2006 "la Selección de Recursos de Funciones Basadas en el Uso–Disponibilidad Datos: Teoría de la Motivación y los Métodos de Evaluación";

"Cuando se solapan, las estimaciones de la variación reportada por el regresión logística de procedimiento para los coeficientes no son correctos, incluso a pesar de que los coeficientes de las estimaciones. Si no se solapan, la varianza estimaciones son correctas. Coeficiente de varianzas en el caso de superposición debe ser estimado por bootstrap métodos de remuestreo distintas las unidades".

Mi pregunta es, ¿incorrecta coeficiente de varianzas implica incorrecto registro de las probabilidades? Lo pregunto porque quiero comparar a unos 10 modelos con AIC, pero parece que tendría que bootstrap de las desviaciones para cada uno de los coeficientes del modelo por separado y, a continuación, calcular la probabilidad, y luego usar mi modelo de procedimiento de selección.

Gracias por todos los pensamientos

1voto

Jeff Bauer Puntos 236

Suponga que usted tiene $m$ observaciones para que no se superponen, y $m_o$ observaciones que aparecen dos veces en la muestra. Su tamaño de la muestra total es, por tanto,$N = m+2m_o$. Si la observación $y_k$ es superpuesta, a continuación, en la muestra existe otra observación $\tilde y_k = 1-y_k$, pero para el que todas las variables explicativas son idénticos, tanto como un conjunto, y como numérica realizaciones, con aquellos asociados con $y_k$. Suponemos que algunos de $y_k$ tienen el valor de$1$, mientras que otros los valores de $0$ (por lo que en el subgrupo con los solapamientos, tanto unos y ceros).

Si entiendo correctamente, la superposición es semejante a la contaminación de la muestra de algún tipo. Si este es el caso, entonces el modelo correctamente especificado y la probabilidad debe ser uno que incluye sólo el $m+m_o$ observaciones, es decir, descartar la subserie, incluyendo el $\tilde y_k$'s.

Por lo tanto, el registro correcto de la probabilidad es (escrito por separado para fines posteriores)

$$\ln L=\sum_{i=1}^m\left[y_i \ln p_i+(1-y_i)\ln (1-p_i)\right] + \sum_{k=m+1}^{m+m_o}\left[y_k \ln p_k+(1-y_k)\ln (1-p_k)\right]$$

donde $p_i$ $p_k$ son funciones logísticas de las variables explicativas y el desconocido coeficientes en la forma habitual.

El primer fin de condiciones que el estimador de máxima verosimilitud debe satisfacer son (tomando el gradiente con respecto a los coeficientes de la incógnita)

$$\sum_{i=1}^m\left[y_i - p_i\right]\mathbf x_i + \sum_{k=m+1}^{m+m_o}\left[y_k - p_k\right]\mathbf x_k=0 \tag{1}$$

Supongamos ahora que ignoramos el problema de la superposición y vamos en y especifique un log-verosimilitud sobre todas las $m+2m_o$ observaciones

$$\ln L_o=\sum_{i=1}^{m+2m_o}\left[y_i \ln p_i+(1-y_i)\ln (1-p_i)\right]$$

que nos dará las condiciones de primer orden que el perito debe satisfacer

$$\sum_{i=1}^{m+2m_o}\left[y_i - p_i\right]\mathbf x_i =0$$

que podemos descomponer debido a la superposición (que existe independientemente de si se trató o no), en

$$\sum_{i=1}^{m}\left[y_i - p_i\right]\mathbf x_i +\sum_{k=m+1}^{m+m_o}\left[y_k - p_k\right]\mathbf x_k +\sum_{k=m+1}^{m+m_o}\left[\tilde y_k - p_k\right]\mathbf x_k =0$$

$$\Rightarrow \sum_{i=1}^{m}\left[y_i - p_i\right]\mathbf x_i +\sum_{k=m+1}^{m+m_o}\left[y_k - p_k\right]\mathbf x_k+\sum_{k=m+1}^{m+m_o}\left[1- y_k - p_k\right]\mathbf x_k =0$$

$$\Rightarrow \sum_{i=1}^{m}\left[y_i - p_i\right]\mathbf x_i +\sum_{k=m+1}^{m+m_o}\left[y_k - p_k +1 - y_k-p_k\right]\mathbf x_k =0$$

$$\Rightarrow \sum_{i=1}^{m}\left[y_i - p_i\right]\mathbf x_i +\sum_{k=m+1}^{m+m_o}\left[1-2p_k \right]\mathbf x_k =0 \tag{2}$$

Compare $(1)$$(2)$. No veo cómo el coeficiente estima que va a satisfacer $(2)$, será el mismo como aquellos que satisfacen $(1)$. Así que no se puede entender la afirmación de que el "coeficiente de estimaciones son correctas, incluso en presencia de superposición", y no digamos la varianza de la cuestión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X