4 votos

Distribución binomial extra negativa o distribución binomial extra

Tengo dudas sobre cómo tratar mi variable de resultado y, en consecuencia, sobre qué análisis de regresión debo aplicar. Estoy trabajando con una variable de recuento, es decir, las veces que una persona dijo "no sé" en un total de 45 preguntas. La distribución está muy sesgada positivamente, con un elevado número de ceros. Y hay pruebas de una severa sobredispersión. Creo que esto se debe a que cuando uno dice "no sé" a una pregunta, es más probable que lo haga en las demás, porque todas son sobre el mismo tema. Así que las 45 "pruebas" no son independientes.

Podría recalcular a una proporción, y aplicar una regresión binomial extra (con número de ensayos=45) y los estimadores que obtengo son el logaritmo de la diferencia de probabilidad de puntuar 1 (=no sabe, DK) en una pregunta concreta (odds ratio).

O

Podría tratarlo como un recuento cuya distribución se aproximará a una distribución binomial extra negativa (porque la probabilidad media de decir "no sé" en un ensayo es baja, es decir, 0,05). Entonces los coeficientes de regresión me dan el logaritmo de la diferencia de veces que el encuestado dice "no sé" (tasa de incidencia).

Ahora mi pregunta es, ¿la regresión binomial negativa adicional corregirá mejor la sobredispersión que la regresión binomial adicional? Me parece que permito que la varianza sea aleatoria dos veces, una por la "binomial negativa en lugar de poisson" y otra por permitir un "parámetro extra" para estimar la variación. ¿O los dos métodos serán iguales, y puedo elegir libremente en función de la interpretación que prefiera (razón de probabilidades frente a razón de tasas de incidencia)?

enter image description here

Entiendo por la respuesta de Glen_b que para la distribución binomial negativa teórica la varianza aumenta más rápidamente que la media. ¿Cómo podría evaluar esto en mi distribución empírica, ya que sólo tengo una medida de la media y la varianza? ¿Debería comparar esto para diferentes grupos de encuestados, por ejemplo, hombres y mujeres, y comparar su aumento de la media y la varianza? ¿Realizar las pruebas GOF para Bin y Negbin me daría una respuesta concluyente?

3voto

AdamSane Puntos 1825

Ahora mi pregunta es, ¿la regresión binomial negativa adicional corregirá mejor la sobredispersión que la regresión binomial adicional?

Lo que describe mejor la varianza depende de la forma de la relación entre la varianza y la media.

Siento que permito que la varianza sea aleatoria dos veces, una por la 'binomial negativa en lugar de poisson' y otra por permitir un 'parámetro extra' para estimar la variación.

No se trata tanto de que la "varianza sea aleatoria" al pasar de la Poisson a la binomial negativa (si bien una forma de generar una binomial negativa a partir de algo que es condicionalmente Poisson es tener heterogeneidad en la tasa Poisson - concretamente que ella misma sea de distribución Gamma), eso no implica que la Poisson sea necesariamente una buena descripción incluso condicionalmente, y por otro lado, incluso si fuera una situación en la que tienes una mezcla heterogénea de Poissons, si la distribución de la mezcla es de cola más pesada que una Gamma, podrías obtener algo más sobredisperso que una Binomial Negativa.

O los dos métodos serán iguales,

No en general. En algunos casos particulares podrían estar bastante cerca, especialmente si la media no varía mucho, pero en general la Binomial Negativa implicaría más probabilidad de eventos extremos en la cola (la Binomial está acotada, después de todo, mientras que la Binomial Negativa no lo está; además, a medida que la media de la binomial crece, su función de varianza sube relativamente más despacio que la media, mientras que para la Binomial Negativa es más rápido).

y ¿puedo elegir libremente en función de la interpretación que prefiera (razón de probabilidades frente a razón de tasas de incidencia)?

La razón de momios estima la razón de la tasa de incidencia en un estudio de casos y controles, pero no creo que tengas eso aquí. No estoy seguro de entender lo suficiente sobre su situación para decir algo sensato sobre esto.

¿Cómo puedo determinar a qué distribución teórica se inclina más mi resultado? ¿Ayuda si digo que la media es 2,34 y la varianza es 18,39? También he añadido un gráfico de barras de mi variable de resultado a la pregunta inicial.

Si se trata de una sobredispersión, no es especialmente útil conocer la media y la varianza incondicionales de la respuesta. No sirve para distinguir entre los modelos de sobredispersión de ninguna manera. Del mismo modo, el gráfico de barras no sirve para indicar cuál sería el preferido.

Yo elegiría entre ellos en función de otras consideraciones. Veo dos cosas principales en las que pensar -

Una -que ya he mencionado, aunque quizás no con suficiente detalle para que te des cuenta de que es a lo que me refería- es si la varianza aumenta más rápida o más lentamente que la media (si es más rápida, sugiere binomio negativo, si es más lenta sugiere binomio).

El segundo pensamiento -en mi opinión algo más débil- es que si la variable no tiene un límite superior natural, podría inclinarnos más hacia la binomial negativa, mientras que si lo tiene, nos inclinaría hacia la binomial.

¿Cómo podría evaluar esto en mi distribución empírica, ya que sólo tengo una medida de la media y la varianza?

Ah, estaba pensando -aunque sin razones suficientes para ello- que con las preguntas múltiples había subgrupos naturales de preguntas que darían lugar a múltiples medias y varianzas. Supongo que empezaría por buscar extensiones de la binomial (incluyendo, quizás, la beta-binomial), pero también vería cómo encaja la binomial negativa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X