4 votos

Regresión logística: la desviación estándar utilizada en: GLMPOWER

Asistí a una clase de formación de SAS sobre diseño experimental en marketing. Defendieron el uso de su procedimiento GLMPOWER para el análisis de potencia en el diseño de experimentos.

GLMPOWER es un procedimiento de análisis de potencia para determinar el tamaño de muestra necesario para un modelo lineal general (efectos principales, interacciones y/o contrastes específicos entre niveles de factores).

Para esta clase, el interés se centra en el diseño de experimentos con respecto a resultados binarios (respuesta o no respuesta) analizados mediante regresión logística. Dado el gran tamaño de las muestras que se suele ver en el marketing, dijeron que una aproximación a este problema podría ser manejada por GLMPOWER, que asume que la respuesta es una variable continua con distribución gaussiana.

Uno de los parámetros del procedimiento GLMPOWER es una desviación estándar STDDEV definida como "la desviación estándar del error, o raíz MSE" del modelo que se postula.

Preguntas:

  1. Esta desviación estándar del error no es la misma que la desviación estándar de "Y", ¿verdad? Ellos afirman que sí.

  2. Además, tras afirmarlo, utilizan SQRT(p(1-p)) como estimación de este valor, donde p es la tasa de respuesta conjunta (número de respuestas / número de intentos) del experimento. ¿De dónde viene esto y parece que es el valor correcto a utilizar?

Se ha dicho bien que se trata de aproximaciones sólo dadas las suposiciones de GLMPOWER para un resultado binario, pero ¿alguien puede ayudar con el razonamiento?

6voto

Eero Puntos 1612

Personalmente no me gusta el método sugerido (aunque @Michael Chernick hizo un buen trabajo describiendo por qué da una aproximación). En mi opinión, esto requiere demasiadas suposiciones y aproximaciones. En una regresión logística la varianza varía con la media, pero en una regresión gaussiana la varianza se supone constante.

En su lugar, yo sugeriría que se utilizaran simulaciones, ya que así se pueden utilizar exactamente los mismos métodos que se emplearán en el análisis y se sabe exactamente qué supuestos se están haciendo sobre los datos (incluidas las variables predictoras). Básicamente, se simulan los datos en las condiciones que se espera ver, luego se analizan y se ve si se obtiene significación para la prueba principal de interés. Repita esto un montón de veces y la proporción de veces que se rechaza el nulo es su potencia.

Creo que esto sería más fácil en R, pero podría hacerse en SAS usando macros para hacer las réplicas múltiples, el paso de datos para generar los datos, y proc glm para analizar. O puede ser más fácil usar proc IML para las partes. Puede haber otras herramientas en SAS para hacer esto aún más fácil, sólo que no uso SAS mucho recientemente.

2voto

mat_geek Puntos 1367

El modelo de probabilidad que están asumiendo para el resultado binario es la distRibución Bernoulli con proporción de éxito p. La variable aleatoria Bernoulli tiene

varianza = p(1-p).

La suma de n variables aleatorias independientes idénticamente distribuidas es la binomial con parámetros n y p. La media de la variable n Bernoulli es una estimación insesgada y de máxima verosimilitud para p. Su distribución está determinada por la binomial. Por el teorema del límite central esta estimación es aproximadamente normal para n grande porque es una media muestral cuya distribución satisface las condiciones necesarias. Ahora la teoría nos dice que la varianza de la estimación es p(1-p)/n. Así que tiene sentido aplicar esta fórmula con la estimación de p introducida. Esto es mejor que utilizar simplemente la estimación del error estándar de la muestra, que no tiene en cuenta la forma especial de la varianza para la binomial. Así que se puede hacer una prueba de hipótesis sobre la proporción utilizando la aproximación de la distribución normal. Esto explica el punto 2. En cuanto a la 1, la desviación estándar del error es la desviación estándar de los residuos del modelo y no la desviación estándar de la variable Y de Bernoulli.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X