5 votos

$\chi^2$ pruebas para comparar el ajuste de las grandes muestras de los modelos logísticos

¿Alguien sabe de alguna $\chi^2$ pruebas para comparar el ajuste de los modelos logísticos que producen el tamaño de la muestra? Estoy lidiando con una muestra muy grande y me temo que el significante $\chi^2$ prueba de que tengo cuando la adición de una sola variable en el modelo es simplemente el resultado del tamaño de la muestra (>200.000 casos). Estoy haciendo lo que se conoce como funcionamiento diferencial de los ítems análisis con regresión logística. Básicamente, es como si yo voy a la comprobación de si dar la respuesta correcta a una pregunta (la variable dependiente) depende de su origen étnico a la hora de controlar el total de la puntuación del examen.

Modelo 1 Q1~TotalexamScore

Modelo 2 Q1~TotalexamScore+ Group

Estoy básicamente mediante una prueba de chi-cuadrado para comparar model1 a model2. El coeficiente de importancia no es tan importante, pero $\chi^2$ y a veces $R^2$ generalmente se recomienda comprobar el funcionamiento diferencial de los ítems. Mi problema es que mi muestra es muy grande. En teoría (por la pregunta que me estoy planteando) no debe haber ninguna diferencia real entre los grupos, por lo que sospecho que es simplemente la sensibilidad de la $\chi^2$ tamaño de la muestra.

Prefiero usar todo el conjunto de datos en lugar de tomar (pequeño) muestras aleatorias como es muy desigual. He visto cosas como Phi y Cramer V de tablas de referencias cruzadas, pero no estoy seguro de si se han utilizado antes en la regresión logística, si hay mejores y si hay paquetes (generalmente yo utilizo el programa Spss, Mplus, Stata, R).

8voto

Zizzencs Puntos 1358

Cualquier prueba de significación estadística será sensible al tamaño de la muestra, que es uno de los problemas con la significación estadística de las medidas.

Hay alternativas: 1) una idea de lo que hizo anteriormente: Presentar el estadístico de chi-cuadrado y tenga en cuenta su importancia, pero luego de discutir el tamaño del efecto de la adición de grupo.

2) el Uso de una medida que da cuenta de la complejidad del modelo (por ejemplo, AIC, AICC, BIC). Estos pueden mostrar que el modelo más simple es mejor, a pesar del enorme tamaño de la muestra. Sin embargo, AFAIK, la diferencia en el AIC no produce un p-valor.

y probablemente otras cosas así.

3voto

patfla Puntos 1

Uno hueristic manera que usted puede tener en cuenta el tamaño de la muestra es hacer un grupo aleatorio de la variable que tiene el mismo propensión marginal como su "Grupo" de la variable. A continuación, compruebe la estadística de chi cuadrado para este grupo aleatorio. Si es mayor que el chi cuadrado para la variable, entonces usted tiene un buen caso para descartar el efecto de ruido. Una versión más robusta será la creación de muchas variables de ruido y ver si alguno de sus estadísticas de chi cuadrado es mayor que el chi cuadrado para la variable.

Otra cosa que usted debe hacer es examinar los coeficientes beta o "tamaño del efecto" para el "Grupo" de la variable. Hacen sentido intuitivo? Por ejemplo usted puede explicar por qué un coeficiente debe ser positivo o negativo? Puede usted explicar por qué la magnitud del coeficiente debe ser más grande o más pequeño que el resto de coeficientes?

Tan lejos como la más formal de las pruebas de que yo recomendaría BIC, ya que tiende a ser conservador. Si BIC favorece el modelo más grande, entonces solo se trata de cualquier otra prueba. Esto generalmente significa "de baja potencia" cuando el tamaño de la muestra es pequeño, pero su tamaño de la muestra es grande. Usted puede demostrar que el uso de BIC es aproximadamente lo mismo que establecer el valor p de significación en un cociente de probabilidad prueba de la chi cuadrado igual a $Pr(\chi_q^2>q\log[N])$ donde $q$ es el número de parámetros adicionales en el modelo más grande.

1voto

aron Puntos 174

Usted debe darse cuenta de que el poder estadístico es que no va a ser determinado por el número de casos, sino por el número de eventos (o el menor de los 0/1 categorías). Hay una gran variedad de bondad de ajuste de las estadísticas que se han propuesto. Yo generalmente evitan, ya que estoy más interesado en mirar a efecto de magnitudes en lugar de en los mundiales de ajuste. Yo generalmente mi umbral para considerar las diferencias en el modelo X^2 mucho mayor cuando se trabaja en grandes datos. Mis datos están en el orden de 10 veces más grande que el tuyo pero con sólo el 1% de los casos, siendo los eventos. En ese contexto me parece que los modelos con X^2 diferencias de 10 o menos con un grado de libertad en general tienen muy poca diferencia significativa cuando se examina el efecto de las diferencias. Y yo también requieren una X^2 diferencia de 30 cuando puedo saber si han realizado extensas pruebas múltiples.

A lo largo de las mismas líneas, al realizar la comparación de los modelos con grandes conjuntos de datos, se debe utilizar la penalización que tiene en cuenta el número de comparaciones del modelo. A veces me figura mi grados de libertad se encuentran en el rango de 50-100 teniendo en cuenta la cantidad de modelos diferentes que he examinado. Usted tendrá la oportunidad de examinar la no-linealidad y el potencial de las interacciones, y que sin duda debe hacer uso de esa posibilidad. Y usted debe considerar la búsqueda de la no-linealidad en sus estimaciones del número de grados de libertad necesarios. Hay acuerdo general en que el R-ayudar a la comunidad que Frank Harrell del texto "modelos de Regresión de Estrategias" tiene excelentes discusiones sobre estos puntos, y estoy básicamente de repetir las cosas que he aprendido de Frank. (Espero que no he tergiversado ellos.) El R 'rms' y 'Hmisc' paquetes de aplicar los consejos y métodos Harrell recomienda.

Esta es la lista de posibles "modelo de métricas" que Harrell la lrm función de la oferta:

model likelihood ratio chi-square, d.f., 
P-value, 
c index (area under ROC curve), 
Somers' D_{xy}, 
Goodman-Kruskal gamma, 
Kendall's tau-a rank correlations between predicted probabilities and observed response, 
Nagelkerke R^2 index, 
Brier score computed with respect to Y > its lowest level, 
g-index, 
gr (the g-index on the odds ratio scale), 
gp (the g-index on the probability scale using the same cutoff used for the Brier score).

Como he dicho yo en general estoy considerando la comparación penalizado LR estadísticas, pero la Nagelkerke pseudo-R^2 debe ser algo libre de la muestra tamaño de la inflación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X