Processing math: 100%

7 votos

Elección de la agrupación en la prueba de ji cuadrado

Digamos que tengo una variable categórica. Trato de probar la hipótesis nula de que cada categoría tiene la misma cuenta (de algo), utilizando una de Pearson prueba de Chi-Cuadrado. Puede que no sea capaz de rechazar la hipótesis nula, utilizando sólo las variables categóricas, pero si yo grupo de las categorías juntos en el camino correcto, puedo rechazar la hipótesis nula. (Por ejemplo, {a,b,c} tienen un mayor conteo de {d,e,f}.) Parece sin embargo, que si puedo elegir mi agrupaciones basadas en mi la distribución de la muestra, entonces yo soy el sobreajuste. En las simulaciones, he sido capaz de agrupar las categorías de cargos a partir de una distribución uniforme en la forma correcta para rechazar la hipótesis nula demasiado a menudo para mi nivel de significación. Sin embargo, quiero ser cuantitativa acerca de este error/abuso estoy cometiendo. Por ejemplo, yo podría estar dispuesto a grupo{a,d,e},{b,c,f}, pero en ninguna otra partición tendría sentido en mi contexto. En este caso yo estaría más seguro en la toma de la decisión de grupo o no del grupo, a continuación, si me consideran todas las posibles particiones.

Hay alguna manera de cuantificar este tipo de sobreajuste? Pensé que podría estar escondido en los grados de libertad, o tal vez es un tipo de parámetro y algo como AIC o BIC puede ser útil.

2voto

Matt Puntos 918

Este procedimiento es básicamente la idea detrás de "CHi-cuadrado de Interacción automática de Detección", o "CHAID" descrito por G. V. Kass en 1980. La configuración general es muy similar a la televisión viendo la predicción ejemplo: Usted desea que mejor predicen la ocurrencia de una variable categórica por una combinación de otras variables categóricas. Puede hacer esto mediante la búsqueda de la ruptura con la máxima χ2 del valor.

Una descripción del algoritmo y las cuestiones alrededor de ajuste para la significación estadística se dan en (Kass, 1980). En ese documento a la corrección de Bonferroni se utiliza para ajustar la selección de la máxima χ2 del valor.

Algunos teoría está disponible para el caso de la reducción a un 2×2 tabla (Kass, 1975).

Hay un R paquete llamado CHAID que implementa el algoritmo y está disponible en R-Forge.

Aunque es un poco diferente a la de su pregunta, no es una situación similar a la que surge cuando dichotomizing una variable continua para predecir otra variable dicotómica. Es decir, ¿dónde hay que poner el corte de punto? Esto se discute en (Miller y Siegmund, 1980) y (Halpern, 1982), entre otros.

Sin embargo, otro ambiente donde este tipo de pregunta que surge es en el cambio de punto de estimación o de segmentación, a pesar de que ha sido demasiado tiempo desde que la miré a los documentos a remitir a los autores.

Referencias:

Halpern, J. (1982). Máximo seleccionado estadísticas de chi cuadrado para muestras pequeñas. La biometría, 1017-1023.

Kass, G. V. (1975). Pruebas de significación en la interacción automática de detección (AID). Estadística Aplicada, 178-189.

Kass, G. V. (1980). Técnica Exploratoria para la investigación de Grandes Cantidades de Datos Categóricos. Estadística Aplicada, 29(2), 119-127.

Miller, R. y Siegmund, D. (1980). Máximo Seleccionado Chi-Cuadrados. Informe Técnico De 64. Stanford, California, División de Bioestadística de la Universidad de Stanford.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X