Hay varias cuestiones aquí.
Normalmente, queremos determinar un tamaño mínimo de muestra para conseguir un nivel mínimamente aceptable de poder estadístico . El tamaño de la muestra necesario es una función de varios factores, principalmente la magnitud del efecto que se quiere diferenciar de 0 (o cualquier nulo que se utilice, pero el 0 es el más común), y la probabilidad mínima de captar ese efecto que se quiere tener. Trabajando desde esta perspectiva, el tamaño de la muestra se determina mediante un análisis de potencia.
Otra consideración es la estabilidad de su modelo (como señala @cbeleites). Básicamente, a medida que la relación entre los parámetros estimados y el número de datos se acerque a 1, su modelo se saturará y necesariamente sea overfit (a menos que, de hecho, no haya aleatoriedad en el sistema). La regla general de la proporción de 1 a 10 proviene de esta perspectiva. Ten en cuenta que tener una potencia adecuada generalmente te cubrirá esta preocupación, pero no a la inversa.
Sin embargo, la regla de 1 a 10 proviene del mundo de la regresión lineal, y es importante reconocer que la regresión logística tiene complejidades adicionales. Una cuestión es que la regresión logística funciona mejor cuando los porcentajes de 1 y 0 son aproximadamente del 50% / 50% (como @andrea y @psj discuten en los comentarios anteriores). Otra cuestión a tener en cuenta es separación . Es decir, no quiere tener todos los 1 reunidos en un extremo de una variable independiente (o alguna combinación de ellos), y todos los 0 en el otro extremo. Aunque esto parecería una buena situación, porque facilitaría la predicción perfecta, en realidad hace que el proceso de estimación de los parámetros se dispare. (@Scortchi tiene una excelente discusión sobre cómo tratar la separación en la regresión logística aquí: ¿Cómo tratar la separación perfecta en la regresión logística? ) Con más IV, esto es más probable, incluso si las verdaderas magnitudes de los efectos se mantienen constantes, y especialmente si sus respuestas están desequilibradas. Por lo tanto, puede necesitar fácilmente más de 10 datos por IV.
Un último problema con esa regla general, es que asume que tus IV's son ortogonal . Esto es razonable para los experimentos diseñados, pero con estudios observacionales como el suyo, sus IV casi nunca serán aproximadamente ortogonales. Existen estrategias para abordar esta situación (por ejemplo, combinar o eliminar los IV, realizar primero un análisis de componentes principales, etc.), pero si no se aborda (lo que es habitual), necesitará más datos.
Una pregunta razonable es, entonces, ¿cuál debería ser su N mínimo, y/o es su tamaño de muestra suficiente? Para abordar esta cuestión, le sugiero que utilice los métodos que expone @cbeleites; basarse en la regla de 1 a 10 será insuficiente.
4 votos
Nunca he entendido bien la regla general que dice "10 casos por cada predictor" (y por desgracia no tengo acceso al libro escrito por Agresti). Lo que quiero decir es: si tengo 100 sujetos de los cuales 10 son casos (los
1
) y 90 no casos (los0
), entonces la regla dice "incluir sólo 1 predictor". Pero, ¿qué ocurre si modifico el0
en lugar del1
y luego tomo el recíproco de los cocientes de probabilidades estimados? ¿Se me permitiría incluir 9 predictores? Eso no tiene sentido para mí.0 votos
Querida Andrea, yo he dicho lo mismo que tú. De 154 encuestados hay 73 casos (los 1 y el resto 0). ¿Podrías arrojar algo de luz a mi pregunta?
4 votos
En un comentario he leído que hay que fijarse en el mínimo del número de eventos y no eventos. Así que en el ejemplo de 10/100 se acaba con un predictor independientemente de cómo se codifique.
0 votos
@psj eso suena razonable. ¿Tienes alguna referencia?
0 votos
Ya no puedo encontrar mi fuente original, pero puede encontrar un párrafo sobre este tema en "Sample Size Tables for Clinical Studies" de Machin, véase el capítulo 3.4 Practicalities.
0 votos
@psj: gracias. Si encuentras alguna otra referencia, ¿serías tan amable de añadir un comentario aquí? Esta regla general es bastante común en el mundo epidemiológico (sobre todo entre los no estadísticos) y es bueno tener a mano una buena referencia que explique que lo importante es $\min(\#\rm{cases},\#\rm{noncases})$
1 votos
Hay un debate relacionado aquí: número mínimo de observaciones para la regresión logística .
0 votos
Este artículo presenta una fórmula para determinar el tamaño adecuado de la muestra para un análisis de regresión logística basado en la información del número de covariables y la proporción de 1 y 0 en el conjunto de datos. medcalc.org/manual/logistic_regression.php
0 votos
La regla de los 10 (o 5) casos (éxitos o fracasos) proviene de la observación de lo que ocurre con la cobertura de los intervalos de confianza. Con pocas observaciones, las estimaciones de la varianza (y de los intervalos de confianza) pueden no ser muy buenas.
0 votos
Una fórmula del tamaño de la muestra basada en un análisis aproximado de la potencia es aquí