37 votos

¿Tamaño de la muestra para la regresión logística?

Quiero hacer un modelo logístico a partir de los datos de mi encuesta. Se trata de una pequeña encuesta en cuatro colonias residenciales en la que sólo se entrevistó a 154 personas. Mi variable dependiente es "transición satisfactoria al trabajo". Encontré que, de los 154 encuestados, 73 dijeron que habían hecho una transición satisfactoria al trabajo, mientras que el resto no. Por tanto, la variable dependiente es de naturaleza binaria y decidí utilizar la regresión logística. Tengo siete variables independientes (tres continuas y cuatro nominales). Una directriz sugiere que debe haber 10 casos para cada variable predictiva/independiente (Agresti, 2007). Basándome en esta directriz, creo que es correcto realizar la regresión logística.

¿Estoy en lo cierto? Si no es así, por favor, indíqueme cómo decidir el número de variables independientes.

4 votos

Nunca he entendido bien la regla general que dice "10 casos por cada predictor" (y por desgracia no tengo acceso al libro escrito por Agresti). Lo que quiero decir es: si tengo 100 sujetos de los cuales 10 son casos (los 1 ) y 90 no casos (los 0 ), entonces la regla dice "incluir sólo 1 predictor". Pero, ¿qué ocurre si modifico el 0 en lugar del 1 y luego tomo el recíproco de los cocientes de probabilidades estimados? ¿Se me permitiría incluir 9 predictores? Eso no tiene sentido para mí.

0 votos

Querida Andrea, yo he dicho lo mismo que tú. De 154 encuestados hay 73 casos (los 1 y el resto 0). ¿Podrías arrojar algo de luz a mi pregunta?

4 votos

En un comentario he leído que hay que fijarse en el mínimo del número de eventos y no eventos. Así que en el ejemplo de 10/100 se acaba con un predictor independientemente de cómo se codifique.

37voto

Sean Hanley Puntos 2428

Hay varias cuestiones aquí.

Normalmente, queremos determinar un tamaño mínimo de muestra para conseguir un nivel mínimamente aceptable de poder estadístico . El tamaño de la muestra necesario es una función de varios factores, principalmente la magnitud del efecto que se quiere diferenciar de 0 (o cualquier nulo que se utilice, pero el 0 es el más común), y la probabilidad mínima de captar ese efecto que se quiere tener. Trabajando desde esta perspectiva, el tamaño de la muestra se determina mediante un análisis de potencia.

Otra consideración es la estabilidad de su modelo (como señala @cbeleites). Básicamente, a medida que la relación entre los parámetros estimados y el número de datos se acerque a 1, su modelo se saturará y necesariamente sea overfit (a menos que, de hecho, no haya aleatoriedad en el sistema). La regla general de la proporción de 1 a 10 proviene de esta perspectiva. Ten en cuenta que tener una potencia adecuada generalmente te cubrirá esta preocupación, pero no a la inversa.

Sin embargo, la regla de 1 a 10 proviene del mundo de la regresión lineal, y es importante reconocer que la regresión logística tiene complejidades adicionales. Una cuestión es que la regresión logística funciona mejor cuando los porcentajes de 1 y 0 son aproximadamente del 50% / 50% (como @andrea y @psj discuten en los comentarios anteriores). Otra cuestión a tener en cuenta es separación . Es decir, no quiere tener todos los 1 reunidos en un extremo de una variable independiente (o alguna combinación de ellos), y todos los 0 en el otro extremo. Aunque esto parecería una buena situación, porque facilitaría la predicción perfecta, en realidad hace que el proceso de estimación de los parámetros se dispare. (@Scortchi tiene una excelente discusión sobre cómo tratar la separación en la regresión logística aquí: ¿Cómo tratar la separación perfecta en la regresión logística? ) Con más IV, esto es más probable, incluso si las verdaderas magnitudes de los efectos se mantienen constantes, y especialmente si sus respuestas están desequilibradas. Por lo tanto, puede necesitar fácilmente más de 10 datos por IV.

Un último problema con esa regla general, es que asume que tus IV's son ortogonal . Esto es razonable para los experimentos diseñados, pero con estudios observacionales como el suyo, sus IV casi nunca serán aproximadamente ortogonales. Existen estrategias para abordar esta situación (por ejemplo, combinar o eliminar los IV, realizar primero un análisis de componentes principales, etc.), pero si no se aborda (lo que es habitual), necesitará más datos.

Una pregunta razonable es, entonces, ¿cuál debería ser su N mínimo, y/o es su tamaño de muestra suficiente? Para abordar esta cuestión, le sugiero que utilice los métodos que expone @cbeleites; basarse en la regla de 1 a 10 será insuficiente.

9 votos

¿Puede proporcionar una referencia para la afirmación "Una cuestión es que la regresión logística funciona mejor cuando los porcentajes de 1 y 0 son aproximadamente del 50% / 50%"? Yo mismo me he preguntado esto, ya que tengo un conjunto de datos que está muy lejos del 50/50 y me pregunto las implicaciones. (perdón por resucitar el hilo)

4 votos

No veo ningún problema en resucitar un hilo antiguo cuando es apropiado, @Trevor. Creo que lo que estás buscando es algo en la línea de esta buena respuesta por parte del prior conjugado: ¿importa una muestra no equilibrada cuando se hace una regresión logística? .

2 votos

+1 a la pregunta de Trevor. Creo que la regresión logística seguirá beneficiándose de nuevos datos, incluso si esos datos son del mismo caso (a pesar de los rendimientos decrecientes). De hecho, eso es algo que me ha molestado sobre las técnicas de aprendizaje automático como los bosques aleatorios: que pueden empeorar al añadir más datos de entrenamiento relevantes. Tal vez haya un punto en el que la regresión logística se rompa debido a consideraciones numéricas si el desequilibrio se vuelve demasiado grave. Me interesaría saber más sobre esto.

28voto

dan90266 Puntos 609

Suelo utilizar una regla de 15:1 (relación entre el mínimo (eventos, no eventos) y el número de candidato parámetros en el modelo). Trabajos más recientes ha descubierto que para una validación más rigurosa se necesita 20:1. Se puede encontrar más información en los folletos de mi curso enlazados con http://hbiostat.org/rms En particular, un argumento para un tamaño de muestra mínimo de 96 sólo para estimar el intercepto. Pero el requisito del tamaño de la muestra es más matizado, y un un documento aún más reciente aborda esta cuestión de forma más exhaustiva.

2 votos

Harrel: ¿Se incluye el intercepto en los recuentos de los predictores?

3 votos

No, pero el documento más reciente enlazado anteriormente discute cuántas observaciones se necesitan para estimar el intercepto (es un mínimo de 96) y factores que en una fórmula de tamaño de la muestra.

17voto

cbeleites Puntos 12461

Por lo general, un número insuficiente de casos en relación con la complejidad del modelo (número de parámetros) significa que los modelos son inestable . Por lo tanto, si quiere saber si el tamaño de la muestra/la complejidad del modelo está bien, compruebe si obtiene un modelo razonablemente estable.

Hay (al menos) dos tipos diferentes de inestabilidad:

  1. El parámetros del modelo varían mucho con sólo ligeros cambios en los datos de entrenamiento.

  2. El predicciones (para el mismo caso) de los modelos entrenados con ligeros cambios en los datos de entrenamiento varían mucho.

Se puede medir 1. observando cuánto varían los coeficientes de su modelo si se perturban ligeramente los datos de entrenamiento. Se puede calcular un grupo adecuado de modelos, por ejemplo, durante los procedimientos de validación cruzada (iterada) o bootstrap.

Para algunos tipos de modelos o problemas, la variación de los parámetros no implica la variación de las predicciones. Se puede comprobar directamente la inestabilidad 2. observando la variación de las predicciones para el mismo caso (independientemente de si son correctas o no) calculadas durante la validación cruzada fuera de la rutina o iterada.

6voto

patfla Puntos 1

No hay reglas estrictas, pero puede incluir todas las variables independientes siempre que las variables nominales no tengan demasiadas categorías. Necesita una "beta" para todas las clases excepto una para cada variable nominal. Así, si una variable nominal es, por ejemplo, "área de trabajo" y tiene 30 áreas, necesitará 29 betas.

Una forma de superar este problema es regularizar las betas, o penalizar los coeficientes grandes. Esto ayuda a garantizar que el modelo no se ajuste en exceso a los datos. La regularización L2 y L1 son opciones populares.

Otra cuestión a tener en cuenta es la representatividad de la muestra. ¿Qué población quiere inferir? ¿Tiene todos los tipos de personas en la muestra que hay en la población? Será difícil hacer una inferencia precisa si su muestra tiene "agujeros" (por ejemplo, no hay mujeres de 35 a 50 años en la muestra o no hay trabajadores con ingresos altos, etc.)

4voto

rvs Puntos 248

Este artículo presenta una fórmula para determinar el tamaño adecuado de la muestra para un análisis de regresión logística basado en la información del número de covariables y la proporción de 1 y 0 en el conjunto de datos.

http://www.medcalc.org/manual/logistic_regression.php

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X