1 votos

¿Cómo puedo evaluar muchas variables explicativas con una muestra lo suficientemente pequeña para un análisis cualitativo en profundidad (estudio de casos)?

El problema:

Mi estudio versa sobre el impacto del factor humano en el desarrollo regional.

Mis "sujetos" son regiones de la Unión Europea. Existen 276 en total bajo la clasificación NUTS 2. La idea es utilizar una muestra de entre 16 y 20, para poder hacer también un pequeño estudio de caso sobre cada una de ellas y abordarlas también cualitativamente.

Mis variables independientes son estadísticas demográficas (por ejemplo, el porcentaje de personas con títulos universitarios, el porcentaje del PIB regional que se gasta en I+D, etc.). Tengo alrededor de 20 IVs o predictores potenciales diferentes, aunque supongo que puedo agruparlos u omitir algunos innecesarios y reducirlos a unos 8 si es necesario.

Tengo una única variable dependiente que se tomará de alguna escala ampliamente aceptada que muestre el nivel de desarrollo regional, por lo que no es necesario manipularla.

Obviamente, el objetivo es comprobar el impacto de los IVs (tanto por separado como en un modelo completo) en el VD. Una regresión parece ser el camino correcto.

Mis preguntas:

  1. ¿Es incorrecto intentar comprobar el impacto de 20 predictores en una muestra tan pequeña (16-20 regiones)?
  2. Si es así, ¿mejorarán las cosas si reduzco los predictores a 8 más o menos?
  3. ¿Cuál es la mejor manera de reducir o agrupar los predictores en unos pocos importantes? ¿Sentido común? ¿Análisis factorial? ¿Alfa de Cronbach? ¿Una regresión por pasos?
  4. Si todavía no es suficiente, ¿debería también aumentar el tamaño de la muestra a, por ejemplo, 50 o 100 regiones (de una "población" total de 276) y omitir la parte cualitativa?
  5. ¿Es una regresión la mejor opción para la prueba "principal"?
  6. ¿Alguien me ha mencionado una "red neuronal artificial"? ¿No es eso demasiado complicado para un estudio relativamente sencillo como éste?

1voto

alexs77 Puntos 36
  1. No es una estupidez mirar esos análisis. Las comparaciones ecológicas son muy importantes, pero sus implicaciones son muy limitadas. Yo interpretaría los resultados con mucha cautela, especialmente el papel de las variables de confusión no medidas.

  2. Por supuesto. Si se pueden preespecificar las comparaciones de importancia clave, esto aumenta la potencia y la credibilidad de cualquier posible conclusión.

  3. El sentido común. A leguas, más que otros enfoques. Estos últimos se refieren a la predicción, pero a usted le interesa la inferencia.

  4. La elección de incluir otras regiones debe estar determinada por las hipótesis que se intentan abordar. Depende de si está desglosando las regiones existentes a niveles granulares o incorporando otras regiones que no se han tenido en cuenta anteriormente. La ponderación también puede utilizarse para estandarizar algunas regiones con una composición demográfica adecuada, como el PIB (para la economía) o el tamaño de la población.

  5. Los modelos de regresión simple son enfoques idénticos a las pruebas t y ANOVA para los resultados continuos o la prueba de tabla de contingencia para la regresión logística. En los artículos de las revistas, siempre digo "se realizó una regresión", pero en mi tesis profundizo en el tipo de regresión, lo que se controló y cómo se codificaron las variables. Una tesis debería ser mucho más verbosa en cuanto a cómo se ajustó el modelo. Sin embargo, hay que utilizar la regresión... ¡todo es regresión!

  6. Demasiado complicado.

1voto

Sean Hanley Puntos 2428

Creo que la idea de realizar tanto análisis cuantitativos/estadísticos (modelos de regresión) como análisis cualitativos de estudios de casos es buena.

Dicho esto, no se puede ajustar un modelo con 20 predictores y 20 datos. Un modelo así estaría saturado 1 y básicamente sin valor. Una estrategia sería ajustar 20 modelos individuales de regresión simple (una variable independiente cada uno), pero esa no es una solución ideal. Las relaciones entre sus predictores independientes le llevarán por mal camino 2 . Desde el punto de vista estadístico, obtendrá un modelo mejor si utiliza más datos. Si se dispone de 276 regiones de datos, lo mejor es utilizarlos todos.

Ahora bien, está claro que no podrás hacer 276 estudios de casos en profundidad, así que ¿cómo cuadrar ese círculo? Mi consejo sería que hicieras los análisis cualitativos en una pequeña submuestra (digamos, 16-20, sólo para hacer números) de tu conjunto de datos completo. Podrían elegirse para seleccionar diferentes combinaciones de variables independientes (por ejemplo: alta en la var 1 y alta en la var 2; alta en la var 1 y baja en la var 2; baja en la var 1 y alta en la var 2; baja en la var 1 y baja en la var 2; etc.), y/o podría mirar los residuos de su modelo de regresión múltiple y examinar las regiones que parecen bien explicadas frente a las que muestran diferentes tipos de ajuste pobre (por ejemplo, un desarrollo mucho mayor / menor de lo esperado).

(Dicho lo anterior, que considero la cuestión principal / subyacente, estoy en gran medida de acuerdo con @AdamO en sus respuestas a sus preguntas específicas).

1. Ver: <a href="https://stats.stackexchange.com/q/12854/7290">Número máximo de variables independientes que pueden introducirse en una ecuación de regresión múltiple </a>,<br>    y: <a href="https://stats.stackexchange.com/q/10079/7290">Reglas generales sobre el tamaño mínimo de la muestra para la regresión múltiple </a>.<br>2. Ver: <a href="https://stats.stackexchange.com/a/78830/7290">¿Existe una diferencia entre "controlar" e "ignorar" otras variables en la regresión múltiple?</a>

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X