1 votos

¿Cómo analizar una muestra de cuotas si algunas combinaciones están sobremuestreadas?

Hicimos un muestreo por cuotas en función del grupo de edad, el sexo y el nivel educativo. Dado que preguntamos a desconocidos en la calle, sólo pudimos evaluar el nivel educativo después de hablar con la gente. Dada la brevedad del cuestionario, formulamos las preguntas de todos modos.

Ahora tenemos unos 500 cuestionarios rellenados, pero sólo podemos cumplir la cuota con unos 250 de ellos. Si utilizáramos a todos los participantes, los académicos estarían sobremuestreados (ciudades universitarias), mientras que los no académicos estarían submuestreados (tanto hombres como mujeres, más severamente para las mujeres). Para analizar los datos con 250 casos, tomamos a todos los de las combinaciones límite. Pero, ¿qué hacemos con las demás combinaciones que están sobremuestreadas?

  1. ¿Simplemente hacer un sorteo aleatorio en estas combinaciones sobremuestreadas (para que el número de casos coincida con la cuota de esa combinación, por ejemplo, tenemos demasiados académicos en algunos grupos de edad entre los que podemos hacer un sorteo aleatorio)?
  2. ¿Extraer repetidamente las combinaciones sobremuestreadas y promediar los resultados?
  3. Depende, dependiendo de...
  4. ¿De alguna otra manera?

No estoy seguro de cómo proceder aquí.

Editar: Se me olvidó mencionar que buscamos una muestra representativa (utilizando distribuciones de la edad, el sexo y el nivel educativo de la población para determinar las cuotas).

2voto

DJohnson Puntos 1347

Rastrillar es una técnica estadística para ajustar o equilibrar los valores observados de las características categóricas en los datos empíricos a sus valores teóricos (verdaderos) en la población, por ejemplo, aquí ... https://en.wikipedia.org/wiki/Iterative_proportional_fitting . Este artículo de la wiki nos dice que los primeros métodos se remontan a Yule a principios del siglo XX. Esencialmente, es un enfoque para reponderar los datos de la muestra para reflejar las expectativas de la población.

El raking supone que se dispone de información comparable tanto para la muestra empírica como para la población, que puede clasificarse de forma cruzada en una tabla de contingencia. El enfoque se reduce entonces a ajustar un modelo log-lineal. Sin embargo, la "tabla" es un resultado o producto de la rutina. Los datos de entrada suelen ser recuentos o porcentajes de los marginales univariantes de los factores de agrupación. Aunque las rutinas de la FPI han utilizado tradicionalmente menos de 6 u 8 factores, se han escrito macros que son prácticamente ilimitadas en cuanto al número de factores que pueden invocarse (por ejemplo, aquí http://www2.sas.com/proceedings/sugi25/25/st/25p258.pdf ).

He aquí un ejemplo sencillo (completamente fabricado) de dos entradas demográficas a un IPF: enter image description here

A partir de estos márgenes y de la parametrización del modelo, se generarían iterativamente porcentajes de predicción hasta la convergencia, basándose en un criterio que minimice el cambio respecto a la iteración anterior. Los porcentajes predichos resultantes serían los "pesos" utilizados para reequilibrar la muestra y reflejar los marginales teóricos de la población.

El rastrillaje sigue siendo muy utilizado hoy en día, por ejemplo, en las encuestas de opinión, por nombrar sólo una aplicación. Los problemas con el raking han estado muy presentes en las noticias desde las elecciones presidenciales de 2016, concretamente el fracaso de muchos encuestadores a la hora de predecir correctamente el resultado de las elecciones. Como consecuencia, y aunque los totales de votos nacionales finales se pronosticaron con precisión, los resultados en varios estados clave e indecisos no lo fueron. Uno de los problemas del enfoque utilizado por la mayoría de los encuestadores para reponderar sus muestras era que la "educación" no era un factor. Por ejemplo, aquí... https://www.nytimes.com/2017/11/06/upshot/after-a-tough-2016-many-pollsters-havent-changed-anything.html

0voto

avid Puntos 161

Es posible que haya querido muestrear a las personas de acuerdo con una cuota relacionada con la educación, pero a menos que haya detalles de muestreo que haya omitido en su descripción, eso no es lo que hizo: muestreó a las personas sin comprobar primero su educación. Ahora que tienes los datos, lo mejor que puedes hacer es analizar todos los datos que tienes.

Si le preocupa que la educación se relacione de forma importante con los resultados de su interés, ya sea directamente o en interacción con otra variable, puede seguir controlando por ella en sus análisis, ya que la ha medido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X