11 votos

Técnica de reducción de datos para identificar los tipos de países

Imparto un curso de introducción a la geografía económica. Para ayudar a mis alumnos a comprender mejor los tipos de países que se encuentran en la economía mundial contemporánea y a apreciar las técnicas de reducción de datos, quiero elaborar una tarea que cree una tipología de los diferentes tipos de países (por ejemplo, productos manufacturados de alto valor añadido y larga esperanza de vida; exportadores de recursos naturales de altos ingresos y mediana esperanza de vida; siendo Alemania un elemento del primer tipo, y Yemen un ejemplo del segundo). Para ello, se utilizarían los datos públicos del PNUD (que, si no recuerdo mal, contiene datos socioeconómicos de algo menos de 200 países; lo siento, no hay datos regionales disponibles).

Antes de esta tarea habría otra en la que se les pediría (utilizando los mismos datos -en gran medida a nivel de intervalo o de proporción-) que examinaran las correlaciones entre estas mismas variables.

Mi esperanza es que, en primer lugar, desarrollen una intuición sobre los tipos de relaciones entre las distintas variables (por ejemplo, una relación positiva entre la esperanza de vida y [varios indicadores de] riqueza; una relación positiva entre la riqueza y la diversidad de las exportaciones). Luego, al utilizar la técnica de reducción de datos, los componentes o factores tendrían algún sentido intuitivo (por ejemplo, el factor/componente 1 capta la importancia de la riqueza; el factor/componente 2 capta la importancia de la educación).

Dado que se trata de estudiantes de segundo a cuarto año, a menudo con una exposición limitada al pensamiento analítico en general, ¿qué técnica de reducción de datos sugeriría como la más apropiada para la segunda tarea? Se trata de datos poblacionales, por lo que no es necesaria la estadística inferencial (valores p, etc.).

10voto

Shawn Puntos 8120

Como método exploratorio, el ACP es una buena primera opción para una tarea como ésta, en mi opinión. Además, sería bueno que estuvieran expuestos a él; parece que muchos de ellos no habrán visto antes los componentes principales.

En cuanto a los datos, también le señalaría los Indicadores del Banco Mundial, que son notablemente completos: http://data.worldbank.org/indicator .

4voto

pauly Puntos 932

Una nota rápida añadida: Cualquiera de las técnicas anteriores que utilices, querrás comprobar primero las distribuciones de tus variables, ya que muchas de ellas "requerirán" que las transformes primero utilizando un logaritmo. Hacerlo revelará algunas de las relaciones mucho mejor de lo que lo haría el uso de las variables originales.

2voto

petrichor Puntos 740

Puede utilizar la descomposición CUR como alternativa a la PCA. Para la descomposición CUR, puede consultar [1] o [2]. En la descomposición CUR, C representa las columnas seleccionadas, R representa las filas seleccionadas y U es la matriz de enlace. Permítanme parafrasear la intuición que hay detrás de la descomposición CUR tal y como se indica en [1];

Aunque la SVD truncada es ampliamente utilizada, los vectores $u_i$ y $v_i$ ellos mismos pueden carecer de significado en cuanto al campo del que se extraen los datos. Por ejemplo, el vector propio

[(1/2)age − (1/ √2)height + (1/2)income]

siendo uno de los "factores" o "rasgos" significativos no correlacionados de un conjunto de datos de rasgos de personas, no es especialmente informativo ni significativo.

Lo bueno de CUR es que las columnas base son columnas (o filas) reales y es mejor interpretarlas a diferencia de PCA (que utiliza SVD trancado).

El algoritmo dado en [1] es fácil de implementar y se puede jugar con él cambiando el umbral de error y obtener diferentes números de bases.

[1] M.W. Mahoney y P. Drineas, "CUR matrix decompositions for improved data analysis", Proceedings of the National Academy of Sciences of the United States of America, vol. 106, Jan. 2009, pp. 697-702.

[2] J. Sun, Y. Xie, H. Zhang y C. Faloutsos, "Less is more: Compact matrix decomposition for large sparse graphs", Proceedings of the Seventh SIAM International Conference on Data Mining, Citeseer, 2007, p. 366.

2voto

Ian Jacobs Puntos 101

Dependiendo de sus objetivos, la clasificación de los registros en grupos podría lograrse mejor mediante algún método de agrupación. Para un número relativamente pequeño de casos, la agrupación jerárquica suele ser la más adecuada, al menos en la fase exploratoria, mientras que para una solución más pulida se podría recurrir a algún proceso iterativo como K-means. Según el software que utilices también es posible utilizar un proceso, que está en SPSS pero no sé dónde más, llamado clustering de dos pasos, que es rápido, aunque opaco, y parece dar buenos resultados.

El análisis de conglomerados ofrece una solución de clasificación que maximiza la varianza entre grupos y minimiza la varianza dentro de dichos grupos. También es probable que los resultados sean más fáciles de interpretar.

1voto

Loren Pechtel Puntos 2212

Otra opción sería utilizar Mapas autoorganizados (SOM's). ¿Alguna idea de qué software utilizarán los estudiantes? Sé que R, por ejemplo, tiene un par de implementaciones de SOM. Sin embargo, los SOM pueden fallar su prueba de "los factores de los componentes tienen sentido intuitivo". (Tampoco es necesariamente cierto con PCA...)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X