5 votos

De datos de Panel descriptives, las parcelas y el "sentir de los datos'

Bien, así que tengo un conjunto de datos de alrededor de 40 empresas durante los años fiscales 1950-2011 con cerca de 430k firme años. Si no me equivoco tienen datos de panel.

He creado un identificador único ticn de cada empresa. Años son indicados por fyear. Por ahora mis variables de interés son las ventas anuales sale, anual de publicidad xad, y anual de los gastos de I + D xrd.

Así que mi pregunta, quiero tener una idea de los datos, dar descriptives y tal vez hacer un par de parcelas, me puede dar ideas para algunos de los análisis?

También por el tamaño de los datos no es muy fácil desplazarse a través de él para conseguir una buena sensación para él. Debido a la naturaleza de los datos (un montón de observaciones) decidí usar STATA, también porque tengo un poco de experiencia con ella (yo no tengo ninguna experiencia con R, SAS o Matlab). Si me desplazo a través de los datos que veo lagunas y desaparecid @ s así que se puede concluir que la he desequilibrado de datos de panel.


Aquí tengo algunas descriptives pero no puedo pensar más relevantes descriptives, estadísticas, gráficas, o de análisis para tener una idea de los datos.

xtsum ticn fyear xad xrd sale

    Variable         |      Mean   Std. Dev.       Min        Max |    Observations
-----------------+--------------------------------------------+----------------
ticn     overall |  16839.99   9333.823          1      32930 |     N =  429426
         between |              9506.36          1      32930 |     n =   32929
         within  |                    0   16839.99   16839.99 | T-bar =  13.041
                 |                                            |
fyear    overall |  1990.307   13.88944       1950       2011 |     N =  429426
         between |             11.81111       1959       2011 |     n =   32929
         within  |             7.754303   1959.807   2020.807 | T-bar =  13.041
                 |                                            |
xad      overall |  35.16947   224.9083          0       9315 |     N =  110114
         between |              137.133          0   7171.027 |     n =   14310
         within  |             119.1316  -3952.802   6351.562 | T-bar =  7.6949
                 |                                            |
xrd      overall |  47.81559   340.4286          0      12183 |     N =  153958
         between |             197.5934          0     8502.3 |     n =   15455
         within  |             201.0934  -4044.806   10102.42 | T-bar =  9.9617
                 |                                            |
sale     overall |  1174.005   7084.566          0     470171 |     N =  379747
         between |             4244.681          0   172849.2 |     n =   29918
         within  |             4546.078  -115788.6   335794.2 | T-bar = 12.6929

Lo que hice para obtener estos.

En primer lugar, se me cayó casos missing desde mi panel de variables.

drop if missing(fyear)
drop if missing(ticn) 

Entonces, me informó de que, listados, etiquetas y eliminado los duplicados en el panel variables.

duplicates report ticn fyear
duplicates list ticn fyear
duplicates tag ticn fyear, gen(isdup) 
drop if isdup == 1
drop isdup

Entonces, he quitado los valores negativos.

drop if xad < 0
drop if xrd < 0
drop if sale < 0

Por fin soy capaz de declarar el panel de datos y habilitar el panel de análisis de datos!

xtset ticn fyear

Gracias de antemano por sus sugerencias!

1voto

StasK Puntos 19497

Hay una variedad de cosas que usted podría hacer. Intenta esto primero:

    local rnd = floor( uniform()*1000)
    line xad xrd sale fyear if mod( ticn, 1000 ) == `rnd', by( ticn )

Intente varias veces, y cuando, obviamente, usted va a obtener diferentes empresas de filtrado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X