Bien, así que tengo un conjunto de datos de alrededor de 40 empresas durante los años fiscales 1950-2011 con cerca de 430k firme años. Si no me equivoco tienen datos de panel.
He creado un identificador único ticn
de cada empresa. Años son indicados por fyear
. Por ahora mis variables de interés son las ventas anuales sale
, anual de publicidad xad
, y anual de los gastos de I + D xrd
.
Así que mi pregunta, quiero tener una idea de los datos, dar descriptives y tal vez hacer un par de parcelas, me puede dar ideas para algunos de los análisis?
También por el tamaño de los datos no es muy fácil desplazarse a través de él para conseguir una buena sensación para él. Debido a la naturaleza de los datos (un montón de observaciones) decidí usar STATA, también porque tengo un poco de experiencia con ella (yo no tengo ninguna experiencia con R, SAS o Matlab). Si me desplazo a través de los datos que veo lagunas y desaparecid @ s así que se puede concluir que la he desequilibrado de datos de panel.
Aquí tengo algunas descriptives pero no puedo pensar más relevantes descriptives, estadísticas, gráficas, o de análisis para tener una idea de los datos.
xtsum ticn fyear xad xrd sale
Variable | Mean Std. Dev. Min Max | Observations
-----------------+--------------------------------------------+----------------
ticn overall | 16839.99 9333.823 1 32930 | N = 429426
between | 9506.36 1 32930 | n = 32929
within | 0 16839.99 16839.99 | T-bar = 13.041
| |
fyear overall | 1990.307 13.88944 1950 2011 | N = 429426
between | 11.81111 1959 2011 | n = 32929
within | 7.754303 1959.807 2020.807 | T-bar = 13.041
| |
xad overall | 35.16947 224.9083 0 9315 | N = 110114
between | 137.133 0 7171.027 | n = 14310
within | 119.1316 -3952.802 6351.562 | T-bar = 7.6949
| |
xrd overall | 47.81559 340.4286 0 12183 | N = 153958
between | 197.5934 0 8502.3 | n = 15455
within | 201.0934 -4044.806 10102.42 | T-bar = 9.9617
| |
sale overall | 1174.005 7084.566 0 470171 | N = 379747
between | 4244.681 0 172849.2 | n = 29918
within | 4546.078 -115788.6 335794.2 | T-bar = 12.6929
Lo que hice para obtener estos.
En primer lugar, se me cayó casos missing desde mi panel de variables.
drop if missing(fyear)
drop if missing(ticn)
Entonces, me informó de que, listados, etiquetas y eliminado los duplicados en el panel variables.
duplicates report ticn fyear
duplicates list ticn fyear
duplicates tag ticn fyear, gen(isdup)
drop if isdup == 1
drop isdup
Entonces, he quitado los valores negativos.
drop if xad < 0
drop if xrd < 0
drop if sale < 0
Por fin soy capaz de declarar el panel de datos y habilitar el panel de análisis de datos!
xtset ticn fyear
Gracias de antemano por sus sugerencias!