Tengo los datos de operación éxito de muchos médicos. Yo estima una regresión utilizando el programa Stata con la revisión de los efectos en el individuo médicos. Primero me corrió la regresión robustos mediante el uso de la opción. El resultado de t el valor de las estimaciones individuales de los médicos rangos de 2.17 a 6.14. Luego he reiniciado mediante el vce(clúster médico) opción. Yo esperaba que el estándar de los errores se convierten en grandes. Sin embargo, yo, de hecho, tiene menor sexual. errores, es mucho menor que, por ejemplo, 1.04 e-14. Es demasiado bueno para ser verdad. ¿Por qué es eso? Cualquier posible razón?
Respuestas
¿Demasiados anuncios?Tiene forma overcorrected el individuo médico los efectos de dos veces utilizando métodos que simplemente no trabajan juntos.
Si su modelo es regress outcome i.doctor, vce(cluster doctor)
, luego de Stata debe se han quejado de que usted ha agotado sus grados de libertad. xtreg
puede no ser tan inteligente, y puede que se pierda una perfecta determinación de los efectos fijos. Estos 1e-14
errores estándar debería haber sido idéntica a cero, y que no son cero en la práctica debido al redondeo en algún lugar de las entrañas de efecto fijo de la estimación. Lo que sucede aquí es este:
cluster
de la varianza de estimación obras sumando el clúster de contribuciones, sobre clusters. Sin embargo,- mediante la especificación de los médicos como de los efectos fijos, se fuerza a que los residuos de un determinado médico a la suma de hasta 0.
regress
sabe cómo determinar en el nivel de álgebra.xtreg
puede no saber lo suficiente del cálculo álgebra lineal para hacer esto, sin embargo, y simplemente la suma de hasta la (numérica) cero contribuciones para producir la inverosímil pequeños errores estándar que se puede ver aquí.
Si entiendo tu problema, esto puede suceder cuando la intra-clúster correlaciones son negativas. Ver Stata preguntas frecuentes para el terapeuta versión con algo de intuición.
Editar:
Creo que Sta es correcto sobre el tema más profundo. Yo estaba demasiado apresurada. Aquí está mi intento de replicar este con un conjunto de datos de visitas de la farmacia por 27,766 Vietnamita aldeanos que están anidados en 5,740 hogares en 194 pueblos (los datos son de Cameron y Trivedi). No pude encontrar un conjunto de datos público donde la agrupado los errores eran más pequeños, pero creo que esto ilustra el punto principal. Voy a tratar de visitas de la farmacia como continua, a pesar de que claramente no lo son.
En primer lugar, hemos de conjunto de datos:
. use "http://cameron.econ.ucdavis.edu/mmabook/vietnam_ex2.dta", clear
. egen hh=group(lnhhinc)
(1 missing value generated)
. bys hh: gen person = _n
. xtset hh person
panel variable: hh (unbalanced)
time variable: person, 1 to 19
delta: 1 unit
. xtdes
hh: 1, 2, ..., 5740 n = 5740
person: 1, 2, ..., 19 T = 19
Delta(person) = 1 unit
Span(person) = 19 periods
(hh*person uniquely identifies each observation)
Distribution of T_i: min 5% 25% 50% 75% 95% max
1 2 4 5 6 8 19
(snip)
Ahora, por la FE de regresión de visitas en los días enfermo:
. xtreg PHARVIS ILLDAYS, fe
Fixed-effects (within) regression Number of obs = 27765
Group variable: hh Number of groups = 5740
R-sq: within = 0.1145 Obs per group: min = 1
between = 0.1390 avg = 4.8
overall = 0.1257 max = 19
F(1,22024) = 2848.23
corr(u_i, Xb) = 0.0465 Prob > F = 0.0000
------------------------------------------------------------------------------
PHARVIS | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ILLDAYS | .0788618 .0014777 53.37 0.000 .0759654 .0817581
_cons | .2906284 .0077221 37.64 0.000 .2754925 .3057643
-------------+----------------------------------------------------------------
sigma_u | .85814688
sigma_e | 1.085808
rho | .38447214 (fraction of variance due to u_i)
------------------------------------------------------------------------------
F test that all u_i=0: F(5739, 22024) = 2.35 Prob > F = 0.0000
La agrupación en el panel variable infla los errores:
. xtreg PHARVIS ILLDAYS, fe vce(cluster hh)
Fixed-effects (within) regression Number of obs = 27765
Group variable: hh Number of groups = 5740
R-sq: within = 0.1145 Obs per group: min = 1
between = 0.1390 avg = 4.8
overall = 0.1257 max = 19
F(1,5739) = 464.54
corr(u_i, Xb) = 0.0465 Prob > F = 0.0000
(Std. Err. adjusted for 5740 clusters in hh)
------------------------------------------------------------------------------
| Robust
PHARVIS | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ILLDAYS | .0788618 .0036589 21.55 0.000 .0716889 .0860346
_cons | .2906284 .0102597 28.33 0.000 .2705154 .3107413
-------------+----------------------------------------------------------------
sigma_u | .85814688
sigma_e | 1.085808
rho | .38447214 (fraction of variance due to u_i)
------------------------------------------------------------------------------
Ahora trato de que esto no es un panel de enfoque. Estoy usando areg
desde Stata no me deja poner en ~6K dummies.
. areg PHARVIS ILLDAYS, absorb(hh) vce(cluster hh)
Linear regression, absorbing indicators Number of obs = 27765
F( 1, 5739) = 368.52
Prob > F = 0.0000
R-squared = 0.4579
Adj R-squared = 0.3166
Root MSE = 1.0858
(Std. Err. adjusted for 5740 clusters in hh)
------------------------------------------------------------------------------
| Robust
PHARVIS | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ILLDAYS | .0788618 .0041081 19.20 0.000 .0708084 .0869151
_cons | .2906284 .0115192 25.23 0.000 .2680464 .3132103
-------------+----------------------------------------------------------------
hh | absorbed (5740 categories)
Por desgracia, areg
oscurece la cosa que usted está interesado en. Si utilizas regress
y el límite de la muestra de modo que el número de HHs es razonable, usted conseguirá el pequeño de los errores estándar para los grupos con sólo 1 aldeano. Esto tiene sentido, dado que los residuos de dichas observaciones serán exactamente cero. He aquí un ejemplo:
. reg PHARVIS ILLDAYS i.hh if inrange(hh,1,100), cluster(hh)
Linear regression Number of obs = 219
F( 0, 99) = .
Prob > F = .
R-squared = 0.6473
Root MSE = .88177
(Std. Err. adjusted for 100 clusters in hh)
------------------------------------------------------------------------------
| Robust
PHARVIS | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ILLDAYS | .0518095 .0314707 1.65 0.103 -.0106352 .1142542
|
hh |
2 | -1 1.84e-14 -5.4e+13 0.000 -1 -1
3 | .2590475 .1573536 1.65 0.103 -.0531762 .5712712
4 | .4662855 .2832365 1.65 0.103 -.0957171 1.028288
5 | 2.129524 .0786768 27.07 0.000 1.973412 2.285636
6 | 1 1.84e-14 5.4e+13 0.000 1 1
7 | -.585524 .2517657 -2.33 0.022 -1.085082 -.0859662
(snip)....
100 | -.8359366 .0996573 -8.39 0.000 -1.033678 -.6381949
|
_cons | .481905 .3147072 1.53 0.129 -.1425423 1.106352
------------------------------------------------------------------------------
Ahora voy clúster en el pueblo, el cual se infla algunos de ellos, como es el esperado, pero aún OK:
. reg PHARVIS ILLDAYS i.commune, cluster(commune)
Linear regression Number of obs = 27765
F( 0, 193) = .
Prob > F = .
R-squared = 0.1814
Root MSE = 1.1925
(Std. Err. adjusted for 194 clusters in commune)
------------------------------------------------------------------------------
| Robust
PHARVIS | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ILLDAYS | .0840634 .0056375 14.91 0.000 .0729444 .0951823
|
commune |
2 | -.1885549 .012027 -15.68 0.000 -.2122761 -.1648337
(snip) ....
191 | .4646775 .0014571 318.91 0.000 .4618037 .4675514
192 | -.0020317 .0065782 -0.31 0.758 -.0150061 .0109427
193 | -.2444578 .0115522 -21.16 0.000 -.2672426 -.2216731
194 | .1917803 .0002288 838.33 0.000 .1913291 .1922315
|
_cons | .4371527 .0200739 21.78 0.000 .3975602 .4767452
------------------------------------------------------------------------------
Si se me caiga el resto de los regresores, y la estimación de algo como Stas sugiere, me sale el cero errores estándar en la comuna dummies:
. reg PHARVIS i.commune, cluster(commune)
Linear regression Number of obs = 27765
F( 0, 193) = .
Prob > F = .
R-squared = 0.0656
Root MSE = 1.274
(Std. Err. adjusted for 194 clusters in commune)
------------------------------------------------------------------------------
| Robust
PHARVIS | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
commune |
2 | -.0092138 1.72e-14 -5.4e+11 0.000 -.0092138 -.0092138
3 | -.2910319 1.72e-14 -1.7e+13 0.000 -.2910319 -.2910319
4 | -.3957457 1.72e-14 -2.3e+13 0.000 -.3957457 -.3957457
5 | -.4244865 1.72e-14 -2.5e+13 0.000 -.4244865 -.4244865
(snip) ....
191 | .4864051 1.72e-14 2.8e+13 0.000 .4864051 .4864051
192 | -.1001229 1.72e-14 -5.8e+12 0.000 -.1001229 -.1001229
193 | -.416719 1.72e-14 -2.4e+13 0.000 -.416719 -.416719
194 | .188369 1.72e-14 1.1e+13 0.000 .188369 .188369
|
_cons | .7364865 1.72e-14 4.3e+13 0.000 .7364865 .7364865
------------------------------------------------------------------------------