18 votos

¿Puede el hessiano empírico de un estimador M ser indefinido?

Jeffrey Wooldridge en su Análisis econométrico de datos transversales y de panel (página 357) dice que el hessiano empírico "no está garantizado que sea definido positivo, o incluso semidefinitivo positivo, para la muestra particular con la que estamos trabajando".

Esto me parece erróneo ya que (problemas numéricos aparte) el hessiano debe ser semidefinido positivo como resultado de la definición del estimador M como el valor del parámetro que minimiza la función objetivo para la muestra dada y el hecho bien conocido de que en un mínimo (local) el hessiano es semidefinido positivo.

¿Es correcto mi argumento?

[EDIT: Esta afirmación se ha eliminado en la 2ª edición del libro. Véase el comentario].

ANTECEDENTES Supongamos que $\widehat \theta_N$ es un estimador que se obtiene minimizando $${1 \over N}\sum_{i=1}^N q(w_i,\theta),$$ donde $w_i$ denota el $i$ -en la observación.

Denotemos el hessiano de $q$ por $H$ , $$H(q,\theta)_{ij}=\frac{\partial^2 q}{\partial \theta_i \partial \theta_j}$$

La covarianza asintótica de $\widehat \theta_n$ implica $E[H(q,\theta_0)]$ donde $\theta_0$ es el verdadero valor del parámetro. Una forma de estimarlo es utilizar el Hesssiano empírico

$$\widehat H=\frac{1}{N}\sum_{i=1}^N H(w_i,\widehat \theta_n)$$

Es la definición de $\widehat H$ que está en cuestión.

1 votos

@Jyotirmoy, ¿y si el mínimo ocurre en el límite de su espacio de parámetros?

0 votos

@cardinal. Tienes razón, mi argumento no funcionará en ese caso. Pero Wooldridge está considerando el caso en el que el mínimo está en el interior. ¿No está equivocado en ese caso?

0 votos

@Jyotirmoy, ciertamente sólo puede ser semidefinido positivo. Piensa en funciones lineales o en una función cuyo conjunto de puntos mínimos forme un politopo convexo. Para un ejemplo más sencillo, considera un polinomio cualquiera $f(x)=x^{2n}$ en $x = 0$ .

20voto

jldugger Puntos 7490

Creo que tienes razón. Vamos a destilar su argumento a su esencia:

  1. $\widehat \theta_N$ minimiza la función $Q$ definido como $Q(\theta) = {1 \over N}\sum_{i=1}^N q(w_i,\theta).$

  2. Dejemos que $H$ sea el hessiano de $Q$ De ahí que $H(\theta) = \frac{\partial^2 Q}{\partial \theta_i \partial \theta_j}$ por definición y ésta a su vez, por linealidad de la diferenciación, es igual a $\frac{1}{N}\sum_{i=1}^N H(w_i, \theta_n)$ .

  3. Suponiendo que $\widehat \theta_N$ se encuentra en el interior del dominio de $Q$ entonces $H(\widehat \theta_N)$ debe ser semidefinido positivo.

Esto es simplemente una declaración sobre la función $Q$ La forma en que se define es una mera distracción, excepto en la medida en que la supuesta diferenciabilidad de segundo orden de $q$ con respecto a su segundo argumento ( $\theta$ ) asegura la diferenciabilidad de segundo orden de $Q$ .


Encontrar estimadores M puede ser complicado. Considera estos datos proporcionados por @mpiktas:

{1.168042, 0.3998378}, {1.807516, 0.5939584}, {1.384942, 3.6700205}, {1.327734, -3.3390724}, {1.602101, 4.1317608}, {1.604394, -1.9045958}, {1.124633, -3.0865249}, {1.294601, -1.8331763},{1.577610, 1.0865977}, { 1.630979, 0.7869717}

El procedimiento R para encontrar el estimador M con $q((x,y),\theta)=(y-c_1x^{c_2})^4$ produjo la solución $(c_1, c_2)$ = $(-114.91316, -32.54386)$ . El valor de la función objetivo (la media de las $q$ ) en este punto es igual a 62,3542. Aquí está un gráfico del ajuste:

Fit 1

Aquí hay un gráfico de la función objetivo (logarítmica) en una zona de este ajuste:

Objective 1

Aquí hay algo que huele mal: los parámetros del ajuste están muy alejados de los parámetros utilizados para simular los datos (cerca de $(0.3, 0.2)$ ) y no parece que estemos en un mínimo: estamos en un valle muy poco profundo que se inclina hacia valores mayores de ambos parámetros:

Objective 1, 3D view

El determinante negativo del hessiano en este punto confirma ¡que esto no es un mínimo local! Sin embargo, cuando se observan las etiquetas del eje z, se puede ver que esta función es plana con una precisión de cinco dígitos en toda la región, porque es igual a una constante 4,1329 (el logaritmo de 62,354). Esto probablemente llevó al minimizador de funciones de R (con sus tolerancias por defecto) a concluir que estaba cerca de un mínimo.

De hecho, la solución está lejos de este punto. Para estar seguro de encontrarla, empleé el costoso en términos computacionales pero muy eficaz " Eje principal " en Mathematica Utilizando una precisión de 50 dígitos (base 10) para evitar posibles problemas numéricos. Encuentra un mínimo cerca de $(c_1, c_2) = (0.02506, 7.55973)$ donde la función objetivo tiene el valor 58,292655: aproximadamente un 6% menos que el "mínimo" encontrado por R. Este mínimo se produce en una sección de aspecto extremadamente plano, pero puedo hacer que parezca (apenas) un verdadero mínimo, con contornos elípticos, exagerando el $c_2$ dirección en la trama:

Objective 2

Los contornos van desde 58,29266 en el centro hasta 58,29284 en las esquinas. Aquí está la vista 3D (de nuevo del objetivo de registro):

Objective 2, 3D view

Aquí el hessiano es positivo-definido: sus valores propios son 55062,02 y 0,430978. Así pues, este punto es un mínimo local (y probablemente un mínimo global). Aquí está el ajuste al que corresponde:

Fit 2

Creo que es mejor que el otro. Los valores de los parámetros son ciertamente más realistas y está claro que no vamos a poder hacerlo mucho mejor con esta familia de curvas.

Hay lecciones útiles que podemos extraer de este ejemplo:

  1. La optimización numérica puede ser difícil, especialmente con el ajuste no lineal y las funciones de pérdida no cuadráticas. Por ello:
  2. Compruebe los resultados de todas las maneras posibles, incluyendo:
  3. Grafique la función objetivo siempre que pueda.
  4. Cuando los resultados numéricos parecen violar los teoremas matemáticos, hay que sospechar mucho.
  5. Cuando los resultados estadísticos son sorprendentes -como los sorprendentes valores de los parámetros devueltos por el código R- hay que sospechar más.

1 votos

+1, buen análisis. Creo que por eso Wooldridge incluyó la observación. Sigo pensando que es posible pensar en algún ejemplo en el que el hessian sea indefinido. Restringiendo artificialmente el espacio de los parámetros, por ejemplo. En este ejemplo, el espacio de parámetros es el plano entero, por lo que el mínimo local dará una hessiana semi-positiva. Creo que ha llegado el momento de escribir un bonito correo electrónico a Wooldridge para conocer su opinión sobre la cuestión:)

0 votos

@mpiktas Sí, estoy seguro de que existen problemas en los que un interior global mínimo tiene un hessiano indefinido, pero donde todos los parámetros son identificables. Pero simplemente no es posible que el hessiano en un mínimo global interior suficientemente suave sea indefinido. Este tipo de cosas se ha demostrado una y otra vez, como en el caso de Milnor Topología desde un punto de vista diferenciable . Sospecho que Wooldridge puede haberse dejado engañar por "soluciones" numéricas erróneas. (Las erratas en la página citada sugieren que fue escrita apresuradamente, por cierto).

0 votos

Incluso en el límite, la arpillera será positiva? Revisaré el libro, veo que realmente me faltan amplios conocimientos en esta materia. Los teoremas clásicos son muy sencillos, por lo que supuse que no debería haber algo más muy complicado. Esa quizá sea una de las razones por las que me ha costado tanto responder a la pregunta.

7voto

Marc-Andre R. Puntos 789

La cita en su totalidad se puede encontrar aquí . La estimación $\hat{\theta}_N$ es la solución del problema de minimización ( página 344 ):

\begin{align} \min_{\theta\in \Theta}N^{-1}\sum_{i=1}^Nq(w_i,\theta) \end{align}

Si la solución $\hat{\theta}_N$ es el punto interior de $\Theta$ La función objetivo es doblemente diferenciable y el gradiente de la función objetivo es cero, entonces el hessiano de la función objetivo (que es $\hat{H}$ ) es semidefinido positivo.

Ahora bien, lo que Wooldridge está diciendo es que, para una muestra dada, el hessiano empírico no está garantizado que sea positivo definido o incluso positivo semidefinido. Esto es cierto, ya que Wooldridge no requiere que la función objetivo $N^{-1}\sum_{i=1}^Nq(w_i,\theta)$ tiene buenas propiedades, requiere que exista una solución única $\theta_0$ para

$$\min_{\theta\in\Theta}Eq(w,\theta).$$

Así pues, para una función objetivo de muestra dada $N^{-1}\sum_{i=1}^Nq(w_i,\theta)$ puede minimizarse en el punto límite de $\Theta$ en el que el hessiano de la función objetivo no tiene que ser definido positivamente.

Además, en su libro Wooldridge da ejemplos de estimaciones del hessiano que están garantizadas para ser numéricamente definidas positivas. En la práctica, la falta de definición positiva del hessiano debería indicar que la solución está en el punto límite o que el algoritmo no ha encontrado la solución. Lo que suele ser una indicación más de que el modelo ajustado puede ser inadecuado para unos datos determinados.

Este es el ejemplo numérico. Genero un problema de mínimos cuadrados no lineales:

$$y_i=c_1x_i^{c_2}+\varepsilon_i$$

Tomo $X$ distribuido uniformemente en el intervalo $[1,2]$ y $\varepsilon$ normal con media y varianza cero $\sigma^2$ . He generado una muestra de tamaño 10, en R 2.11.1 utilizando set.seed(3) . Aquí está el enlace a los valores de $x_i$ y $y_i$ .

He elegido el cuadrado de la función objetivo de mínimos cuadrados no lineales habituales:

$$q(w,\theta)=(y-c_1x_i^{c_2})^4$$

Aquí está el código en R para optimizar la función, su gradiente y la hessiana.

##First set-up the epxressions for optimising function, its gradient and hessian.
##I use symbolic derivation of R to guard against human error    
mt <- expression((y-c1*x^c2)^4)

gradmt <- c(D(mt,"c1"),D(mt,"c2"))

hessmt <- lapply(gradmt,function(l)c(D(l,"c1"),D(l,"c2")))

##Evaluate the expressions on data to get the empirical values. 
##Note there was a bug in previous version of the answer res should not be squared.
optf <- function(p) {
    res <- eval(mt,list(y=y,x=x,c1=p[1],c2=p[2]))
    mean(res)
}

gf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res <- sapply(gradmt,function(l)eval(l,evl))
    apply(res,2,mean)
}

hesf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res1 <- lapply(hessmt,function(l)sapply(l,function(ll)eval(ll,evl)))
    res <- sapply(res1,function(l)apply(l,2,mean))
    res
}

Primero prueba que el gradiente y la arpillera funcionan como se anuncia.

set.seed(3)
x <- runif(10,1,2)
y <- 0.3*x^0.2

> optf(c(0.3,0.2))
[1] 0
> gf(c(0.3,0.2))
[1] 0 0
> hesf(c(0.3,0.2))
     [,1] [,2]
[1,]    0    0
[2,]    0    0
> eigen(hesf(c(0.3,0.2)))$values
[1] 0 0

La hessiana es cero, por lo que es semidefinida positiva. Ahora para los valores de $x$ y $y$ dado en el enlace obtenemos

> df <- read.csv("badhessian.csv")
> df
          x          y
1  1.168042  0.3998378
2  1.807516  0.5939584
3  1.384942  3.6700205
4  1.327734 -3.3390724
5  1.602101  4.1317608
6  1.604394 -1.9045958
7  1.124633 -3.0865249
8  1.294601 -1.8331763
9  1.577610  1.0865977
10 1.630979  0.7869717
> x <- df$x
> y <- df$y
> opt <- optim(c(1,1),optf,gr=gf,method="BFGS")  
> opt$par
[1] -114.91316  -32.54386
> gf(opt$par)
[1] -0.0005795979 -0.0002399711
> hesf(opt$par)
              [,1]         [,2]
[1,]  0.0002514806 -0.003670634
[2,] -0.0036706345  0.050998404
> eigen(hesf(opt$par))$values
[1]  5.126253e-02 -1.264959e-05

El gradiente es cero, pero la hessiana no es positiva.

Nota: Este es mi tercer intento de dar una respuesta. Espero haber conseguido por fin dar afirmaciones matemáticas precisas, que se me escaparon en las versiones anteriores.

0 votos

@mpiktas, Esa es una notación interesante (sé que no es tuya). A $w$ en el lado izquierdo y $y$ y $x$ en el lado derecho. Supongo que $w = (x,y)$ o algo así. También, estoy asumiendo que la cuadratura debe suceder a $y - m(x,\theta)$ y no sólo a $m(x,\theta)$ . ¿No?

0 votos

@mpiktas, no estoy bastante seguro de cómo interpretar su primera frase debido a la redacción. Veo dos formas, una que yo calificaría de correcta y otra que no. Además, estrictamente hablando, no estoy de acuerdo con la segunda frase de tu primer párrafo. Como he demostrado más arriba, es posible estar en un mínimo local en el interior del espacio de parámetros sin que el hessiano sea definido positivo.

0 votos

@cardinal, sí, tienes razón. Wooldridge utiliza $w$ por razones de coherencia, $y$ y $x$ se reserva para la respuesta y los predictores en todo el libro. En este ejemplo $w=(x,y)$ .

4voto

guillermooo Puntos 2711

La arpillera es indefinida en un punto de la silla de montar. Es posible que éste sea el único punto estacionario en el interior del espacio de parámetros.

Actualización: Permítanme que me explaye. Primero, supongamos que el hessiano empírico existe en todas partes.

Si $\hat{\theta}_n$ es un mínimo local (o incluso global) de $\sum_i q(w_i, \cdot)$ y en el interior del espacio de parámetros (que se supone es un conjunto abierto) entonces necesariamente el hessiano $(1/N) \sum_i H(w_i, \hat{\theta}_n)$ es semidefinido positivo. Si no es así, entonces $\hat{\theta}_n$ no es un mínimo local. Esto se deduce de las condiciones de optimalidad de segundo orden - localmente $\sum_i q(w_i, \cdot)$ no debe disminuir en ninguna dirección lejos de $\hat{\theta}_n$ .

Una de las fuentes de confusión podría ser la definición "de trabajo" de un estimador M. Aunque en principio un estimador M debería definirse como $\arg\min_\theta \sum_i q(w_i, \theta)$ también podría definirse como una solución de la ecuación $$0 = \sum_i \dot{q}(w_i, \theta)\,,$$ donde $\dot{q}$ es el gradiente de $q(w, \theta)$ con respecto a $\theta$ . Esto se llama a veces el $\Psi$ -tipo. En este último caso, una solución de esa ecuación no tiene por qué ser un mínimo local. Puede ser un punto de silla y en este caso el hessiano sería indefinido.

En la práctica, incluso un hessiano definido positivo que es casi singular o mal condicionado sugeriría que el estimador es pobre y que hay que preocuparse más que de estimar su varianza.

0 votos

¿podría adaptar su respuesta para que coincida con la notación de la pregunta? ¿A qué se debe? $x^2-y^2$ ¿referente? ¿Dónde se inserta esto en las ecuaciones dadas en la pregunta?

1 votos

+1 Buenos puntos en la actualización, especialmente el último párrafo. Cuando se dispone del hessiano -como se supone implícitamente a lo largo de esta discusión- se utilizaría automáticamente su definición positiva como uno de los criterios para comprobar cualquier punto crítico y, por tanto, este problema simplemente no podría plantearse. Esto me lleva a creer que la cita de Wooldridge debe referirse al hessiano en un supuesto mínimo global, no en un mero punto crítico.

3voto

Mark L. Stone Puntos 2037

En este hilo se han dado muchos rodeos sobre si el hessiano tiene que ser positivo (semi)definido en un mínimo local. Así que voy a hacer una declaración clara al respecto.

Suponiendo que la función objetivo y todas las funciones de restricción son dos veces continuamente diferenciables, entonces en cualquier mínimo local, el hessiano del lagrangiano proyectado en el espacio nulo del jacobiano de las restricciones activas debe ser semidefinido positivo. Es decir, si $Z$ es una base para el espacio nulo del jacobiano de las restricciones activas, entonces $Z^T*(\text{Hessian of Lagrangian})*Z$ debe ser semidefinido positivo. Debe ser definida positiva para un mínimo local estricto.

Por lo tanto, el hessiano de la función objetivo en un problema restringido que tiene restricciones activas no necesita ser semidefinido positivo si hay restricciones activas.

Notas:

1) Las restricciones activas consisten en todas las restricciones de igualdad, más las de desigualdad que se satisfacen con la igualdad.

2) Véase la definición del lagrangiano en https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions .

3) Si todas las restricciones son lineales, entonces el hessiano del lagrangiano = hessiano de la función objetivo porque las segundas derivadas de las funciones lineales son cero. Pero todavía hay que hacer el jazz de proyección si alguna de estas restricciones está activa. Tenga en cuenta que las restricciones de límite inferior o superior son casos particulares de las restricciones de desigualdad lineal. Si las únicas restricciones que están activas son las de límite, la proyección del hessiano en el espacio nulo del jacobiano de las restricciones activas equivale a eliminar las filas y columnas del hessiano correspondientes a esas componentes en sus límites.

4) Como los multiplicadores de Lagrange de las restricciones inactivas son cero, si no hay restricciones activas, el hessiano del lagrangiano = el hessiano de la función objetivo, y la matriz de identidad es una base para el espacio nulo del jacobiano de las restricciones activas, lo que hace que la simplificación del criterio sea la conocida condición de que el hessiano de la función objetivo sea semidefinido positivo en un mínimo local (definido positivo si es un mínimo local estricto).

0voto

Las respuestas positivas anteriores son ciertas, pero dejan de lado la hipótesis crucial de la identificación - si su modelo no está identificado (o si sólo está identificado en conjunto) podría, en efecto, como Wooldridge indicó correctamente, encontrarse con un hessiano empírico no PSD. Simplemente ejecute algún modelo psicométrico / econométrico que no sea de juguete y compruébelo usted mismo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X