Tema+1+M%C3%A1xima+verosimilitud-2 - Universidad Pública de Navarra Máxima verosimilitud 1 El método - Studocu
Saltar al documento

Tema+1+M%C3%A1xima+verosimilitud-2

tema 1 máxima verosimilitud teoría mas ejercicios
Asignatura

Econometría II (171601)

8 Documentos
Los estudiantes compartieron 8 documentos en este curso
Año académico: 2023/2024
Subido por:

Comentarios

Inicia sesión (Iniciar sesión) o regístrate (Registrarse) para publicar comentarios.

Vista previa del texto

Universidad Pública de Navarra Máxima verosimilitud 1

El método de máxima

verosimilitud

Emilio J. Domínguez

1. Introducción

En este tema se presenta un procedimiento de estimación, máxima verosimilitud, diferente a los que se han utilizado anteriormente, mínimos cuadrados y variables instrumentales. En lugar de utilizar únicamente información sobre los momentos, como los estimadores citados, se utiliza la información sobre toda la distribución de probabilidad. Este hecho hace que suela verse como un procedimiento complejo. Aunque, en realidad, se trata de uno de los procedimientos de estimación más intuitivos.

Para entender la idea basta considerar la relación que existe entre una distribución de probabilidad de una variable aleatoria y las realizaciones que se obtienen de la misma. Cuando se generan muestras a partir de distribuciones poblacionales es fácil ver que las muestras obtenidas dependen de los valores de los parámetros que determinan la función de densidad. Así, dos variables que pertenecen a la misma familia de distribuciones de probabilidad, por ejemplo la normal, pero que se diferencian en los parámetros que la determinan, por ejemplo N(5,2) y N(3,14), darán lugar a muestras diferentes y con diferentes características. Pero cuando se quiere estimar es porque se cuenta con la muestra y se desconoce el proceso generador de los datos, es decir justo al contrario del ejercicio que se estaba planteando. Esta es precisamente la idea del estimador de máxima verosimilitud, plantear el razonamiento inverso al proceso de generación de los datos. Es decir, se puede utilizar la muestra para obtener información acerca de los valores de los parámetros que determinan la distribución de probabilidad.

Dada una muestra y una distribución de probabilidad, el método de máxima verosimilitud proporciona un estimador para los parámetros del modelo de forma que sea máxima la “probabilidad” de obtener una muestra igual a la que se está utilizando.

En temas anteriores se ha estudiado otro método de estimación, basado en la minimización de la suma residual, con el que se ha conseguido dar respuesta satisfactoria a las cuestiones que se han planteado. De esta forma, podría pensarse que no es necesario disponer de un método de estimación alternativo. Sin embargo, el método de máxima verosimilitud tiene elementos diferenciadores que lo convierten en imprescindible.

Una de las principales ventajas que se suelen destacar de este método es la flexibilidad. Esta flexibilidad se refiere por ejemplo a que, dada una muestra y un modelo de relación entre las variables, a partir de distintas distribuciones de probabilidad se obtendrán estimadores distintos. Así, se puede diseñar el estimador más adecuado para el modelo bajo un supuesto concreto en la distribución de los errores. Por ejemplo si en el modelo lineal simple

      

para una muestra concreta, se detecta que la variable dependiente tiene una distribución de probabilidad asimétrica y la variable independiente no tiene esta característica, entonces el error tiene que mantener estas asimetrías. Si se utiliza un método de estimación basado en la minimización de la suma residual no se puede captar esta especificidad de forma sencilla, en cambio, basta con utilizar una distribución de probabilidad asimétrica en la estimación por máxima verosimilitud.

2 Máxima verosimilitud Universidad Pública de Navarra

La flexibilidad del método de máxima verosimilitud permite afrontar modelos donde fallan los métodos basados en la minimización de la suma residual: modelos implícitos, modelos no lineales, etc. Aunque no debe entenderse que se afirme que la estimación máximo-verosímil sea sencilla, simplemente que es posible. Frente a la ventaja de esta flexibilidad, surge el inconveniente de que si se elige una distribución inadecuada, se obtendrán estimadores con “malas propiedades”, generalmente sesgos en muestras finitas.

Otra de las características del método de máxima verosimilitud viene dada por su comportamiento asintótico. Como se verá a continuación, bajo condiciones de regularidad, el estimador de máxima verosimilitud es consistente, asintóticamente eficiente y asintóticamente normal. Estas propiedades permiten trabajar con diferentes funciones de verosimilitud sin tener que comprobar las propiedades del estimador y realizar cualquier ejercicio de inferencia utilizando los estadísticos habituales. A veces, esta ventaja se convierte en un problema, cuando se utilizan erróneamente las propiedades asintóticas sin garantizar que se cumplan las necesarias condiciones de regularidad. En este caso, la utilización de las propiedades asintóticas necesariamente llevará a interpretaciones equivocadas. Además, como se ha dicho anteriormente el estimador es dependiente de la distribución de probabilidad que se ha impuesto. Aunque las propiedades asintóticas pueden anular esta deficiencia, su utilización en muestras finitas puede conducir nuevamente a interpretaciones equivocadas.

Finalmente, el conocimiento del método de máxima verosimilitud facilita la comprensión de las estrategias de contraste de hipótesis más extendidas, contrastes de Wald, contrastes de Multiplicadores de Lagrange y contrastes de razón de verosimilitudes, que se basan en la verosimilitud para determinar el estadístico a utilizar y su distribución bajo la hipótesis nula.

2. Primeras definiciones:

Se considera que se dispondrá de una muestra de tamaño T. Para cada variable, cada observación constituye una realización de una variable aleatoria, por lo que el vector de observaciones de cada variable será una realización de una variable aleatoria T-dimensional.

La distribución de probabilidad de la que proviene el vector de observaciones está dada por la función de densidad conjunta de las T variable aleatorias. Esta función de densidad, si existe, es una aplicación del conjunto de posibles realizaciones sobre la recta real.

2. La función de verosimilitud.

El método de máxima verosimilitud depende de la definición de la función de verosimilitud de un conjunto dado de observaciones sujeto a un determinado modelo o proceso generador de las observaciones. La función de verosimilitud (L) es una función de los parámetros del modelo ∈ Θ, sobre los datos  ∈  mediante la forma funcional que los relaciona en la distribución de probabilidad, es decir, la función de densidad.

Dado un conjunto de variables aleatorias y dada una distribución de probabilidad que representa su relación, habrá un conjunto de parámetros que determina exactamente la relación entre las variables. Estas funciones junto con el vector de parámetros forma la función de densidad conjunta.

 , , ... ,  |  En el ejercicio de estimación, no se conocen los parámetros, es más, es precisamente el elemento sobre el que se quiere tener información a través de las observaciones. Por lo tanto, se trata de reinterpretar la función de densidad condicionando sobre las realizaciones que se han obtenido para las variables. Su valor es igual a la función de densidad conjunta asociada con el modelo, caracterizada por los parámetros y evaluada en la muestra considerada y:

 |, , ... ,     , , ... , | 

4 Máxima verosimilitud Universidad Pública de Navarra

que facilita notablemente la obtención del estimador, por lo que en adelante se requerirá su cumplimiento.

Habitualmente se calcula el estimador a partir del programa de maximización. Así, se define como la solución a la condición de primer orden, gradiente igual a cero:

/ℓ+ *|, / *

 0

que verifica la condición de contorno, matriz hessiana definida negativa:

/+ *|, / */ *′

23'4'25 43657'

o bien

plim →<

=>ℓ+ *|,? - plim →<

+>ℓ ∗|,

donde ∗ es cualquier otra raíz de las condiciones de primer orden.

Que sea complicado e incluso que no exista solución a las condiciones de primer orden no significa que no se pueda obtener el estimador de máxima verosimilitud, sino que ese no es el procedimiento correcto.

Por ejemplo, cuando se quiere estimar el límite superior de una distribución uniforme del tipo A 0, B, se sabe que la función de densidad para cada variable será:

   CB

&' 0 D  D B

0 34 3) E3&7(

por lo que la función de verosimilitud para una muestra aleatoria simple de tamaño T será:

 B|  CB

&' 0 D  D B

0 34 3) E3&7(

y su logaritmo

ℓ B|  FG>)4 B &' 0 D  D B 0 34 3) E3&7(

por lo que la condición de primer orden es:

G > B

 0

que no tiene solución finita.

Sin embargo, es fácil ver que para maximizar ℓ B| se precisa que BH sea lo menor posible. Puesto que BH no puede ser menor que la mayor  observada, el estimador de máxima verosimilitud está dado por BH  max 

Aunque es necesario conocer que no es la única forma de calcular el estimador de máxima verosimilitud, lo más frecuente es utilizar las condiciones de primer y segundo orden de Euler para el programa de maximización.

2. La función de verosimilitud concentrada.

Una de las propiedades del método de máxima verosimilitud es que los estimadores no cambian frente a cambios en la parametrización del modelo. Esta propiedad se conoce como invarianza, y se puede utilizar para estimar por bloques los parámetros de un modelo.

Universidad Pública de Navarra Máxima verosimilitud 5

Así, si se pueden dividir los parámetros a estimar en dos grupos ℓ , B, , las condiciones de óptimo se pueden resolver para un grupo de ellos tomando el otro grupo como dado. El estimar del primer grupo se escribirá como una función de la muestra y del resto de parámetros BH   , . A continuación se sustituyen en el modelo y, por lo tanto, en la función de verosimilitud, los parámetros por sus estimadores, con lo que la nueva función de verosimilitud se escribe en función de un grupo de parámetros ℓKL , . A partir de esta nueva función se obtiene los estimadores M y a partir de ellos se recuperan los estimadores BH.

Este procedimiento es útil en modelos no lineales, sobre todo cuando la no linealidad afecta a un conjunto de parámetros. También se utiliza cuando algún conjunto de parámetros no están identificados y el investigador debe tomar una decisión sobre ellos. Un ejemplo de este caso es la estimación a la Johansen del modelo de corrección del error.

2. La incertidumbre y la información.

La precisión del estimador de máxima verosimilitud depende de la curvatura de la función de verosimilitud. De forma que cuanto mayor sea la curvatura más seguridad se tendrá acerca de haber encontrado el máximo. En el gráfico se presentan tres funciones con distinta curvatura, en todas se alcanza un máximo, sin embargo, en el Panel C es más complicado, que en los otros dos paneles, establecer el punto donde se obtiene. Distinguir entre los otros dos casos es menos evidente, sin embargo, en el panel A el entorno en el que seguro que se encuentra el máximo es más pequeño que en el panel B, por lo que la precisión es mayor.

A B C

Esta precisión se puede interpretar como la variación que sufre el vector gradiente (la pendiente de las curvas en los gráficos) ante pequeñas variaciones en la abscisa. Así, ante la misma variación en la abscisa, la pendiente experimenta más variación en el Panel A, que en el Panel B, y en éste el cambio es mayor que en el Panel C.

Esto mismo ocurre en la estimación mediante el procedimiento de máxima verosimilitud. La precisión del estimador dependerá de la condición de la función. Esta condición se mide a través de la varianza del gradiente y se denomina matriz de información. Para obtener la varianza del gradiente primero es necesario obtener su esperanza.

Prop 1. El gradiente evaluado en el verdadero valor de los parámetros tiene esperanza nula. Si se define el gradiente como

6 |  /ℓ

|

/ N O

su esperanza será:

PQ6 |R  S 6 | | 

<

<

2  S T/ℓ

|

/ N O U  | 

<

<

2

donde +| *, es la función de densidad de la variable  evaluada en el estimador. Si se tiene en cuenta que el gradiente es la derivada del logaritmo de esta función

Universidad Pública de Navarra Máxima verosimilitud 7

En muestras finitas, hay distintas interpretaciones de este resultado, lo que da lugar a diferentes formas de calcular la matriz de varianzas del estimador.

i) A partir de la matriz hessiana: 85E+ *,  +Z |[O\ , ii) A partir del producto externo del gradiente: 85E+ *,  + | |X[O\ ,

 donde 6 |  |1, a la matriz | se la conoce como Matriz de Contribuciones al Gradiente. puesto que cada fila contiene la información relativa a las observaciones en un instante temporal concreto.

3. Propiedades del método.

El estimador de máxima verosimilitud, bajo condiciones muy generales, presenta cuatro propiedades muy útiles, lo que justifica que sea tan frecuente su utilización en el desarrollo teórico de resultados sobre estimación e inferencia.

Propiedad 1 El estimador de máxima verosimilitud * es consistente: a)'b+ *, 

Propiedad 2 Normalidad asintótica: √>+ *de G ,

f → g 0, W   g 0, lim→< W 

Propiedad 3 Eficiencia asintótica: * es asintóticamente eficiente puesto que alcanza la cota de Cramér- Rao. Propiedad 4 Invarianza: el estimador de máxima verosimilitud de h  i  es hH  i * Hay que tener en cuenta que aunque P+ *,  , si i ∙ es una función no lineal, entonces P hH  P =i+ *,? % i =P+ *,?  i   h pero se mantiene a)'b hH  h

Todas estas propiedades o bien están definidas, o bien son útiles en contextos asintóticos, es decir, cuando el número de observaciones tiende a infinito. Aunque estas propiedades no se demuestran para aliviar la carga formal del texto, puesto que su demostración puede encontrarse en los textos de referencia incorporados en la bibliografía, se van a enunciar los resultados asintóticos en los que se sustentan. Intuitivamente, como las propiedades se refieren a límites en probabilidad y distribuciones límites, será necesaria alguna versión tanto de la Ley de los Grandes Números, como del Teorema Central del Límite. A continuación se exponen los más utilizados:

Teorema 1. Versión débil de la ley de los grandes números. i) Si k está idéntica e independientemente distribuida con PQkR  l donde l es finita, entonces a)'b km  l donde km  > ∑  k(Teorema de Khintchine) ii) Si k está independientemente distribuida con PQkR  l y 85EQkR  n con )'b→< > ∑  n 0, entonces a)'b km G l̅  0 donde l̅  > ∑ l Teorema 2. Versión fuerte de la ley de los grandes números. i) Si k está idéntica e independientemente distribuida, entonces que PQkR  l sea finita es una condición necesaria y suficiente para que km

pq rs l. ii) Si k está independientemente distribuida con PQkR  l y 85EQkR  n con )'b→< > ∑  n 0, entonces km

pq rs l̅ Al utilizar alguna de estas versiones de la ley de los grandes números se pretende encontrar una relación entre los momentos poblacionales y sus estimadores, los momentos muestrales, cuando el tamaño muestral tiende a infinito. Para ello, todas estas versiones precisan que los momentos poblacionales existan y estén bien definidos. Habitualmente las condiciones que son necesarias para que esto ocurra se denominan condiciones de regularidad. Para la demostración de las propiedades asintóticas

8 Máxima verosimilitud Universidad Pública de Navarra

de los estimadores únicamente se precisa el cumplimiento de alguna versión débil de la ley de los grandes números.

Teorema 3. Teorema central del límite de Lindeberg-Lévy. Si k está idéntica e independientemente distribuida con PQkR  l y 85EQkR  n con |l| t ∞, 0 t n t ∞ y v  √> = wmxzy ?, entonces v

f → v~g 0,1

Teorema 4. Teorema central del límite de Lyapunov. Si k está independientemente distribuida con PQkR  l y 85EQkR  n y cumple que: i) |l| t ∞ ∀ ii) 0 t n t ∞ ∀ iii)   PY|k G l||}] t ∞ iv) lim~→< ∑ €

x‚ƒ qx„…† ‡  0 para ˆ ‰ 0 Entonces:

v  Š ‹k

G l Œ  

 

√> ^k

m G l̅ Œ/√>

_

f → v~g 0,1

Teorema 5. Teorema central del límite de Lindeberg-Feller. Si k está independientemente distribuida con PQkR  l y 85EQkR  n y cumple que: i) |l| t ∞ ∀ ii) 0 t n t ∞ ∀ iii) lim~→< =∑ Q wy

x‚ƒ „ |wy|‘’qxR qx„ ?  0 para “ ‰ 0 Entonces:

v  Š ‹k

G l Œ  

 

√> ^k

m G l̅ Œ/√>

_

f → v~g 0,1

El teorema central del límite, en cualquiera de sus versiones, permite garantizar que los momentos muestrales estandarizados convergen en distribución a una normal estandarizada.

En resumen, bajo las condiciones de regularidad no demasiado exigentes, se puede demostrar que el estimador de máxima verosimilitud tiene buenas propiedades, es consistente, asintóticamente eficiente y asintóticamente normal, por lo que puede utilizarse sin dificultades en la inferencia econométrica. Además, la propiedad de invarianza permite interpretar las funciones de estimadores como estimadores de las funciones de los parámetros, lo que será útil cuando se realice inferencia y también cuando se compliquen los modelos.

4. El estimador de máxima verosimilitud en el modelo lineal

general (MLG).

A continuación, se presenta el estimador de máxima verosimilitud de los parámetros del modelo lineal general (MLG) bajo diferentes conjuntos de supuestos que, o bien se han tratado anteriormente, o bien se tratarán en temas posteriores. En primer lugar se desarrolla el caso más sencillo, donde los errores son independientes y están idénticamente distribuidos. Se utiliza este caso para explicar detalladamente todos los instrumentos necesarios en el análisis, la función de verosimilitud, los estimadores, la matriz hessiana, la matriz de información y, finalmente la matriz de varianzas. En segundo lugar, se supone que los errores siguen siendo independientes, pero no todos tienen la misma varianza. Se supone una forma

10 Máxima verosimilitud Universidad Pública de Navarra

la expresión de los estimadores que verifican estas condiciones:

M  kXkkX  nH  + G k

M,X+ G kM, >  H

X H

>

y es fácil ver que sus esperanzas son:

P+M|k,    P nH|k  > G Ÿ> n

La matriz hessiana tendrá como elementos:

/ℓ //X  G 1n k

Xk /

ℓ

//n 

1

n k

X  G k

/ℓ /n/n



>

2 n

G

1

n

 G kX  G k

teniendo en cuenta que:

PQ  G kX  G k|kR  P X |k  >n PQkX  G k|kR  P kX |k  kXP |k  0•

se obtiene la matriz de información:

W , n|, k 

1

n k

Xk 0 •

0 •X

>

2 n

¡

cuya inversa constituye la varianza del estimador

85E  

M

nH

‡  ¢

n kXk 0 •

0 •X

2 n >

£

En este caso, las expresiones que se han obtenido para el estimador de los parámetros  y para su varianza coinciden con las propuestas por el estimador de mínimos cuadrados ordinarios. Pero esto no ocurre para el estimador de n. Además, el estimador propuesto por MV es sesgado, su esperanza es menor que el parámetro, por lo que es más fácil obtener estimaciones por debajo de su verdadero valor. En cambio, cuando se expuso el estimador MCO, se obtuvo un estimador insesgado para la varianza de los errores. Si se comparan en términos de varianza, el estimador de MV de la varianza de los errores tiene menor varianza que el estimador MCO.

85E nHd¤¥   2> n



> G Ÿ ‰ 2 n



>  85E nHde

 

Aunque los dos son consistentes y asintóticamente son equivalentes, en muestras pequeñas son diferentes y, dadas las propiedades en media y varianza, los dos son preferibles aunque por distintas razones. Para establecer cuál tiene mejor comportamiento hay que comprobar el error cuadrático medio.

4. Errores heterocedásticos.

Dado el modelo   k  i(4 ~ g 0, nΣ como los errores tienen distinta varianza pero covarianzas nulas, la matriz Σ será diagonal. Se va a suponer que la varianza en cada instante, o para cada individuo, depende de una combinación lineal de variables z. Además se supone que esta combinación es conocida, tanto las variables que la forman como el vector de parámetros que la determina. De esta forma la matriz Σ se define como:

Universidad Pública de Navarra Máxima verosimilitud 11

Σ 

™X ˆ 0 ⋯ 0

0 ™X ˆ ⋯ 0

⋮ ⋮ ⋱ ⋮

0 0 ⋯ ™X ˆ

¡ ™©

X  1 ™© ⋯ ™©ª

ˆX  ˆ ˆ ⋯ ˆª

Como se trata de un vector de variables que se distribuyen como una normal T-variante, la función de densidad conjunta es igual a las utilizadas anteriormente que, particularizada para este caso:

  

1

2—/

|σΣ|/3a G 1 2

X σΣ ‡

Por lo que la función de verosimilitud, suponiendo que se conoce el vector de parámetros ˆ es:

 , n|, k, Σ 

1

2—/

σ/ |Σ|/3a TG

1

2σ

 G kXΣ  G kU

y su transformación logarítmica:

ℓ , n|, k, Σ  G > 2

)42— G >

2

)4n  ln  |Σ|‡ G

1

2n

 G kXΣ  G k

con lo que las condiciones de primer orden son:

/ℓ /

 G

1

2n

Q2kXΣ  G kR  0• /ℓ /n

 G

>

2n



1

2 n

Q  G k′Σ  G kR  0

y la expresión de los estimadores que verifica estas condiciones:

M  kXΣkkXΣ  nH  + G k

M,XΣ+ G kM, >  H

XΣ H

>

que coincide con la definición del estimador de mínimos cuadrados generalizados (MCG).

En el caso en que la matriz Σ fuera desconocida, se tiene que reformular la expresión para la varianza puesto que no está identificada la estimación de n y ˆ por separado. Así, se puede definir una nueva matriz Ω  nΣ, o bien un nuevo vector de parámetros ˆ∗  nˆ y plantear la verosimilitud:

ℓ , Ω|, k  G > 2

)42—  ln  |Ω|‡ G 1 2

 G kXΩ  G k

que se puede concentrar para resolver :

M  kXΩkkXΩ

y sustituir:

ℓ Ω|, k  G > 2 )42—  ln  |Ω|‡ G 1 2  G k kXΩkkXΩXΩ  G k kXΩkkXΩ

esta función únicamente depende de Ω, es decir, ˆ∗. Encontrar el máximo resolviendo las condiciones de optimalidad no es sencillo, sin embargo, se puede utilizar un algoritmo, del tipo Newton-Rapson o similiar, para encontrar el estimador de ˆ∗. Una vez hallado se puede sustituir Ω por su estimación en la expresión del estimador de .

Universidad Pública de Navarra Máxima verosimilitud 13

Que proporciona la estimación de n² una vez que se hayan obtenido los residuos 5 H, es decir, una vez obtenidas las estimaciones de los coeficientes del modelo. La sustitución de este estimador en vez del parámetro n² en la función de verosimilitud proporciona la función de verosimilitud concentrada:

ℓ , ̄|, k  G > 2 ln 2— G > 2 ln HXΣ H  1 2 ln 1 G ̄ G > 2  > 2 ln >

Máxima verosimilitud exacta desde las distribuciones marginales y condicionales de ³ ́ Alternativamente se puede calcular la función de densidad conjunta a partir de las distribuciones marginales y condicionales, mediante el Teorema de Bayes:

    , , ... ,     |  | ,  ...  | , , ... ,  La distribución marginal de , es sencilla de calcular dado que:

P   0, 85E  

n² 1 G ̄

   Š ̄© 5 ©

<

©

→ ~g T0,

n² 1 G ̄

U

Por lo que su función de densidad es:

  

1

√2—

¿1 G ̄

n² exp TG 1 G ̄

 

2n² U Mientras que el resto de distribuciones condicionales se obtiene a partir de los siguientes resultados: P |   ̄  85E |   85E 5  n²  |  ~g 0, n² Con lo que:

 |  

1

√2—

1

exp TG 

G ̄ 

2n²

U

Por lo tanto:

   

1

√2—

‡

 ¿1 G ̄

 n²/

exp TG 1 G ̄

   ∑   G ̄ 

2n²

U

Teniendo en cuenta que XΣ  1 G ̄   ∑   G  Se obtiene

   

1

√2—

‡

 ¿1 G ̄

 n²/

exp TG

XΣ

2n²

U

que es la misma función de densidad conjunta que se obtuvo anteriormente. Máxima verosimilitud exacta desde la distribución conjunta de À ́ Los mismos resultados se obtienen si se plantea la verosimilitud desde la distribución del error fundamental del modelo, en este caso, el ruido blanco del modelo autorregresivo de los errores.

 5   5, 5, ... , 5  

1

√2—

‡

 |85E 5|/ exp TG 1 2 +5 G P 5,

X85E 5+5 G P 5,U

 5   5, 5, ... , 5  

1

√2—

‡

 1

n²/ exp TG

1

2n² 5′5U   5

 5 ...  5

A continuación se cambia de variable para expresar la densidad del término de error del modelo. Para ello, se utiliza la transformación: Á: 5  Á . Áse obtiene a partir de las varianzas de los errores: 85E   n²Σ, se elige Á: ÁXÁ  Σ

14 Máxima verosimilitud Universidad Pública de Navarra

Á 

μ

·

Â1 G ̄ 0 0 ⋯ 0 0 0

G ̄ 1 0 ⋯ 0 0 0

0 G ̄ 1 ⋯ 0 0 0

⋮ ⋮ ⋮ ⋱ ⋮ ⋮ ⋮

0 0 0 ⋯ 1 0 0

0 0 0 ⋯ G ̄ 1 0

0 0 0 ⋯ 0 G ̄ 1 º

»

»

»

»

¼

En el cambio de variable hay que multiplicar por el determinante del jacobiano de la transformación.

En este caso el jacobiano viene dado por la matriz Á, y su determinante es ¿1 G ̄

   Â1 G ̄ 

1

√2—

‡

 1

n²/ exp TG

1

2n²

X Á′Á U

Mediante la definición de Á y organizando términos:

   

1

√2—

‡

 ¿1 G ̄

 n²/

exp TG

XΣ

2n²

U

que, no podría ser de otro modo, vuelve a ser la función de densidad conjunta que se había obtenido anteriormente.

Máxima verosimilitud condicional A diferencia de los casos anteriores, que constituían tres formas de obtener la misma función de verosimilitud, en este caso se trata de una aproximación a la función de verosimilitud, sin tener en cuenta la distribución marginal de la primera observación.

 , ... , |    |  | ,  ...  | , , ... ,  utilizando los resultados anteriores:

 , ... , |   

1

√2—

‡

 1

n² /

exp TG ∑

  G ̄ 

2n²

U

sustituyendo el modelo:

 , n², ̄|, k  

1

√2—

‡

 1

n²/

exp ÃG ∑

+ G X G ̄  G X ,

2n²

Ä

aplicando logaritmos:

ℓ , n², ̄|, k  G > 2

ln 2— G > 2

ln n² G ∑

+ G X G ̄  G X ,

2n² únicamente falta maximizar para obtener el estimador.

5. Contrastes de hipótesis clásicos.

En este apartado se analizan los principios de contraste de hipótesis que se emplean más frecuentemente: contraste de Wald, de multiplicadores de Lagrange (LM) y de razón de verosimilitudes (LR). Estos principios se enunciaron inicialmente en el contexto del estimador de máxima verosimilitud. A lo largo de la exposición se supondrá que se parte de un estimador de máxima verosimilitud del vector de parámetros.

En los contrastes de hipótesis clásicos se trata de valorar la validez de una hipótesis, que se denominará hipótesis nula, comparándola con otra hipótesis, que se denominará hipótesis alternativa. No se trata de verificar la hipótesis alternativa sino de valorar si existe evidencia suficiente para falsear la

16 Máxima verosimilitud Universidad Pública de Navarra

En el eje de ordenadas se establece la diferencia entre los valores de las funciones de verosimilitud del modelo restringido y sin restringir, que establece la holgura en el contraste de razón de verosimilitudes. En el eje de abscisas se evalúa la holgura de la restricción impuesta por la hipótesis nula, que determina el contraste de Wald. Finalmente, la diferencia entre las pendientes de la función de verosimilitud en el estimador restringido y sin restringir establece la holgura del contraste de multiplicadores de Lagrange.

5. Contraste de razón de verosimilitudes (LR)

La razón de versomilitudes se define como el cociente entre el valor de la función de verosimilitud evaluada en el estimador restringido y el valor de la función de verosimilitud evaluada en el estimador sin restringir. Esta función toma valores entre 0 y 1. La cota inferior se debe a que la función de verosimilitud siempre toma valores positivos y la cota superior a que el mayor valor posible lo establece el denominador. Si el cociente toma un valor suficientemente pequeño se cuestiona la validez de la hipótesis nula.

Por la facilidad para deducir la distribución asintótica, el estadístico de razón de verosimilitudes se define como:

É  G2 ℓÅ G ℓde Prop. 5 Bajo condiciones de regularidad, la distribución asintótica de LR es una Ê, con número de grados de libertad igual al número de restricciones impuestas. Bajo la hipótesis nula, se trata de una Ê centrada.

Sin pretender demostrar la proposición, se proporciona una intuición sobre su validez. Esta distribución se deriva a partir de la aproximación de segundo orden de Taylor de la verosimilitud en el estimador restringido alrededor del estimador sin restricciones:

ℓÅ ≅ ℓde  1 2

  • *Å G *de,XZ+ *de,+ *Å G *de,

el término de primer orden desaparece puesto que el gradiente evaluado en el estimador de máxima verosimilitud tiene que ser necesariamente nulo (condición necesaria de máximo) y los términos de orden superior son asintóticamente irrelevantes.

El resto de términos en la aproximación son ËÌ =4

ƒ „? mientras que los términos que se han escrito

son ËÌ 1. La suma de términos de distinto orden de convergencia, Ë Í  Ë ˆ  Ë max Í, ˆ, establece que asintóticamente los términos con un orden inferior son irrelevantes.

o lo que es lo mismo

G2 ℓÅ G ℓde ≅ G+ *Å G *de,XZ+ *de,+ *Å G *de,

multiplicando y dividiendo por el número de observaciones para construir momentos muestrales y calcular límites en probabilidad:

G2 ℓÅ G ℓde ≜ =√>+ *Å G *de,?

X W  =√>+ *Å G *de,?

teniendo en cuenta la normalidad asintótica del estimador de máxima verosimilitud

√>+ *de G ,

f → g 0, W 

que el estimador restringido también tendrá una distribución asintótica normal, que si la hipótesis nula es cierta ambos estimadores son consistentes, entonces su diferencia también tenderá a cero y tendrá distribución gaussiana.

Universidad Pública de Navarra Máxima verosimilitud 17

Así, puesto que el estadístico es una forma cuadrática de variables con distribución límite gaussiana y está estandarizada por la varianza límite, tiene una distribución límite Ê con tantos grados de libertad como ecuaciones existan en la restricción.

Un inconveniente del contrates de la razón de verosimilitudes es que requiere el cálculo de los estimadores restringido y sin restringir, que en algunos casos puede ser difícil de calcular. Por otro lado, las facilidades de cálculo que proporcionan los programas informáticos que realizan estimaciones facilitan extremadamente su utilización.

5. Contraste de Wald (W)

Este contraste está basado en la estimación del modelo sin restringir, utiliza la normalidad asintótica del estimador de máxima verosimilitud para evaluar la holgura de la restricción impuesta en la hipótesis nula evaluada en el estimador de máxima verosimilitud.

El estadístico de Wald se define como el vector de holgura estandarizado:

v  i+ *de,X+85EYi+ *de,],i+ *de, Prop. 6 Bajo condiciones de regularidad, la distribución asintótica de W es una Ê, con número de grados de libertad igual al número de restricciones impuestas. Bajo la hipótesis nula, se trata de una Ê centrada

La intuición de la prueba de este resultado se basa en las propiedades de invarianza y en la distribución límite. Así, aplicando la propiedad de invarianza se puede interpretar el vector de holgura como el estimador de la restricción establecida por la hipótesis nula. Como estimador de máxima verosimilitud, asintóticamente tendrá una distribución normal. Además, si la hipótesis nula es cierta, su esperanza será cero. Por lo tanto si se utiliza una estandarización cuadrática, como propone el estadístico de Wald, se estarán sumando normales estandarizadas al cuadrado, es decir, se tratará de una distribución límite Êcon tantos grados de libertad como estimadores independientes se tengan, en este caso tantos como restricciones tenga la hipótesis nula.

Hay que tener en cuenta que para calcular la varianza de una función no lineal se puede aplicar el siguiente resultado:

85EYi+ *de,]  T/i+ *de

,

/ *de

U 85E+ *de, T/i+ *de

,

/ *de

U

X

5. Contraste de multiplicadores de Lagrange (LM)

Este contraste está basado en la estimación del modelo restringido. Puesto que se trata de un programa de maximización con restricciones, se utiliza el lagrangiano para obtener la solución:

max ℓ∗ ,   ℓ ,   ÍXi  La solución al problema de maximización con restricciones está dada por las expresiones: /ℓ∗ ,  /  /ℓ ,



/  T/i



/ U

X Í  0

/ℓ∗ ,  /Í

 i   0

Del primer conjunto de ecuaciones se deriva la siguiente relación:

/ℓ+, *Å, / *Å

 G T/i+ *Å

,

/ *Å

U

X Í

Universidad Pública de Navarra Máxima verosimilitud 19

Cuando las restricciones y/o el modelo no son lineales, la diferencia en muestras finitas entre los tres estadísticos se mantiene, aunque no se puede precisar el signo de la desigualdad.

Como se ha visto anteriormente los tres estadísticos tiene la misma distribución asintótica, una Chi- cuadrado con tantos grados de libertad como restricciones haya en el hipótesis nula. Esto es así porque estos tres estadísticos son asintóticamente equivalentes. Es decir, en el límite son indistinguibles.

5. Un ejemplo sencillo.

Con objeto de ilustrar el cálculo de los estadísticos se propone un ejemplo en un caso sencillo. Para ello, se va a considerar el modelo lineal general con perturbaciones esféricas. La pregunta que se quiere hacer se refiere a la significación conjunta de un grupo de m parámetros. Sin pérdida de generalidad se puede escribir el modelo de forma vectorial separando dichos conjuntos de parámetros. La hipótesis nula se expresará como Z: ˆ  0, y se contrastará frente a la hipótesis alternativa Z: ˆ % 0, en el modelo:

  k  kˆ  ~g 0, nW

Contraste de razón de verosimilitudes: Este contraste se basa en la diferencia entre los valores de la función de verosimilitud evaluada en el estimador sin restringir (ℓde) y el estimador restringido (ℓÅ).

É  G2 ℓÅ G ℓde

ÑÒ rs ʪ El modelo sin restringir será el que considere la hipótesis alternativa, es decir se estiman todo los parámetros del modelo propuesto. Mientras que el modelo restringido se obtiene imponiendo la hipótesis nula en el modelo propuesto, es decir:

  k 

Ahora se obtiene el estimador de máxima verosimilitud para cada uno de ellos y se evalúa la función de verosimilitud. La expresión para el modelo lineal general con errores normales independientes ya se obtuvo en el apartado 4, por lo que adaptándola a la notación del modelo sin restringir:

ℓ , ˆ, n|, k, k  G > 2

)42— G >

2

)4n G

1

2n

 G k G kˆ′  G k G kˆ

por lo que las condiciones de primer orden son:

/ℓ /  G

1

2n

Q2kX  G k G kˆR  0•ª /ℓ /ˆ  G

1

2n

Q2kX  G k G kˆR  0ª /ℓ /n  G

>

2n 

1

2 n

Q  G k G kˆ′  G k G kˆR  0

Si se consolidan los dos primeros grupos de ecuaciones, las referidas a las pendientes, en una única expresión vectorial, se obtendrá la solución habitual:

‹k

X kX  = G Qk

kR Ó ˆÔ?  0•

G >n 

1

n

Q  G k G kˆ′  G k G kˆR  0

por lo que la solución será:

20 Máxima verosimilitud Universidad Pública de Navarra

‹

M

ˆM  ‹k

X kX  Qk kR‡

 ‹k

X kX    k

XkkX con k  Qk kR

nH  + G k

M G kˆM,X+ G kM G kˆM, >  H

X H

>

una vez obtenidos los estimadores, se sustituyen en la función de verosimilitud:

ℓ , ˆ, n|, k, k[€,},zL„  G > 2

)42— G >

2

)4nH G

1

2nH

+ G kM G kˆM,X+ G kM G kˆM,

Que se puede simplificar aplicando la definición del estimador de la varianza de los errores:

ℓ , ˆ, n|, k, k[€,},zL„  G > 2 )42— G > 2 )4nH G

1

2nH >nH

  G >

2 )42— G > 2 )4nH

 G >

2

Ahora se repite el proceso para el modelo restringido:

ℓ , n|, k, k  G > 2

)42— G >

2

)4n G

1

2n

 G k′  G k

las condiciones de optimalidad

/ℓ /

 G

1

2n

Q2kX  G kR  0•ª /ℓ /n

 G

>

2n



1

2 n

Q  G k′  G kR  0

los estimadores

MÅ  kX kkX  nHÅ  + G k

MÅ,

X + G kMÅ, >  H

ÅX HÅ

>

ya se puede evaluar la función de verosimilitud:

ℓ , n|, k, k[€\È,zLȄ  G > 2

)42— G >

2

)4nHÅ G

1

2nHÅ

 G kMÅ′  G kMÅ

que también se puede simplificar utilizando la definición del estimador de la varianza de los errores:

ℓ , n|, k, k[€\È,zLȄ  G > 2

)42— G >

2

)4nHÅ G

1

2nHÅ

>nHÅ  G > 2

)42— G >

2

)4nHÅ G > 2

finalmente, se escribe el estadístico:

É  G2 ℓÅ G ℓde  G2 G > 2 )42— G > 2 )4nHÅ G > 2  > 2 )42—  > 2 )4nH  > 2 ‡

cuyo cálculo se simplifica extremadamente dado que la mayor parte de los elementos en la diferencia son iguales:

É  G2 ℓÅ G ℓde  > )4nHÅ G )4nH  > ln HÅX HÅ G ln HX H

Contraste de Wald:

¿Ha sido útil este documento?

Tema+1+M%C3%A1xima+verosimilitud-2

Asignatura: Econometría II (171601)

8 Documentos
Los estudiantes compartieron 8 documentos en este curso
¿Ha sido útil este documento?
Universidad Pública de Navarra Máxima verosimilitud
1
El método de máxima
verosimilitud
Emilio J. Domínguez
1. Introducción
En este tema se presenta un procedimiento de estimación, máxima verosimilitud, diferente a los que
se han utilizado anteriormente, mínimos cuadrados y variables instrumentales. En lugar de utilizar
únicamente información sobre los momentos, como los estimadores citados, se utiliza la información
sobre toda la distribución de probabilidad. Este hecho hace que suela verse como un procedimiento
complejo. Aunque, en realidad, se trata de uno de los procedimientos de estimación más intuitivos.
Para entender la idea basta considerar la relación que existe entre una distribución de probabilidad
de una variable aleatoria y las realizaciones que se obtienen de la misma. Cuando se generan muestras a
partir de distribuciones poblacionales es fácil ver que las muestras obtenidas dependen de los valores de
los parámetros que determinan la función de densidad. Así, dos variables que pertenecen a la misma
familia de distribuciones de probabilidad, por ejemplo la normal, pero que se diferencian en los
parámetros que la determinan, por ejemplo N(5,2) y N(3,14), darán lugar a muestras diferentes y con
diferentes características. Pero cuando se quiere estimar es porque se cuenta con la muestra y se
desconoce el proceso generador de los datos, es decir justo al contrario del ejercicio que se estaba
planteando. Esta es precisamente la idea del estimador de máxima verosimilitud, plantear el
razonamiento inverso al proceso de generación de los datos. Es decir, se puede utilizar la muestra para
obtener información acerca de los valores de los parámetros que determinan la distribución de
probabilidad.
Dada una muestra y una distribución de probabilidad, el método de máxima verosimilitud
proporciona un estimador para los parámetros del modelo de forma que sea máxima la “probabilidad” de
obtener una muestra igual a la que se está utilizando.
En temas anteriores se ha estudiado otro método de estimación, basado en la minimización de la
suma residual, con el que se ha conseguido dar respuesta satisfactoria a las cuestiones que se han
planteado. De esta forma, podría pensarse que no es necesario disponer de un método de estimación
alternativo. Sin embargo, el método de máxima verosimilitud tiene elementos diferenciadores que lo
convierten en imprescindible.
Una de las principales ventajas que se suelen destacar de este método es la flexibilidad. Esta
flexibilidad se refiere por ejemplo a que, dada una muestra y un modelo de relación entre las variables, a
partir de distintas distribuciones de probabilidad se obtendrán estimadores distintos. Así, se puede
diseñar el estimador más adecuado para el modelo bajo un supuesto concreto en la distribución de los
errores. Por ejemplo si en el modelo lineal simple
para una muestra concreta, se detecta que la variable dependiente tiene una distribución de probabilidad
asimétrica y la variable independiente no tiene esta característica, entonces el error tiene que mantener
estas asimetrías. Si se utiliza un método de estimación basado en la minimización de la suma residual no
se puede captar esta especificidad de forma sencilla, en cambio, basta con utilizar una distribución de
probabilidad asimétrica en la estimación por máxima verosimilitud.