En
la siguiente entrada se muestran algunas recomendaciones (dirigidas a
estudiantes) a tomar en cuenta al momento de realizar el análisis de un modelo econométrico,
las mismas no pretenden sustituir o resumir el estudio de libros de texto, solo
incorporar algunas recomendaciones generales consideradas de interés. Las
mismas se realizar como guía para estudiantes de la asignatura de econometría
I, dados ciertos patrones identificados en sus trabajos de fin de curso.
1.
Presentar los resultados en formas
de tablas de regresión
Una
primera recomendación tiene que ver con la presentación de los resultados, en
este sentido, es sumamente elegante presentar los modelos en forma de tablas de
regresión, función que está disponible en la mayoría de los paquetes
informáticos, el paquete Stargazer
en R o la opción estout en Stata son ejemplos claros. En sentido general, por cuestiones de
espacio y estética, siempre es recomendable presentar los resultados de los
modelos en forma de tabla, donde se pueda leer fácilmente, además de comparar
entre modelos, los coeficientes estimados, su nivel de significancia, así como
los estadísticos de ajustes global del modelo.
A continuación,
se muestra un ejemplo, de cómo utilizar la librería stargazer de R, para
presentar los modelos de regresión en forma de tabla.
Código R
library(wooldridge)
modelo<-lm(price~bdrms+lotsize+colonial,
data=hprice1)
modelo2<-lm(price~bdrms+lotsize, data=hprice1)
library(stargazer)
stargazer(modelo,modelo2,type="text")
=================================================================
Dependent
variable:
---------------------------------------------
price
(1) (2)
-----------------------------------------------------------------
bdrms 57.687*** 57.313***
(11.498) (10.885)
lotsize 0.003*** 0.003***
(0.001) (0.001)
colonial -2.203
(20.666)
Constant 63.478 63.262
(39.904) (39.620)
-----------------------------------------------------------------
Observations 88 88
R2 0.337 0.337
Adjusted R2 0.313 0.321
Residual Std. Error
85.121 (df = 84) 84.624 (df
= 85)
F Statistic
14.226*** (df = 3; 84) 21.585*** (df = 2; 85)
=================================================================
Note: *p<0.1;
**p<0.05; ***p<0.01
En
el ejemplo anterior se mostraron dos modelos de regresión, donde se intenta
explicar el efecto condicional de distintas variables, sobre el precio de las
viviendas (price: house price, $1000s). Los resultados se presentan en una
tabla de regresión, de forma de facilitar la lectura y comparación entre
modelos. Verifique que, pese a que ninguno de los modelos es capaz de alcanzar
una explicación de las fluctuaciones del precio superior al 40%, el test F
resulta globalmente significativo, por lo que, se concluye que en términos
globales las variables del modelo aportan información significativa para
explicar el precio. En términos individuales, las variables sobre el número de
habitaciones (bdrms)
y (lotsize)
resultan estadísticamente significativa y con los signos esperados.
Sin
embargo, una vez validado los criterios estadísticos del modelo, debe ser
prioridad responder una pregunta de investigación, no pasar la sección de
resultado completa alabando las propiedades estadísticas del modelo, en tal
sentido se realiza la siguiente recomendación.
2.
Responder la pregunta de investigation
Como
los estudiantes, por lo general, no guardan una relación entre los objetivos de
su trabajo y el desarrollo de sus resultados y conclusiones, una segunda
recomendación al momento de realizar el análisis, es guardar la
proporcionalidad en la parte de los resultados, es decir, si bien es importante
argumentar sobre la validez del modelo, sus estadísticos de ajustes y el
cumplimiento de los supuestos, debe ser prioridad dar respuesta a las preguntas
que dieron origen a la investigación, y hacia estos fines deben de estar
orientados los resultados.
Sucede
con frecuencia, que, al leer los trabajos finales de los estudiantes de
econometría, se queda la sensación de estar leyendo un libro de texto, más que
una investigación. Donde se traducen literalmente las interpretaciones de estadísticos
como el R-cuadrado o el F, sub-utilizando los resultados obtenidos por el
modelo, y mostrando una importante desconexión con la revisión de la
literatura.
Continuando
con el ejemplo anterior, se puede agregar que posteriormente se elimina la
variable sobre el tipo de diseño de la casa, por esta no resultar
significativa, verificándose que esto permite aumentar los grados de libertad
del modelo y reducir los errores estándar asociados a los coeficientes.
Entonces, puntualmente, se espera que adicional una habitación a la vivienda
tiene un efecto positivo sobre el precio promedio de las viviendas de 57.313$,
manteniendo el tamaño del solar y el resto de variables constante. Dicho
efecto, resulta estadísticamente significativo, independientemente al modelo de
casa asumido.
3.
Análisis formal de las formas
funcionales y análisis residual
Adicionalmente,
es importante hacer notar que la omisión de una variable relevante causa sesgo
en nuestras estimaciones de los parámetros, y que este sesgo dependerá de la
correlación de la variable omitida con las demás variables independientes y su
efecto sobre la variable dependiente (Wooldridge, 2009, p.91). Por tanto,
verificar la posible significancia de otras variables incluidas en el modelo,
puede resultar apropiado si evitamos reducir las probabilidades de sesgo en los
coeficientes.
Verificarse
además que los residuos son completamente aleatorios.
En
tal sentido, dadas las ideas anteriores, se pueden mencionar tres aspectos a
tomar en consideración al momento de realizar una salida del modelo de
regresión:
1.
Bondad de ajuste y significancia
global del modelo.
Aquí los estudiantes suelen conceder una alta prioridad al valor del R2, no
obstante, el estadístico F ofrece un estadístico de valoración global del
modelo que puede ayudarnos a tomar una decisión más directamente, contrario al
R2, ya que no existe un límite de cual valor debe asumir para descartar o no un
modelo.
2.
El valor de los coeficientes. En este sentido resaltan tres
aspectos:
a.
El signo del
estimador. A este signo llamaremos significancia económica. Se debe
verificar si el mismo está asociado alguna teoría o enunciado lógico derivado
de la experiencia empírica, que aporte sentido a esta dirección de impacto.
b.
La significancia
estadística del coeficiente. Responder a la pregunta de si mi estimador es
estadísticamente distinto de cero, es lo mismo que preguntarnos si tiene un
efecto estadísticamente significativo. Lo mismo, dado el modelo de regresión es
un modelo media condicional, indica cómo va cambiando el promedio condicional
de la dependiente, en la medida en que cambia la variable x en cuestión. Los
estadísticos t, que resultan de dividir el valor del coeficiente entre su error
estándar, testea directamente esta hipótesis. En el próximo ejemplos estos
valores se colocan en rojo.
Por eso, de forma conjunta con el valor estimado de
los coeficientes, debe presentarse la significancia individual de los mismos,
en las tablas de regresión.
> summary(modelo)
Call:
lm(formula = price ~ bdrms + lotsize + colonial, data
= hprice1)
Residuals:
Min 1Q
Median 3Q Max
-238.670
-52.519 -5.583 33.633
284.566
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 63.4783626 39.9035438 1.591 0.11541
bdrms
57.6873644 11.4982616 5.017 0.00000289 ***
lotsize
0.0028554 0.0009058 3.152 0.00225 **
colonial
-2.2029854 20.6658904 -0.107 0.91536
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 85.12 on 84 degrees of
freedom
Multiple R-squared:
0.3369, Adjusted R-squared: 0.3132
F-statistic: 14.23 on 3 and 84 DF, p-value: 0.0000001404
c.
La magnitud del
coeficiente. Esta condición, más que descartar o no un modelo, pretende
aportar un sentido económico al análisis. Por ejemplo, podemos determinar que
la elasticidad precio de un producto tiene un efecto negativo y significativo,
pero verificar la magnitud completa del coeficiente aporta información para
caracterizar el tipo de bien en cuestión.
3.
Análisis
residual. No es casualidad que el análisis residual sea el
tercer elemento en esta lista, y es que corresponde al eslabón más
frecuentemente olvidado por los estudiantes, pese a que los principales textos
de econometría le brindan una importancia capital a esta parte del estudio
econométrico, así como al cumplimiento de sus supuestos.
Debajo se dejan diversas preguntas al ser respondidas
en un modelo de regresión:
3.1.
¿Los residuos
sean puramente aleatorios (Gujarati, 2009, p.468)?
En este sentido se suelen verificar distintas
condiciones:
a.
¿Existe autocorrelación en los residuos?
En este sentido se verifica la autocorrelación de los
residuos y su asociación con las variables independientes con el residuo (endogeneidad).
Un test de autocorrelación en el residuo es test de Durbin Watson.
>
dwtest(modelo)
Durbin-Watson test
data: modelo
DW = 2.2766,
p-value = 0.9058
b.
¿Son las regresoras del modelo exógenas?
Una segunda pregunta sobre los residuos, que suele ser
desdeñada con frecuencia, es si el modelo tiene regresoras exógenas débiles
(corr(u, x) = 0).
c.
¿Tiene el modelo la forma funcional adecuada?
La forma funcional incorrecta del modelo indica que
este no representa correctamente la relación funcional entre la variable dependiente
y las explicativas (Delpiano, 2008; Wooldridge, 2009, p.300; Gujarati, 2009,
p.470).
-
Omisión de términos cuadráticos o interacciones.
-
Mal utilización de la transformación logarítmica.
-
Omisión de variables relevantes.
-
Errores de medición.
-
Incluir variables irrelevantes.
El test Reset permite verificar lo anterior.
resettest(modelo)
RESET test
data: modelo
RESET = 24.274,
df1 = 2, df2 = 82, p-value = 5.246e-09