21 jul 2019

Recomendaciones (para estudiantes) en la interpretación del modelo de regresión (aplicaciones en R)

Borrador

En la siguiente entrada se muestran algunas recomendaciones (dirigidas a estudiantes) a tomar en cuenta al momento de realizar el análisis de un modelo econométrico, las mismas no pretenden sustituir o resumir el estudio de libros de texto, solo incorporar algunas recomendaciones generales consideradas de interés. Las mismas se realizar como guía para estudiantes de la asignatura de econometría I, dados ciertos patrones identificados en sus trabajos de fin de curso.

1.       Presentar los resultados en formas de tablas de regresión

Una primera recomendación tiene que ver con la presentación de los resultados, en este sentido, es sumamente elegante presentar los modelos en forma de tablas de regresión, función que está disponible en la mayoría de los paquetes informáticos, el paquete Stargazer en R o la opción estout en Stata son ejemplos claros. En sentido general, por cuestiones de espacio y estética, siempre es recomendable presentar los resultados de los modelos en forma de tabla, donde se pueda leer fácilmente, además de comparar entre modelos, los coeficientes estimados, su nivel de significancia, así como los estadísticos de ajustes global del modelo.

A continuación, se muestra un ejemplo, de cómo utilizar la librería stargazer de R, para presentar los modelos de regresión en forma de tabla.

Código R
library(wooldridge)
modelo<-lm(price~bdrms+lotsize+colonial, data=hprice1)
modelo2<-lm(price~bdrms+lotsize, data=hprice1)

library(stargazer)
stargazer(modelo,modelo2,type="text")

=================================================================
                                 Dependent variable:            
                    ---------------------------------------------
                                        price                   
                             (1)                    (2)         
-----------------------------------------------------------------
bdrms                     57.687***              57.313***      
                           (11.498)               (10.885)      
                                                                
lotsize                    0.003***               0.003***      
                           (0.001)                (0.001)       
                                                                
colonial                    -2.203                              
                           (20.666)                             
                                                                 
Constant                    63.478                 63.262       
                           (39.904)               (39.620)      
                                                                
-----------------------------------------------------------------
Observations                  88                     88         
R2                          0.337                  0.337        
Adjusted R2                 0.313                  0.321         
Residual Std. Error    85.121 (df = 84)       84.624 (df = 85)  
F Statistic         14.226*** (df = 3; 84) 21.585*** (df = 2; 85)
=================================================================
Note:                                 *p<0.1; **p<0.05; ***p<0.01

En el ejemplo anterior se mostraron dos modelos de regresión, donde se intenta explicar el efecto condicional de distintas variables, sobre el precio de las viviendas (price: house price, $1000s). Los resultados se presentan en una tabla de regresión, de forma de facilitar la lectura y comparación entre modelos. Verifique que, pese a que ninguno de los modelos es capaz de alcanzar una explicación de las fluctuaciones del precio superior al 40%, el test F resulta globalmente significativo, por lo que, se concluye que en términos globales las variables del modelo aportan información significativa para explicar el precio. En términos individuales, las variables sobre el número de habitaciones (bdrms) y (lotsize) resultan estadísticamente significativa y con los signos esperados.

Sin embargo, una vez validado los criterios estadísticos del modelo, debe ser prioridad responder una pregunta de investigación, no pasar la sección de resultado completa alabando las propiedades estadísticas del modelo, en tal sentido se realiza la siguiente recomendación.

2.       Responder la pregunta de investigation

Como los estudiantes, por lo general, no guardan una relación entre los objetivos de su trabajo y el desarrollo de sus resultados y conclusiones, una segunda recomendación al momento de realizar el análisis, es guardar la proporcionalidad en la parte de los resultados, es decir, si bien es importante argumentar sobre la validez del modelo, sus estadísticos de ajustes y el cumplimiento de los supuestos, debe ser prioridad dar respuesta a las preguntas que dieron origen a la investigación, y hacia estos fines deben de estar orientados los resultados.

Sucede con frecuencia, que, al leer los trabajos finales de los estudiantes de econometría, se queda la sensación de estar leyendo un libro de texto, más que una investigación. Donde se traducen literalmente las interpretaciones de estadísticos como el R-cuadrado o el F, sub-utilizando los resultados obtenidos por el modelo, y mostrando una importante desconexión con la revisión de la literatura.  

Continuando con el ejemplo anterior, se puede agregar que posteriormente se elimina la variable sobre el tipo de diseño de la casa, por esta no resultar significativa, verificándose que esto permite aumentar los grados de libertad del modelo y reducir los errores estándar asociados a los coeficientes. Entonces, puntualmente, se espera que adicional una habitación a la vivienda tiene un efecto positivo sobre el precio promedio de las viviendas de 57.313$, manteniendo el tamaño del solar y el resto de variables constante. Dicho efecto, resulta estadísticamente significativo, independientemente al modelo de casa asumido.

3.       Análisis formal de las formas funcionales y análisis residual

Adicionalmente, es importante hacer notar que la omisión de una variable relevante causa sesgo en nuestras estimaciones de los parámetros, y que este sesgo dependerá de la correlación de la variable omitida con las demás variables independientes y su efecto sobre la variable dependiente (Wooldridge, 2009, p.91). Por tanto, verificar la posible significancia de otras variables incluidas en el modelo, puede resultar apropiado si evitamos reducir las probabilidades de sesgo en los coeficientes.

Verificarse además que los residuos son completamente aleatorios.

En tal sentido, dadas las ideas anteriores, se pueden mencionar tres aspectos a tomar en consideración al momento de realizar una salida del modelo de regresión:

1.       Bondad de ajuste y significancia global del modelo. Aquí los estudiantes suelen conceder una alta prioridad al valor del R2, no obstante, el estadístico F ofrece un estadístico de valoración global del modelo que puede ayudarnos a tomar una decisión más directamente, contrario al R2, ya que no existe un límite de cual valor debe asumir para descartar o no un modelo.

2.       El valor de los coeficientes. En este sentido resaltan tres aspectos:
a.       El signo del estimador. A este signo llamaremos significancia económica. Se debe verificar si el mismo está asociado alguna teoría o enunciado lógico derivado de la experiencia empírica, que aporte sentido a esta dirección de impacto.
b.       La significancia estadística del coeficiente. Responder a la pregunta de si mi estimador es estadísticamente distinto de cero, es lo mismo que preguntarnos si tiene un efecto estadísticamente significativo. Lo mismo, dado el modelo de regresión es un modelo media condicional, indica cómo va cambiando el promedio condicional de la dependiente, en la medida en que cambia la variable x en cuestión. Los estadísticos t, que resultan de dividir el valor del coeficiente entre su error estándar, testea directamente esta hipótesis. En el próximo ejemplos estos valores se colocan en rojo.

Por eso, de forma conjunta con el valor estimado de los coeficientes, debe presentarse la significancia individual de los mismos, en las tablas de regresión.

> summary(modelo)

Call:
lm(formula = price ~ bdrms + lotsize + colonial, data = hprice1)

Residuals:
     Min       1Q   Median       3Q      Max
-238.670  -52.519   -5.583   33.633  284.566

Coefficients:
              Estimate Std. Error t value   Pr(>|t|)   
(Intercept) 63.4783626 39.9035438   1.591    0.11541   
bdrms       57.6873644 11.4982616   5.017 0.00000289 ***
lotsize      0.0028554  0.0009058   3.152    0.00225 **
colonial    -2.2029854 20.6658904  -0.107    0.91536   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 85.12 on 84 degrees of freedom
Multiple R-squared:  0.3369, Adjusted R-squared:  0.3132
F-statistic: 14.23 on 3 and 84 DF,  p-value: 0.0000001404

c.       La magnitud del coeficiente. Esta condición, más que descartar o no un modelo, pretende aportar un sentido económico al análisis. Por ejemplo, podemos determinar que la elasticidad precio de un producto tiene un efecto negativo y significativo, pero verificar la magnitud completa del coeficiente aporta información para caracterizar el tipo de bien en cuestión.

3.       Análisis residual. No es casualidad que el análisis residual sea el tercer elemento en esta lista, y es que corresponde al eslabón más frecuentemente olvidado por los estudiantes, pese a que los principales textos de econometría le brindan una importancia capital a esta parte del estudio econométrico, así como al cumplimiento de sus supuestos.

Debajo se dejan diversas preguntas al ser respondidas en un modelo de regresión:

3.1. ¿Los residuos sean puramente aleatorios (Gujarati, 2009, p.468)?

En este sentido se suelen verificar distintas condiciones:

a.       ¿Existe autocorrelación en los residuos?

En este sentido se verifica la autocorrelación de los residuos y su asociación con las variables independientes con el residuo (endogeneidad). Un test de autocorrelación en el residuo es test de Durbin Watson.

> dwtest(modelo)

         Durbin-Watson test

data:  modelo
DW = 2.2766, p-value = 0.9058

b.       ¿Son las regresoras del modelo exógenas?

Una segunda pregunta sobre los residuos, que suele ser desdeñada con frecuencia, es si el modelo tiene regresoras exógenas débiles (corr(u, x) = 0).

c.       ¿Tiene el modelo la forma funcional adecuada?

La forma funcional incorrecta del modelo indica que este no representa correctamente la relación funcional entre la variable dependiente y las explicativas (Delpiano, 2008; Wooldridge, 2009, p.300; Gujarati, 2009, p.470).

-          Omisión de términos cuadráticos o interacciones.
-          Mal utilización de la transformación logarítmica.
-          Omisión de variables relevantes.
-          Errores de medición.
-          Incluir variables irrelevantes.

El test Reset permite verificar lo anterior.

resettest(modelo)

         RESET test

data:  modelo
RESET = 24.274, df1 = 2, df2 = 82, p-value = 5.246e-09

Recodificación de variables usando dplyr en R

Una base de datos suele tener diversos tipos de variables del tipo cualitativo y cuantitativo. En función del tipo de variables aplicamos di...