25 oct 2021

Descomposición histórica de series temporales en R

El próximo programa muestra un ejemplo de cómo descomponer la variación anual de una serie temporal en choques de plazos recientes y de mayores plazos. Concretamente, el programa muestra como descomponer las variaciones mensuales de una serie en cuatro grupos, dependiendo del mes en el que registró la variación. Concretamente se usa como ejemplo los precios mensuales promedios del petróleo publicados por el EIA, para ver qué tanto de la variación anual se debe a variaciones acontecida en los tres meses más reciente, del 4 al 6 mes, del 7-9 y del 10 al 12.

Primero cargamos la data y la convertimos en un objeto ts para poder extraer el componente temporal; calculamos las tasas de variación, anual y mensual (tc_mes, tc_ano); identificamos para cada fila el efecto de las variaciones correspondiente a los distintos meses (eft_x); luego sumamos los meses correspondientes para agregar los choques según los meses, como describimos en el grafico anterior.

library(readxl)

library(tidyverse)

library(tseries)

library(ggthemes)

library(fredr)

 

setwd("C:/Users…")

 

serie <- read_excel("dataPrecioWTI.xlsx")

serieD <- serie$p_wti

serie_ts <- ts(ipc, start = c(1986,1,1), frequency = 12)

 

datag <- serieD %>%

  data.frame() %>%

  mutate(fecha = time(serie_ts),

         tc_mes = ((./dplyr::lag(.,1))-1)*100,

         tc_ano =((./dplyr::lag(.,12))-1)*100,

         eft_1 = dplyr::lag(.,1)/dplyr::lag(.,12)*tc_mes,

         eft_2 = dplyr::lag(.,2)/dplyr::lag(.,12)*dplyr::lag(tc_mes,1),

         eft_3 = dplyr::lag(.,3)/dplyr::lag(.,12)*dplyr::lag(tc_mes,2),

         eft_4 = dplyr::lag(.,4)/dplyr::lag(.,12)*dplyr::lag(tc_mes,3),

         eft_5 = dplyr::lag(.,5)/dplyr::lag(.,12)*dplyr::lag(tc_mes,4),

         eft_6 = dplyr::lag(.,6)/dplyr::lag(.,12)*dplyr::lag(tc_mes,5),

         eft_7 = dplyr::lag(.,7)/dplyr::lag(.,12)*dplyr::lag(tc_mes,6),

         eft_8 = dplyr::lag(.,8)/dplyr::lag(.,12)*dplyr::lag(tc_mes,7),

         eft_9 = dplyr::lag(.,9)/dplyr::lag(.,12)*dplyr::lag(tc_mes,8),

         eft_10 = dplyr::lag(.,10)/dplyr::lag(.,12)*dplyr::lag(tc_mes,9),

         eft_11 = dplyr::lag(.,11)/dplyr::lag(.,12)*dplyr::lag(tc_mes,10),

         eft_12 = dplyr::lag(.,12)/dplyr::lag(.,12)*dplyr::lag(tc_mes,11),

       cho1_3 =  eft_1+eft_2+eft_3,

       cho4_6 =  eft_4+eft_5+eft_6,

       cho7_9 =  eft_7+eft_8+eft_9,

       cho10_12 =  eft_10+eft_11+eft_12) %>%

  tail(n=36) %>%

  select(fecha,tc_ano, starts_with("cho"))

Ahora procedemos a combinar una figura de barras apiladas y la serie temporal de la variación interanual de los precios del petróleo. Para esta tarea usamos el paquete ggplot2.

datag %>%

  gather(clave, value, -fecha, -tc_ano) %>%

    ggplot(aes(x=fecha, y=value, fill=clave)) +

    geom_bar(stat="identity")  +

    geom_line(data = select(datag,fecha,value=tc_ano) ,

              aes(fecha, value, fill = "Inflación"), size=1.4)+

  theme_minimal() +

  theme(legend.title = element_blank(),legend.position="bottom") +

  scale_fill_brewer(palette = "Dark2")




12 oct 2021

Causalidad y Peculiaridades de la investigación en Economía

 Imaginemos cualquier tema económico que quisiéramos estudiar, inmediatamente nos damos cuenta que sobre este influyen una importante cantidad de factores, dado que, muchos elementos se combinan para explicar la realidad, abriendo la posibilidad de explicaciones alternativas en función de la estrategia de análisis seguida. Este fenómeno, se repite con cualquier problema, resaltando que enfrentamos una realidad compleja, que intentamos simplificar a partir de modelos, una batería de supuestos y datos, buscando establecer causalidad. En términos llanos, cuando el gobierno otorga una transferencia condicionada a una familia, está convencido de que esta incidirá sobre la calidad de vida de ese hogar en una magnitud determinada (causalidad), y esta causalidad está asociada a como un fenómeno modifica la probabilidad de que un acontecimiento suceda, lo que en términos estadístico se presentan como probabilidades condicionales, siendo la comparación de grupos equivalentes y el control de factores elementos clave de su diseño.

Sin embargo, dada la complejidad de la realidad, que nos obliga a considerar la mayoría de los factores relevantes, para evitar el famoso sesgo por variable omitida que modifica inclusive la aparente relación identificada entre las variables (Terceiro, 2015), hay que tomar en cuenta que algunos de esos factores son de difícil medición (error de medida); no fueron considerados en el levantamiento de datos (sesgo por variable omitida, Yule Simpson), dado que los objetivos primarios de muchas fuentes de información no están obligados a coincidir con el objetivo de nuestra investigación; pueden presentar endogeneidad o simultaneidad, es decir, que aun contando con las variables relevantes de control, es necesario acceder a técnicas alternativas de estimación como la de variables instrumentales; o simplemente estos factores no son observables (residuo), por lo que, es imposible mantener un control explícito de estos en el proceso de investigación, y nos obliga a suponer que estos no afectan de forma sistemática sobre los resultados que estoy observando (Cesteris paribus). Este supuesto, aunque ayuda a manejar los factores que no han podido ser controlados explícitamente en el modelo, y es imprescindible para obtener causalidad, dificulta el contraste empírico de los resultados tal como se exponen, pues en la realidad el Cesteris Paribus es solo un supuesto que nos ayuda a modelar una realidad compleja, pero no la réplica.

Adicionalmente, note que hablamos del control de factores como si estuviéramos en un contexto experimental, es decir, donde cambiamos de forma intencional las variables, controlamos el resto y observamos que pasa con la variable resultado, pero no, a lo mucho somos observadores pasivos de los datos, donde: i) no tenemos garantizada una equivalencia inicial entre los grupos que comparamos; ii) estamos sometido a la regularidad de los eventos y que las condiciones se repliquen son cierta familiaridad (Lago, 2009), con el agravante de que en los fenómenos económicos interviene la conducta humana, que es altamente situacional y está lejos de ser una repetición de procesos deterministas (Robbins, 1971), más la dinámica natural de la sociedad; iii) los datos pueden presentar problemas como errores de medición, endogeneidad, autocorrelación o multicolinealidad (Gilbert, 1986); además, iv) es imposible observar contrafactuales, solo estamos estimándolos. Todas estas cuestiones han llevado inclusive a que se cuestione la capacidad de la Economía para identificar causalidad (Aznar, 2015).

Este problema del contrafactual se ha enfrentado comparando grupos homogéneos, cuya “única” diferencia es la exposición al tratamiento (control y tratamiento), es decir, que cada vez que comparamos promedios entre población, y consideramos que las diferencias observadas son el resultado exclusivo de las características de la población, un ejercicio común en los modelos de regresión, estoy asumiendo que los grupos son equivalentes (validez interna), tanto respecto aquellas cuestiones observables (control de factores) como en relación aquellos factores que no podemos observar o que se han omitido en el modelo (Cesteris Paribus), cuestiones de difícil cumplimiento en términos generales.

En econometría, se enfrentan estos problemas buscando la equivalencia a partir de incorporar variables explicativas para controlar explícitamente o balancear las características de los grupos que se comparan, además, se asume independencia del error (E[u|x]=E[u]) para establecer la condición de cesteris paribus. Sin embargo, la equivalencia entre grupo (cuando se logra) solo garantiza la validez interna, por lo que, necesitamos poder generalizar los resultados obtenidos a partir de una validez externa. En términos llanos, un plan piloto que funcione solo en el grupo donde se aplica el estudio, mantiene el reto de poder replicarse en toda la población, pues la idea debe ser poder extender las políticas. Ahora, entran en juego temas como la representatividad de la muestra o el comportamiento de la población bajo el experimento realizado (efecto reactivo).

Adicionalmente, la violación del supuesto de que los errores se comporten de manera incondicional a los valores de los factores explicativos (E[u|x]=E[u]), es decir, que los errores no se comporten de manera aleatoria, puede resultar de la endogeneidad de grupos, dado que, las decisiones humanas, al menos en promedio, pueden establecerse dentro de un marco de determinantes comunes. Es decir, es probable que los estudiantes de ingeniería compartan en promedio ciertas características que lo distingan de los estudiantes de filosofía. De esta forma, cuestiones como la decisión de participar o no en el mercado laboral, estudiar una carrera o escoger un sector de residencia, puede resaltar ciertas características particulares en la población, que no necesariamente es compartida por otro grupo fuera de esta, esto dificulta su comparabilidad, en el sentido de no garantizarse la equivalencia entre grupos.

 Frente a los cuestionamientos anteriores, donde intentamos dar respuestas causales en un contexto no experimental, los métodos cuantitativos, amparados en una caja de herramientas matemáticas, estadísticas y econometría, parecen ser la forma menos conflictiva de enfrentar estos problemas, por lo que, cerca del 95% de los artículos publicados se basan en algunos de estos métodos (Paldam, 2003). Sin embargo, las investigaciones deben estar amparadas en una fuerte armadura metodológica representada en un adecuado diseño de la investigación (-este debe reflejar las fortalezas y debilidades de una disciplina (Kane, sfd)-) y presentar los resultados asociados a las pruebas de especificación, endogeneidad, sensibilidad, significancia y quiebres estructurales, dado que la investigación no termina con la estimación de los parámetros. Este diseño debe permitir: i) maximizar la varianza de las variables de hipótesis; ii) controlas la varianza de los factores de control (aleatorización en la selección de grupos, incluir las variables en el estudio o seleccionar grupos puntuales de la población); y, iii) minimizar la varianza de los factores no observados (note que este control teórico es el mismo sugerido al estimar la eficiencia de los estimadores MCO), como requisitos mínimos al momento de presentar una investigación.  

 Referencias

      -          Aznar, A. (2015). La metodología de la ciencia económica. Universidad de Zaragoza.

-          Alonso, C. (nd). Errores de especificación. UC3M.

-          Davis, D. and Holt, C. (1993). Experimental Economics, Princeton University Press.

-          Friedman, M. (1976). Metodología de la economía positiva.

-          Gandhi, I. (sfd). Research Methods in Economics. National Open University. School of Social Sciences.

-          Gilbert, C. (1986). Professor Hendry’s Econometric Methodology. Oxcord Bulletin Of Economic and Statistics.

-          Kane, Aide (sfd). The Methodology of Economic Research.

-          Lago, I. (2009). Causalidad, estadística y mecanismos causales. Universitat Pompeu Fabra.

-          Paldam, M. (2003). Methods Used in Economic Research: An Empirical Study of Trends and Levels.

-          Popper. K. (1967). La lógica de la investigación científica.

-          Terceiro, J. (2015). Causalidad en Ciencias Sociales. Real Academia de Ciencias Morales y Políticas.

Recesión plot en R usando ggplot (recession plot in r)

En el siguiente ejemplo se simular y replica -parcialmente- un ejemplo usado por el FMI para ilustrar la importancia del uso de series de ti...